iv jornada técnica de electrotecnia sistemas tolerantes a ... · iv jornada técnica de...

32
Instituto Superior de Engenharia da Universidade do Algarve ISE Instituto Superior de Engenharia 09-06-2012 Tolerância a Falhas em Circuitos Integrados Nanométricos Jorge Semião INSTITUTO SUPERIOR DE ENGENHARIA Universidade do Algarve Faro, 23 de Maio de 2012 IV Jornada Técnica de Electrotecnia Sistemas Tolerantes a Falhas

Upload: others

Post on 21-Oct-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior de

    Engenharia

    09-06-2012

    Tolerância a Falhas em Circuitos

    Integrados Nanométricos

    Jorge Semião

    INSTITUTO SUPERIOR DE ENGENHARIA

    Universidade do Algarve

    Faro, 23 de Maio de 2012

    IV Jornada Técnica de Electrotecnia

    Sistemas Tolerantes a Falhas

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 Tolerância a Falhas em Circuitos Integrados Nanométricos 2

    Resumo

    • Introdução

    • Erros em Circuitos e Causas Possíveis

    • Tolerância a Falhas em Sistemas Seguros

    • Tolerância a Falhas em Nanotecnologias

    • Investigação no ISE sobre Tolerância a Falhas

    • Conclusão

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 3

    Há sistemas que não podem falhar…

    Introdução

    Tolerância a Falhas em Circuitos Integrados Nanométricos

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 4

    Outros sistemas, aceitamos que errem…

    Introdução

    Tolerância a Falhas em Circuitos Integrados Nanométricos

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 5

    Introdução

    • Tolerância a Falhas – É a capacidade para preservar o funcionamento correcto do

    sistema, mesmo na presença de erros.

    – O sistema evita erros, ou detecta erros e recupera deles sem ajuda externa

    – Envolve: Redundância.

    • Uma Falta – A violação de um pressuposto num sistema.

    • Um Erro – É um estado dos dados internos que reflecte uma falta.

    • Uma Falha – É um desvio das especificações observado do exterior.

    Tolerância a Falhas em Circuitos Integrados Nanométricos

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 6

    Introdução

    • Utilização de métodos tolerantes a falhas

    – Tradicionalmente a tolerância a falhas era utilizada em sistemas onde a segurança é crítica

    “Safety-critical applications”

    – Sistemas electrónicos, electromecânicos, ou computorizados, cuja falha pode resultar em ferida ou morte de seres humanos.

    Tolerância a Falhas em Circuitos Integrados Nanométricos

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 7

    Introdução

    • A tradição já não é o que era…

    – A miniaturização da electrónica traz consigo o aumento da probabilidade de ocorrência de falhas nos sistemas electrónicos

    – A Tolerância a Falhas começa a ser utilizada em circuitos onde a segurança não é crítica

    – A existência de circuitos tolerantes a falhas permite:

    – Aceitar como bons circuitos que contêm algumas falhas

    – Ultrapassar/evitar falhas durante a vida útil do circuito

    São necessários novos métodos para aumentar a Tolerância a Falhas em circuitos de nanotecnologias

    Tolerância a Falhas em Circuitos Integrados Nanométricos

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 8

    Erros em Circuitos

    • Erros Permanentes – Podem ocorrer durante o processo de fabrico

    Circuito descartado

    – Podem ocorrer na vida útil do circuito

    Circuito substituído

    Tolerância a Falhas em Circuitos Integrados Nanométricos

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    Erros em Circuitos

    09-06-2012 9 Tolerância a Falhas em Circuitos Integrados Nanométricos

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 10

    Erros em Circuitos

    • Erros Intermitentes – Erros ocasionais, que se repetem em determinadas condições de

    funcionamento

    – Podem ser activados por mudanças de temperatura, tensão, etc.

    – Normalmente precedem os erros permanentes

    Chip temperature map

    Tolerância a Falhas em Circuitos Integrados Nanométricos

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 11

    Erros em Circuitos

    Muitos componentes falham cedo, devido a defeitos residuais latentes

    Podem também terminar a sua vida devido ao envelhecimento.

    No meio das duas regiões com alta mortalidade está o periodo de vida útil.

    Tempo

    Taxa

    de

    Falhas

    Mortalidade

    infantil

    Fim de vida Vida Útil

    (taxa de falhas baixa e

    constante)

    Mecânica

    Electrónica

    Normalmente devido a defeitos latentes

    l

    Tolerância a Falhas em Circuitos Integrados Nanométricos

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 12

    Erros em Circuitos

    • Erros Transientes – Erros que ocorrem temporariamente

    – São aleatórios e não produzem marcas permanentes nos circuitos

    – Podem ser causados por factores externos (por exemplo a radiação), ou ruído de outras partes do circuito

    Tolerância a Falhas em Circuitos Integrados Nanométricos

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 13

    Algumas Causas de Erros

    • Diafonia (Crosstalk) – Interferência indesejada entre sinais

    • Interferência Electromagnética (EMI) – Provoca variações em sinais, ou até na alimentação dos circuitos

    • Variações do processo de fabricação – Afecta tamanhos dos transístores, condução, etc.

    • Condições de operação e ambiente – Podem ser causados por factores externos (por exemplo a

    radiação), ou ruído de outras partes do circuito

    • Radiação – Soft errors, podendo ou não originar falhas (SEU, SET)

    • Envelhecimento – Degradação lenta e cumulativa do funcionamento (BTI, HCI, etc.)

    Tolerância a Falhas em Circuitos Integrados Nanométricos

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 14 Tolerância a Falhas em Circuitos Integrados Nanométricos

    • Radiação – Soft Errors

    – Aumentam com redução da tecnologia

    – Aumenta com altitude

    Algumas Causas de Erros:

    exemplo

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 15

    Tolerância a Falhas em

    Sistemas Seguros

    • Tolerâncias a Falhas Estática

    – A tolerância está construída na estrutura do sistema e é passiva

    – Normalmente implica redundância:

    – No hardware (ex.: Redundância Modular Tripla ou TMR)

    – No tempo (ex.: repetir a execução para evitar erros)

    – Na informação (ex.: repetir informação, ECC ou códigos de correcção de erros, como Hamming codes, bits de paridade, etc.)

    – Híbrido (uma combinação das anteriores, ex.: Time Shared Triple Modular Redundancy - TSTMR)

    – Utilizada em blocos críticos do sistema e não necessariamente no sistema todo

    Tolerância a Falhas em Circuitos Integrados Nanométricos

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 16

    Tolerância a Falhas em

    Sistemas Seguros

    • Tolerâncias a Falhas Estática: exemplos

    Tolerância a Falhas em Circuitos Integrados Nanométricos

    Arquitectura

    “Triple-Modular Redundancy” “Hamming codes with

    4 data bits and 3 parity bits”

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 17

    Tolerância a Falhas em

    Sistemas Seguros

    • Tolerâncias a Falhas Dinâmica

    – É baseada em acções activa para prevenir a manifestação do erro

    – Implica a utilização de um circuito de controlo especial e, eventualmente, de elementos de circuito especiais

    – A operação pode ser dividida em 4 fases:

    – Detecção da falta

    – Localização da faulta

    – Isolamento do erro

    – Recuperação de falhas (pode envolver reconfiguração do circuito)

    Tolerância a Falhas em Circuitos Integrados Nanométricos

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 18

    Tolerância a Falhas em

    Sistemas Seguros

    • Tolerâncias a Falhas Dinâmica: exemplos

    Tolerância a Falhas em Circuitos Integrados Nanométricos

    Arquitectura

    “N-Redundancy with k-spare” Arquitectura

    “Triple-duplex”

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 19

    Tolerância a Falhas em

    Sistemas Seguros

    • Projecto de Sistemas Seguros

    – Utilizar tecnologias estáveis, com processos controlados e bem experimentados (ex: tecnologias mais antigas)

    – Utilizar grandes margens de segurança durante a operação (ex: frequências baixas)

    – Utilizar redundância (ex: duplicar sinais, informação, hardware)

    – Utilizar diversidade (ex: utilizar diferentes implementações do mesmo sistema, como acontece no software)

    – O nível de tolerância é definido de acordo com: custo, área, erros admissíveis/corrigíveis

    Tolerância a Falhas em Circuitos Integrados Nanométricos

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 20

    Tecnologias

    Não-silício

    Microelectrónica

    em Silício

    Nano electrónica em Silício

    1 µm 100 nm 10 nm

    1970 1980 2000 2010 2020

    5 µm

    Nanotecnologias

    Tolerância a Falhas em Circuitos Integrados Nanométricos

    • Aumenta a variabilidade – Variações grandes

    entre circuitos iguais

    – Maior vulnerabilidade

    – Envelhecimento

    – Sujeito a radiação

    – etc. Inter and

    Intra-die

    Variations

    10

    100

    1000

    10000

    1000 500 250 130 65 32

    Technology Node (nm) # d

    op

    an

    t ato

    ms Source: Intel

    Random dopant

    fluctuation

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 21

    • Em nanotecnologias, o aumento da variabilidade traz: – Incerteza no comportamento dos circuitos

    – As variações a longo prazo, devido ao envelhecimento, são cumulativas e tornam-se relevantes

    O Circuito tem maior probabilidade de Falhar!

    Processo

    de fabricação

    Temperatura

    Tensão de

    alimentação

    Envelhecimento

    Nanotecnologias

    Tolerância a Falhas em Circuitos Integrados Nanométricos

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 22 Tolerância a Falhas em Circuitos Integrados Nanométricos

    Tolerância a Falhas em

    Nanotecnologias

    • Projecto de Sistemas Mais Tolerantes a Falhas

    – Utilizar redundância, mas com conta peso e medida

    – Garantir que o aumento do Hardware não é proibitivo

    – Utilizar Tolerância para aumentar as condições de funcionamento normal dos circuitos

    – Utilizar métodos de tolerância a falhas para optimizar funcionamento (diminuir potência, aumentar desempenho)

    – Os Métodos de Projecto de Circuitos Tolerantes a Falhas estão em franco desenvolvimento

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 23 Tolerância a Falhas em Circuitos Integrados Nanométricos

    Tolerância a Falhas em

    Nanotecnologias

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 24

    Q Q

    Clock

    Caminho crítico

    Tolerância a Falhas em Circuitos Integrados Nanométricos

    Tolerância a Falhas em

    Nanotecnologias: exemplos

    • Aumentar Tolerância a Variações de Processo, Tensão de Alimentação e Temperatura

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 25 Tolerância a Falhas em Circuitos Integrados Nanométricos

    Tolerância a Falhas em

    Nanotecnologias: exemplos

    • Aumentar Tolerância a Variações de Processo, Tensão de Alimentação e Temperatura

    – Inserir Buffers com atraso dinâmico para aumentar tolerância na captura dos sinais com maior atraso de propagação

    Q Q

    DDB

    Clock

    Caminho crítico Caminho não-crítico

    Flip-flop crítico

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 26 Tolerância a Falhas em Circuitos Integrados Nanométricos

    Tolerância a Falhas em

    Nanotecnologias: exemplos

    • Razor I

    – Permite detectar sinais que cheguem atrasados, corrigindo capturas incorrectas

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 27 Tolerância a Falhas em Circuitos Integrados Nanométricos

    Tolerância a Falhas em

    Nanotecnologias: exemplos

    • Razor II

    – Permite detectar e corrigir erros provocados por variações PVT e Soft Errors

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 28 Tolerância a Falhas em Circuitos Integrados Nanométricos

    Tolerância a Falhas em

    Nanotecnologias: exemplos

    • Predictive Fault Detection

    – Prevê a ocorrência de erros de performance, alertando para a proximidade de ocorrência de falhas de desempenho

    New library cell

    FFj

    OUT_CL

    OUT_AS

    ABC

    PWD

    Q

    Aging

    Sensor

    Critical

    Path

    Programmable

    Tg

    Sensor ON/OFF

    CLK

    0 slack

    CLKCLK/20

    CLK

    Observation interval

    Illegal

    OUT_CL

    transition

    OUT_CL CLK

    th

    SU

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    • Sensor de Performance

    / Sensor de Envelhecimento

    – Flip-flop + DE + SC

    – Inserção local

    – Pouco incremento

    de área e potência

    – Não introduz atrasos

    – Adapta-se a variações

    de tensão, de

    temperatura e ao

    envelhecimento

    09-06-2012 29

    Investigação no ISE sobre

    Tolerância a Falhas

    Solução Inovadora

    Tolerância a Falhas em Circuitos Integrados Nanométricos

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 30

    Conclusões

    • A probabilidade de ocorrência de falhas em circuitos de nanotecnologias é cada vez maior

    • Têm vindo a aumentar as práticas de projecto tolerante a falhas, mesmo para sistemas onde a segurança não é crítica (electrónica de consumo)

    A Tolerância a Falhas será utilizada no futuro

    em quase todas as aplicações electrónicas

    • No futuro os sistemas tolerantes a falhas deverão poder recuperar de múltiplos erros simultâneos

    Tolerância a Falhas em Circuitos Integrados Nanométricos

  • Instituto Superior de Engenharia da Universidade do Algarve

    ISE Instituto Superior

    de Engenharia

    09-06-2012 31

    Obrigado pela atenção!

    Perguntas?

    Tolerância a Falhas em Circuitos Integrados Nanométricos

  • … engenharia com futuro!

    Instituto Superior de Engenharia