estatistica - icmc.usp.brestatistica ricardo ehlers [email protected] departamento de matem´atica...
TRANSCRIPT
Estatistica
Ricardo [email protected]
Departamento de Matematica Aplicada e Estatıstica
Universidade de Sao Paulo
Introducao
O que e Estatıstica
• Ciencia de aprendizagem a partir de dados.
• Envolve a coleta e analise de dados e sua consequentetransformacao em informacao.
• Objetivos: postular, refutar ou validar hipoteses cientıficassobre um fenomeno observavel.
• Analogamente: tomada de decisao nos mais variadosproblemas onde existe incerteza.
• Usando Teoria das Probabilidades, os estatısticos formalizameste processo de forma a aperfeicoa-lo.
• Os metodos estatısticos tem um forte embasamentomatematico.
Informacao Dados → Analise → Tomada de Decisao
1
Probabilidade nao existe.
Bruno de Finetti
Todos os modelos estao errados, mas alguns sao uteis.
George P. Box
2
Velocidades de 82 galaxias em Km/seg na constelacao de Coroa
Boreal
0 10 20 30 40
0.0
00
.05
0.1
00
.15
0.2
0
velocity of galaxy (1000km/s)
de
nsity
3
• Quantos grupos de galaxias existem?
• Os valores mais afastados formam outro grupo ou sao’outliers’?
• Como tratar problemas de identificacao do modelo?
• Se uma nova galaxia for descoberta ela pertencera a qualgrupo com qual probabilidade?
4
Analise Temporal
Analise e Previsao de Series Temporais.
0 50 100 150 200 250
−4
−2
02
46
Time
se
rie
s
• Existem padroes temporais ?
• Como fazer boas previsoes? (O que e uma“boa”previsao?)
• Como construir os intervalos de previsao?
• Quao longe no futuro e seguro prever?
6
Taxas de cambio diarias em relacao ao Dolar Americano.
Franco Marco
Libra Dolar Canadense
0 500 1000 1500 2000 0 500 1000 1500 2000
1.1
1.2
1.3
1.4
1.5
1.4
1.5
1.6
1.7
1.8
1.9
0.50
0.55
0.60
0.65
0.70
5.0
5.5
6.0
Time 7
Retornos diarios em relacao ao Dolar Americano.
Franco Marco
Libra Dolar Canadense
0 500 1000 1500 2000 0 500 1000 1500 2000
−0.01
0.00
0.01
−0.02
0.00
0.02
−0.02
0.00
0.02
−0.02
−0.01
0.00
0.01
0.02
Time 8
Contagio Financeiro
• Aumento significativo da probabilidade de crise em um paıscondicional a crise em outro paıs.
• Por exemplo, a ocorrencia de crise cambial em um paısaumenta a probabilidade de ataques especulativos em outrospaıses.
9
Precos diarios, alguns indices de mercado europeu
1992 1993 1994 1995 1996 1997 1998
20
00
30
00
40
00
50
00
60
00
70
00
80
00
DAX
SMI
CAC
FTSE
10
Ozonio (em PPB) e radiacao solar em NY 1/5/1973 a 30/9/1973
05
01
00
15
0
Ozo
ne
0 50 100 150
Index
01
00
20
03
00
So
lar
11
Dados peso versus idade (em dias) de frangos sob diferentes dietas.
100
200
300
0 5 10 15 20
Time
we
igh
t
Diet
1
2
3
4
12
0 5101520 0 5101520 0 5101520 0 5101520 0 5101520
0 5101520 0 5101520 0 5101520 0 5101520
100
200
300
100
200
300
100
200
300
100
200
300
100
200
300
100
200
300
we
igh
t
13
Tendencia de precos de casas por estado americano (1975 a 2013).
0
250000
500000
750000
1980 1990 2000 2010
Date
Ho
me.V
alu
e
State
AK
AL
AR
AZ
CA
CO
CT
DC
DE
FL
GA
HI
IA
ID
IL
IN
KS
KY
LA
MA
MD
ME
MI
MN
MO
MS
MT
NC
ND
NE
NH
NJ
NM
NV
NY
OH
OK
OR
PA
RI
SC
SD
TN
TX
UT
VA
VT
WA
WI
WV
WY
14
VA VT WA WI WV WY
OK OR PA RI SC SD TN TX UT
NC ND NE NH NJ NM NV NY OH
LA MA MD ME MI MN MO MS MT
FL GA HI IA ID IL IN KS KY
AK AL AR AZ CA CO CT DC DE
198019902000201019801990200020101980199020002010198019902000201019801990200020101980199020002010
198019902000201019801990200020101980199020002010
0
250000
500000
750000
0
250000
500000
750000
0
250000
500000
750000
0
250000
500000
750000
0
250000
500000
750000
0
250000
500000
750000
Ho
me.V
alu
e
15
Alguns Tipos de Associacao
Medidas de Associacao para Valores Extremos (Dados simulados)
−5.0
−2.5
0.0
2.5
−4 0 4
x
y
16
Valores Extremos (minimos e maximos)
−5.0
−2.5
0.0
2.5
−4 0 4
x
y
17
Dados de peso, altura e idade (questionario estudantil)
50
60
70
80
90
1.5 1.6 1.7 1.8
Alt
Peso
17
19
21
23
25Idade
18
Dados de peso, altura e sexo (questionario estudantil)
50
60
70
80
90
1.5 1.6 1.7 1.8
Alt
Peso
Sexo
F
M
19
Dados de peso, altura, idade e sexo (questionario estudantil)
50
60
70
80
90
1.5 1.6 1.7 1.8
Alt
Peso
17
19
21
23
25Idade
Sexo
F
M
20
Dados de peso, altura, idade e sexo (questionario estudantil)
AlturaPeso
Idade
21
Afghanistan
Argentina Barbados
Bhutan
Botswana
Brazil
Britain
Cape Verde
China
Congo
FranceGermany
Greece
IndiaIraq
ItalyJapan
Myanmar
New Zealand
Norway
Russia
Rwanda
Singapore
South Africa
Sudan
United States
Venezuela
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1 2 3 4 5 6 7 8 9 10
Corruption Perceptions Index, 2011 (10=least corrupt)
Hu
ma
n D
eve
lop
me
nt
Ind
ex,
20
11
(1
=B
est)
Corruption and Human development
22
Analise Espacial
Medidas de associacao em 2 dimensoes
X
Y
2
4
6
8
10
2 4 6 8 10
0
1
2
3
4
5
23
Taxa de Desemprego por condado nos EUA, 2009
2−4% 4−6% 6−8% 8−10% >10%
24
Abalos sismicos (MB > 4) em torno das Ilhas Fiji desde 1964
100 120 140 160 180
−4
0−
30
−2
0−
10
0
25
xxxxx
26
Modelos e Inferencia
Um modelo e uma simplificacao da realidade(e alguns sao uteis)
Quantidades observaveis Quantidades nao observaveis(podem ser medidas) (parametros e variaveis latentes)
Abordagens: Classica e Bayesiana
Intuicao sem base teorica e reflexao em geral resulta em erro.
Dados: os valores observados das quantidades observaveis.
27
Inferencia estatıstica
Processo de tirar conclusoes sobre um conjunto maior (populacao)usando informacao de um conjunto menor (amostra).
PopulacaoTodos os casos ou situacoes sobre as quais o pesquisador querfazer inferencias.
Exemplos,
• Fazer inferencias sobre concentracao de poluentes numdeterminado lencol freatico,
• Predizer a quantidade de petroleo num poco a ser perfurado,
• Estimar o tempo de vida util de um componente eletronico.
28
AmostraUm subconjunto qualquer da populacao.
Por que nao observar a populacao inteira?
• Alto custo.
• Tempo muito longo.
• Impossibilidade fısica (e.g. estudo de poluicao amosferica).
• Impossıvel logica (e.g. em ensaios destrutivos).
29
• Variaveis: caracterısticas de uma populacao que diferem deum indivıduo para outro e as quais queremos estudar.
• Observacoes: medidas de uma ou mais variaveis de umindivıduo na amostra.
• Censo: estudo que inclui todos os elementos de umapopulacao.
30
Dados Brutos
Exemplo. Dados parciais de um questionario estudantil.
http://www.ime.usp.br/~noproest/dados/questionario.txt
Turma Sexo Idade Alt Peso Filhos Fuma Toler Exerc Cine OpCine TV OpTV
A F 17 1.60 60.50 2 NAO P 0 1 B 16 RA F 18 1.69 55.00 1 NAO M 0 1 B 7 RA M 18 1.85 72.80 2 NAO P 5 2 M 15 RA M 25 1.85 80.90 2 NAO P 5 2 B 20 RA F 19 1.58 55.00 1 NAO M 2 2 B 5 RA M 19 1.76 60.00 3 NAO M 2 1 B 2 RA F 20 1.60 58.00 1 NAO P 3 1 B 7 RA F 18 1.64 47.00 1 SIM I 2 2 M 10 RA F 18 1.62 57.80 3 NAO M 3 3 M 12 RA F 17 1.64 58.00 2 NAO M 2 2 M 10 RA F 18 1.72 70.00 1 SIM I 10 2 B 8 NA F 18 1.66 54.00 3 NAO M 0 2 B 0 RA F 21 1.70 58.00 2 NAO M 6 1 M 30 RA M 19 1.78 68.50 1 SIM I 5 1 M 2 NA F 18 1.65 63.50 1 NAO I 4 1 B 10 R
31
Id: identificac~ao do aluno.
Turma: turma a que o aluno foi alocado (A ou B).
Sexo: F se feminino, M se masculino.
Idade: idade em anos.
Alt: altura em metros.
Peso: peso em quilogramas.
Filhos: numero de filhos na familia.
Fuma: habito de fumar, sim ou n~ao.
Toler: tolerancia ao cigarro:
(I) indiferente, (P) incomoda pouco e (M) incomoda muito.
Exerc: horas de atividade fisica, por semana.
Cine: numero de vezes em que vai ao cinema por semana.
OpCine: opini~ao a respeito das salas de cinema na cidade:
(B) regular a boa e (M) muito boa.
TV: horas gastas assistindo TV, por semana.
OpTV: opini~ao a respeito da qualidade da programac~aoo na TV:
(R) ruim, (M) media, (B) boa e (N) n~ao sabe.
32
Exemplo. Dados de incidencia de cancer.
http://www.ime.usp.br/~noproest/dados/cancer.txt
Grupo Idade AKP P LDH ALB N GL
1 71 8.00 3.20 7.80 62 6 1131 66 10.50 5.10 50.10 57 9 931 83 8.50 3.30 15.30 53 21 1091 52 12.80 3.20 18.80 45 14 911 61 7.40 4.30 12.90 69 19 781 54 8.10 2.70 15.90 57 10 1221 27 3.80 3.20 24.90 64 14 881 91 7.80 3.50 30.10 61 28 1041 74 8.20 3.20 20.70 66 21 911 67 14.00 2.90 15.80 60 15 1031 43 7.30 3.90 11.80 68 15 931 40 5.50 2.80 18.10 63 16 961 64 6.30 3.20 22.40 56 14 1271 23 3.30 2.40 24.20 61 13 931 58 10.30 3.00 14.90 62 14 1021 18 9.30 2.70 12.50 55 6 99
33
coluna 1: Identificac~ao do paciente.
coluna 2: Diagnostico:
1 = Falso-negativo: diagnosticados como n~ao tendo a
doenca quando na verdade a tinham.
2 = Negativo: diagnosticados como n~ao tendo a doenca
quando de fato n~ao a tinham.
3 = Positivo: diagnosticados corretamente como tendo a doenca.
4 = Falso-positivo: diagnosticados como tendo a doenca
quando na verdade n~ao tinham.
coluna 3: Idade.
coluna 4: Espectro quımico da analise do sangue:
alkaliine phosphatose (AKP).
coluna 5: Concentrac~ao de fosfato no sangue (P).
coluna 6: Enzima, lactate dehydrogenase (LDH).
coluna 7: Albumina (ALB).
coluna 8: Nitrogenio na ureia (N).
coluna 9: Glicose (GL).
34