la reemergencia bayesiana en el siglo xxi: los detalles de un episodio simple y elocuente

Post on 10-Jan-2016

27 Views

Category:

Documents

2 Downloads

Preview:

Click to see full reader

DESCRIPTION

La reemergencia bayesiana en el Siglo XXI: los detalles de un episodio simple y elocuente. Universidad Autónoma de Barcelona Servei d'Estadística. Luis Carlos Silva Ayçaguer CNICM, La Habana. Barcelona 2 de diciembre, 2011. Thomas S. Kuhn (1922-1996) La estructura de las - PowerPoint PPT Presentation

TRANSCRIPT

La reemergencia bayesiana en el Siglo XXI: los detalles de un episodio simple y elocuente

Luis Carlos Silva Ayçaguer

CNICM, La Habana Barcelona2 de diciembre, 2011

Universidad Autónoma de BarcelonaServei d'Estadística

Thomas S. Kuhn (1922-1996)La estructura de las

revoluciones científicas (1962).

Thomas S. Kuhn (1922-1996)La estructura de las

revoluciones científicas (1962).

PARADIGMASPARADIGMAS“(...)realizaciones científicas universalmente reconocidas que, durante cierto tiempo, proporcionan modelos de problemas y soluciones a una comunidad científica”.

Deconstrucción : “Desmontaje de un concepto o de una construcción intelectual por medio de su análisis, mostrando así contradicciones y ambigüedades”.

Diccionario de la Real Academia Española

Valoración crítica de los valores “p” y

las pruebas de significación

Anderson DR, Burnham KR (2002) Avoiding pitfalls when using information–theoretic methods. Journal of Wildlife Management 66: 912–918.

““la utilidad de los valores p es la utilidad de los valores p es completamente limitada y completamente limitada y nosotros nos mantenemos nosotros nos mantenemos reclamando eutanasia para reclamando eutanasia para tales procedimientos”tales procedimientos”

Loftus GR (1991) On the tyranny of hypothesis testing in the social sciences. Contemporary

Psychology 36:102-105.

““es difícil imaginar una es difícil imaginar una manera menos apropiada manera menos apropiada para traducir los datos en para traducir los datos en conclusiones”conclusiones”

Gill J (2004) Grappling with Fisher’s Legacy in Social Science Hypothesis Testing: Journal de la Société Française de Statistique psblade.ucdavis.edu/papers/denis.pdf

““Las PSE no deberían siquiera existir, Las PSE no deberían siquiera existir, mucho menos deberían prosperar como mucho menos deberían prosperar como el método dominante para presentar el método dominante para presentar evidencias estadísticas en las ciencias evidencias estadísticas en las ciencias sociales. Ellas entrañan una bancarrota sociales. Ellas entrañan una bancarrota intelectual y son profundamente intelectual y son profundamente inconsistentes tanto desde una inconsistentes tanto desde una perspectiva lógica como práctica.”perspectiva lógica como práctica.”

Rozeboom WW (1997) Good science is abductive, not Rozeboom WW (1997) Good science is abductive, not hypothetico-deductive. En LL Harlow, SA Mulaik, & JH hypothetico-deductive. En LL Harlow, SA Mulaik, & JH Steiger (Eds.), What if there were no significance tests? Steiger (Eds.), What if there were no significance tests? (pp. 335–391). Hillsdale, NJ: Erlbaum.(pp. 335–391). Hillsdale, NJ: Erlbaum.

“Las PSE constituyen con toda seguridad Las PSE constituyen con toda seguridad el más idiota proceder jamás el más idiota proceder jamás institucionalizado en el entrenamiento institucionalizado en el entrenamiento maquinal de los estudiantes de cienciamaquinal de los estudiantes de ciencia”

INFERENCIA ESTADÍSTICA

A principios de siglo XX las anécdotas clínicas poblaban las revistas médicas

¿Qué significaban los resultados?EDITORES

¿Cómo cuantificar la evidenciay complementar los razonamientos

verbales?

Karl Pearson (1857-1939)

Biometrika ( A journal for the statistical study of biological problems), fue fundada en 1901por Galton, Weldon, Pearson y Davenport.

Ronald Fisher

(Londres, 1890-Australia, 1962)

Aportes a la estadística:

• introducción de los valores p

•análisis de la varianza

• principio de la aleatorización

• idea de la replicación

Ho: la Sra. no tiene ese don

Se observa el número de aciertos obtenidos0d

)( 00 HdaciertosPp

pSi?05,0¿ se dice que hay una diferencia

estadísticamente significativa

T

T

T

T L

L L L L

T L LT

T

T

L

INFERENCIA ESTADÍSTICA

Fisher (década de los 20) Ho: d=0

Se observa 0d

Medida de la discrepancia de los datos con la hipótesis, llamada a tener un papel informal (no especificado), junto con el resto de la información, en el flujo inferencial

)( 00 HddPp

Jerzy Neyman Egon Pearson

En la década de los 30...

...los valores p no resuelven el problema inferencial

INFERENCIA ESTADÍSTICA

Se observa 0d

Y se adopta una decisión

pSi se rechaza Ho: d=0

)( 00 HdDPp se computa

pSi Se acepta Ho: d=0

Neyman y Pearson

(década de los 30)

Ho: d=0

H1: d0

(1899)

(1928)

(1941)

(1925) (1935) (1956)

Departamento de EC, MP y SP e HC

Los padres de la estadística se Los padres de la estadística se divorciandivorcian

• Neyman :”los métodos de Fisher eran "peores que inútiles".

• Fisher: “ Neyman bien podría haber seleccionado un tema acerca del cual pudiera disertar con alguna autoridad"

Pero también se divorcian de Bayes (Pearson, Neyman y Fisher eran antibayesianos furiosos

Transposición de condicionantesTransposición de condicionantes

P(H|D) = P(D|H)

)Pr( 00 HdDp

FalaciaFalacia

¿Cuál es la probabilidad de que un velocista que gane una medalla olímpica (M) sea negro (N)?

¿Cuál es la probabilidad de que una persona de raza negra elegido al azar (N) sea medallista olímplico (M)?

P(N|M) =0.98 o más

P(M|N)=0.0001 o menos

“Normas para la presentación de comunicaciones libres a premio al mejor trabajo” del XIII CONGRESO NACIONAL DE MEDICINA en Argentina del año 2003

“Las abreviaturas y siglas en tablas y figuras, deben aclararse en las leyendas respectivas, pero NS (no significativo), ES (error estándar), DS (desvío estándar), IC95 (intervalo de confianza del 95 %) y p (probabilidad de que la hipótesis nula sea cierta) no requieren aclararse.”

p= P(H0|D))Pr( 00 HdDp

Es importante que los investigadores sean precavidos con la potencia de sus experimentos; no solo han de poder detectarse los efectos buscados, sino que también debe evitarse la detección de pequeños efectos triviales.

Rossi JS (1997) A case study in the failure of psychology as a cumulative science: The spontaneous recovery of verbal learning. En L. L. Harlow, S. A. Mulaik, & J. H. Steiger (Eds.), What if there were no significance tests? (pp. 175–197). Hillsdale, NJ: Erlbaum.

Sacket (1979)

Las muestras demasiado pequeñas pueden servir para no probar nada, las muestras demasiado grandes pueden servir para no probar nada.

¿ SON IGUALES ESTAS DOS HORMIGAS?

¿ SON IGUALES ESTAS DOS HORMIGAS?

Eligiendo entre dos trayectos urbanos en París

Trayecto1 Trayecto21 12 972 7 153 10 134 11 915 10 86 12 157 9 148 54 119 30 17

10 62 8511 1012 115

Promedio 22 41Prueba t t(20)=0,86 p=0,18

10 veces

12 veces

Eligiendo entre dos trayectos urbanos en París

n=10 tm=22 min

n=12 tm=41 min

p=0,18

n=232 tm=31 min

n=225 tm=34 min

P=0,02

Eligiendo entre dos trayectos urbanos en París

31 min

34 min

“En lo que concierne al tamaño muestral, es concebible que las diferencias en homeostasis de la glucosa y en la distribución de tejido adiposo entre los grupos pudiera haber sido detectadas con un tamaño de muestra mayor”. (Bitnun, 2003)

“Se tomaron mediciones de la RVIP, pero no mostraron efectos de la ingestión de agua; sin embargo, no podemos descartar la posibilidad de que se hubieran detectado cambios con un tamaño de muestra mayor”. (Neave, Scholey, Emmett, Moss, Kennedy y Wesnes, 2001)

“Es de esperar que en un estudio con un tamaño de muestra mayor, la diferencia entre estos valores y los del resto del grupo sea estadísticamente significativa”. (Perich, González, Valdés, Arranz, 2002)

“El presente estudio, de Salud mostró un aumento en el riesgo para la mortalidad neonatal, pero éste no fue significativo. Sin embargo, …con un mayor tamaño de muestra esta asociación, después del ajuste, podría ser significativa”. (Delgado, Muñoz, Orejuela y Sierra, 2003)

“Con un tamaño de muestra mayor, estas diferencias pudieran pasar a ser estadísticamente significativas”. (Kowatch y col, 2000)

“Aunque no confiable a los niveles convencionales de significación estadística, la tendencia de los datos sugiere que de haber tenido una muestra mayor, y por tanto mayor potencia, los hallazgos relacionados con el folato hubieran sido similares a los hallados para la vitamina B12”. (Bunce, Kivipelto y Wahlin, 2004)

“La adición de fluoxetina a la PUVA ha mostrado una tendencia hacia una más rápida mejoría, pero no alcanza el nivel de significación estadística. Por lo tanto, una muestra mayor puede ser considerada”. (Mitra, 2001)

“Obsérvese que si bien hallamos que la diferencia entre el consumo de opiáceos para mujeres y hombres fue significativa, con, una muestra MENOR probablemente no la hubiéramos encontrado”. (Silva, 2011)

CIENCIA FICCIÓN:

BAYES Y LA INFERENCIA INDUCTIVA

BAYES CAPTÓ LA IMPORTANCIA DE DESARROLLAR UNA TEORÍA CUANTITATIVA Y EXACTA DEL RAZONAMIENTO INDUCTIVO

BAYES - PRICE -LAPLACE

1702-1761 1723-1791 1749-1827

El código “ENIGMA” y la 2ª Guerra Mundial

ALAN TURING (1912 – 1954)

Período

Artículos en PUBMED

1990-1999

2000-2009

Títulos 566 3132

Resúmenes 1469 9890

Número de artículos registrados en PUBMED en cuyos títulos y resúmenes aparece el término “bayesian” en dos decenios consecutivos

Si la distribución a priori para es N( pr , pr)

entonces la distribución a posteriori es N( pt , pt)

Los valores pt , pt dependerán de pr , pr y de los datos que se observaron ( dt , dt ) según las fórmulas siguientes:

22

2dt

2pr

pt 11

μμ

μ

dtpr

dtpr

22

pt 11

dtpr

Vivienda Hospital TotalMueren 13 23 36Sobreviven 150 125 275Total 163 148 311 Tasa 8.00% 15.50%

Reducción relativa: 49,015,5

8.0-15,5

47,0150*23125*13 OR

IC(95%): 0,23 – 0,97

 Pocock SJ, Spiegelhalter DJ (1992) Grampian region early anistreplase trial, British Medical Journal 305: 1015.

Editor: Mucha publicidad se ha dado, y se dará, a los hallazgos del ensayo con anistreplase en la región de Grampian en la que los pacientes que recibieron tratamiento trombolítico en la vivienda tuvieron un 49% menos de muertes que aquellos que la recibieron en el hospital. Desafortunadamente, el ensayo fue ciertamente muy pequeño como para estimar de una manera confiable una reducción en la mortalidad, de modo tal que la significación pudiera haberse alcanzado solo si (en virtud del azar o de un sesgo) una poco plausible diferencia muy grande se hubiera observado. En tales circunstancias un análisis bayesiano provee una interpretación útil una vez que se coloque un hallazgo sorprendente en el contexto de una visión a priori más cautelosa

En el propio artículo del grupo GREAT se decía:

Valoración a priori de Pocock y Spiegelhalter:

80,0871845

155129 OR IC(95%): 0,6 – 1,0

83,017,015.15

tromboltm 9,12tromboltm

Vivienda HospitalMueren 129 155Sobreviven 871 845Total 1000 1000 Tasa 12.90% 15.50%

¿Cuál sería el odds ratio en esta situación?

¿Cuál ha de ser la tasa inherente al trombolítico para tener una reducción de 17% ?

Admitamos que sabemos que [Inf, Sup] es un intervalo de confianza para OR y que ln(OR) se distribuye normal N(,2) . ¿Cuál sería el valor estimado de y ?

Evidentemente, tendríamos:

)ln(OR

Por otra parte:

96.1)ln( SupDe modo que se tiene:

92.3

)ln()ln(

96.1*2

)ln()ln( InfSupInfSup

EN GENERAL, SE TIENE:

)ln(Inf )ln(Sup

)ln(Inf )ln(Sup

96.1

y el valor de es:

Si [Inf, Sup] es un intervalo de confianza para OR, aceptando que ln(OR) se distribuye normal N(,2), tenemos:

)ln(OR

92.3

)ln()ln( InfSup

EN SINTESIS:

Consideremos que:

lnOR (datos) se distribuye N( dt , dt )

Si llamamos ORpr al OR a priori y llamamos Infpr y Suppr a sus límites de confianza, tendremos:

lnOR (posteriori) se distribuye N( pt , pdt )

lnOR (priori) se distribuye N( pr , pr )

)ln( prpr OR

92.3

)ln()ln( prprpr

InfSup

Si llamamos ORdt al OR procedente de los datos y llamamos Infdt y Supdt a sus límites de confianza, tendremos:

)ln( dtdt OR

92.3

)ln()ln( dtdtdt

InfSup

pt ,pt se pueden obtener ahora en función de pr , pr y dt , dt

En nuestro caso teníamos:

47,0OR

IC(95%): 0,23 – 0,97

80,0OR

IC(95%): 0,6 – 1,0

DATOSA PRIORI

223.0)8.0ln( pr

130.092.3

)6,0ln()1ln(

pr

755,0)47,0ln( dt

367.092.3

)23,0ln()97,0ln(

dt

Ya sabíamos que si la distribución a priori para es N( pr , pr) entonces la distribución a posteriori es N( pt , pt) donde :

22

2dt

2pr

pt 11

μμ

μ

dtpr

dtpr

22

pt 11

dtpr

Usando toda la formulación anterior podemos calcular pt y pt ,

y con esos datos, ya se pueden obtener el OR a posteriori y su

Intervalo de confianza:

283,0

367,01

130,01

367,0755,0

130,00,223-

μ

22

22

pt

123,0

367,01

130,01

22

pt

73,0OR IC(95%): 0,57 – 0,94

O sea, el OR a priori 0,47 pasa a ser a posteriori 0,73

Y la reducción relativa del riesgo pasa de 49% a 25% aproximadamente

A priori

Datos empíricosBayes

A poteriori

or Inf Sup or Inf Sup or Inf Sup

0.80 0.60 1.00 0.47 0.23 0.97 0.73 0.57 0.94

Finalmente, la estimación de OR a posteriori es 75,0)283,0exp(

El intervalo de probabilidad para pt lo definen los extremos:

pt -1,96 pt =-0,524 pt +1,96 pt =-0,042

Aplicando exponencial a cada uno de estos extremos, se obtiene el intervalo de probabilidad al 95% para el OR a posteriori:

59,0)556,0exp( 96,0)065,0exp(

Finalmente, aplicando el exponencial al promedio de ambos extremos se obtiene la estimación de OR (pt) y aplicando exponencial a los propios extremos, el intervalo de probabilidad al 95% para el OR a posteriori:

73,0OR IC(95%): 0,6 – 0,9

O sea, el OR a priori 0,47 pasa a ser a posteriori 0,73

Y la reducción del riesgo pasa de 49% a 25% aproximadamente

Morrison, L., P. R. Verbeek, A. McDonald, B. Sawadsky, D. Cook. 2000. Mortality and prehospital thrombolysis for acute myocardial infarction: a meta-analysis. Journal of the American Medical Association 283: 2686-2692.

Y ESTO ES VIRTUALMENTE LO MISMO QUE PRODUJO UN METANÁLISIS DESARROLLADO CASI 10 MÁS TARDE

Lo cual dio lugar a los artículos de prensa

Silva LC, Muñoz A (2000) Debate sobre métodos frecuentistas vs bayesianos. Gaceta Sanitaria 14(6): 482-494.

http://www.lcsilva.sbhac.net

URUGUAY COLOMBIA

How Statistical Expertise Is Used in Medical Research

D. G. Altman, S. N. Goodman, S. Schroter

http://jama.ama-assn.org/issues/v287n21/abs/joc11896.html

Douglas Altman

Goodman, S. (1999a). Toward evidence-based medical statistics, 1: the p valuefallacy. Annals of Internal Medicine, 130, 995–1004.

Goodman, S. (1999b). Toward evidence-based medical statistics, 2: the Bayes factor. Annals of Internal Medicine, 130, 1005–1013.

Steven Goodman

http://jama.ama-assn.org/issues/v287n21/abs/joc11896.html

D. G. Altman, S. N. Goodman, S. Schroter

JAMA 2002

Dear Luis Carlos:

My brief answer is this. In medical research we do not in general seek a yes/no answer, as is provided by significant/nonsignificant decisions, but rather hope to estimate the effect(s) of interest. By contrast, in the sort of study we did we were more interested in seeking evidence whether certain aspects of publications were related to the statistical involvement, and perhaps the magnitude of the effect is not of direct importance. But you are right that it is a bit inconsistent, for which I plead guilty. We were also under extreme pressure from JAMA to keep the manuscript brief, but I do not consider that that can be a real excuse.

Even Bayesians (I do not consider myself one) do some (or many) of their statistical analyses using frequentist methods and they may even quote P values. There are many approaches and one chooses for each part of each study the one which seems most appropriate.

Best wishesDoug Altman

Luis Carlos Silva AyçaguerInvestigador Titular

Centro Nacional de Información de Ciencias Médicas (INFOMED)

lcsilva@infomed.sld.cu:http://lcsilva.sbhac.net

top related