ronald aymler fisher y la bioestadística paul r. earl [email protected] arcadio valdés gonzález...

21
Ronald Aymler Fisher y la Bioestadística Paul R. Earl [email protected] Arcadio Valdés González [email protected] Facultad de Ciencias Biológicas Universidad Autónoma de Nuevo León San Nicolás, NL, 66450, Mexico

Upload: enriqueta-buendia

Post on 02-Apr-2015

108 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Ronald Aymler Fisher y la Bioestadística Paul R. Earl pearl@dsi.uanl.mx Arcadio Valdés González acuacu_uanl@yahoo.com.mx Facultad de Ciencias Biológicas

Ronald Aymler Fisher y la Bioestadística

Paul R. [email protected]

Arcadio Valdés Gonzá[email protected]

Facultad de Ciencias BiológicasUniversidad Autónoma de Nuevo León

San Nicolás, NL, 66450, Mexico

Page 2: Ronald Aymler Fisher y la Bioestadística Paul R. Earl pearl@dsi.uanl.mx Arcadio Valdés González acuacu_uanl@yahoo.com.mx Facultad de Ciencias Biológicas

Veamos al famoso biométrico

Sir Ronald Aymler Fisher (1890 - 1962) es el arquitecto del análisis Multivariado. El journal BIOMETRICS de Junio de 1964 No. 2 está dedicado a él. Existen varios libros que podemos recomendar ampliamente en este tema: An Introduction to Probability: Theory and its Applications por William Feller, Time Series Analysis, Forecasting and Control por George EP Box and Gwilym M Jenkins. Véanse también JP Benzecri (1982) Bordas, Paris. Para empezar a comprender a este famoso matemático, asegúrense también de leer a R. A. Fisher: The Life of a Scientist. Wiley, New York por Joan Fisher Box, 1978. Otro libro muy ameno es: Choice and Chance por WA Whitworth, 1901 reimpreso en 1942 by GE Stechert, New York.

Page 3: Ronald Aymler Fisher y la Bioestadística Paul R. Earl pearl@dsi.uanl.mx Arcadio Valdés González acuacu_uanl@yahoo.com.mx Facultad de Ciencias Biológicas

La estadística representa un severo problema para muchos estudiantes latinos. El motivo pude ser lo escaso o pobreza en la enseñanza de aritmética y álgebra. Los estudiantes que temen a las matemáticas no podrán dominar la probabilidad, la estadística y así subsecuentemente. Por otra parte, los estudiantes de ingeniería se desempeñan muy bien en la red y las matemáticas. Aún así y a pesar de todo los estudiantes desean aprender! Independientemente, el problema se origina al parecer en la pobre habilidad y

lentitud en lectura en las escuelas públicas.

Page 4: Ronald Aymler Fisher y la Bioestadística Paul R. Earl pearl@dsi.uanl.mx Arcadio Valdés González acuacu_uanl@yahoo.com.mx Facultad de Ciencias Biológicas

Referencias para el tema de Bioestadística

Para mayor documentación visite los siguientes sitios de la red: http://www.pitt.edu/~super1/lecture/lec25191/001.htm sobre el análisis de varianza. También visiten http://statgen.iop.kcl.ac.uk/bgim/mle/sslike_1.html sobre probabilidad máxima.

Page 5: Ronald Aymler Fisher y la Bioestadística Paul R. Earl pearl@dsi.uanl.mx Arcadio Valdés González acuacu_uanl@yahoo.com.mx Facultad de Ciencias Biológicas

Análisis de varianza (ANDeVA de Fisher)

Existen tres modelos conceptuales de ANDeVA (también llamado ANOVA directo de sus siglas en inglés) dependiendo sobre el número de tratamientos y niveles del experimento: 1) Modelo de efecto-fijo, 2) Modelo de efectos-al azar, y 3) Modelo de efectos mezclados. El análisis de una vía, también llamado de “una cola” proporciona las diferencias entre grupos independientes. El Factorial puede auxiliar para explicar los efectos de dos o más variables en el tratamiento, a menudo utilizando un diseño de 2X2. El análisis Multivariado MANOVA es utilizado cuando hay más de una variable dependiente.

Page 6: Ronald Aymler Fisher y la Bioestadística Paul R. Earl pearl@dsi.uanl.mx Arcadio Valdés González acuacu_uanl@yahoo.com.mx Facultad de Ciencias Biológicas

La suma total de los cuadrados es dividida en sus componentes relacionados con el efecto del modelo. El número total de grados de libertad (df) puede también dividirse y especificar la distribución de “chi-cuadrada” que describe la suma asociada de los cuadrados.

Origen Suma de df Media del Fcuadrados cuadrado

-----------------------------------------------------------------------------Factor A SSA a-1 MSA MSA/MSEFactor B SSB b-1 MSB MSB/MSEError SSE a*b(r-1) MSE------------------------------------------------------------------------------Total SST a*b*(r-1) r = repeticiones

Es el rango de F un término para llamar a una forma de error?Sumemos la probabilidad = p. Qué significa p = 0.01?

Page 7: Ronald Aymler Fisher y la Bioestadística Paul R. Earl pearl@dsi.uanl.mx Arcadio Valdés González acuacu_uanl@yahoo.com.mx Facultad de Ciencias Biológicas

Estimación de la máxima probabilidad (MLE del inglés)MLE es un método para acoplar modelos en estadística a los datos observados. Asumiendo que cada observación es estadísticamente independiente, la probabilidad conjunta de los datos observados es dada por el producto de las probabilidades:

Cuando es considerada como una función de parámetro modelo, esta es llamada la función de mayor semejanza de los datos observados. Las estimaciones de la máxima probabilidad (MLEs) de los parámetros del modelo, maximiza la función de mayor semejanza, o equivalentemente, maximiza la función logarítmica-de-semejanza.

y puede ser calculado por cualquier método apropiado de optimización: optimization

Page 8: Ronald Aymler Fisher y la Bioestadística Paul R. Earl pearl@dsi.uanl.mx Arcadio Valdés González acuacu_uanl@yahoo.com.mx Facultad de Ciencias Biológicas

PAML

PAML es un paquete de programas para análisis filogenético del ADN o de las secuencias de bases proteicas utilizando el MLE. Este es mantenido y distribuido para uso académico por Zihen Yang y es gratuito. Los recursos para códigos son distribuidos por UNIX/Linux/MAC OS X y proporcionan los archivos ejecutables para MS Windows. PAML puede ser utilizado por quienes tengan interés en el proceso de la evolución de secuencias de pares proteicos en el ADN.

Page 9: Ronald Aymler Fisher y la Bioestadística Paul R. Earl pearl@dsi.uanl.mx Arcadio Valdés González acuacu_uanl@yahoo.com.mx Facultad de Ciencias Biológicas

Otros procesos en bioestadística

Existen dos clases o tipos de error dependiendo sobre qué hipótesis han sido identificados como el verdadero estado de la naturaleza del problema.

Una hipótesis nula es una especulación para ser anulada o apoyada. La hipótesis alterna puede prevalecer. La hipótesis nula se presume verdadera hasta que se pruebe lo contrario.

Page 10: Ronald Aymler Fisher y la Bioestadística Paul R. Earl pearl@dsi.uanl.mx Arcadio Valdés González acuacu_uanl@yahoo.com.mx Facultad de Ciencias Biológicas

La prueba de chi cuadrada es cualquier prueba de hipótesis donde la prueba estadística tiene una distribución de chi cuadrada cuando la hipótesis nula es verdadera, o cuando en cualesquier probabilidad de distribución de la prueba estadística (asumiendo que la hipótesis nula es verdadera) pueda ser que se aproxime a una distribución tipo chi tanto como sea deseado al HACER EL TAMAÑO DE LA MUESTRA LO SUFICIENTEMENTE GRANDE. Tomen nota !

Otro tipo de prueba muy popular para tamaño de muestras pequeñas es la prueba “T” de Student.

Page 11: Ronald Aymler Fisher y la Bioestadística Paul R. Earl pearl@dsi.uanl.mx Arcadio Valdés González acuacu_uanl@yahoo.com.mx Facultad de Ciencias Biológicas

Error tipo I o error de primera clase o error alfa ( error ) es un falso positivo. La hipótesis nula fue rechazada cuando en realidad era verdad.Error tipo II o error de segunda clase o error beta (error ) es un falso negativo. El error fue no rechazar la hipótesis nula cuando la hipótesis alterna es verdadera.

Condición actual Verdadero Falso

Positivo Positivo correcto

(i.e. resultado correcto) Falso Positivo (Tipo I)

(i.e. resultado equívoco)

Negativo Negativo Falso (Tipo II) (i.e. resultado equívoco)

Negativo correcto (i.e. resultado correcto)

El error tipo uno es usualmente fijado con un 0.05 o un 0.01 de confiabilidad. Véase en rango de F para ANOVA.

Page 12: Ronald Aymler Fisher y la Bioestadística Paul R. Earl pearl@dsi.uanl.mx Arcadio Valdés González acuacu_uanl@yahoo.com.mx Facultad de Ciencias Biológicas

Información de Fisher

La información de Fisher es la varianza del score o anotación. Es la cantidad de información que una variable al azar X lleva por encima de una variable no observable o parámetro sobre el que la función de probabilidad depende de X, L () = F (X,). La función de probabilidad es la probabilidad conjunta de los datos. Como la expectativa del puntaje es cero, la varianza es el segundo momento del puntaje, la derivada del logaritmo de la función de probabilidad con respecto al .

Page 13: Ronald Aymler Fisher y la Bioestadística Paul R. Earl pearl@dsi.uanl.mx Arcadio Valdés González acuacu_uanl@yahoo.com.mx Facultad de Ciencias Biológicas

Lo siguiente es una adaptación de la biografía de Fisher mayormente debida a PC Mahalanobis que apareció en Sankhy, 4, 1958.Fisher nació el 17 de Febrero de 1890 en East Finchley, uno de los suburbios norteños de Londres. Su amor por las matemáticas dominó su educación. Harrow fue una escuela modelo disponible para Fisher puesto que su familia era bien posicionada económicamente. La única dificultad era su escasa visión, situación que le permitió no participar en los conflictos de la Primer Guerra Mundial.Él entro al Colegio de Gonville y Caius, Cambridge, en 1909, y pasó la evaluación de matemáticas Parte II en 1912 como un “Wrangler”. Bajo la fuerte influencia negativa de Bateson en contra del Darwinismo, por lo que Fisher se interesó profundamente en el Mendelismo. Fue entonces que escribió La Teoría General de la Selección Natural por 1930, contribuyendo con esto a la supervivencia de Darwinismo.

Page 14: Ronald Aymler Fisher y la Bioestadística Paul R. Earl pearl@dsi.uanl.mx Arcadio Valdés González acuacu_uanl@yahoo.com.mx Facultad de Ciencias Biológicas

Fundamentos

Mediciones exactas, compactadas en tablas, debe formar el experimento. Las replicas, el azar y la división en bloques son elementos fundamentales de la estadística. Precisión es minimizar la desviación entre los resultados verdaderos del experimento. Precisión es la relación de la amplitud de la muestra. Ésta dispersión esta dada por la desviación estándar. La replicación de resultados es esencial porque ésta es el único origen para la estimación del error.

Page 15: Ronald Aymler Fisher y la Bioestadística Paul R. Earl pearl@dsi.uanl.mx Arcadio Valdés González acuacu_uanl@yahoo.com.mx Facultad de Ciencias Biológicas

Teoría general de la selección natural

Fisher estuvo trabajando por largo tiempo sobre la genética Mendeliana, y para 1930 publica su libro Genetical Theory of Natural Selection el cual se constituye como toda una lectura obligatoria para los investigadores en el tema. Son tres grandes hombres los que fundaron la teoría de genética poblacional y por lo tanto el NeoDarwinismo, siendo ellos Sewall Wright, JBS Haldane y RA Fisher.

Page 16: Ronald Aymler Fisher y la Bioestadística Paul R. Earl pearl@dsi.uanl.mx Arcadio Valdés González acuacu_uanl@yahoo.com.mx Facultad de Ciencias Biológicas

Más sobre su biografía

Él fue distinguido como “Profesor Galton” en la Universidad de Londres, al jubilarse Kart Pearson en el año de 1933. Fisher siempre estuvo interesado en la eugenesia — genética humana— participando con la Eugenics Society como Secretario Honorario y posteriormente como su Vicepresidente. También continuo la labor desempeñada por Karl Pearson en el cargo de editor de los Annals of Eugenics en 1933 al retirarse Pearson del cargo.En 1935 publicó Design of Experiments. Visita los Estados Unidos de América y en 1936 y es distinguido con el grado honorario por Harvard. En 1937 le es otorgada la membresía por el Indian Statistical Institute.

Page 17: Ronald Aymler Fisher y la Bioestadística Paul R. Earl pearl@dsi.uanl.mx Arcadio Valdés González acuacu_uanl@yahoo.com.mx Facultad de Ciencias Biológicas

Se muestran a continuación los principales eventos en el trabajo de Fisher

El trabajo de Fisher se agrupa de manera natural en tres tendencias: -Contribuciones a la teoría matemática y estadística- Aplicaciones de la teoría en estadística para la agricultura y diseño experimental.- Contribuciones a la genética.

Page 18: Ronald Aymler Fisher y la Bioestadística Paul R. Earl pearl@dsi.uanl.mx Arcadio Valdés González acuacu_uanl@yahoo.com.mx Facultad de Ciencias Biológicas

La teoría de la distribución del muestreo

La idea de la distribución al azar del muestreo en estadística, es fundamental. Introduce los grupos del álgebra en puntos determinados. La probabilidad de el espacio completo de la muestra es unidad, o P = 1. El ejemplo más temprano de tipo moderno de distribución fue el de 2 mejor conocida como chi cuadrada, por Karl Pearson en 1900. Varios años después Student da la distribución correcta para la varianza de la muestra y su famosa T-estadística. Student es el nombre de prensa con

el que se dio a conocer William S Gossett.

Page 19: Ronald Aymler Fisher y la Bioestadística Paul R. Earl pearl@dsi.uanl.mx Arcadio Valdés González acuacu_uanl@yahoo.com.mx Facultad de Ciencias Biológicas

Teoría de la estimación e inferencia estadística.

Fiera controversia se desarrolló sobre este tema desde 1768 en los trabajos de Bayes An Essay Towards Solving a Problem in the Doctrine of Chance (Phil Trans liii, p 370) en el que se proponía resolver este problema con auxilio del principio de la igualdad en la distribución de la ignorancia. Fisher arroja luz sobre este problema en sus notable memorias “Sobe los Fundamentos de Matemática en la Teoría Estadística” On the Mathematical Foundation of Theoretical Statistics (1921). Este trabajo establece las bases de la inferencia estadística al enfatizar la importancia de soluciones exactas de los problemas en muestreo.

Page 20: Ronald Aymler Fisher y la Bioestadística Paul R. Earl pearl@dsi.uanl.mx Arcadio Valdés González acuacu_uanl@yahoo.com.mx Facultad de Ciencias Biológicas

Grupos sanguíneos en el humano por RR Race del Instituto Lister, Londres, en Biometrics Uno de los resultados por el gran interés de Fisher sobre la genética humana fue el establecer un departamento en el Laboratorio Galton para grupos sanguíneos. Esto fue posible gracias a una generosa aportación de la Fundación Rokefeller y al deseo y disponibilidad del laureado Dr. GL Taylor, un experto en serología, quien deja el Departamento de Patología en Cambridge y decide dedicarse el mismo a los grupos sanguíneos, cuyo trabajo es revisado por RR Race en la memorable edición

de Biometry de 1964.

Page 21: Ronald Aymler Fisher y la Bioestadística Paul R. Earl pearl@dsi.uanl.mx Arcadio Valdés González acuacu_uanl@yahoo.com.mx Facultad de Ciencias Biológicas

Fisher vio en los grupos sanguíneos una herramienta esperanzadora para mejorar el conocimiento de la genética humana. WL Stevens y DJ Finney visitaron el Laboratorio Galton donde aplicaron el método de Fisher para los cálculos de probabilidad máxima de las frecuencias A1A2BO y al de la frecuencia de MN (Edwards AWF (1972) Likelihood. Cambridge University Press; así como en Sham PC (1998) Statistics in Human Genetics. Arnold, London). Finney extendió y aplico las pruebas de Fisher de estadísticas –u para los pruebas de relación entre grupos sanguíneos.