estadística y predictibilidadmaestriaedu/docs/asig6...x y causalidad probabil ística •causa no...
TRANSCRIPT
Estadística y Predictibilidad
Dr. Ignacio Méndez Ramírez IIMAS UNAM
Panorama de la Plática• Extrapolación• Causalidad. Conceptos• Modelos. (evolución del conocimiento,
mundos de Popper)• Aleatoriedad y probabilidad• Dos ejemplos de modelos estadísticos, con
predicción
La palabra riesgo deriva del latín risicare, que significa “atreverse”.
En este sentido, es una elección, antes que una suerte.
Las acciones que nos atrevemos a tomar, dependen de que tan libres somos para efectuar
la elección.
El concepto de predecir posibles evoluciones de un fenómeno, para escoger entre alternativas es inherente
al ser humano.
La expresión de la visión determinística: si conocemos perfectamente el comportamiento de todas las partículas que existe en el universo, podremos
predecir el futuro (Laplace)
¿Me enfermarési como el
fruto rojo?
¿Me enfermarési como el
fruto rojo?
Estudio unos pocos frutos “iguales”, se los doy a comer a ratones, si se mueren todos, concluyo “Todos los
frutos rojos son dañinos”
Estudio unos pocos frutos “iguales”, se los doy a comer a ratones, se mueren 14% de ellos, concluyo “Es poco probable que me enferme si como el fruto rojo”
Estudio unos pocos frutos “iguales”, se extrae un compuesto que interfiere con la digestión en ratones. Concluyo “Esos
frutos rojos son dañinos”
Estudio unos pocos frutos “iguales”, se los doy a comer a ratones, se mueren 92% de
ellos, concluyo “Es probable que me enferme, si como el fruto rojo”
Conocimiento
¿Me enfermo, si como un fruto como
ese?
Dudas:¿todos los frutos rojos son indigestos? ¿influye el tamaño del fruto?¿el tono de rojo? ¿la época del año? ¿el tipo de árbol o arbusto? etcétera. ¿Qué es ser semejantesemejante?
Extrapolación
La sustancia A (que contienen esos frutos) modifica de tal
manera las reacciones químicas en el proceso
digestivo
Al estudiar grupos “grandes” de personas que comen esos frutos,
el porcentaje de personas enfermas, oscila alrededor de
80%.
Se debe especificar: ¿cómo se determina la sustancia A?,
¿Qué tipo digestión?, ¿En quécondiciones?, etc.
Se debe especificar: ¿cómo se determina qué es “grande”?,
¿Qué tipo de frutos?, ¿En quécondiciones están las personas?,
etc.
La CCiencia también hace extrapolaciones.
Ejemplo de ello son las investigaciones que se llevan a cabo con ciertos elementosciertos elementos(enfermos de amibiasis, fumadores empedernidos, plantas de maíz, cajas de Petri con un medio para crecer bacterias, etcétera), cuyas conclusiones se aplican a otros elementos semejantesotros elementos semejantes a los estudiados.
Extrapolación
Elementos
estudiados
Elementossemejantesa los estudiadosExtrapolación
Extrapolación
Se puede considerar que lo estudiado, o experiencia previa, es una muestramuestra de todo un conjunto de otros elementos o nuevas experiencias semejantes a los estudiados.
Este conjunto no estudiado es la poblacipoblacióónn.
Poblaciones y Muestras
Muestra Población
Extrapolación
Poblaciones y Muestras
¿Extrapolación Válida?
Nos preguntamos: ¿la extrapolación no se equivoca?, ¿cómo hacer que no se equivoque?
La respuesta es ssíí ,, se puede equivocar, pero frecuentemente nonose equivoca.
Poblaciones y Muestras
Si se pueden encontrar leyes deterministasdeterministas que expresen relaciones (necesarias y suficientes) entre propiedades de las instancias estudiadas (muestrasmuestras), entonces:.
se pueden aplicar los resultados o conclusiones a todas las instancias (poblacipoblacióónn) no estudiadas aún, que cumplan con las propiedades requeridas.
Poblaciones y Muestras
Aquí están muchas leyes de la naturaleza, principalmente inorgánicas, como la física clásica, termodinámica (macroscópica), etcétera.
Así la experiencia (traducida en leyes) con ciertos planetas, se aplica a otros; con ciertos gases se aplica a otros; con ciertas moléculas se aplica a otras; etcétera.
Poblaciones y Muestras
Hay procesos o fenómenos en los que nono se pueden encontrar relaciones entre sus propiedades, que sean necesarias y suficientes.
Hay mucha variabilidadvariabilidad, hay indeterminismoindeterminismo.
Se pueden encontrar ciertas “leyes” pero son de naturaleza probabilprobabilíísticastica y no determinística.
Aleatoriedad e indeterminismoAleatoriedad e indeterminismo
Estas leyes nos permiten hacer extrapolaciones, pero nunca son seguras, siempre hay la posibilidadposibilidad de equivocarse.
La estadística lo que busca es que la ““probabilidadprobabilidad”” de equivocarse sea ““pequepequeññaa””.
Aleatoriedad e indeterminismo
Ejemplo:
Considere el esquema siguiente donde setienen datos de desarrollo de enfermedad cardiovascular en 50,000 personas.
Aquí hay dos tipos de extrapolación, una es a toda la población de la cual los 50,000 se consideran una muestra; y la otra a una persona en el futuro que es considerada un elemento tomado al azar de la población.
Aleatoriedad e indeterminismo
En la primera inferencia o extrapolación se puede predecir con poco error cucuáántasntaspersonas en ese millón desarrollarán la enfermedad; en cambio en el caso de una persona no se puede predecirno se puede predecir con poco error, únicamente se le asignan las probabilidades de desarrollar la enfermedad de la población a que pertenece.
En estos razonamientos es crucial la validez del supuesto que las condiciones de la muestra sean semejantessean semejantes a las de la población o individuo.
Aleatoriedad e indeterminismo
Se estudian 5,000 personasde 40 años que fuman (20cigarros al día o más) y con colesterol elevado. Seencuentra que 15% de ellasdesarrolla enfermedadcardiovascular antes decumplir 50 años.
Se tiene una población de un millón de personasque fuman semejantes alos estudiados.Se espera “alrededor” de150,000 con enfermedadcardiovascular antes delos 50 años.
Una persona de 40 años que fuma, concolesterol elevado, semejante a losestudiados, tiene una probabilidadde 0.15 de enfermedad cardiovascular antes de cumplir 50 años.
muestra
población
elemento
extrapolación
extrapolación
Aleatoriedad e indeterminismo
AristAristóóteles : teles : **Material *Formal *Final *Eficiente
tiempo
PredicciPrediccióónn: si se da esa configuración va a ocurrir el efecto. La causalidad determinística
tiempo
PredicciPrediccióónn: si se da esa configuración van a ocurrir los efectos con ciertas probabilidades. La causalidad probabilistica
CAUSALIDAD
yxHipótesis Teórica. Conceptos o “Constructos”
X1
X2
X3
X4...
Xk
Y1
Y2
Y3Y4...
Ym
Hipótesis Empírica (s)
Entre Indicadores de los conceptos.
Pobreza SaludRepresión AgresiónEducación Ingresos
Ejemplos
CONCEPTOS DE CAUSALIDAD
X Y
Causalidad determinísticaLa causa es necesaria y suficiente
para el efecto. La configuración del mundo está totalmente determinada
por la configuración anterior.
X Y
X Y
Causa necesaria pero no suficiente
Causa suficiente pero no necesaria
Trisomía 21
Sx. Down
Amiba Amibiasis
AnemiaDeficiencia Fe
CONCEPTOS DE CAUSALIDAD
X Y
Causalidad probabilística•Causa no necesaria ni suficiente•Asociación estadística•Las probabilidades de Y cambian al cambiar X
Tabaquismo
Cáncer pulmonar
Se decubren leyes que describen matemáticamente las variables importantes de un proceso, sin incluir consideraciones aleatorias. E=mc2 , f=ma, mecánica clásica, ecuaciones diferenciales para muy variados fenómenos, fluidos, dinámica poblacional, etc.
No se encuentran leyes que describan matemáticamente a lasvariables del proceso, sin incluir consideraciones aleatorias. Se encuentran modelos pero ahora son probabilísticos
En el lenguaje familiar entendemos pormodelo la reproducción (maqueta de un ferrocarril) o proyecto (modelo de una iglesiaque ha de construirse) de unos objetos . En la ciencia el modelo es una construcciónque, con una simplificación intencionada, reproduce aspectos de un fenómeno natural y hace posibles unas derivacionesdeductivas y unas afirmaciones que puedencomprobarse por experiencia.
Mundo 3 de Popper
Arno Anzenbacher “Introducción a la filosofía”Herder 1993
Las teorías empíricas, sólo posibilitan en definitiva la construcción de un modelo de la naturaleza, es decir, la representación de un aspecto de la realidad en el sentido de unasimplificación. Filosoficamente hay que teneren cuenta, frente a todas las construccionesmodélicas de teorías empíricas, la advertenciade no confundir los modelos con lo quereproducen. Es decir, no hay queontologizarlos.
Arno Anzenbacher “Introducción a la filosofía”Herder 1993
Riedl, R. “Biología del conocimiento. Los fundamentos filogenéticos de la razón”. Ed. Labor 1983
Mundo 1
Mundo 2
Mundo 3
Popper, K .”Knowledge and The Body-Mind Problem”. Routledge, London, New York. 1996
y “Popper selections”. Edited by D.Miller, Princeton U. Press. 1985
Mundo 1
Mundo 2
Mundo 3
Átomos, moléculas, órganos, neuronas, sinapsis,
neurotransmisores, etc.
Sentimientos, creencias, melancolía, afecto, deseos, etc.
Obras de arte, sinfonías, teorías, matemática, leyes, validación, relaciones lógicas, ciencia, etc.
Mundo 1
Mundo 2
Mundo 3
Conocimiento Objetivo.
Evolucionó por su valor de supervivencia tremendo
Algo que no hemos hecho pero que es una consecuencia no intencional de lo que hacemos.
Ejemplo: Creamos el sistema de números naturales. Una consecuencia es la existencia de los números primos. Si tenemos el número 2340798527 podemos “decubrir” si es primo o no. Esto es un conocimiento “objetivo”, estáabierto a otros, el razonamiento del descubrimiento(Mundo 3). La forma de hacer el descubrimiento es subjetiva y con creatividad. (Mundo 2)
Aquí esta la interacción de los mundos 2 y 3. Conjeturas y teoremas o refutaciones. La afectividad inseparable de la teoría
Popper (1996, p.47) *No puedo enfatizar suficiente que considero los productos de la mente humana como reales : no sólo los que son por si mismos objetos físicos, tales como un rascacielos y un automóvil, los que cualquiera llamaría “reales”- sino que tambien un libro o una teoría. La teoría es por si misma un objeto abstracto. La considero como realpor que podemos interactuar con ella -podemos producir una teoría-, y por que puede interactuar con nosotros. Esto es suficiente para considerarla como real. Ella puede actuar sobre nosotros, la podemos asir, la podemos usar, y podemos cambiar el mundo con auxilio de esa teoría*
Mundo 3.- Productos de la mente humana
Mundo 2.- Experiencias mentales conscientes
Mundo 1.- Objetos físicos, incluyendo organismos
• Un modelo matemático, deterministico o probabilístico esta en el mundo 3, de Popper. Con el podemos derivar consecuencias siguiendo su lógica interna y en esta medida, efectuar predicciones. Estas siempre están sujetas a la validez del modelo. En el caso de los modelos probabilísticos, además se debe tener una idea del grado de incertidumbre en predicciones individuales.
Tenemos que considerar la reciente filosofía de la ciencia que cuestiona algunos de los pilares mas importantes sobre los que se basa nuestra lógica científica, especialmente la que tiene que ver con la objetividad y la falibilidad de la inducción y la deducción. Pero no tiramos la toalla debido a esto, ni aconsejamos que “cualquier cosa es válida”.
W.R. Shadish,T. D. Cook and D.T. Campbell. “Experimental and Quasi-experimental Designs for
Generalized Causal Inference”. Houghton Mifflin Co. 2002. (Preface xvii)
La naturaleza falible del conocimiento no requiere considerar que no sirve (si no es perfecto, no sirve), ni tampoco el relativismo metodológico fuerte (ningun método tiene estado privilegiado sobre otros para cualquier propósito). Mas bien, defendemos la creencia que algunos postulados causales estan mejor apoyados que otros y que en ciencia, la lógica y experiencia artesanal indican que algunas prácticas son a menudo (no siempre) superiores a otras, para propósitos causales, aun que no necesariamente para otros.
W.R. Shadish,T.D. Cook and D.T. Campbell. (Preface xvii)
El uso de los modelos en el trabajo de investigación se da de acuerdo al esquema:
¿Por que hay aleatoriedad?
1. Complejidad de los fenómenos y no se conoce todos los aspectos y leyes involucradas, pero el mundo es determinado.
2. Hay aleatoriedad intrínseca.
3. Pequeños cambios de condiciones iniciales tienen efectos muy grandes (t. Caos)
Admitir la aleatoriedad. Heisenberg
Rechazar la aleatoriedad. Einstein: “Diós no juega dados”
Bifurcaciones, atractores
No se puede predecir con certeza el resultado de
un estudio o evento
No hay modelos matemáticos que liguen todos los
elementos del fenómeno
ALEATORIEDAD
Para estudiar fenómenos aleatorios se usa la probabilidad
2. Probabilidad clásica o de “juegos”• La probabilidad de un
evento A es el cociente del número de posibles resultados favorables al evento entre el número total de resultados posibles.
totalesresultadosAconresultados
AP_
__)( =
Supone un “espacio muestral” equiprobable. Todos los posibles resultados son igualmente probables. Por esto es “a priori” y “subjetiva”.
Espacio muestral: El conjunto que comprende a todos los resultados posibles
En el mundo no hay espacios equiprobables exactos.
• Probabilidad de “águila” al lanzar una moneda es igual a ½, que resulta de tener un caso favorable entre dos posibles.
• Probabilidad de un número mayor de 4 al lanzar un dado, es 2/6=1/3, ya que el 5 y el 6, dos resultados son mayores que 4, y hay 6 posibles resultados.
• Se dice que debe ser una moneda “ honesta “ o un dado “honesto”. ¿Qué es esto? Que sean igualmente probables los posibles resultados.
• ¿Hay dados y monedas honestos en el mundo?
• ¿Se aplica a aspectos biológicos, sociales, económicos, etc.
2. Probabilidad clásica o de “juegos”
La regularidad estadística consiste en el hecho universalmente observado ,que funciona como un supuesto muy apoyado, que al estudiar un número grande de veces un fenómeno en condiciones constantes (o casi ) las proporciones en las que ocurren los posibles resultados son muy estables (casi no cambian ) .
Es decir, no se puede predecir el resultado al estudiar uno o unos pocos elementos, pero en conjuntos grandes de elementos si es posible la predicción con poco error de las proporciones o porcentajes con los que ocurren los diversos resultados.
3.- MODELACION BASADA EN LA REGULARIDAD ESTADISTICA
J. Bernoulli, Ars Conjectandi, 1713
Muestra aleatoria de n elementos
La proporción de ellos con A es p
La proporción de elementos con A es P
PP
pp Liga con representatividad
Limn→∝
P ¦ p-P¦ < e = 1
Limn→∝
p=P
Población muy grande o infinita, un proceso
A
A
REGULARIDAD ESTADISTICA EN VARIABLES DICOTOMICAS
El valor en el que se estabilizan las proporciones se le conceptualiza como la probabilidad de sobrevida para esos pacientes con esa técnica quirúrgica, la población
1
0
1
0
1
0
1
0
1
0
×
1 n 1 n2
× × × ×
1 n2
×.66
3
.66.5
1 n2 3 4
× ×
××
1 2 3 4
× ×
××
8
× × ××...P(S)Fr
e(S)
Fre(
S)
pocos cambios en la frecuencia
100
p
p
p p
p
Pudo ocurrir así o de otro modo, es impredecible
Predecible
REGULARIDAD ESTADÍSTICAAl estudiar un fenómeno aleatorio muchas veces, en condiciones casi constantes (población), los diferentes resultados ocurren con una proporción estable.
A esa proporción le llamamos probabilidad de cada resultado.
¿Se muere el paciente, dentro del
próximo año?
...
La proporción de pacientes muertos es estable, en la población
¿Se enferma el trabajador?
La proporción de trabajadores que se
enferman es estable en la población
...
...
Regularidad Estadística Variables Categóricas
El auto durante el recorrido de 80,000Km., ¿se descompone de clutch, frenos, motor o no se descompone?
Constancia de Proporciones = Probabilidades
P(F
)
0
0.2
0.4
0.6
0.8
1
FrenosClutchMotorNo
Población de Autos
P1P2
P3P4
-4 -3 -2 -1 0 1 2 3 4
α/2 =0.025 0.4750.475
X = Diámetro del pecho
X
Los diámetros del pecho de los soldados “tienen” distribución normal
Regularidad estadística, base de la probabilidad frecuentista
• Al estudiar un fenómeno muchas veces en condiciones constantes o casi (la población), la frecuencia de los posibles resultados es muy estable.
• La definición de los resultados de interés (espacio muestral) y las condiciones de estudio (población) es subjetiva, sin embargo, los valores en los que se estabilizan las frecuencias relativas o probabilidades son objetivos.
• Para entender, describir y predecir fenómenos aleatorios, se pretende conocer esas probabilidades
Subjetivo:Subjetivo:
1.-Sujetos (elementos en estudio)-
2.- Condiciones
3.- Mediciones
Espacio muestral.
ObjetivoObjetivo::
a).-Dicotómico: Distribución Bernoulli T=P
b).- Politómico Distribución Multinomial T=(P1 P2 Pk)
c).-Conteos. Regularidad de frecuencias estabilizadas. Subjetivo: modelo con Distribución Poissond).-Continuo uni o multivariado, regularidad de frecuencias en intervalos: Subjetivo: Distribución f(x/T)
T= ?
255075100125
Cou
nt
0.03
0.080.10
Pro
babi
lity
63 646566 67 686970 71 7273 74
200
400
600
Cou
nt
0.05
0.15
0.25
Pro
babi
lity
0 1 2 3 4 5 6 7 8
Uso de modelos en la regularidad Uso de modelos en la regularidad estadestadíísticastica
1. Experiencias empíricas previas.2. Consideraciones teóricas sobre la
naturaleza del fenómeno estudiado, y3. Combinaciones de las dos anteriores.4. Simplicidad
Para describir, entender y predecir los fenómenos aleatorios, frecuentemente se recure a postular modelos probabilísticos. Estos pueden haber surgido por tres vías:
)( θxf
FUMAR Y ENFERMEDAD CARDIACARelación causal determinada en forma no experimental
En un estudio de seguimiento por varios años de toda una población de personas, se construyó el modelo logístico que permite concluir, que en hombres de 45 años la probabilidad de ataque cardiaco dentro de 12 años se estima como sigue:
ü 0.03, si no fuma, con presión y colesterol normalesü 0.05. si fuma 20 cigarros al díaü 0.075, si fuma y tiene presión 140/88ü 0.15, si fuma, tiene presión 140/88 y nivel sérico de
colesterol 250 mg/dL
Significancia Estadística¿ Que tanto es tantito?
¿ Cuándo las diferencias entre los datos obtenidos y los esperados bajo un modelo
probabilistico son “grandes”?
Razonamiento de Fisher : Se supone que el modelo es cierto, se evalúa la probabilidad de una discrepancia entre los datos observados y los observados , como la obtenida o aun mayor. Este es el llamado Valor de P. Si la P es menor de .05 , es decir 5%, se considera que el modelo no es compatible con los datos . Se dice las diferencias son significativas
Reaccionamos ante lo improbable
! Es improbable encontrar tres elefantes en la calle !
¿QUE?
La significancia, no demuestra que el modelo sea falso, solo que los datos son incompatibles (poco probables) con ese modelo
0
100
NU
EV
A
0.050
0.100
0.150
0.2000.250
0.300
0.350
0.350
0.400
0.450
20 30 40 50 60
EDAD
P(asma, mv)
413 trabajadores de una industria del cemento, con su historia de trabajo por varios años, se construyó un índice del grado de exposición a los polvos de la caliza y otros componentes del cemento, se le llamó“nueva”. Además la edad de los trabajadores es una variable confusora para la presencia de asma y
otros padecimientos. Estimación de probabilidades de asma en modelo logistico. Se nota claramente la interacción en el “efecto del trabajador sano”
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
Pro
b[co
r.mv]
20 30 40 50 60 70EDAD
Probabilidades de CorazónMáxima Verosimilitud Interacción Edad*Esf*Abu
-Abu
Esf-
EsfAb...
--
800 trabajadores de una empresa siderúrgica. (Datos del Dr. Mariano Noriega, Maestría “Salud en el Trabajo”, UAM-X). Entre varios diagnósticos y varias exigencias de trabajo, se selecciona la relación entre la edad, el trabajo aburrido y con esfuerzos como factores de riesgo (causa) para el diagnóstico de patología del corazón. Esta relación se selecciona por que es donde hay una fuerte interacción triple. Las probabilidades aumentan con la edad pero mucho más si sólo hay trabajo aburrido, un poco menos con sólo esfuerzos y poco con ambos, casi nada cuando no esta ninguna de las dos exigencias. Hay un efectoantagónico, la presencia de ambos riesgos produce menores probabilidades de diagnóstico corazón, que cada uno de ellos por separado