iii verano de probabilidad y estadística...se denomina estadística aplicada al área de la...
TRANSCRIPT
Algunos Aspectos de Estadística Aplicada
Dr. Jorge Armando Argáez Sosa
Universidad Autónoma de Yucatán
Facultad de Matemáticas
III Verano de Probabilidad y Estadística
¿Qué es estadística aplicada?
Se denomina estadística aplicada al área de la
estadística que se ocupa de inferir resultados sobre
una población a partir de una o varias muestras.
Es la parte de la estadística que se aplica en cualquier
otra rama externa a ella, como psicología, medicina,
sociología, historia, biología, marketing, etc.
Definición:
La estadística aplicada se apoya totalmente en la
utilización de paquetes estadísticos que ayudan a
resolver problemas de índole estadística, acortando
dramáticamente los tiempos de resolución.
Es por esto que en muchas facultades se enseña a
utilizar estos programas estadísticos sin que, a
veces, el alumno entienda, ni tenga la necesidad de
entender cómo funcionan.
Continúa…
Sucedió una vez en un examen de
titulación…
Alumno: …entonces apliqué una Regresión Lineal Simple con
variable dependiente el tipo de vegetación y variable
independiente el tipo de suelo.
Sinodal: ¿Cómo pudiste aplicar una RLS a variables nominales?
Alumno: Pues en SPSS en el cuadrito ese que sale cuando le
pides una regresión, seleccioné como dependiente la columna
donde tengo los datos de vegetación y como independiente la
columna donde tengo el tipo de suelo y ya.
Regresando a la definición:
Es la parte de la estadística que se aplica en
cualquier otra rama externa a ella, como
psicología, medicina, sociología, historia,
biología, marketing, etc.
¿Habrá alguna persona que sepa la teoría y los
aspectos fundamentales de cada una de las ramas
enunciadas en la definición?
…psicología, medicina, sociología, historia, biología,
marketing, etc.
Entonces:
La aplicación de la estadística tiene que darse por
medio de interacción con expertos de las diferentes
áreas en las que se desea aplicar estadística.
Interacción
Acción que se ejerce recíprocamente entre dos o
más objetos, agentes, fuerzas, funciones, etc.
¿Qué es interacción en nuestro
contexto?
Ejemplos de NO interacción
¿Qué tienen en común?
• Aquí están mis datos. Vine a que me ayudes a ver qué
puedo hacer con ellos. (Selección de técnica/modelo)
• Aquí están mis datos. Quiero hacer el análisis ....
¿Cómo lo hago? (Software)
• Aquí están mis datos y ya hice el análisis …. pero no se
interpretarlos. (Interpretación)
• Aquí están mis datos, ya hice el análisis y ya
interpreté…. pero me parece que aún puedo sacarle jugo
a mis datos. (Inventar objetivos)
¿Dónde interviene el Estadístico?
Definir la cantidad de interés de la cual se
desea hacer inferencia.
Diseñar el experimento.
Obtener una muestra adecuada.
Análisis de los datos.
Interpretación.
Conclusiones.
En la práctica:
“Ya tengo mis datos”
“To consult statistician after an experiment is finished
is often merely to ask him to conduct a post-mortem
examination. He can perhaps say what the experiment
died of” (R.A. Fisher 1938).
Inferencia estadística
Se contrapone con el concepto de “caja negra”:
a) Métodos sin bases estadísticas (no concepción de probabilidad
ni de cuantificación de incertidumbre).
b) Aplicación de software por personas no entrenadas en
estadística.
c) Procesamiento masivo no monitoreado basado en algoritmos
numéricos.
d) “Aplicaciones” sin usar contexto ni estructura subyacente propia
de la disciplina en la que radica el problema.
Inferencia estadística
Posee las siguientes características:
a) Formulación que reconoce la naturaleza estocástica de
los datos.
b) Claridad del parámetro a estimar.
c) Claridad acerca del proceder de los datos.
d) Cuantificación de la incertidumbre.
¿Cómo es una Colaboración?
Estadística y Ecología:Distribución geográfica de una especie
México es uno de los cinco países megadiversos en el
mundo (los otros son Brasil, Indonesia, Colombia, y
Australia).
#3 en mamíferos; #1 en cactáceas.
Pregunta ¿Dónde se encuentra localizada una especie
en particular?
Problema planteado por Comisión Nacional para el
Conocimiento y Uso de la Biodiversidad (CONABIO,
www.conabio.gob.mx).
¿Por qué son de interés las
distribuciones de especies?
• Salud.
• Especies invasoras.
• Conservación de especies.
• Estudio de la evolución de especies.
• Efectos de cambio climático.
• Descubrimiento de nuevas especies.
• …etc.
Mosquito del dengue: Aedes aegypti
Distribución del mosquito=
zonas propensas a dengue
Cactoblastis cactorum
Originario de
Argentina, se
alimenta de la tuna
del nopal.
Predicción matemática de
distribución de
Cactoblastis cactorum
20
Riqueza de especies de Platyopuntia
Opuntia lagunae
Fotografías de la planta y el fruto de Jon Rebman
Fotografía de las flores de George Lindsay
http://www.oceanoasis.org/fieldguide/opun-lag-sp.html
Rojo:
Predicción matemática de
distribución de Cactoblastis
cactorum.
Azul:
Riqueza de especies de Platyopuntia.
Areas vulnerables a Cactoblastis (clima/alimento apropiado)
Empieza la estadística aplicada
Problema
origen
Biología/ecología
Dado esto
Obtener esto
Matemáticas/estadística
Problema
origen
Biología/ecología
Pre-Modelación
Ideas principales para pre-modelación
Los únicos datos disponibles en el campo son presencias.
Formular modelo estadístico que incorpore nociones de
◦ Sesgo en muestreo espacial
◦ Detectabilidad
Parametrizar modelo en términos de probabilidad depresencia.
Existe información a priori.
Desarrollar inferencia estadística para probabilidad depresencia, con base en variables y sitios observados depresencia
◦ Estimaciones
◦ Precisión de estimaciones
Pre-modelación
P(observar en e(s))=P(presencia en e(s))xP(e(s) se visita)xP(detectado)
Datos Probabilidadde presencia.
Es función de e(s). Este es el parámetro de
interés.
Sesgo de muestreo en
variables.Es función de e(s) y sesgo
espacial, el cualse suponeconocido.
Probabilidad de detección.
Se supone conocida.
“Génesis de datos”
¿Qué significa “ausencia”?
Bases de datos: ¡sólo presencias!
Sesgo de muestreo.
Errores de referencia geográfica (mala letra,
descripción vaga, errores de ortografía).
Errores taxonómicos.
Problemas de resolución.
Datos faltantes.
30
Matemáticas/estadística
Problema
origen
Modelación
Biología/ecología
Pre-Modelación
Problemas estadísticos involucrados
1.- ¿Cómo modelar?
a) Datos con sesgo espacial.
b) Variables en escala discreta.
2.- ¿Cómo dotar al resultado de una medida de
certidumbre?
3.- ¿Cómo involucrar formalmente información a priori en
la inferencia?
Sesgo espacial
0 especie no presente en ( )
1 especie presente en
su s
s1.- Especie presente en el sitio.
2.- Se visita el sitio.
Distribución de sitios de presencia
s1,…,sn
Distribución de puntos en espacio de variables
e(s1),…,e(sn)
3.- Especie es detectada. d = probabilidad detectar presencia de especie.
δ(s) = P(visitar s).
ν(f) = P(visitar f)
{ : ( ) }
1 1 ( )( )s s f
sfe
Modelando: ¿Qué proceso gobierna el registro de un sitio de presencia?
V = (V1,…,VM) vector de variables seleccionadas por la especie.
Supuesto sobre el que se basa la inferencia:
La especie se establece en sitios donde las variables
satisfacen ciertas condiciones apropiadas para ella.
P(u(s) = 1) = P(V = e(s)).
Sea0 no se observa presencia en
( )1 se observa presencia en
so s
s
Génesis de sitios de presencia:
P(o(s) = 1) = P(u(s) = 1) ν(e(s)) d.
Supuesto formal:
M = número de variables en s (en escala discreta).
Ri = número de categorías de la i-ésima variable.
( ) 1,...,i ie s R
e(s) = (e1(s),…,ei(s),…,eM(s)) vector de variables en s.
F = {1,…,R1} {1,…,RM}.
Notación
s1,…,sn producto de N visitas
F + 1 casillas
f
n N-n( ) ( ) f f d
C( f ) = número de sitios de presencia con e(s) = f.
Los datos se resumen por medio de f FC = (C( f ))
θ( f ) = P(V = f).Parámetro de interés: θ = (θ( f )) f F , donde
Trabajar con θ involucra un problema con datos escasos.
Idea del Modelo
Se consideran las CM,2 parejas de variables.
Supuesto y génesis de sitios de presencia:
P(u(s) = 1 J) = P(VJ = eJ(s) J)
P(o(s) = 1 θJ ,J) = P(VJ = eJ(s) θJ ,J) νJ(e(s)) d.
Sea G = ( , ) : 1a b a b M J G una pareja de variables.y
eJ(s) = (ea(s),eb(s)), VJ = (Va,Vb), FJ = {1,…,Ra} {1,…,Rb}
, CJ = (CJ(g))JG , θJ = (θJ(g))JG{ : ( ) }
( ) 1 1 ( )J
J
s s g
g se
( )J J G
'C C ' ( )J J Gθ θDatos Parámetros
40
Modelo para J ε G.
( )
( )( , ) 1 ( ) ( ) ( ) ( )
J
g FJ J
J J
N c g
c g
J J J J J J J J
g F g F
P J g g d g g dC c θ
Esquema multinomial estándar para eJ(s1),…,eJ(sn):
g
s1,…,sn producto de N visitas
+ 1 casillas
n N-n( ) ( ) J Jg g d
JF
Matemáticas/estadística
Problema
origen
Modelación
Solución
Biología/ecología
Pre-Modelación
1( ) ( ) ( , ) ( , )J J J J
J G
P J N P J'C c θ c C c θ
( ) : función de masa de probabilidad sobre .J G
( , ) , ( ) : .J J J
f F
N c f Nc c c c
Modelo que se propone
Ley de probabilidad total: ' ' '( ( ) 1 ) ( ( )) , ( )J J
J G
P u s P e s J JC C C
y como' '( ( )) , ( ( )) ,J J J JP e s J E e s JC C
' ' '( ( ) 1 ) ( ( )) , ( ).J J
J G
P u s E e s J JC C C
Probabilidad predictiva de presencia
Inferencia: Probabilidad predictiva
Para cada J: como a priori para θJ .( ) ( )J J Jf Dirθ θ α
De Teorema de Bayes, la posterior conjunta:
( ) ( ) 1 ( )' ( ) ! ( )( , ) 1 ( ) ( ) ( ) ( )
( )! ( )! ( ( ))
J J J
J J
J
N n
c g g c gJJ J J J J
g F g FJ J
g F
J Nf J g g d g g
N n c g gθ C
Matemáticas/estadística
Computación
Problema
origen
Modelación
Solución
Implementación
numérica
Biología/ecología
Pre-Modelación
Para estimar
Métodos MCMC.
'( ) ,JE g JC'y ( ) :J C
SIMULACIÓN
Domain FloraMap
Ejemplo
Matemáticas/estadística
Computación
Problema
origen
Modelación
Solución
Implementación de
software
Implementación
numérica
Biología/ecología
Pre-Modelación
Conclusión
Interdisciplinario=Intersección de disciplinas=Colaboración
Matemáticas/estadística
Computación
Problema
origen
Modelación
Solución
Implementación de
software
Implementación
numérica
Biología/ecología
Pre-Modelación
Ecuaciones
diferenciales
Climatología
Ejemplos gráficos de NO interacción
52
Estadística/probabilidad
Computación
Biología/ecología
“Biólogo que sólo transmite
datos, no información”
“Estadístico que analiza
datos, no el problema”
Estadística/probabilidad
Computación
Biología/ecología
“Biólogo que conoce algo de estadística consulta con
computólogo”
Estadística Estadística
Biología/ecología
“Biólogo que conoce algo de estadística da instrucciones a
estadístico”
Estadística/probabilidad
Computación
Biología/ecología
“Biólogo recurre a paquete
estadístico”
Estadística/probabilidad
Computación
Biología/ecología
“Estadístico que resuelve
correctamente el problema
biológico equivocado”
¿Cómo se enseña en las aulas?
Hablando de estadística aplicada
¿Estadística aplicada?
¿Qué se entiende por estadística aplicada?
No es lo mismo analizar DATOS, que analizar el PROBLEMA.
No es lo mismo recibir el PROBLEMA que extraerlo del
USUARIO.
EstadísticoDatosProblemaUsuario
Procesamiento
Modelación
Estadística aplicada / Consultoría
“Consultoría” vs. “selección de modelos”
No es lo mismo determinar:
¿Cuál es el método estadístico que se requiere para
resolver un problema?
¿Cuál de entre los métodos estadísticos que
conozco, me sirve para resolver el problema?
¿Qué quiere decir “resolver el problema”?
Depende del perfil y capacidad del usuario.
Depende de la necesidad del usuario.
Depende de los datos.
Depende del tiempo disponible.
¿Cómo enseñar lo anterior?
Ejercicios de adiestramiento.
Experimentos estadísticos.
Lecturas críticas.
Participación en grandes proyectos.
Cursos de consultoría estadística.
Prácticas con “clientes”.
…otros.
"All models are wrong, but some are useful"
George Box
Gracias por su atención