iii verano de probabilidad y estadística...se denomina estadística aplicada al área de la...

65
Algunos Aspectos de Estadística Aplicada Dr. Jorge Armando Argáez Sosa Universidad Autónoma de Yucatán Facultad de Matemáticas [email protected] III Verano de Probabilidad y Estadística

Upload: others

Post on 08-Jan-2020

19 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Algunos Aspectos de Estadística Aplicada

Dr. Jorge Armando Argáez Sosa

Universidad Autónoma de Yucatán

Facultad de Matemáticas

[email protected]

III Verano de Probabilidad y Estadística

Page 2: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

¿Qué es estadística aplicada?

Page 3: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Se denomina estadística aplicada al área de la

estadística que se ocupa de inferir resultados sobre

una población a partir de una o varias muestras.

Es la parte de la estadística que se aplica en cualquier

otra rama externa a ella, como psicología, medicina,

sociología, historia, biología, marketing, etc.

Definición:

Page 4: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

La estadística aplicada se apoya totalmente en la

utilización de paquetes estadísticos que ayudan a

resolver problemas de índole estadística, acortando

dramáticamente los tiempos de resolución.

Es por esto que en muchas facultades se enseña a

utilizar estos programas estadísticos sin que, a

veces, el alumno entienda, ni tenga la necesidad de

entender cómo funcionan.

Continúa…

Page 5: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Sucedió una vez en un examen de

titulación…

Alumno: …entonces apliqué una Regresión Lineal Simple con

variable dependiente el tipo de vegetación y variable

independiente el tipo de suelo.

Sinodal: ¿Cómo pudiste aplicar una RLS a variables nominales?

Alumno: Pues en SPSS en el cuadrito ese que sale cuando le

pides una regresión, seleccioné como dependiente la columna

donde tengo los datos de vegetación y como independiente la

columna donde tengo el tipo de suelo y ya.

Page 6: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Regresando a la definición:

Es la parte de la estadística que se aplica en

cualquier otra rama externa a ella, como

psicología, medicina, sociología, historia,

biología, marketing, etc.

Page 7: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

¿Habrá alguna persona que sepa la teoría y los

aspectos fundamentales de cada una de las ramas

enunciadas en la definición?

…psicología, medicina, sociología, historia, biología,

marketing, etc.

Page 8: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Entonces:

La aplicación de la estadística tiene que darse por

medio de interacción con expertos de las diferentes

áreas en las que se desea aplicar estadística.

Page 9: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Interacción

Acción que se ejerce recíprocamente entre dos o

más objetos, agentes, fuerzas, funciones, etc.

¿Qué es interacción en nuestro

contexto?

Page 10: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Ejemplos de NO interacción

¿Qué tienen en común?

• Aquí están mis datos. Vine a que me ayudes a ver qué

puedo hacer con ellos. (Selección de técnica/modelo)

• Aquí están mis datos. Quiero hacer el análisis ....

¿Cómo lo hago? (Software)

• Aquí están mis datos y ya hice el análisis …. pero no se

interpretarlos. (Interpretación)

• Aquí están mis datos, ya hice el análisis y ya

interpreté…. pero me parece que aún puedo sacarle jugo

a mis datos. (Inventar objetivos)

Page 11: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

¿Dónde interviene el Estadístico?

Definir la cantidad de interés de la cual se

desea hacer inferencia.

Diseñar el experimento.

Obtener una muestra adecuada.

Análisis de los datos.

Interpretación.

Conclusiones.

Page 12: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

En la práctica:

“Ya tengo mis datos”

“To consult statistician after an experiment is finished

is often merely to ask him to conduct a post-mortem

examination. He can perhaps say what the experiment

died of” (R.A. Fisher 1938).

Page 13: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Inferencia estadística

Se contrapone con el concepto de “caja negra”:

a) Métodos sin bases estadísticas (no concepción de probabilidad

ni de cuantificación de incertidumbre).

b) Aplicación de software por personas no entrenadas en

estadística.

c) Procesamiento masivo no monitoreado basado en algoritmos

numéricos.

d) “Aplicaciones” sin usar contexto ni estructura subyacente propia

de la disciplina en la que radica el problema.

Page 14: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Inferencia estadística

Posee las siguientes características:

a) Formulación que reconoce la naturaleza estocástica de

los datos.

b) Claridad del parámetro a estimar.

c) Claridad acerca del proceder de los datos.

d) Cuantificación de la incertidumbre.

Page 15: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

¿Cómo es una Colaboración?

Page 16: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Estadística y Ecología:Distribución geográfica de una especie

México es uno de los cinco países megadiversos en el

mundo (los otros son Brasil, Indonesia, Colombia, y

Australia).

#3 en mamíferos; #1 en cactáceas.

Pregunta ¿Dónde se encuentra localizada una especie

en particular?

Problema planteado por Comisión Nacional para el

Conocimiento y Uso de la Biodiversidad (CONABIO,

www.conabio.gob.mx).

Page 17: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

¿Por qué son de interés las

distribuciones de especies?

• Salud.

• Especies invasoras.

• Conservación de especies.

• Estudio de la evolución de especies.

• Efectos de cambio climático.

• Descubrimiento de nuevas especies.

• …etc.

Page 18: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Mosquito del dengue: Aedes aegypti

Distribución del mosquito=

zonas propensas a dengue

Page 19: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Cactoblastis cactorum

Originario de

Argentina, se

alimenta de la tuna

del nopal.

Page 20: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Predicción matemática de

distribución de

Cactoblastis cactorum

20

Page 21: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Riqueza de especies de Platyopuntia

Opuntia lagunae

Fotografías de la planta y el fruto de Jon Rebman

Fotografía de las flores de George Lindsay

http://www.oceanoasis.org/fieldguide/opun-lag-sp.html

Page 22: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Rojo:

Predicción matemática de

distribución de Cactoblastis

cactorum.

Azul:

Riqueza de especies de Platyopuntia.

Areas vulnerables a Cactoblastis (clima/alimento apropiado)

Page 23: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Empieza la estadística aplicada

Page 24: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Problema

origen

Biología/ecología

Page 25: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Dado esto

Page 26: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Obtener esto

Page 27: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Matemáticas/estadística

Problema

origen

Biología/ecología

Pre-Modelación

Page 28: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Ideas principales para pre-modelación

Los únicos datos disponibles en el campo son presencias.

Formular modelo estadístico que incorpore nociones de

◦ Sesgo en muestreo espacial

◦ Detectabilidad

Parametrizar modelo en términos de probabilidad depresencia.

Existe información a priori.

Desarrollar inferencia estadística para probabilidad depresencia, con base en variables y sitios observados depresencia

◦ Estimaciones

◦ Precisión de estimaciones

Page 29: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Pre-modelación

P(observar en e(s))=P(presencia en e(s))xP(e(s) se visita)xP(detectado)

Datos Probabilidadde presencia.

Es función de e(s). Este es el parámetro de

interés.

Sesgo de muestreo en

variables.Es función de e(s) y sesgo

espacial, el cualse suponeconocido.

Probabilidad de detección.

Se supone conocida.

Page 30: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

“Génesis de datos”

¿Qué significa “ausencia”?

Bases de datos: ¡sólo presencias!

Sesgo de muestreo.

Errores de referencia geográfica (mala letra,

descripción vaga, errores de ortografía).

Errores taxonómicos.

Problemas de resolución.

Datos faltantes.

30

Page 31: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Matemáticas/estadística

Problema

origen

Modelación

Biología/ecología

Pre-Modelación

Page 32: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Problemas estadísticos involucrados

1.- ¿Cómo modelar?

a) Datos con sesgo espacial.

b) Variables en escala discreta.

2.- ¿Cómo dotar al resultado de una medida de

certidumbre?

3.- ¿Cómo involucrar formalmente información a priori en

la inferencia?

Page 33: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Sesgo espacial

Page 34: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o
Page 35: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

0 especie no presente en ( )

1 especie presente en

su s

s1.- Especie presente en el sitio.

2.- Se visita el sitio.

Distribución de sitios de presencia

s1,…,sn

Distribución de puntos en espacio de variables

e(s1),…,e(sn)

3.- Especie es detectada. d = probabilidad detectar presencia de especie.

δ(s) = P(visitar s).

ν(f) = P(visitar f)

{ : ( ) }

1 1 ( )( )s s f

sfe

Modelando: ¿Qué proceso gobierna el registro de un sitio de presencia?

Page 36: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

V = (V1,…,VM) vector de variables seleccionadas por la especie.

Supuesto sobre el que se basa la inferencia:

La especie se establece en sitios donde las variables

satisfacen ciertas condiciones apropiadas para ella.

Page 37: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

P(u(s) = 1) = P(V = e(s)).

Sea0 no se observa presencia en

( )1 se observa presencia en

so s

s

Génesis de sitios de presencia:

P(o(s) = 1) = P(u(s) = 1) ν(e(s)) d.

Supuesto formal:

Page 38: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

M = número de variables en s (en escala discreta).

Ri = número de categorías de la i-ésima variable.

( ) 1,...,i ie s R

e(s) = (e1(s),…,ei(s),…,eM(s)) vector de variables en s.

F = {1,…,R1} {1,…,RM}.

Notación

Page 39: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

s1,…,sn producto de N visitas

F + 1 casillas

f

n N-n( ) ( ) f f d

C( f ) = número de sitios de presencia con e(s) = f.

Los datos se resumen por medio de f FC = (C( f ))

θ( f ) = P(V = f).Parámetro de interés: θ = (θ( f )) f F , donde

Trabajar con θ involucra un problema con datos escasos.

Idea del Modelo

Page 40: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Se consideran las CM,2 parejas de variables.

Supuesto y génesis de sitios de presencia:

P(u(s) = 1 J) = P(VJ = eJ(s) J)

P(o(s) = 1 θJ ,J) = P(VJ = eJ(s) θJ ,J) νJ(e(s)) d.

Sea G = ( , ) : 1a b a b M J G una pareja de variables.y

eJ(s) = (ea(s),eb(s)), VJ = (Va,Vb), FJ = {1,…,Ra} {1,…,Rb}

, CJ = (CJ(g))JG , θJ = (θJ(g))JG{ : ( ) }

( ) 1 1 ( )J

J

s s g

g se

( )J J G

'C C ' ( )J J Gθ θDatos Parámetros

40

Page 41: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Modelo para J ε G.

( )

( )( , ) 1 ( ) ( ) ( ) ( )

J

g FJ J

J J

N c g

c g

J J J J J J J J

g F g F

P J g g d g g dC c θ

Esquema multinomial estándar para eJ(s1),…,eJ(sn):

g

s1,…,sn producto de N visitas

+ 1 casillas

n N-n( ) ( ) J Jg g d

JF

Page 42: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Matemáticas/estadística

Problema

origen

Modelación

Solución

Biología/ecología

Pre-Modelación

Page 43: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

1( ) ( ) ( , ) ( , )J J J J

J G

P J N P J'C c θ c C c θ

( ) : función de masa de probabilidad sobre .J G

( , ) , ( ) : .J J J

f F

N c f Nc c c c

Modelo que se propone

Page 44: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Ley de probabilidad total: ' ' '( ( ) 1 ) ( ( )) , ( )J J

J G

P u s P e s J JC C C

y como' '( ( )) , ( ( )) ,J J J JP e s J E e s JC C

' ' '( ( ) 1 ) ( ( )) , ( ).J J

J G

P u s E e s J JC C C

Probabilidad predictiva de presencia

Inferencia: Probabilidad predictiva

Page 45: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Para cada J: como a priori para θJ .( ) ( )J J Jf Dirθ θ α

De Teorema de Bayes, la posterior conjunta:

( ) ( ) 1 ( )' ( ) ! ( )( , ) 1 ( ) ( ) ( ) ( )

( )! ( )! ( ( ))

J J J

J J

J

N n

c g g c gJJ J J J J

g F g FJ J

g F

J Nf J g g d g g

N n c g gθ C

Page 46: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Matemáticas/estadística

Computación

Problema

origen

Modelación

Solución

Implementación

numérica

Biología/ecología

Pre-Modelación

Page 47: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Para estimar

Métodos MCMC.

'( ) ,JE g JC'y ( ) :J C

SIMULACIÓN

Page 48: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Domain FloraMap

Ejemplo

Page 49: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Matemáticas/estadística

Computación

Problema

origen

Modelación

Solución

Implementación de

software

Implementación

numérica

Biología/ecología

Pre-Modelación

Page 50: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Conclusión

Interdisciplinario=Intersección de disciplinas=Colaboración

Page 51: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Matemáticas/estadística

Computación

Problema

origen

Modelación

Solución

Implementación de

software

Implementación

numérica

Biología/ecología

Pre-Modelación

Ecuaciones

diferenciales

Climatología

Page 52: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Ejemplos gráficos de NO interacción

52

Page 53: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Estadística/probabilidad

Computación

Biología/ecología

“Biólogo que sólo transmite

datos, no información”

“Estadístico que analiza

datos, no el problema”

Page 54: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Estadística/probabilidad

Computación

Biología/ecología

“Biólogo que conoce algo de estadística consulta con

computólogo”

Page 55: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Estadística Estadística

Biología/ecología

“Biólogo que conoce algo de estadística da instrucciones a

estadístico”

Page 56: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Estadística/probabilidad

Computación

Biología/ecología

“Biólogo recurre a paquete

estadístico”

Page 57: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Estadística/probabilidad

Computación

Biología/ecología

“Estadístico que resuelve

correctamente el problema

biológico equivocado”

Page 58: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

¿Cómo se enseña en las aulas?

Hablando de estadística aplicada

Page 59: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o
Page 60: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

¿Estadística aplicada?

Page 61: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

¿Qué se entiende por estadística aplicada?

No es lo mismo analizar DATOS, que analizar el PROBLEMA.

No es lo mismo recibir el PROBLEMA que extraerlo del

USUARIO.

EstadísticoDatosProblemaUsuario

Procesamiento

Modelación

Estadística aplicada / Consultoría

Page 62: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

“Consultoría” vs. “selección de modelos”

No es lo mismo determinar:

¿Cuál es el método estadístico que se requiere para

resolver un problema?

¿Cuál de entre los métodos estadísticos que

conozco, me sirve para resolver el problema?

¿Qué quiere decir “resolver el problema”?

Depende del perfil y capacidad del usuario.

Depende de la necesidad del usuario.

Depende de los datos.

Depende del tiempo disponible.

Page 63: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

¿Cómo enseñar lo anterior?

Ejercicios de adiestramiento.

Experimentos estadísticos.

Lecturas críticas.

Participación en grandes proyectos.

Cursos de consultoría estadística.

Prácticas con “clientes”.

…otros.

Page 64: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

"All models are wrong, but some are useful"

George Box

Page 65: III Verano de Probabilidad y Estadística...Se denomina estadística aplicada al área de la estadística que se ocupa de inferir resultados sobre una población a partir de una o

Gracias por su atención