iii verano de probabilidad y estadística...se denomina estadística aplicada al área de la...

Post on 08-Jan-2020

19 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Algunos Aspectos de Estadística Aplicada

Dr. Jorge Armando Argáez Sosa

Universidad Autónoma de Yucatán

Facultad de Matemáticas

argasosa@uady.mx

III Verano de Probabilidad y Estadística

¿Qué es estadística aplicada?

Se denomina estadística aplicada al área de la

estadística que se ocupa de inferir resultados sobre

una población a partir de una o varias muestras.

Es la parte de la estadística que se aplica en cualquier

otra rama externa a ella, como psicología, medicina,

sociología, historia, biología, marketing, etc.

Definición:

La estadística aplicada se apoya totalmente en la

utilización de paquetes estadísticos que ayudan a

resolver problemas de índole estadística, acortando

dramáticamente los tiempos de resolución.

Es por esto que en muchas facultades se enseña a

utilizar estos programas estadísticos sin que, a

veces, el alumno entienda, ni tenga la necesidad de

entender cómo funcionan.

Continúa…

Sucedió una vez en un examen de

titulación…

Alumno: …entonces apliqué una Regresión Lineal Simple con

variable dependiente el tipo de vegetación y variable

independiente el tipo de suelo.

Sinodal: ¿Cómo pudiste aplicar una RLS a variables nominales?

Alumno: Pues en SPSS en el cuadrito ese que sale cuando le

pides una regresión, seleccioné como dependiente la columna

donde tengo los datos de vegetación y como independiente la

columna donde tengo el tipo de suelo y ya.

Regresando a la definición:

Es la parte de la estadística que se aplica en

cualquier otra rama externa a ella, como

psicología, medicina, sociología, historia,

biología, marketing, etc.

¿Habrá alguna persona que sepa la teoría y los

aspectos fundamentales de cada una de las ramas

enunciadas en la definición?

…psicología, medicina, sociología, historia, biología,

marketing, etc.

Entonces:

La aplicación de la estadística tiene que darse por

medio de interacción con expertos de las diferentes

áreas en las que se desea aplicar estadística.

Interacción

Acción que se ejerce recíprocamente entre dos o

más objetos, agentes, fuerzas, funciones, etc.

¿Qué es interacción en nuestro

contexto?

Ejemplos de NO interacción

¿Qué tienen en común?

• Aquí están mis datos. Vine a que me ayudes a ver qué

puedo hacer con ellos. (Selección de técnica/modelo)

• Aquí están mis datos. Quiero hacer el análisis ....

¿Cómo lo hago? (Software)

• Aquí están mis datos y ya hice el análisis …. pero no se

interpretarlos. (Interpretación)

• Aquí están mis datos, ya hice el análisis y ya

interpreté…. pero me parece que aún puedo sacarle jugo

a mis datos. (Inventar objetivos)

¿Dónde interviene el Estadístico?

Definir la cantidad de interés de la cual se

desea hacer inferencia.

Diseñar el experimento.

Obtener una muestra adecuada.

Análisis de los datos.

Interpretación.

Conclusiones.

En la práctica:

“Ya tengo mis datos”

“To consult statistician after an experiment is finished

is often merely to ask him to conduct a post-mortem

examination. He can perhaps say what the experiment

died of” (R.A. Fisher 1938).

Inferencia estadística

Se contrapone con el concepto de “caja negra”:

a) Métodos sin bases estadísticas (no concepción de probabilidad

ni de cuantificación de incertidumbre).

b) Aplicación de software por personas no entrenadas en

estadística.

c) Procesamiento masivo no monitoreado basado en algoritmos

numéricos.

d) “Aplicaciones” sin usar contexto ni estructura subyacente propia

de la disciplina en la que radica el problema.

Inferencia estadística

Posee las siguientes características:

a) Formulación que reconoce la naturaleza estocástica de

los datos.

b) Claridad del parámetro a estimar.

c) Claridad acerca del proceder de los datos.

d) Cuantificación de la incertidumbre.

¿Cómo es una Colaboración?

Estadística y Ecología:Distribución geográfica de una especie

México es uno de los cinco países megadiversos en el

mundo (los otros son Brasil, Indonesia, Colombia, y

Australia).

#3 en mamíferos; #1 en cactáceas.

Pregunta ¿Dónde se encuentra localizada una especie

en particular?

Problema planteado por Comisión Nacional para el

Conocimiento y Uso de la Biodiversidad (CONABIO,

www.conabio.gob.mx).

¿Por qué son de interés las

distribuciones de especies?

• Salud.

• Especies invasoras.

• Conservación de especies.

• Estudio de la evolución de especies.

• Efectos de cambio climático.

• Descubrimiento de nuevas especies.

• …etc.

Mosquito del dengue: Aedes aegypti

Distribución del mosquito=

zonas propensas a dengue

Cactoblastis cactorum

Originario de

Argentina, se

alimenta de la tuna

del nopal.

Predicción matemática de

distribución de

Cactoblastis cactorum

20

Riqueza de especies de Platyopuntia

Opuntia lagunae

Fotografías de la planta y el fruto de Jon Rebman

Fotografía de las flores de George Lindsay

http://www.oceanoasis.org/fieldguide/opun-lag-sp.html

Rojo:

Predicción matemática de

distribución de Cactoblastis

cactorum.

Azul:

Riqueza de especies de Platyopuntia.

Areas vulnerables a Cactoblastis (clima/alimento apropiado)

Empieza la estadística aplicada

Problema

origen

Biología/ecología

Dado esto

Obtener esto

Matemáticas/estadística

Problema

origen

Biología/ecología

Pre-Modelación

Ideas principales para pre-modelación

Los únicos datos disponibles en el campo son presencias.

Formular modelo estadístico que incorpore nociones de

◦ Sesgo en muestreo espacial

◦ Detectabilidad

Parametrizar modelo en términos de probabilidad depresencia.

Existe información a priori.

Desarrollar inferencia estadística para probabilidad depresencia, con base en variables y sitios observados depresencia

◦ Estimaciones

◦ Precisión de estimaciones

Pre-modelación

P(observar en e(s))=P(presencia en e(s))xP(e(s) se visita)xP(detectado)

Datos Probabilidadde presencia.

Es función de e(s). Este es el parámetro de

interés.

Sesgo de muestreo en

variables.Es función de e(s) y sesgo

espacial, el cualse suponeconocido.

Probabilidad de detección.

Se supone conocida.

“Génesis de datos”

¿Qué significa “ausencia”?

Bases de datos: ¡sólo presencias!

Sesgo de muestreo.

Errores de referencia geográfica (mala letra,

descripción vaga, errores de ortografía).

Errores taxonómicos.

Problemas de resolución.

Datos faltantes.

30

Matemáticas/estadística

Problema

origen

Modelación

Biología/ecología

Pre-Modelación

Problemas estadísticos involucrados

1.- ¿Cómo modelar?

a) Datos con sesgo espacial.

b) Variables en escala discreta.

2.- ¿Cómo dotar al resultado de una medida de

certidumbre?

3.- ¿Cómo involucrar formalmente información a priori en

la inferencia?

Sesgo espacial

0 especie no presente en ( )

1 especie presente en

su s

s1.- Especie presente en el sitio.

2.- Se visita el sitio.

Distribución de sitios de presencia

s1,…,sn

Distribución de puntos en espacio de variables

e(s1),…,e(sn)

3.- Especie es detectada. d = probabilidad detectar presencia de especie.

δ(s) = P(visitar s).

ν(f) = P(visitar f)

{ : ( ) }

1 1 ( )( )s s f

sfe

Modelando: ¿Qué proceso gobierna el registro de un sitio de presencia?

V = (V1,…,VM) vector de variables seleccionadas por la especie.

Supuesto sobre el que se basa la inferencia:

La especie se establece en sitios donde las variables

satisfacen ciertas condiciones apropiadas para ella.

P(u(s) = 1) = P(V = e(s)).

Sea0 no se observa presencia en

( )1 se observa presencia en

so s

s

Génesis de sitios de presencia:

P(o(s) = 1) = P(u(s) = 1) ν(e(s)) d.

Supuesto formal:

M = número de variables en s (en escala discreta).

Ri = número de categorías de la i-ésima variable.

( ) 1,...,i ie s R

e(s) = (e1(s),…,ei(s),…,eM(s)) vector de variables en s.

F = {1,…,R1} {1,…,RM}.

Notación

s1,…,sn producto de N visitas

F + 1 casillas

f

n N-n( ) ( ) f f d

C( f ) = número de sitios de presencia con e(s) = f.

Los datos se resumen por medio de f FC = (C( f ))

θ( f ) = P(V = f).Parámetro de interés: θ = (θ( f )) f F , donde

Trabajar con θ involucra un problema con datos escasos.

Idea del Modelo

Se consideran las CM,2 parejas de variables.

Supuesto y génesis de sitios de presencia:

P(u(s) = 1 J) = P(VJ = eJ(s) J)

P(o(s) = 1 θJ ,J) = P(VJ = eJ(s) θJ ,J) νJ(e(s)) d.

Sea G = ( , ) : 1a b a b M J G una pareja de variables.y

eJ(s) = (ea(s),eb(s)), VJ = (Va,Vb), FJ = {1,…,Ra} {1,…,Rb}

, CJ = (CJ(g))JG , θJ = (θJ(g))JG{ : ( ) }

( ) 1 1 ( )J

J

s s g

g se

( )J J G

'C C ' ( )J J Gθ θDatos Parámetros

40

Modelo para J ε G.

( )

( )( , ) 1 ( ) ( ) ( ) ( )

J

g FJ J

J J

N c g

c g

J J J J J J J J

g F g F

P J g g d g g dC c θ

Esquema multinomial estándar para eJ(s1),…,eJ(sn):

g

s1,…,sn producto de N visitas

+ 1 casillas

n N-n( ) ( ) J Jg g d

JF

Matemáticas/estadística

Problema

origen

Modelación

Solución

Biología/ecología

Pre-Modelación

1( ) ( ) ( , ) ( , )J J J J

J G

P J N P J'C c θ c C c θ

( ) : función de masa de probabilidad sobre .J G

( , ) , ( ) : .J J J

f F

N c f Nc c c c

Modelo que se propone

Ley de probabilidad total: ' ' '( ( ) 1 ) ( ( )) , ( )J J

J G

P u s P e s J JC C C

y como' '( ( )) , ( ( )) ,J J J JP e s J E e s JC C

' ' '( ( ) 1 ) ( ( )) , ( ).J J

J G

P u s E e s J JC C C

Probabilidad predictiva de presencia

Inferencia: Probabilidad predictiva

Para cada J: como a priori para θJ .( ) ( )J J Jf Dirθ θ α

De Teorema de Bayes, la posterior conjunta:

( ) ( ) 1 ( )' ( ) ! ( )( , ) 1 ( ) ( ) ( ) ( )

( )! ( )! ( ( ))

J J J

J J

J

N n

c g g c gJJ J J J J

g F g FJ J

g F

J Nf J g g d g g

N n c g gθ C

Matemáticas/estadística

Computación

Problema

origen

Modelación

Solución

Implementación

numérica

Biología/ecología

Pre-Modelación

Para estimar

Métodos MCMC.

'( ) ,JE g JC'y ( ) :J C

SIMULACIÓN

Domain FloraMap

Ejemplo

Matemáticas/estadística

Computación

Problema

origen

Modelación

Solución

Implementación de

software

Implementación

numérica

Biología/ecología

Pre-Modelación

Conclusión

Interdisciplinario=Intersección de disciplinas=Colaboración

Matemáticas/estadística

Computación

Problema

origen

Modelación

Solución

Implementación de

software

Implementación

numérica

Biología/ecología

Pre-Modelación

Ecuaciones

diferenciales

Climatología

Ejemplos gráficos de NO interacción

52

Estadística/probabilidad

Computación

Biología/ecología

“Biólogo que sólo transmite

datos, no información”

“Estadístico que analiza

datos, no el problema”

Estadística/probabilidad

Computación

Biología/ecología

“Biólogo que conoce algo de estadística consulta con

computólogo”

Estadística Estadística

Biología/ecología

“Biólogo que conoce algo de estadística da instrucciones a

estadístico”

Estadística/probabilidad

Computación

Biología/ecología

“Biólogo recurre a paquete

estadístico”

Estadística/probabilidad

Computación

Biología/ecología

“Estadístico que resuelve

correctamente el problema

biológico equivocado”

¿Cómo se enseña en las aulas?

Hablando de estadística aplicada

¿Estadística aplicada?

¿Qué se entiende por estadística aplicada?

No es lo mismo analizar DATOS, que analizar el PROBLEMA.

No es lo mismo recibir el PROBLEMA que extraerlo del

USUARIO.

EstadísticoDatosProblemaUsuario

Procesamiento

Modelación

Estadística aplicada / Consultoría

“Consultoría” vs. “selección de modelos”

No es lo mismo determinar:

¿Cuál es el método estadístico que se requiere para

resolver un problema?

¿Cuál de entre los métodos estadísticos que

conozco, me sirve para resolver el problema?

¿Qué quiere decir “resolver el problema”?

Depende del perfil y capacidad del usuario.

Depende de la necesidad del usuario.

Depende de los datos.

Depende del tiempo disponible.

¿Cómo enseñar lo anterior?

Ejercicios de adiestramiento.

Experimentos estadísticos.

Lecturas críticas.

Participación en grandes proyectos.

Cursos de consultoría estadística.

Prácticas con “clientes”.

…otros.

"All models are wrong, but some are useful"

George Box

Gracias por su atención

top related