estadistica y machine learning para todos

Estadística y Machine Learning para Todos...TODOS!

Terminología, casos de uso, herramientas y caminos para poner un pié en la Ciencia de Datos en México.

Objetivos

Que sepan cómo desmenuzar estadísticamente una aseveración.

Que sepan qué es el aprendizaje automático y sus partes.

Que sepan para qué sirve el aprendizaje automático.

Que sepan por qué es importante para México ponerse chingón en aprendizaje automático.

Las noticias

Declaración típica de político:

El enfoque periodísitico● Comparar último mes del

PAN vs 1er mes del PRI.

● El PRI tiene mayor

número de sentencias.

● Pero luego bajan

rápidamente.

● Por tanto...

El enfoque periodísitico● Comparar último mes del

PAN vs 1er mes del PRI.

● El PRI tiene mayor

número de sentencias.

● Pero luego bajan

rápidamente.

● Por tanto...

El enfoque estadístico

media(PAN)

media(PRI)● Sacamos medias

del histórico

● PAN = 9480.33PRI = 11590

● Son diferentes?

● Son significativamente diferentes?

El enfoque estadísticoSacamos histograma

Fijamos distribución

El enfoque estadísticoSacamos histograma

Fijamos distribución

Probamos hipótesis: calculamos la probabilidad de que la diferencia entre muestras sea debido al azar (hipótesis nula), o si es debido al factor que se está explorando (hipótesis alterna).

El enfoque estadísticoProbamos hipótesis: calculamos la probabilidad de que la diferencia entre muestras sea debido al azar (hipótesis nula), o si es debido al factor que se está explorando (hipótesis alterna).

Con 95% de confianza!

No hay suficiente evidencia de que la diferencia entre muestras sea debido al factor explorado. Investígale mucho más!

Si hay suficiente evidencia de que la diferencia entre muestras sea debido al factor explorado. Investígale poquito más!

El enfoque estadísticoCómo investigamos más?

Controlando por factores!

Volviendo a probar hipótesis.

"Diseño de experimentos"

Sentencias consignatorias…

Por partidoPor estadoPor añoPor antigüedad en el cargoPor nivel administrativoPor dependencia gubernamental

Si todos los experimentos confirman el efecto del factor que exploramos, BINGO!

Qué hueva! Como automatizo?

Qué es Machine Learning?

Máquina

Programa

Contexto

Resultado de negocio

Proyectos de Software

Qué es Machine Learning?

Máquina

Contexto

Programa

Proyectos de Machine Learning

Tipos de Machine Learning

Máquina

Contexto

Programa

Supervisado

MáquinaDatos

Contexto

Programa

No-supervisado

MáquinaDatos

Contexto

Programa

ReinforcementResultado de negocio

Objetivo

Identificar patrones equivocándose lo menor posible.

Cómo lo logra?

Balanceando componentes del error: sesgo + varianza.

Ejemplo

Posible sesgo de la muestra

Sesgo de selección Varianza del fenómeno

Cómo balanceamos?

A mayor número de variables, mayor complejidad.

También mayor varianza.

Y menor sesgo.

Cómo balanceamos?

Más/menos variables

Mayor variables, mayor complejidad.

Más/menos renglones

Mayor num de renglones DE LAS VARIABLES CORRECTAS, menor sesgo.

CONTEXTO!

Usos de Machine Learning

Clasificación

Partir el espacio de datos en N categorías con funciones.

Regresión

Función que se ajuste al espacio de datos.

Agrupamiento/Clustering

No supervisado!

Descubrimiento de grupos emergentes.

Reducción de dimensionalidad

Proyectar el espacio de datos a una sola dimensión y evaluar pérdida de información.

Y cómo lo aplico al ejemplo?

1. Definición del problema

2. Recolección y exploración de datos

3. Inferencia Estadística

4. Construcción del modelo

5. Selección del modelo.

Queremos ver si EPN miente?

Si sus fuentes mienten?

Si su comunicación es efectiva?

O si El Sabueso opera bien su metodología?

Queremos emular y validar la metodología de El Sabueso.

Dependencia Nivel Motivo

Valor Inicial Valor final Fecha comparación

Valor de Verdad

Queremos emular y validar la metodología de El Sabueso.

Valor de Verdad

PREDICTORES

OBJETIVO

Conocer efecto de las variables seleccionadas en la variable objetivo.

Valor de Verdad

Conocer efecto de las variables seleccionadas en la variable objetivo.

SSP V Informe 13,000 18,000 ~2018 Falso

SE CONAGO 12.5 11.2 ~2016 Mayormente F

SHCP Inauguración 8 10 ~2018 No se puede

probar

SEDESOL Visita 4mmdp 6.5mmdp ~2018 Engañoso

Llevándolo a Producción

Labor entre la Ingeniería de Datos y la Ciencia de Datos

Modelo

● Tolerancia a fallos● 1000 hits por minuto● Seguridad● Monitoreo

Cómo anda MX en esto?

113K Ingenieros de Software al año.

350 Matemáticos, actuarios, físicos y estadísticos.

No se conoce la diferencia entre Data Scientist (DS) y Data Engineer (DE).

Tenemos miles de Data Engineers chingones.

No tenemos casi Científicos de Datos.

Tenemos muchos DE queriendo ser DS cuando no saben ni proba.

Qué puede salir mal?

Telco importante dando créditos a sospechosos criminales.

Empresa importante de internet no le atina a predicción de AH1N1.

Gran empresa de software crea un bot sexualmente cargado y racista.

Empresa de internet clasifica foto de 2 afroamericanos como gorilas.

Crisis financiera de 2008.

Victoria de Trump.

Debe México convertirse en un hub de Ciencia de Datos?La frontera norte se cierra a nuestros productos y servicios.

Poco petróleo, y a precio muy bajo.

Corrupción rampante.

Mercado interno débil.

Variables macroeconómicas malas.

La "mano de obra barata" no será relevante en la era de la automatización.

Cómo pueden ayudar?

Entra a un programa académico completo.

Regresa a la escuela a aprender mates.

Usa la educación abierta en internet para hacer tu propia maestría.

Únete a grupos profesionales.

Únete a comunidades.

Mates aplicadas @ ITAM, UNAM, IPN

Física @ UNAM

Economía @ ITAM, UNAM

MSc Ciencia de Datos @ ITAM

MSc Inteligencia Analítica @ UAnáhuac

Programas académicos en MX*

* Evaluación de 63 candidatos para posiciones de Ciencia de Datos en Bolsa Mexicana de Valores, GBM, TERAN/TBWA, Klustera, Globant, OPI y ConCrédito.

Intro to Mathematical Thinking: Stanford + Coursera

Intro to Logic: Stanford + Coursera

Business Analytics: Wharton + Coursera

Data Science Specialization: JHU + Coursera

Machine Learning: Stanford + Coursera

Executive Data Science: JHU + Coursera

"Hága su propia maestría"*

Sociedad de Científicos de Datos de MéxicoGrupo más académico.

SocialTICMenos Ciencia, más visualización, periodismo e infoactivismo.

Instituto Internacional de Ciencia de DatosMás governance y proyectos "empresariales".

Grupos Profesionales

The Data Pub (FB: /thedatapub, TW: @thedatapub)

2500 miembros. Meetups cada último Jueves del mes.

Presentamos 2 proyectos donde el negocio o la vida humana sean primero, las mates segundo, y la tecnología tercero.

Cursos de Stats & Machine Learning para Developers.

Job posting - porque sigue habiendo confusión entre DS y DE.

Badges - porque los endorsements de LinkedIn son "la hoguera de las vanidades".

Comunidades

Grax!@xuxoramosjesus@datank.aiLinkedInGithubFB

estadistica y machine learning para todos

Data & Analytics

aplicación de técnicas de machine learning con

machine learning: evaluación de hipótesis

modelos de machine learning para el análisis y pronóstico

modelo predictivo. machine learning aplicado al …

evaluaciÓn de algoritmos de machine learning para …

data mining practical machine learning tools and techniques...

reconstrucción de imágenes tomográficas mediante machine...

machine learning: una muestra de distintas aplicaciones

la tecnología de protección multicapa, el machine learning

desarrollo de soluciones con machine learning ·...

técnicas de machine learning para conducción

proyecto de grado aplicaciÓn del machine learning y …

machine learning en kubernetes: cÓmo predecir la

aplicaciÓn de la tÉcnica machine learning al desarrollo de

cómo la ia y el machine learning están redifiniendo la

diseño y aplicación de técnicas de machine learning para

machine learning: ¿caminos? a donde vamos, no necesitamos...

aplicación de machine learning en el mantenimiento

introducción a machine learning

aprendizaje profundo localmente ponderado · aprendizaje...