nowcasting, sociedades para nuevas formas de organización
TRANSCRIPT
Nowcasting, sociedades para nuevas formas de organización
Esteban Moro@estebanmoro
@estebanmoro
@estebanmoro
> Big Data, Better answers Mejorar problemas que ya tenían respuesta Gran escala, tiempo real (nowcasting/forecasting)
> Big data, Big new questions Responder a problemas que no tenían respuesta > Implicaciones/Problemas
@estebanmoro
1. Entender mejor nuestra sociedad/economía
@estebanmoro
@estebanmoro
Nowcasting/forecasting de desempleo¿Qué comportamientos en las redes sociales reflejan el desempleo de una zona?
−3.7 −3.6 −3.5 −3.4 −3.3
40.40
40.45
40.50
40.55
tabla$lon[ii]
tabla$lat[ii]
−3.7 −3.6 −3.5 −3.4 −3.3
40.40
40.45
40.50
40.55
tabla$lon[jj]
tabla$lat[jj]
Trabajando En paro
Menor movilidad geográfica, más probabilidad de estar en paro
10km
@estebanmoro
Nowcasting/forecasting de desempleo¿Qué comportamientos en las redes sociales reflejan el desempleo de una zona?
http://portal.uc3m.es/portal/page/portal/actualidad_cientifica/noticias/conversacion_politica_en_twitter
Torrijos, 26% paroSobrarbe, 7% paro
2
4
6
8
5 10 15 20hour
fraction
0 4 8 12 16 20
2%
Frac
ción
de tw
eets
4%
6%
8%
Hora
@estebanmoro
Nowcasting/forecasting de desempleo
¿Qué comportamientos en las redes sociales reflejan el desempleo de una zona?
http://portal.uc3m.es/portal/page/portal/actualidad_cientifica/noticias/conversacion_politica_en_twitter
x
y
5 10 15 20 25
510
1520
25
% Unemployment (real)
% U
nem
ploy
men
t (pr
edict
ed)
Penetración
Disparidad social
Actividad por la mañana
Número de “misspellers”
Menciones a la “empleo”
0 10 20 30 40% weight in the model
@estebanmoro
Nowcasting de enfermedades/síntomasCorrelación entre opiniones en redes sociales y comportamientos relacionados con la salud
60 80 100 120 140
0100
200
300
tagl[, 1]
(tagl
[, 3]
/tagl
[, 2]
) * 1
e+05
/4
60 80 100 120 140
0200400600800
tagl[, 1]
(tagl
[, 3]
/tagl
[, 2]
) * 1
e+05
/4
60 80 100 120 140
0200
600
1000
tagl[, 1]
(tagl
[, 3]
/tagl
[, 2]
) * 1
e+05
/4
gripe
Alergia
dolor de cabeza
Semanas desde Enero 2012
Inci
denc
ia (e
n 10
0k
60 80 100 120 140
0500
1000
1500
tagl[, 1]
(tagl
[, 3]
/tagl
[, 2]
) * 1
e+05
/4
fiebredolor de cabeza
gripe
Incidencia
alta media baja
@estebanmoro
Nowcasting el daño económico de un desastrePodemos predecir el impacto económico de un desastre natural? Cuantía de los Seguros? Huracán Sandy, 29 de Octubre de 2012 Impacto económico ~10/20 mil millones de dólares
Dataset: 52.55 Million messages, 14Million users Yury Kryvasheyeu, Manuel Cebrián, EM, et al 2015 http://arxiv.org/abs/1504.06827
@estebanmoro
Nowcasting el daño económico de un desastrePodemos predecir el impacto económico de un desastre natural? Cuantía de los Seguros? Huracán Sandy, 29 de Octubre de 2012 Impacto económico ~10/20 mil millones de dólares
Dataset: 52.55 Million messages, 14Million users Yury Kryvasheyeu, Manuel Cebrián, EM, et al 2015 http://arxiv.org/abs/1504.06827
!
@estebanmoro
Nowcasting el daño económico de un desastrePodemos predecir el impacto económico de un desastre natural? Cuantía de los Seguros? Huracán Sandy, 29 de Octubre de 2012 Impacto económico ~10/20 mil millones de dólares
Dataset: 52.55 Million messages, 14Million users Yury Kryvasheyeu, Manuel Cebrián, EM, et al 2015 http://arxiv.org/abs/1504.06827
!
Número de tweets Sentimiento de los
tweets
Ayudas (FEMA)Reclamaciones
Seguros
!
Corre
lació
n co
n im
pact
o ec
onóm
ico
Horas desde toma de tierra
actividad
sentimiento
@estebanmoro
Detección de opinión políticaEstudio de usuarios de twitter que siguen a partidos políticos. Mayo 2015. Elecciones andaluzas (85000 cuentas)
http://portal.uc3m.es/portal/page/portal/actualidad_cientifica/noticias/conversacion_politica_en_twitter
@estebanmoro
Detección de opinión políticaEstudio de usuarios de twitter que siguen a partidos políticos. Marzo 2015. Elecciones andaluzas
http://portal.uc3m.es/portal/page/portal/actualidad_cientifica/noticias/conversacion_politica_en_twitter
@estebanmoro
2. Responder a problemas nuevos
@estebanmoro
Nowcasting economía surmergida
Detectamos más o menos paro que oficialmente se declara? (por provincias)Error = ModeloParo(Actividad) - Paro declarado (Tweets geolocalizados)
Dataset: 19.6 Million geolocalized tweets A. Llorente, EM, et al, 2015 http://arxiv.org/abs/1411.3140
15 20 25 30 35
−0.3
−0.1
0.0
0.1
0.2
0.3
tt$sumergida
error
30%
20%
10%
0%
-10%
-20%
-30%
Erro
r
% Economía Sumergida15 20 25 30 35
El modelo predice menos paro que el
oficial en las provincias con
mayor economía sumergida
@estebanmoro
Nowcasting inflacciónBillion prices project (MIT) :: informacionverdadera.com
@estebanmoro
Límites a la movilización socialSi la información viaja tan rápido en las redes sociales, ¿las podemos utilizar para movilizar a la sociedad en situaciones criticas?
Solo 8 horas, pero muy arriesgado A. Rutherford, EM et al, PNAS 2013
@estebanmoro
3. Implicaciones/problemas para nuestra sociedad
@estebanmoro
Implicaciones/problemas
• Sociedades/gobiernos basadas en datos
• Transparencia: el proceso de toma de datos no depende de personas
• Responsabilidad: decisiones basadas en datos/algoritmos
• Política con A/B Testing
• http://www.wired.com/2012/04/ff_abtesting/all/1
• http://www.fastcompany.com/3042630/first-us-chief-data-scientist-dj-patilscientist-dj-patil
@estebanmoro
Implicaciones/problemas
• Privacidad ~ 1 / Valor
• Trazabilidad ¿Quién/dónde/como utiliza nuestros datos?
• Valor: Los datos son de empresas, pero ¿y el valor de los mismos?
• Medida: ¿cuánta privacidad perdemos al ser usados nuestros datos? ¿cuanto valen nuestros datos?
FT.com http://on.ft.com/14yjj65
@estebanmoro
Implicaciones/problemas
• N ≠ ALL
• Algunos sectores sociales pueden no estar incluidos
• Introduce sesgos a los más jóvenes, más ricos, etc.
• Necesitamos métodos de las ciencias sociales (segmentación)
@estebanmoro
Gracias
Esteban Moro UC3M, AFI