¿qué promete y que cumple el “big data” en la …...indudablemente las opiniones en torno al...

47
¿Qué promete y que cumple el “big data” en la construcción de nuevos conocimientos? Luis Carlos Silva Ayçaguer Profesor Titular Escuela de Salud Pública La Habana Buenos Aires 1º de diciembre de 2015

Upload: others

Post on 23-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

¿Qué promete y que cumple el “big data” en la construcción de nuevos conocimientos?

Luis Carlos Silva Ayçaguer

Profesor Titular

Escuela de Salud Pública La Habana Buenos Aires

1º de diciembre de 2015

Page 2: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos
Page 3: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

“Volumen masivo de datos, tanto estructurados como

no-estructurados, los cuales son demasiado grandes

y difíciles de procesar con las bases de datos y el

software tradicionales" (ONU, 2012)

¿Qué es Big Data?

Page 4: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

Madrid 18 de noviembre de 2014

Page 5: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

BIG DATA

Page 6: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

3 Caracteristicas del Big Data (las 3 V)

Volumen

• Cantidad ingente de información

• El 90% de los datos actualmente almacenados fueron generados en los últimos dos años

Velocidad

• En la generación de datos

• En el acceso a ellos

Variedad

• Texto

• Audio

• Video

• Imagen

• …

Page 7: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

Volumen

Velocidad

Variedad

Hace solo 30 años …

Page 8: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

• 600 videos en Youtube cada minuto • 750 mil búsquedas en Google y 168 millones de mensajes electrónicos por minuto •Facebook genera 10TB cada día •Twitter genera 7TB de datos a diario • Cada minuto se generan datos suficientes como para llenar el equivalente a 360.000 discos DVD •El 90% de los datos actualmente almacenados fueron generados en los últimos dos años

Page 9: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos
Page 10: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

2010: el mundo superó la barrera de los zettabytes (billones de gigabytes) en datos

2011: se llegó a los 1.8 zettabytes

Pronóstico: se duplicará su crecimiento cada dos años

Page 11: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

Pirámide D I K W

Page 12: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos
Page 13: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos
Page 14: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos
Page 15: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos
Page 16: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos
Page 17: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

Un ejemplo práctico Se tiene un registro histórico de varios que almacena unos 15 mil documentos de todo tipo relacionados con la salud (incluyendo mensajes electrónicos) sobre quejas, valoraciones formales e informales de los pacientes de la atención primaria y secundaria. Se quiere : Descubrir cuáles son las palabras más empleadas para realizar un estudio más profundo luego de aquellos documentos donde dichas palabras figuran. La problemática: Hay que averiguar cuáles son las palabras que más se repiten. Cada documento tiene una media de 150 palabras y se cuenta con un ordenador que tarda un segundo en almacenar cada una de las palabras que aparecen en cada documento. Necesitaríamos 2,25 millones de segundos para ubicar las palabras en una tabla. Esto supone aproximadamente 26 días de labor ininterrumpida para hacer este proceso. Además, no se tiene ni una computadora ni un software capaz de hacerlo. Solución con Big Data Se puede contratar el servicio de 100 ordenadores – en la nube – que leen en paralelo cada uno de los 15 mil documentos; el proceso supondría 2 horas para poner los resultados en términos asequibles por los ordenador de los hospitales o centros de salud.

Page 18: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

El muestreo pasa a ser un artefacto poco menos que inútil, propio de un período de escasez de información Se ha superado la vieja época en la búsqueda de la causalidad: "con suficientes datos, los números hablan por sí mismos". Podemos descubrir patrones y correlaciones en los datos que nos ofrecen ideas novedosas y penetrantes sugerencias

Page 19: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos
Page 20: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

Sín

tom

as

ITU

Diabetes

Influenza

Hipocalemia

Fallo Renal

no dolor abdominal no sacrolumbalgia

no tos no diarrea

(Tiroide Autoimmune)

Esofagitis

pravastatina

Alendronate

levotiroxina

hydroxychloroquine

Posible diagnóstico

ITU frecuente

Lupus cutáneo

hiperlipidemia osteoporosis

hipotirodismo

Confianza

Dificultad para tragar

mareos

anorexia

fiebre resequedad sed

Orina frecuente

His

tori

a

fam

ilia

r

Enf de Graves

Cancer oral Cancer de vejiga Hemochromatosis Purpura

His

tori

a

pac

ien

te

Me

dic

ac

ión

H

all

azg

os

Tensión 120/80 mm HG

tira reactiva de orina:

esterasa de leucocitos

Cultivo urinario: E. Coli

pulso: 88 bpm

Síntomas

Una mujer de 58 años se queja de

mareos, anorexia, sequedad buccal

sed incrementada, increased thirst, y

orina frecuente. . Ha tenido fiebre y

refiere no haber tenido dolor (ni

abdominal ni en la espalda). Tampoco

tuvo tos ni diarrhea.

.

Una mujer de 58 años acude a su medico

de atención primaria luego de varios días

de mareos, anorexia, sequedad buccal sed

incrementada, y orina frecuente. También

tuvo fiebre y comunica que ha tenido

dificultad para tragar . Informa que no ha

tenido dolor ni en abdomen, ni en la

espalda. Tampoco ha tenido tos, diarrhea

dysuria ni falta de aire

Historia familiar

Su historia familiar incluye cáncer

oral y de vejiga en su madre,

enfermedad de Graves de dos

hermanas, hemocromatosis en una

hermana, y la púrpura

trombocitopénica idiopática de una

hermana

Historia de la paciente

Su historia incluye lupus cutáneo,

hiperlipidemia, osteoporosis, orina

con frecuencia, infecciones del tracto

urniario , ooforectomía izquierda para

un quiste benigno, e hipotiroidismo

primario, diagnosticado un año antes

Su medicación fue levotiroxina,

hidroxichloroquina, pravastatina, y

alendronate.

Medicación Hallazgos Un examen de orina fue positive para

leukocyte esterase y nitritos. La

paciente recibió una prescripcion de

ciprofloxacina por una infección del

tracto urinario. 3 días más tarde, tuvo

debilidad y mareos. Su tension

arterial fue 120/80 mm Hg, y el pulso

fue 88.

• Extarer Sítomas de la historia

• Usar paráfrasis extraídas del texto para manejar

possibles alternativas y variantes Realizar una

búsqueda más profunda de posibles diagnósticos.

Índice de Confianza para cada diagnóstico basado

en la evidencia hasta ahora

• Identificar Síntomas negativos

• Razonar usando relaciones establecidas para explicar los síntomas

• Extraer historia familiar

• Usar taxonomías médicas para generalizar condiciones médicas hacia la granularidad usada por los modelos

• Extraer Historia del paciente

• Extraer Medicaciones

• Usar base de datos para identificar efectos secundarios • Unidos , los diagnósticos multiples pueden expliar los

síntomas de major manera • Estraer Hallazgos: Se confirma que había ITU

Diagnóstico más confiable: : Diabetes Diagnóstico más confiable: : ITU Diagnóstico más confiable: Esofagitis

Diagnóstico más confiable: : Influenza

Usando técnicas de probabilidad inversa (la probabilidad directa proviene del big data) para el diagnóstico.

Diagnóstico más confiable: Esofagitis

Page 21: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos
Page 22: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

1. Salud y bienestar. Combatir enfermedades crónicas y terminales como Parkinson, cáncer, etc.

2. Seguridad y calidad de vida. Mejorar la seguridad en las ciudades. 3. Asuntos gubernamentales. Mejorar los servicios y el acceso a ellos. 4. Medio ambiente. Monitoreo de emisiones contaminantes y optimización de consumo energético. 5. Relaciones interpersonales. Redimensionar el papel de las redes sociales –especialmente en su faceta móvil. 6. Negocios y comercio. Incrementar la rentabilidad en el ámbito sanitario

Page 23: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

Indudablemente las opiniones en torno al Big data están divididas. • enorme potencial para extraer los tesoros

escondidos de las señales digitales del mundo para mejorar la toma de decisiones.

• idea seductora llena de dificultades técnicas y serios riesgos para la sociedad.

Page 24: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos
Page 25: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

Problemas del Big Data

25

•La cantidad de información es tan descomunal que necesita muchas personas versadas y capaces de resolver los problemas verdaderos; con incapaces, puede ser un desastre •Los costos se eleven a gran velocidad •Existen demasiadas fuentes de información (necesidad de regulaciones legales) •Posible aparición de paraísos de datos: grandes servidores instalados en países con legislaciones más laxas donde la información esté fuera del alcance de las autoridades judiciales o tributarias? •Generador de ilusiones falsas en algunas materias, especialmente en la obtención de nuevos conocimientos que expliquen la naturaleza y la sociedad sin contar con hipótesis •La polución informativa es enorme y el procesamiento de datos no estructurados es todavía un serio escollo

Page 26: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

La estructura de los datos

Estructurados: forma tradicional de las fuentes de datos (Data Warehouse)

No estructurados: videos, archivos de audio, fotos, placas radiográficas (Hadoop, Big Data)

Page 27: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos
Page 28: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos
Page 29: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos
Page 30: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

• Buscaron correlaciones entre la frecuencia de ciertas consultas realizadas en Google y la propagación de la gripe en el tiempo y el espacio

• Procesaron 450 millones de modelos matemáticos para comparar sus respectivas predicciones con los

casos de gripe reales de los CDC en 2007 y 2008

• Encontraron una combinación de términos de búsqueda que, cuando se integraron dentro de un modelo matemático, obtuvo una fuerte correlación entre la predicción y los datos oficiales a nivel nacional.

• Se predijeron los casos con precisión casi perfecta y con una semana de anticipación respecto del CDC

• “Google Flu Trends” resultó ser barato, rápido, preciso y, sobre todo, no necesitó de marco teórico alguno

Page 31: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

Constantes historias tenebrosas en la prensa y la TV sobre la gripe desde diciembre de 2012, las cuales provocaron intensas búsquedas en Internet por parte de personas sanas:

Pero Google Flu Trend fue incapaz de prever la epidemia de gripe no estacional causada

por el virus H1N1 para 2009.

Predijo valores 150% mayores a los efectivamente registrados en la epidemia de 2012-2013. Sobreestimó la cifra de casos de gripe de CDC en 100 de 108 semanas

Page 32: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

Big Data no es suficiente: Lecciones de la

historia de la Salud Pública

LONDRES 1854

Page 33: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

Teoría del miasma William Farr (1807-1883) Grandes volúmenes

de datos

Investigación de Farr

Page 34: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

Investigación de Snow

Teoría de la vía hídrica Jhon Snow (1813-1858) Pequeños

volúmenes de datos

Page 35: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos
Page 36: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

¿Es una pregunta descabellada?

Page 37: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

¿Tiene sentido la pregunta?

ECC

Page 38: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos
Page 39: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos
Page 40: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

Los ensayos clínicos controlados nos preservan de obtener comparaciones sesgadas gracias a varios rasgos no presentes en los estudios observacionales:

• Aleatorización (control de confusores)

• Enmascaramiento en pacientes, médicos y evaluadores

• Mantener oculta la asignación practicada • Completo seguimiento desde el instante en que un participante

entra en el estudio

Page 41: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos
Page 42: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

Paradigma científico al que conduce el Big Data

Page 43: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

Tasa de divorcios en el estado de Maine se correlaciona postivamente con el

Consumo percápita de margarina (EEUU)

Co

nsu

mo

(lib

ras)

Div

orc

ios

po

r 1

00

0

Correlación: 0.993

Page 44: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

Numero de lanzamientos espaciales en el mundo se correlaciona positivamente con los

Doctorados en sociología

Do

cota

do

s

Lan

zam

ien

tos

Correlación: 0,789

Page 45: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

Colonias de abejas productoras de miel (EEUU) se correlaciona negativamente con los

Arrestos juveniles por posesión de marihuana (EEUU)

Arr

esto

s

Mile

s d

e c

olo

nia

s

Correlación: -0.933

Page 46: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

vinagre

vinagre

Page 47: ¿Qué promete y que cumple el “big data” en la …...Indudablemente las opiniones en torno al Big data están divididas. •enorme potencial para extraer los tesoros escondidos

Luis Carlos Silva Ayçaguer Investigador Titular

Universidad de Ciencias Médicas de la Habana

Escuela Nacional de Salud Pública

[email protected] : http://lcsilva.sbhac.net