¿qué promete y que cumple el “big data” en la …...indudablemente las opiniones en torno al...
TRANSCRIPT
¿Qué promete y que cumple el “big data” en la construcción de nuevos conocimientos?
Luis Carlos Silva Ayçaguer
Profesor Titular
Escuela de Salud Pública La Habana Buenos Aires
1º de diciembre de 2015
“Volumen masivo de datos, tanto estructurados como
no-estructurados, los cuales son demasiado grandes
y difíciles de procesar con las bases de datos y el
software tradicionales" (ONU, 2012)
¿Qué es Big Data?
Madrid 18 de noviembre de 2014
BIG DATA
3 Caracteristicas del Big Data (las 3 V)
Volumen
• Cantidad ingente de información
• El 90% de los datos actualmente almacenados fueron generados en los últimos dos años
Velocidad
• En la generación de datos
• En el acceso a ellos
Variedad
• Texto
• Audio
• Video
• Imagen
• …
Volumen
Velocidad
Variedad
Hace solo 30 años …
• 600 videos en Youtube cada minuto • 750 mil búsquedas en Google y 168 millones de mensajes electrónicos por minuto •Facebook genera 10TB cada día •Twitter genera 7TB de datos a diario • Cada minuto se generan datos suficientes como para llenar el equivalente a 360.000 discos DVD •El 90% de los datos actualmente almacenados fueron generados en los últimos dos años
2010: el mundo superó la barrera de los zettabytes (billones de gigabytes) en datos
2011: se llegó a los 1.8 zettabytes
Pronóstico: se duplicará su crecimiento cada dos años
Pirámide D I K W
Un ejemplo práctico Se tiene un registro histórico de varios que almacena unos 15 mil documentos de todo tipo relacionados con la salud (incluyendo mensajes electrónicos) sobre quejas, valoraciones formales e informales de los pacientes de la atención primaria y secundaria. Se quiere : Descubrir cuáles son las palabras más empleadas para realizar un estudio más profundo luego de aquellos documentos donde dichas palabras figuran. La problemática: Hay que averiguar cuáles son las palabras que más se repiten. Cada documento tiene una media de 150 palabras y se cuenta con un ordenador que tarda un segundo en almacenar cada una de las palabras que aparecen en cada documento. Necesitaríamos 2,25 millones de segundos para ubicar las palabras en una tabla. Esto supone aproximadamente 26 días de labor ininterrumpida para hacer este proceso. Además, no se tiene ni una computadora ni un software capaz de hacerlo. Solución con Big Data Se puede contratar el servicio de 100 ordenadores – en la nube – que leen en paralelo cada uno de los 15 mil documentos; el proceso supondría 2 horas para poner los resultados en términos asequibles por los ordenador de los hospitales o centros de salud.
El muestreo pasa a ser un artefacto poco menos que inútil, propio de un período de escasez de información Se ha superado la vieja época en la búsqueda de la causalidad: "con suficientes datos, los números hablan por sí mismos". Podemos descubrir patrones y correlaciones en los datos que nos ofrecen ideas novedosas y penetrantes sugerencias
Sín
tom
as
ITU
Diabetes
Influenza
Hipocalemia
Fallo Renal
no dolor abdominal no sacrolumbalgia
no tos no diarrea
(Tiroide Autoimmune)
Esofagitis
pravastatina
Alendronate
levotiroxina
hydroxychloroquine
Posible diagnóstico
ITU frecuente
Lupus cutáneo
hiperlipidemia osteoporosis
hipotirodismo
Confianza
Dificultad para tragar
mareos
anorexia
fiebre resequedad sed
Orina frecuente
His
tori
a
fam
ilia
r
Enf de Graves
Cancer oral Cancer de vejiga Hemochromatosis Purpura
His
tori
a
pac
ien
te
Me
dic
ac
ión
H
all
azg
os
Tensión 120/80 mm HG
tira reactiva de orina:
esterasa de leucocitos
Cultivo urinario: E. Coli
pulso: 88 bpm
Síntomas
Una mujer de 58 años se queja de
mareos, anorexia, sequedad buccal
sed incrementada, increased thirst, y
orina frecuente. . Ha tenido fiebre y
refiere no haber tenido dolor (ni
abdominal ni en la espalda). Tampoco
tuvo tos ni diarrhea.
.
Una mujer de 58 años acude a su medico
de atención primaria luego de varios días
de mareos, anorexia, sequedad buccal sed
incrementada, y orina frecuente. También
tuvo fiebre y comunica que ha tenido
dificultad para tragar . Informa que no ha
tenido dolor ni en abdomen, ni en la
espalda. Tampoco ha tenido tos, diarrhea
dysuria ni falta de aire
Historia familiar
Su historia familiar incluye cáncer
oral y de vejiga en su madre,
enfermedad de Graves de dos
hermanas, hemocromatosis en una
hermana, y la púrpura
trombocitopénica idiopática de una
hermana
Historia de la paciente
Su historia incluye lupus cutáneo,
hiperlipidemia, osteoporosis, orina
con frecuencia, infecciones del tracto
urniario , ooforectomía izquierda para
un quiste benigno, e hipotiroidismo
primario, diagnosticado un año antes
Su medicación fue levotiroxina,
hidroxichloroquina, pravastatina, y
alendronate.
Medicación Hallazgos Un examen de orina fue positive para
leukocyte esterase y nitritos. La
paciente recibió una prescripcion de
ciprofloxacina por una infección del
tracto urinario. 3 días más tarde, tuvo
debilidad y mareos. Su tension
arterial fue 120/80 mm Hg, y el pulso
fue 88.
• Extarer Sítomas de la historia
• Usar paráfrasis extraídas del texto para manejar
possibles alternativas y variantes Realizar una
búsqueda más profunda de posibles diagnósticos.
Índice de Confianza para cada diagnóstico basado
en la evidencia hasta ahora
• Identificar Síntomas negativos
• Razonar usando relaciones establecidas para explicar los síntomas
• Extraer historia familiar
• Usar taxonomías médicas para generalizar condiciones médicas hacia la granularidad usada por los modelos
• Extraer Historia del paciente
• Extraer Medicaciones
• Usar base de datos para identificar efectos secundarios • Unidos , los diagnósticos multiples pueden expliar los
síntomas de major manera • Estraer Hallazgos: Se confirma que había ITU
Diagnóstico más confiable: : Diabetes Diagnóstico más confiable: : ITU Diagnóstico más confiable: Esofagitis
Diagnóstico más confiable: : Influenza
Usando técnicas de probabilidad inversa (la probabilidad directa proviene del big data) para el diagnóstico.
Diagnóstico más confiable: Esofagitis
1. Salud y bienestar. Combatir enfermedades crónicas y terminales como Parkinson, cáncer, etc.
2. Seguridad y calidad de vida. Mejorar la seguridad en las ciudades. 3. Asuntos gubernamentales. Mejorar los servicios y el acceso a ellos. 4. Medio ambiente. Monitoreo de emisiones contaminantes y optimización de consumo energético. 5. Relaciones interpersonales. Redimensionar el papel de las redes sociales –especialmente en su faceta móvil. 6. Negocios y comercio. Incrementar la rentabilidad en el ámbito sanitario
Indudablemente las opiniones en torno al Big data están divididas. • enorme potencial para extraer los tesoros
escondidos de las señales digitales del mundo para mejorar la toma de decisiones.
• idea seductora llena de dificultades técnicas y serios riesgos para la sociedad.
Problemas del Big Data
25
•La cantidad de información es tan descomunal que necesita muchas personas versadas y capaces de resolver los problemas verdaderos; con incapaces, puede ser un desastre •Los costos se eleven a gran velocidad •Existen demasiadas fuentes de información (necesidad de regulaciones legales) •Posible aparición de paraísos de datos: grandes servidores instalados en países con legislaciones más laxas donde la información esté fuera del alcance de las autoridades judiciales o tributarias? •Generador de ilusiones falsas en algunas materias, especialmente en la obtención de nuevos conocimientos que expliquen la naturaleza y la sociedad sin contar con hipótesis •La polución informativa es enorme y el procesamiento de datos no estructurados es todavía un serio escollo
La estructura de los datos
Estructurados: forma tradicional de las fuentes de datos (Data Warehouse)
No estructurados: videos, archivos de audio, fotos, placas radiográficas (Hadoop, Big Data)
• Buscaron correlaciones entre la frecuencia de ciertas consultas realizadas en Google y la propagación de la gripe en el tiempo y el espacio
• Procesaron 450 millones de modelos matemáticos para comparar sus respectivas predicciones con los
casos de gripe reales de los CDC en 2007 y 2008
• Encontraron una combinación de términos de búsqueda que, cuando se integraron dentro de un modelo matemático, obtuvo una fuerte correlación entre la predicción y los datos oficiales a nivel nacional.
• Se predijeron los casos con precisión casi perfecta y con una semana de anticipación respecto del CDC
• “Google Flu Trends” resultó ser barato, rápido, preciso y, sobre todo, no necesitó de marco teórico alguno
Constantes historias tenebrosas en la prensa y la TV sobre la gripe desde diciembre de 2012, las cuales provocaron intensas búsquedas en Internet por parte de personas sanas:
Pero Google Flu Trend fue incapaz de prever la epidemia de gripe no estacional causada
por el virus H1N1 para 2009.
Predijo valores 150% mayores a los efectivamente registrados en la epidemia de 2012-2013. Sobreestimó la cifra de casos de gripe de CDC en 100 de 108 semanas
Big Data no es suficiente: Lecciones de la
historia de la Salud Pública
LONDRES 1854
Teoría del miasma William Farr (1807-1883) Grandes volúmenes
de datos
Investigación de Farr
Investigación de Snow
Teoría de la vía hídrica Jhon Snow (1813-1858) Pequeños
volúmenes de datos
¿Es una pregunta descabellada?
¿Tiene sentido la pregunta?
ECC
Los ensayos clínicos controlados nos preservan de obtener comparaciones sesgadas gracias a varios rasgos no presentes en los estudios observacionales:
• Aleatorización (control de confusores)
• Enmascaramiento en pacientes, médicos y evaluadores
• Mantener oculta la asignación practicada • Completo seguimiento desde el instante en que un participante
entra en el estudio
Paradigma científico al que conduce el Big Data
Tasa de divorcios en el estado de Maine se correlaciona postivamente con el
Consumo percápita de margarina (EEUU)
Co
nsu
mo
(lib
ras)
Div
orc
ios
po
r 1
00
0
Correlación: 0.993
Numero de lanzamientos espaciales en el mundo se correlaciona positivamente con los
Doctorados en sociología
Do
cota
do
s
Lan
zam
ien
tos
Correlación: 0,789
Colonias de abejas productoras de miel (EEUU) se correlaciona negativamente con los
Arrestos juveniles por posesión de marihuana (EEUU)
Arr
esto
s
Mile
s d
e c
olo
nia
s
Correlación: -0.933
vinagre
vinagre
Luis Carlos Silva Ayçaguer Investigador Titular
Universidad de Ciencias Médicas de la Habana
Escuela Nacional de Salud Pública
[email protected] : http://lcsilva.sbhac.net