técnicas para el análisis de datos digitales análisis de redes sociales online y minería de...

29
Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho [email protected]

Upload: isabel-mora-coronel

Post on 25-Jan-2016

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

Técnicas para el análisis de datos

digitalesAnálisis de redes sociales online y minería de

texto para las ciencias sociales

Camilo [email protected]

Page 2: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

Día 4

5. Minería de texto5.1. Consideraciones teóricas5.2. Representación y descripción: convirtiendo el texto en datos5.3. Interpretación y exploración

Page 3: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

5.1 Consideraciones teóricas

Page 4: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

Enfoques para el análisis de contenido• Enfoques descriptivos y exploratorios• análisis de frecuencia de palabras• análisis de co-ocurrencia (Doerfel y Barnett 1996)

• Enfoques deductivos métodos de análisis de contenido• Automatizar la elección del esquema de categorización y la clasificación de los

documentos en las categorías• Análisis de clusters• Menores costes iniciales

• no hay opciones teóricas sobre qué categorías son necesarias ex ante• no se requiere ninguna codificación manual (Quinn et al 2009;. Simon y Xeon 2004

Page 5: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

Enfoques para el análisis de contenido• Análisis automatizado de textos (Hillard et al 2007;. Monroe

y Schrodt 2008)• Clasificación de texto (sin supervisión y aprendizaje supervisado

(Sebastiani 2002; Liu 2011; Scharkow 2011).• Análisis de redes Semánticas (van Atteveldt 2008)• Topic modeling• Procesamiento del lenguaje natural - entender el significado a

partir del lenguaje natural• Detección de tendencias - Predecir temas emergentes

Page 6: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

Enfoques para el análisis de contenido•Métodos de aprendizaje supervisado• Requieren elegir categorías y una muestra de documentos

codificados manualmente• Puede utilizarse para la mayoría de las preguntas con interés

teórico• Descubrimiento de un conjunto relevante de categorías a partir de

los datos• Enfoques deductivos• Codificación basada en diccionario• Análisis basado en reglas

Page 7: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

Análisis de contenidos - aplicaciones

Page 8: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

Minería de texto

• Objetivo principal - identificar regularidades en conjuntos de datos textuales (patrones, conexiones, perfiles, tendencias)• latentes• previamente desconocidos• potencialmente útiles

• Extracción de información de los documentos y agregación de la colección completa

• Datos altamente redundantes• Patrones – Encontrar frases importantes• Conexiones - Encontrar palabras con significado semántico• Reducir la complejidad - Crear un resumen de los documentos

Page 9: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

Minería de texto – retos

• Conceptos• Difíciles de representar - combinaciones sutiles de relaciones

abstractas entre conceptos• Altamente dimensionales - muchas maneras para representar

conceptos similares• Complejos - características múltiples

Page 10: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

Características complejas de los medios sociales

•Microtextos• Twitter y la mayoría de los mensajes de Facebook son muy cortos

• Contenido ruidoso• deletreo inusual• capitalización irregular• Emoticones• abreviaturas idiosincrásicas

• Temporalidad• Fecha de creación• modelos temporales para examinar tendencias, volatilidad, causalidad

Bontcheva and Rout / Semantics of Social Media Streams

Page 11: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

Características complejas de los medios sociales• Contexto social

• Indispensable para una interpretación correcta de los contenidos de los medios sociales• Posición estructural• Autoridad del usuario• Clusters

• Centrado en el usuario• Usuarios como productores y consumidores de contenidos de los medios sociales• Fuente rica de información explícita e implícita sobre los datos demográficos de los usuarios, intereses,

opiniones

• Plurilingüe• Hasta ahora los métodos de la tecnología semántica se han centrado en el Inglés• Identificación automática de idioma - medios de comunicación social separados por grupos lingüísticos

Bontcheva and Rout / Semantics of Social Media Streams

Page 12: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

Minería de texto – limitaciones

• Palabras• Homonimia: misma forma, significado diferente• La polisemia: misma forma, significado relacionado• Sinonimia: forma diferente, mismo significado• Hiponimia: una palabra denota una subclase de otra

• Uso del lenguaje• sarcasmo• ironía

Page 13: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

Minería de opiniones

• Extracción de opiniones del texto• Opiniones: declaraciones subjetivas que reflejan sentimientos o

percepciones de las personas sobre las entidades o eventos• Se utiliza igualmente el concepto de “análisis de Sentimiento”• Los medios sociales ofrece un entorno idóneo para que la gente

comparta opiniones• Fuente útil de información no estructurada• El reto consiste en extraer la información útil

Page 14: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

Minería de opinions y medios sociales• Twitter stream • fuente de datos centralizada• actualizada en tiempo real• nuevas fuentes de información se integran automáticamente en el

corpus• amplia gama de perspectivas individuales• decenas de miles de contribuyentes activos involucrados en el

discurso público

Page 15: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

Minería de opinions y medios sociales• Los medios de comunicación social ofrecen una gran cantidad de

información sobre el comportamiento y los intereses de los usuarios:• explícita: John le gusta ...• implícitas: personas que les gusta ... tienden a ser grandes tomadores de

riesgo• asociativo: la gente que compra ... productos también tienden a comprar

productos ...

• La información sobre los individuos no es útil por sí misma, PERO la búsqueda de grupos de intereses y opiniones compartidas es interesante• Si mucha gente habla en los sitios de medios sociales sobre ...

Page 16: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

Retos en la Minería de opiniones

• Identificar si un texto contiene opiniones o actitudes o no (las noticias de hechos vs. Editorial)• Identificar la entidad expresando la opinión• Identificar la polaridad y el grado de la opinión (a favor o en

contra)• Identificar el tema de la opinión (opinión acerca de qué?)

Page 17: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

5.2 Representación y descripción: convirtiendo el texto en datos

Page 18: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

Proceso de minería de texto

1. Captura de información• Recopilar, seleccionar, filtrar documentos que pueden ser útiles

2. Extracción de Información - Organización• Tweets• contenidos del Sitio• API de contenidos especializados (Newswires, actividad parlamentaria, ...)

3. Definir las estructuras de datos• Documentos de texto sin formato• Tablas• Bases de datos

Page 19: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

Proceso de minería de texto

4. Limpiar el texto• Quitar las etiquetas y la información no textual

5. Partición• Texto en unidades - DTM

Término1 Término2 Término3 … Términon

Documento1

Documento2

Documento3

…Documenton

Page 20: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

Proceso de minería de texto

6. Búsqueda• entidades pertinentes (personas, organizaciones, instituciones)• hechos acerca de las entidades (atributos)• palabras clave

7. Análisis• co-ocurrencia, co-referencia, redes conceptuales• clustering, clasificación de documentos, tendencias

8. Visualización

Page 21: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

Recursos y herramientas

• Recursos• Ontologías, léxicos, terminologías, tesauros, gramáticas, corpus

anotados• Instrumentos• Convertidores de documentos, detectores de oraciones,

tokenisers, taggers, Chunkers, reconocedores de entidades, analizadores semánticos

Page 22: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

Qué buscamos?

• Frecuencia• Superior / inferior• Dentro de / entre poblaciones

• Medidas de similitud - Correlación• Objetivo• Patrones

• Combinaciones• Co-referencia (redes latentes)! = Vínculos intencionales

Page 23: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

5.3. Interpretación y exploración

Page 24: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

Términos comunes

• Listas de términos comunes• Métricas de términos y conjuntos de términos• Agrupados por clusters• Términos frecuentes – “Stop words”

• http://www.elwebmaster.com/referencia/stopwords-en-espanol • http://latel.upf.edu/morgana/altres/pub/ca_stop.htm

• Evitar la dispersión• Baja frecuencia en la DTM

Page 25: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

Nubes de términos

• Representación visual de frecuencias

•www.tagxedo.com/app.html

Page 26: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

Redes semánticas

• Representación de términos relacionados• Términos como nodos• Términos más comunes – evitar dispersión

• Ego-red• Clústeres de términos• Clasificación• Distancia - Intensidad por color• Centralidad

Page 27: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

Redes de hashtag

• Listas de los hashtags que se utilizan en conjunto• Métricas de términos y conjuntos de términos - recuentos Hashtag• Hashtags como nodos

• Redes ego• Clústeres de hashtags• Clasificación• Distancia • Centralidad

Page 28: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

Clustering

• Estrategia de reducción de datos• reducir un gran número de variables a un conjunto más pequeño que

mantiene la información de predicción del conjunto más amplio• Separa los tweets en grupos que son similares con respecto a los términos

contenidos en cada tweet

• Maximizar la disimilitud entre los grupos• Minimizar la disimilitud entre los grupos

Page 29: Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

Análisis de clústeres – reducir la complejidad e investigación exploratoria

• Clustering (vincular términos semánticamente similares) vs. clasificación de términos (asignar términos a clases de un esquema de clasificación predefinida)• creación de metadatos• detección de temas• Indexación conceptual (con hechos, eventos)• clasificación de documentos