estrategias para la aplicación del social media mining en
TRANSCRIPT
Estrategias para la aplicación del
Social Media Mining en las redes
sociales de Facebook e Instagram
Juan Camilo Zuluaga Gómez
Universidad Nacional de Colombia
Facultad de Administración, Departamento de Informática y Computación
Manizales, Colombia
2020
2 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
Estrategias para la aplicación del Social Media Mining en las redes
sociales de Facebook e Instagram
Juan Camilo Zuluaga Gómez
Tesis presentada como requisito parcial para optar al título de:
Magister en Administración de Sistemas Informáticos
Director:
Ph.D. Néstor Darío Duque Méndez
Línea de Investigación:
Tecnologías de la Información y Comunicación
Universidad Nacional de Colombia
Facultad de Administración, Departamento de Informática y Computación
Manizales, Colombia
2020
Dedicatoria
Quiero dedicar este trabajo primeramente a
Dios, quien ha sido mi guía y luz en todo este
proceso. Igualmente, a mis padres Mery y
Albeiro; mi hermana Viviana y a mi ángel en el
cielo; mi nana Rosita. Infinitas gracias a ellos
por todo su amor, su cariño, su entrega, su
ayuda, su comprensión y especialmente por el
apoyo que me han brindado a lo largo de este
camino que he recorrido.
Agradecimientos
Agradezco inmensamente a mi director, el profesor Néstor Darío Duque Méndez, ya que,
gracias a su acompañamiento, dedicación, tiempo y buena orientación, pude completar
satisfactoriamente este trabajo de maestría, que contribuyó a acrecentar mis conocimientos
tanto en mi vida académica, profesional y personal.
También doy las gracias al profesor Sebastián Robledo Giraldo, porque, gracias a él,
descubrí el tema de redes sociales, que se ha convertido en mi mayor pasión.
Resumen y Abstract 5
Resumen
Dado el gran uso de las redes sociales en la actualidad, es indudable la gran cantidad de
datos que se genera cada día y por lo cual es necesario tener la capacidad de hacer un
análisis detallado. Debido a la particularidad que presentan los datos del social media, es
importante que se requieren nuevas técnicas que puedan manejar eficazmente este nuevo
tipo de data. El estudio y desarrollo de estas nuevas técnicas, se conoce como el Social
Media Mining (SMM). Este trabajo se orientó a la construcción de un modelo que aborde
los desafíos y oportunidades del SMM en las redes sociales de Facebook e Instagram.
Palabras clave: (Social Media Mining, redes sociales, análisis de sentimientos,
difusión de la información, sesgo de muestreo, eliminación del ruido, Facebook,
Instagram).
6 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
Strategies for the application of Social Media
Mining in the social networks of Facebook and
Abstract
Given the great use of social networks today, there is no doubt the large amount of data that
is generated every day and therefore it is necessary to have the ability to make a detailed
analysis. Due to the particularity of social media data, it is important that new techniques are
required that can effectively handle this new type of data. The study and development of
these new techniques is known as the Social Media Mining (SMM). This work was aimed at
building a model that addresses the challenges and opportunities of the SMM in social
networks Facebook and Instagram.
Keywords:
Social Media Mining, social networks, sentiment analysis, information dissemination,
sampling bias, noise elimination, Facebook, Instagram.
Contenido 7
Contenido
Pág.
Resumen ................................................................................................................................ 5
Lista de figuras ................................................................................................................... 10
Lista de tablas ..................................................................................................................... 11
Introducción ........................................................................................................................ 12
1. Descripción del Problema .......................................................................................... 14
1.1 Objetivos ................................................................................................................. 16
1.1.1 Objetivo general .............................................................................................. 16
1.1.2 Objetivos específicos ...................................................................................... 16
1.2 Metodología ............................................................................................................ 17
2. Marco Conceptual ....................................................................................................... 19
2.1 Marco Teórico ........................................................................................................ 19
2.1.1 Data Mining: Conceptos Generales ............................................................... 19
2.1.2 Social Media Mining: Conceptos Generales .................................................. 21
2.1.3 Análisis de Sentimientos: Conceptos Generales ........................................... 22
2.1.4 Sesgo de Muestreo: Conceptos Generales ................................................... 25
2.1.5 Eliminación del ruido del SM: Conceptos Generales ..................................... 26
2.1.6 Difusión de la información: Conceptos Generales ......................................... 28
3. Trabajos relacionados ................................................................................................ 31
3.1 Trabajos relacionados en análisis de sentimientos ............................................... 31
3.2 Trabajos relacionados con sesgo de muestreos ................................................... 36
3.3 Trabajos relacionados en eliminación del ruido .................................................... 38
3.4 Trabajos relacionados en difusión de la información ............................................ 39
4. Modelo propuesto para realizar Social Media Mining en Facebook e Instagram 44
4.1 Pasos y procesos del Modelo Propuesto .............................................................. 46
8 Título de la tesis o trabajo de investigación
5. Experimentación y análisis de los resultados ......................................................... 48
5.1 Metodología ............................................................................................................ 48
5.1.1 Obtención de los datos......................................................................................... 50
5.1.2 Preprocesamiento ................................................................................................ 54
5.1.3 Data de Entrenamiento ........................................................................................ 55
5.1.4 Clasificación ......................................................................................................... 55
5.1.5 Resultados ............................................................................................................ 56
6. Conclusiones y recomendaciones ............................................................................... 61
6.1 Conclusiones ............................................................................................................... 61
6.2 Trabajo futuro .............................................................................................................. 62
Bibliografía .......................................................................................................................... 72
Lista de figuras
Pág.
Figura 2-1: Clasificación de las técnicas de Data Mining ................................................... 20
Figura 2-2: Técnicas del análisis de sentimientos .............................................................. 24
Figura 2-3: Algoritmos según las técnicas del Aprendizaje Automático ............................. 25
Figura 2-4: Ejemplo de red social ........................................................................................ 30
Figura 4-1: Modelo genérico propuesto............................................................................... 45
Figura 5-1: Modelo propuesto detallado para la experimentación ..................................... 49
Figura 5-2: Post 1 de Facebook .......................................................................................... 50
Figura 5-3: Post 2 de Facebook .......................................................................................... 51
Figura 5-4: Post Instagram .................................................................................................. 52
Figura 5-5: Proceso descarga de comentarios de Facebook ............................................. 52
Figura 5-6: Proceso descarga comentarios de Instagram .................................................. 53
Figura 5-7: Representación de una Máquina de Vector de Soporte (SVM) ....................... 55
Figura 5-8: Porcentaje de polaridad de los posts ............................................................... 58
Figura 5-9: Resumen Métricas Post Analizados ................................................................. 59
11
Lista de tablas
Pág.
Tabla 3-1: Comparación de los resultados de precisión de las técnicas evaluadas .......... 32
Tabla 3-2: Técnicas utilizadas en los trabajos relacionados con el análisis de sentimientos
............................................................................................................................................... 35
Tabla 3-3: Técnicas utilizadas en los trabajos relacionados con la difusión de información
............................................................................................................................................... 43
Tabla 5-1: Resumen Métricas Post 1 Facebook ................................................................. 58
Tabla 5-2: Resumen Métricas Post 2 Facebook ................................................................. 58
Tabla 5-3: Resumen Métricas Post 1 Instagram ................................................................. 59
12 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
Introducción
El Internet y las redes sociales se han convertido en parte esencial de nuestras vidas. Han
evolucionado de tal manera que no solo influyen en conexiones personales y sociales, sino
que ahora también influyen en la manera de hacer negocios.
Según el Ministerio de Tecnologías de la Información y las Comunicaciones (MinTIC) con
su estudio “Primera Gran Encuesta TIC”, las constantes mejoras en la cobertura de Internet,
la interacción virtual y el crecimiento de los pagos electrónicos han contribuido a una
“revolución digital” que nos conecta cada vez más a los colombianos (MinTIC, 2017).
De acuerdo con el estudio, la penetración de internet en el país ha detonado en que el 66
% de los ciudadanos encuentren oportunidades de trabajo, el 58,8 % lo usen como una
herramienta para trabajar y el 78 % lo empleen para interactuar en redes sociales,
ingresando en promedio 10 veces al día.
Entre los datos más relevantes, se encuentra que las redes sociales más utilizadas en
nuestro país son Facebook (88 %), WhatsApp (87 %), YouTube (51,6 %), Instagram (34%),
Twitter (20 %) y Snapchat (7,2 %).
De todas ellas, Facebook e Instagram, que cuentan con un alcance potencial de 32 millones
y 11 millones respectivamente según (We Are Social & Hootsuite, 2019), son las favoritas
para tomar decisiones de compra y venta de productos y servicios.
Así mismo, revela que el 68 % de las compañías cuenta con acceso a Internet y la mayor
parte de estas conexiones son contratadas exclusivamente para el negocio. Las principales
razones por las que usan la red son la comunicación con clientes y proveedores (68 %), la
posibilidad de ofrecer sus productos a un mayor número de personas (44 %) y la presencia
en línea (29%). Además, 35 % realiza ventas y 34 % compras de productos o servicios por
Internet.
13
Gracias al uso de las tecnologías de la comunicación tanto para las personas como para
las organizaciones, el mercado de la publicidad digital en América Latina está creciendo y
expandiéndose aceleradamente. Según el reporte del primer trimestre dado por la
Interactive Advertising Bureau Colombia (IAB), el total de inversión en publicidad digital en
Colombia fue de $183.306.201.487 frente a unos $137.008.119.521 respecto al mismo
periodo del 2018, un aumento del 33,8 % (IAB, 2019).
Estas cifras dejan en claro cómo el mercado latinoamericano de publicidad digital crecerá
en los próximos años y este movimiento implica necesariamente que las marcas empiecen
a centrar su atención en el análisis y procesamiento de la gran cantidad de datos que
generan las redes sociales.
El Social Media Mining (SMM) es un nuevo campo que trata de comprender y procesar este
nuevo tipo de datos. El SMM presenta desafíos y oportunidades para la investigación
interdisciplinaria, la creación de nuevos algoritmos y el desarrollo de nuevas herramientas.
En sí, el SMM tiene el firme objetivo de crear campañas de marketing altamente específicas
y personalizadas según los patrones de comportamientos de la audiencia objetivo; al mismo
tiempo que logra que las conversiones se den a un ritmo mucho más rápido y, se eliminan
los gastos innecesarios que no producen ningún tipo de beneficios.
Este trabajo aportará una serie de herramientas para implementar SMM, ya que se
convierte en una herramienta estratégica para la toma de decisiones de mercadeo,
producción, organización y demás factores en las organizaciones, que de cierta manera las
harán más competitivas.
14 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
1. Descripción del Problema
Según lo definido por (Kaplan & Haenlein, 2010), el Social Media (SM) son un grupo de
aplicaciones basadas en Internet que se desarrollan sobre los fundamentos ideológicos y
tecnológicos de la Web 2.0, y que permiten la creación y el intercambio de contenidos
generados por el usuario.
El SM es una nueva fuente de datos que es significativamente diferente al de los medios
de comunicación convencionales. Los datos del SM son en su mayoría generados por los
usuarios y tienen como características que son de grandes volúmenes, son vinculados y
heterogéneos (Adedoyin-olowe, Gaber, & Stahl, 2014).
Los datos del SM se pueden obtener de fuentes disponibles públicamente a través de
diversos medios como la extracción, el uso de aplicaciones proporcionadas por los sitios y
el rastreo.
Según (Fresno García, Daly, & Supovitz, 2015), exponen que las fuentes de los datos del
SM presentan características novedosas que incrementan su complejidad:
1. Los datos del social media, son los datos generados por la actividad de las personas en
su despliegue social en línea por medio de las múltiples tipologías de relaciones que se
establecen (por ejemplo, compartir imágenes, ideas, textos, vídeos, etc.) por lo que estamos
ante un tipo de datos multimodales.
2. Las fuentes de los datos son múltiples, crecen y desaparecen cada día, por lo tanto, estas
fuentes no son estables y supone una exigencia constante el mantenerlas identificadas y
activas.
3. La heterogeneidad de las fuentes, dificulta la agregación de los datos de forma
consistente, en la búsqueda de patrones significativos para la toma de decisiones.
15
Debido a la singularidad de los datos del SM, se requieren nuevas técnicas de minería de
datos que puedan manejar eficazmente el contenido generado en las redes sociales que
abarca considerables relaciones sociales (Liu, Morstatter, Tang, & Zafarani, 2016).
El estudio y desarrollo de estas nuevas técnicas, se conoce como el Social Media Mining
(SMM), que es el proceso de representación, análisis y extracción de patrones significativos
a partir de datos del SM a gran escala (Zafarani, Abbasi, & Liu, 2014).
En la actualidad el SMM presenta algunos nuevos desafíos y oportunidades que se
describen a continuación (Liu et al., 2016), (Jones & Liu, 2013).
● Sesgo de muestreo: A menudo, obtenemos una pequeña muestra de datos. ¿Cómo se
puede asegurar si los datos pueden conducir a hallazgos creíbles?
● Eliminación de ruido del SM: Cómo eliminar el ruido de los datos del SM sin perder
demasiada información.
●Difusión de información: comprender los patrones subyacentes a la viralidad en las
redes sociales.
● Análisis de sentimientos: extracción automática del contenido emocional de los
elementos de las redes sociales.
En la medida que estos desafíos se vayan afrontando mediante nuevos trabajos de
investigación y aplicación, estos se convertirán en nuevas oportunidades, que
proporcionará en mejor detalle información para la toma de decisiones tanto para las
compañías y consumidores de las redes sociales.
Entre estas oportunidades están por ejemplo, las técnicas de minería de datos, que pueden
ayudar a identificar a personas influyentes, la detección de comunidades en las redes
sociales, identificación de los sentimientos de los usuarios para una planificación en
campañas de marketing, desarrollo de sistemas de recomendación para tareas que van
desde la compra de productos específicos hasta hacer nuevos amigos, comprender la
evolución de la red y construir y fortalecer la confianza entre los usuarios o entre usuarios
y entidades.
16 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
A partir de los desafíos y oportunidades expuestos se plantea la siguiente pregunta:
¿Cómo implementar Social Media Mining en las redes sociales de Facebook e
Instagram abordando los desafíos y oportunidades del Social Media Mining?
1.1 Objetivos
1.1.1 Objetivo general
Implementar estrategias para Social Media Mining en las redes sociales Facebook e
Instagram, abordando los desafíos y oportunidades encontradas en estas en estas redes.
1.1.2 Objetivos específicos
● Determinar los desafíos del Social Media Mining en las redes sociales de Facebook e
Instagram.
● Evaluar y seleccionar las estrategias y técnicas que permitan enfrentar los desafíos del
Social Media Mining.
● Implementar las estrategias seleccionadas mediante un script
● Evaluar los resultados mediante casos de estudio
17
1.2 Metodología
A continuación, se establece la metodología que se desarrollará para realizar el trabajo. La
metodología se llevará por etapas, que a la vez se compone de actividades que buscan
lograr los objetivos propuestos.
Objetivo Etapa Actividades
Determinar los desafíos del
Social Media Mining en las
redes sociales de
Facebook e Instagram.
Identificación de los
desafíos del Social Media
Mining en Facebook e
- Exploración bibliográfica de
desafíos reportados
-Revisión de las plataformas
de Facebook e Instagram
- Identificar los desafíos de
cada red social.
- Iniciar la redacción del
documento final.
18 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
Evaluar y seleccionar las
estrategias y técnicas que
permitan enfrentar los
desafíos del Social Media
Mining.
Búsqueda sistemática a
través de las bases de
datos
- Realizar la búsqueda en las
bases de datos.
- Identificar las estrategias
más relevantes que enfrentan
los desafíos de SMM
- Determinar las técnicas que
permitan aplicar las
estrategias adoptadas.
Implementar las
estrategias seleccionadas
Desarrollo e
Implementación
- Desarrollar e implementar la
aplicación de las técnicas que
se ajusten a las redes sociales
de Facebook e Instagram.
- Construir o seleccionar el
data set a partir de datos de
cuentas de Facebook e
Instagram.
Evaluar los resultados
mediante casos de estudio
Validación de la
propuesta
- Pruebas y experimentación
para validación de la
propuesta.
19
2. Marco Conceptual
2.1 Marco Teórico
2.1.1 Data Mining: Conceptos Generales
Una definición de Data Mining (DM) es identificar patrones novedosos y procesables en los
datos. El DM está relacionado con el aprendizaje automático, la recuperación de
información, las estadísticas, las bases de datos e incluso la visualización de datos (Barbier
& Liu, 2011). La idea clave detrás del DM es encontrar nueva información en un conjunto
de datos que está oculto o latente.
La minería de datos puede ser considerada un súper conjunto de muchos métodos
diferentes para extraer el entendimiento de los datos. La minería de datos aplica métodos
de muchas áreas diferentes para identificar patrones desconocidos en los datos. Esto
puede incluir algoritmos estadísticos, aprendizaje basado en máquina, analítica de texto,
análisis de series de tiempo y otras áreas de la analítica. La minería de datos incluye
también el estudio y la práctica del almacenaje y la manipulación de datos (SAS, 2019).
Las técnicas de DM se pueden dividir en dos categorías:
Técnicas de minería de datos predictivas
Las técnicas predictivas utilizan métodos estadísticos de modelización, aprendizaje
automático y minería de datos que analiza los datos actuales e históricos reales para hacer
predicciones acerca del futuro o acontecimientos no conocidos (Nyce, 2007).
Las técnicas predictivas realizan pronósticos sobre valores de datos no identificados
mediante el uso de los valores identificados. El pronóstico es el proceso de investigar los
estados existentes y anteriores del atributo y el pronóstico de su próximo estado (Agyapong,
Hayfron-Acquah, & Asante., 2016).
Técnicas descriptivas de minería de datos
Las técnicas descriptivas generalmente se usan para producir correlaciones, tabulaciones
cruzadas y frecuencias. Estas técnicas están determinadas para encontrar las
20 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
regularidades en los datos y para revelar patrones. La otra aplicación del análisis descriptivo
es descubrir agrupamientos en la mayor parte de los datos (Agyapong et al., 2016).
En la figura 2-1 se muestran la clasificación de las técnicas de DM descritas por (Barbier &
Liu, 2011).
Figura 2-1: Clasificación de las técnicas de Data Mining
Fuente: (Barbier & Liu, 2011)
21
2.1.2 Social Media Mining: Conceptos Generales
El Social Media Mining (SMM) es el proceso de representar, analizar y extraer patrones
significativos de los datos en las redes sociales, como resultado de las interacciones
sociales. Es un campo interdisciplinario que abarca técnicas de ciencias de la computación,
minería de datos, aprendizaje automático, análisis de redes sociales, ciencias de redes,
sociología, etnografía, estadísticas, optimización y matemáticas (Zafarani et al., 2014).
Abarca las herramientas para representar, medir, modelar y minar formalmente patrones
significativos de datos de redes sociales a gran escala.
El SMM representa el mundo virtual de las redes sociales de una manera computable, lo
mide y diseña modelos que pueden ayudarnos a comprender sus interacciones. Además,
la minería en las redes sociales proporciona las herramientas necesarias para explotar este
mundo en busca de patrones interesantes, difusión de información o rumores, influencia,
homofilia, comportamiento social o de consumo, predicción, etc. a partir de las interacciones
sociales en los medios sociales de Internet (Xu & Li, 2013).
Para (Cameron, Leung, & Tanbeer, 2011), (Bhagat, Goyal, & Lakshmanan, 2012) y (Leung
& Tanbeer, 2012), el SMM y el Análisis de Redes Sociales (ARS), pueden considerarse
como una fusión de la minería de datos y la informática social, que se han convertido en
temas de investigación emergentes en el campo de la informática.
La extracción de datos (Frawley, Piatetsky-Shapiro, & Matheus, 1992) se refiere a la
extracción no trivial de información implícita, previamente desconocida y potencialmente útil
de datos. La informática social une el comportamiento social y los sistemas informáticos en
el sentido de que facilita computacionalmente los estudios sociales y las dinámicas
humano-sociales en las redes sociales, crea convenciones sociales a través del uso de
software y diseña tecnologías de información y comunicación para adaptarlas al contexto
social. Una tarea importante de extracción de medios sociales es descubrir conocimiento
significativo sobre las redes sociales que residen en los datos de las redes sociales.
22 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
2.1.3 Análisis de Sentimientos: Conceptos Generales
El análisis de sentimientos (también llamado minería de opinión), es el campo de estudio
que analiza las opiniones, sentimientos, evaluaciones, actitudes, emociones de las
personas hacia entidades, por ejemplo, servicios, productos, individuos, organizaciones,
problemas, temas, eventos y sus atributos (Tyagi & Tripathi, 2019). También la podemos
definir como la detección de la polaridad dentro de una opinión sobre si el texto está
asignado como sentimiento positivo o negativo (Giachanou & Crestani, 2016).
La creciente importancia del análisis de sentimientos coincide con el crecimiento de las
redes sociales, como las reseñas, los debates en los foros, los blogs, los micro blogs y las
redes sociales. Los sistemas de análisis de sentimientos se están aplicando en casi todos
los negocios y dominios sociales porque las opiniones son fundamentales para casi todas
las actividades humanas y son clave de nuestros comportamientos (B. Liu & Zhang, 2012).
El análisis de sentimientos ayuda a lograr diferentes objetivos, como observar el estado de
ánimo público en lo que respecta a la inteligencia de mercado, el movimiento político, la
predicción de ventas de películas, la medición de la satisfacción del cliente, entre otros.
En la figura 2-2, se presentan las técnicas de análisis de sentimientos, las cuales se
clasifican en dos categorías:
• Análisis de léxico, que tiene como objetivo calcular la polaridad de un documento a partir
de la orientación semántica de palabras o frases dentro de los documentos. Las técnicas
basadas en el análisis de léxico, se pueden clasificar en dos enfoques: (i) Basado en
diccionario; donde se utiliza un diccionario de palabras para establecer la clasificación de
los sentimientos. El diccionario contiene la polaridad de cada palabra si son palabras
positivas, negativas y objetivas. La polaridad de las palabras de opinión se puede
determinar haciendo coincidir esas palabras con las palabras del diccionario y (ii) basado
en corpus, donde se utilizan métodos semánticos o estadísticos para buscar la polaridad
de los sentimientos (Berry, Mohamed, & Wah, 2015).
• Aprendizaje automático o Machine Learning (ML), abarca la construcción de modelos
derivados de conjuntos de datos entrenados etiquetados (oraciones o instancias de textos)
23
para encontrar la orientación del documento. Las técnicas para el ML, se clasifican en tres
métodos: Aprendizaje Supervisado, Aprendizaje No Supervisado y Aprendizaje
Semisupervisado.
Los algoritmos de aprendizaje supervisado son entrenados utilizando ejemplos etiquetados,
como una entrada donde se conoce el resultado deseado. El algoritmo de aprendizaje
recibe un conjunto de entradas junto con los resultados correctos correspondientes, y el
algoritmo aprende comparando su resultado real con resultados correctos para encontrar
errores. Luego modifica el modelo en consecuencia (SAS, 2019). A través de métodos
como la clasificación, regresión, predicción y aumento de gradiente, el aprendizaje
supervisado utiliza patrones para predecir los valores de la etiqueta en datos no etiquetados
adicionales (Vaghela & Jadav, 2016).
El aprendizaje no supervisado se utiliza contra datos que no tienen etiquetas históricas. No
se da la "respuesta correcta" al sistema. El algoritmo debe descubrir lo que se muestra. El
objetivo es explorar los datos y encontrar alguna estructura en su interior (SAS, 2019). Estos
algoritmos se pueden utilizar también para segmentar temas de texto, recomendar
elementos e identificar valores atípicos de datos (Vaghela & Jadav, 2016).
El aprendizaje semisupervisado se utiliza para las mismas aplicaciones que el aprendizaje
supervisado. Sin embargo, utiliza datos etiquetados y no etiquetados para el entrenamiento,
por lo general una pequeña cantidad de datos etiquetados con una gran cantidad de datos
no etiquetados (porque los datos no etiquetados son menos costosos y se requiere menos
esfuerzo en su obtención). Este tipo de aprendizaje se puede utilizar con métodos como la
clasificación, regresión y predicción (SAS, 2019). El aprendizaje semisupervisado es de
utilidad cuando el costo asociado con el etiquetado es demasiado alto para permitir un
proceso de entrenamiento completamente etiquetado (B. Liu, 2012).
24 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
Figura 2-2: Técnicas del análisis de sentimientos
Fuente: (Medhat, Hassan, & Korashy, 2014)
En la figura 2-3 se clasifican los algoritmos más utilizados según las técnicas del aprendizaje
automático
25
Figura 2-3: Algoritmos según las técnicas del Aprendizaje Automático
Fuente: (Barbier & Liu,2011)
2.1.4 Sesgo de Muestreo: Conceptos Generales
Las técnicas de muestreo son un conjunto de técnicas estadísticas que estudian la forma
de seleccionar una muestra representativa de la población, es decir, que represente lo más
fielmente posible a la población a la que se pretende extrapolar o inferir los resultados de
la investigación, asumiendo un error mesurable y determinado (Canal Díaz, 2009).
Al seleccionar una muestra pueden cometerse dos tipos de errores: los errores aleatorios y
los errores sistemáticos o sesgos. El error aleatorio corresponde a la diferencia entre el
resultado obtenido a partir de la muestra y la realidad de la población. Realmente, siempre
existe una diferencia entre el resultado obtenido de una muestra y el resultado que
deberíamos haber obtenido de la población y es debida a no estudiar la población completa.
El error aleatorio se debe en mayor parte al azar y no afecta a la validez interna del
resultado, pero puede disminuir la probabilidad de encontrar relación entre las variables
estudiadas (Canal Díaz, 2009).
26 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
Estudios recientes han encontrado evidencia de muchas fuentes diferentes de sesgo en los
datos de las redes sociales. Este sesgo puede provenir del sesgo demográfico en las redes
sociales. Por ejemplo, la edad promedio de los usuarios de Twitter es mucho más joven
que la población general (Mislove, Lehmann, Ahn, Onnela, & Rosenquist, 2011). Las
cuentas maliciosas y automáticas pueden producir cantidades masivas de contaminación
del contenido, lo que sesga las estadísticas del sitio (Morstatter, Dani, Sampson, & Liu,
2016). Además, la manera en que los sitios distribuyen sus datos puede ser sesgada
(Morstatter, Pfeffer, Liu, & Carley, 2013), proporcionando una representación sesgada de
su contenido a través de sus interfaces de usuario y API.
Por lo tanto, es esencial que se recopilen suficientes datos para que puedan obtenerse
resultados creíbles. Investigaciones previas, sin embargo, encontraron evidencia de sesgo
en las redes sociales (Morstatter et al., 2013), por ejemplo, los principales hashtags de los
tweets que vienen a través de las API de Twitter (es decir, 1%) pueden ser
significativamente diferentes de los principales hashtags en todo Twitter durante el mismo
periodo.
Esto tiene implicaciones para la investigación realizada sobre estas API, ya que significa
que las mediciones tomadas de estas muestras API pueden no reflejar realmente lo que se
está desarrollando en Twitter.
La realización de algunos sesgos en los datos de las redes sociales sugiere nuevos
problemas de investigación relacionados con la detección de bots, neutralización de la
contaminación del contenido y estimación del sesgo de muestreo.
2.1.5 Eliminación del ruido del SM: Conceptos Generales
El ruido es la distorsión de los datos que están presentes en las redes sociales. La relación
señal / ruido suele ser muy alta en las redes sociales. Existen cuatro fuentes principales de
ruido en los datos de las redes sociales que enuncian (Deuja & Shah, 2019):
• Cuentas falsas / no utilizadas: muchas de las cuentas de redes sociales no son
propiedad ni están administradas por una persona con su verdadera identidad. Del
27
mismo modo, los usuarios crean muchas cuentas en diferentes sitios, pero nunca
más las usan.
• Spam: los spams se caracterizan principalmente por enlaces maliciosos, intentos de
inyección de malware, mensajes de marketing no solicitados y mal dirigidos,
phishing, etc. Los spams no son deseables y su apariencia afecta el análisis de los
sentimientos del usuario y las tendencias de palabras clave / marca.
• Contenido engañoso: el contenido engañoso incluye información que se produce
con el motivo de engañar a los usuarios y se transmite como información válida.
• Datos duplicados: los datos duplicados se forman cuando hay varias instancias con
exactamente los mismos valores característicos. Múltiples cuentas del mismo
usuario, retweets, reposts, etc., pueden conducir a una copia duplicada de los
mismos datos. Los datos duplicados dificultan la magnitud y la validez de las
estadísticas en una secuencia de muestra.
Para estas situaciones, se notó dos observaciones importantes: (1) eliminar totalmente el
ruido, puede empeorar el problema, porque la eliminación también puede eliminar
información valiosa, y (2) la definición de ruido se vuelve complicada y relativa porque
depende de la tarea en cuestión que se realiza.
Los datos de las redes sociales son especiales en muchos aspectos con respecto a los
datos convencionales de valor de atributo comúnmente utilizados en la minería de datos
clásica. Ambos tipos de datos pueden ser extremadamente grandes en términos de tamaño
y dimensionalidad.
Los datos de las redes sociales suelen ser de grandes dimensiones. Por ejemplo, hay
millones de términos en los tweets, mientras que las imágenes de alta calidad de la red
social Flickr pueden tener millones de píxeles. Por lo general, solo una pequeña parte de
las características son relevantes para una determinada tarea de minería de redes sociales
y otras son irrelevantes, redundantes y ruidosas (Tang & Liu, 2012).
Por lo tanto, es intuitivo y sensible eliminar las características ruidosas, las instancias
ruidosas y los enlaces ruidosos. Sin embargo, dado el hecho de que a menudo se puede
acceder a un pequeño porcentaje de datos (p. ej., 1 % de Twitter) (Morstatter et al., 2013),
se genera la pregunta: ¿Qué queda después de la eliminación del ruido?
28 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
Siguiendo los métodos tradicionales de preprocesamiento de datos, es muy probable que
queden pocos datos dado las grandes cantidades de ruido. Esto se convierte en desafíos
únicos para la eliminación de ruido.
2.1.6 Difusión de la información: Conceptos Generales
El uso de las redes sociales ha traído nuevas oportunidades y desafíos para el estudio de
la difusión de información. Por un lado, los datos masivos generados por las redes sociales,
proporcionan un recurso importante para los investigadores. Con miles de millones de
conexiones, los usuarios constituyen una red a gran escala.
El proceso de difusión de diversos tipos de información, como innovaciones tecnológicas,
noticias, temas de tendencia y opiniones, se describe como un contagio que se propaga de
usuario a usuario como una epidemia. Gracias al masivo empleo de las redes sociales, hoy
en día se difunden rápidamente grandes cantidades de información a través de estas.
Las redes sociales permiten que cientos de millones de usuarios de Internet en todo el
mundo produzcan y consuman contenido. Proporcionan acceso a una fuente de información
muy amplia a una escala sin precedentes. Las redes sociales desempeñan una función
valiosa en la difusión de información al incrementar la propagación de nueva información y
diversos puntos de vista y la variedad de escenarios de aplicación como sistemas de
recomendación y marketing. Ser capaz de cuantificar y medir la difusión de información
puede mejorar enormemente el rendimiento en estos escenarios (Bakshy, Rosenn, Marlow,
& Adamic, 2012), (Hu, Xu, & Shi, 2015).
Se han intentado una variedad de métodos para capturar el proceso de difusión en las redes
sociales, que van desde la termodinámica a la epidemiología, a la inferencia probabilística
y estadística. Estos métodos difieren entre sí con respecto a las condiciones de uso, la
complejidad del modelo y el rendimiento de la predicción.
Una red social resulta del uso de un servicio web dedicado, a menudo denominado sitio de
red social, que permite a sus usuarios (1) crear una página de perfil y publicar mensajes y
(2) conectarse explícitamente a otros usuarios creando así relaciones sociales. De hecho,
29
una red social se puede describir como un sistema de contenido generado por el usuario
que permite a sus usuarios comunicarse y compartir información.
En cierto grado, las características de comportamiento de los usuarios tienen un efecto en
la difusión de información. En general, las fuentes de información son personas como
celebridades, representantes de medios de comunicación y otras organizaciones formales
que tienen un número mucho mayor de seguidores que sus seguidores. Si una publicación
es publicada por una fuente de información, provocará una difusión más amplia (Hu et al.,
2015).
Una red social se representa formalmente mediante un grafo, donde los nodos son usuarios
y las aristas son relaciones que pueden ser dirigidas o no, dependiendo de cómo el sitio de
red social gestiona las relaciones, más precisamente, depende de si permite conectarse de
manera unilateral (por ejemplo, modelo social de seguimiento de Twitter) o bilateral (por
ejemplo, modelo de amistad social de Facebook). Por lo tanto, la estructura de las redes
sociales, proporciona una plataforma base y sus comunidades promueven directamente la
difusión de información. (Bampo, Ewing, Mather, Stewart, & Wallace, 2008), (Guille, Hacid,
Favre, & Zighed, 2013).
Los mensajes son el principal vehículo de información en dichos servicios. Los usuarios
publican mensajes para compartir o reenviar diversos tipos de información, como
recomendaciones de productos, opiniones políticas, ideas, etc.
Un mensaje se describe mediante (1) un texto, (2) un autor, (3) una marca de tiempo y
opcionalmente (4) el conjunto de personas (llamadas usuarios mencionados) a las que se
dirige específicamente el mensaje.
La Figura 2-4 se muestra un bosquejo de una red social representada por un grafo dirigido
enriquecido por los mensajes publicados por sus cuatro miembros. Una arista e = (ux, uy)
significa que el usuario "ux" está expuesto a los mensajes publicados por "uy". Esta
representación revela que, por ejemplo, el usuario llamado "u1" está expuesto al contenido
compartido por "u2" y "u3". También indica que nadie recibe los mensajes escritos por "u4"
30 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
Figura 2-4: Ejemplo de red social
Fuente: (Guille et al., 2013)
31
3. Trabajos relacionados
3.1 Trabajos relacionados en análisis de sentimientos
(Morency, Mihalcea, & Doshi, 2011) en su trabajo hacen tres contribuciones importantes.
En primer lugar, abordan la tarea del análisis de sentimiento trimodal y muestra que es una
tarea factible que puede beneficiarse de la explotación conjunta de las modalidades
visuales, auditivas y textuales. En segundo lugar, identifica un subconjunto de
características audiovisuales relevantes para el análisis de sentimientos y presenta pautas
sobre cómo integrar estas características. Finalmente, introduce un nuevo conjunto de
datos que consiste en datos reales en línea, que serán útiles para futuras investigaciones
en esta área.
(Vinodhini & Chandrasekaran, 2012) presentan una encuesta que cubre las técnicas y
métodos en el análisis del sentimiento y los desafíos que aparecen en el área. Además,
realiza un cuadro comparativo midiendo la efectividad de las técnicas. Utiliza técnicas como
Máquinas de vectores de soporte (SVM), Clasificadores Bayesianos (NB), Redes
Neuronales de Propagación (BPN).
(Mostafa, 2013) presenta un estudio para evaluar el sentimiento de los consumidores hacia
marcas conocidas. En esta investigación, se utiliza una muestra aleatoria de 3.516 tweets
para evaluar el sentimiento de los consumidores hacia marcas conocidas como Nokia, T-
Mobile, IBM, KLM y DHL. Se utiliza un léxico predefinido por expertos que incluía alrededor
de 6.800 adjetivos para realizar el análisis. Los resultados indican un sentimiento de
confianza del consumidor generalmente positivo hacía varias marcas famosas.
(Ortigosa, Martín, & Carro, 2014) presentan un nuevo método para el análisis de
sentimiento en Facebook que, a partir de mensajes escritos por usuarios, permiten extraer
información sobre la polaridad del sentimiento de los usuarios (positiva, neutra o negativa)
transmitida en los mensajes que escriben; y modelar la polaridad del sentimiento habitual
de los usuarios y detectar cambios emocionales significativos.
(Dasgupta, Natarajan, Kaipa, Bhattacherjee, & Viswanathan, 2015) ilustran el uso de
tecnologías de código abierto para el análisis de sentimientos de marca a partir de datos de
32 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
Facebook. Utilizan una plataforma llamada Infosys Information Platform, la cual proporciona
una capa de análisis de información sobre Hadoop, que abarca el paradigma MapReduce.
MapReduce es un modelo de programación y una implementación asociada para procesar
y generar grandes conjuntos de datos (Hadoop, 2019). Para hacer el análisis de
sentimientos, utilizar el Paquete de Sentimientos del software R.
(Vaghela & Jadav, 2016) en su investigación evaluaron tres técnicas de análisis de datos
(Máquina de Vector de Soporte, Naive Bayesiano y Máxima Entropía) con varios conjuntos
de datos entre ellos datos de Twitter, datos de clientes de (amazon.com, epinions.com,
cnet.com) y datos del debate presidencial en Estados Unidos en el año 2008 entre los
candidatos Obama-McCain.
En la tabla 3-1 se muestran los resultados de las evaluaciones de precisión de varios
algoritmos, donde concluyen que la Máquina de Vector de Soporte es el algoritmo de
clasificación más utilizado para el análisis de sentimientos y el que puede generar mejores
resultados.
Tabla 3-1: Comparación de los resultados de precisión de las técnicas evaluadas
Técnicas
Artículos
(Tripathy,
Agrawal, &
Rath, 2015)
(Pang, Lee, &
Vaithyanathan,
2002)
(Gautam &
Yadav, 2014)
(Go, Bhayani, &
Huang, 2009)
Máquina de Vector
de Soporte 94% 82,9% 85,5% 86,2%
Naive Bayesiano 89,5% 81,5% 88,2% 83%
Máxima Entropía NA 81% 83,8% 82,2%
Fuente: (Vaghela & Jadav, 2016)
33
(Baj-Rogowska, 2017) analiza el sentimiento de las opiniones utilizando los datos de
opiniones expresadas por usuarios de Facebook sobre Uber y recopiladas en el período
comprendido entre julio de 2016 y julio de 2017. El objetivo principal del estudio fue obtener
información sobre las percepciones de Uber durante trece meses consecutivos. El análisis
de sentimiento se llevó a cabo (incluyendo la recopilación de datos), utilizando el software
comercial ProSuite.
(Zhan, Tu, & Yu, 2018) efectuaron un estudio para investigar el contenido generado por los
usuarios en Instagram en el contexto de las bibliotecas públicas, mediante la realización de
análisis de opinión de dos millones de subtítulos en Instagram. Se emplearon algoritmos
supervisados de aprendizaje automático para crear el clasificador. Tres polaridades de
opinión y seis emociones se identificaron finalmente a través de estos subtítulos. Estas
polaridades proporcionan nuevos conocimientos para comprender a los lectores, lo que
ayuda a las bibliotecas a ofrecer mejores servicios.
(Noureen, Qamar, Khan, & Muhammad, 2018) proponen un marco llamado InstaSent para
el análisis de sentimientos basado en selfies de Instagram. El marco incorpora técnicas de
minería de texto y minería de imágenes para la predicción de sentimientos. Usan SVM para
la clasificación de sentimientos basada en el texto asociado con selfies como subtítulos,
hashtags, comentarios y emoticones, mientras que usan algoritmos de redes neuronales
para el procesamiento datos de imágenes para análisis de sentimientos.
(Păvăloaia, Teodor, Fotache, & Danileţ, 2019) realizaron un estudio que tenía como objetivo
analizar la reacción del cliente a dos tipos de publicaciones (fotos o videos) en seis redes
sociales: Facebook, Twitter, Instagram, Pinterest, Google+ y YouTube. Aportaron evidencia
sobre las diferencias y similitudes entre los comportamientos de los clientes de dos marcas
altamente competitivas en la industria de bebidas. Basándose en la literatura actual sobre
SM, Social Customer Relationship Managements (SCRM) y marketing, el resultado del
estudio es la conceptualización y medición de la capacidad del SM de una marca para
comprender las preferencias del cliente para diferentes tipos de publicaciones mediante el
uso de diversas herramientas estadísticas y la técnica de análisis de sentimientos aplicada
a grandes conjuntos de datos.
34 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
(Chandrasekaran, Annamalai, & De, 2019) examinaron el efecto del contenido generado
por el vendedor (tipo de contenido y tipo de medios) y los sentimientos de los usuarios
asociados sobre la interacción del usuario utilizando la técnica de minería de sentimientos
y el modelado de niveles múltiples. Para este estudio, se analizaron aproximadamente 3000
contenidos de marketing y 26 millones de impresiones de usuarios tomadas de las páginas
de marcas de Facebook de las 25 principales marcas de teléfonos móviles de la India. El
análisis revela que los comentarios que expresan los sentimientos de los usuarios influyen
de manera positiva y recursiva en los me gusta y las acciones relacionadas con el contenido
de los vendedores.
(Aly & van der Haar, 2020) presentan un clasificador de diccionario basado en la jerga
popular con el objetivo de determinar el sentimiento de los comentarios de Instagram dentro
del contexto de la moda, más específicamente calzado deportivo, y compararlo con el
rendimiento de otros clasificadores como Naive Bayes, J48 y Random Forest.
(Kaswidjanti, Himawan, & Silitonga, 2020) comparan la precisión del análisis de
sentimientos sobre la recomendación de recuerdos favoritos en el área de Yogyakarta
(Indonesia), utilizando los métodos basado en el léxico y en SVM. Los datos procesados
son datos de opinión de las redes sociales de Twitter e Instagram.
(Sa, Bhave, Deshpande, & Chaudhari, 2020) proponen predecir el sentimiento y clasificar
los comentarios como positivos, negativos o neutrales. Intentan ajustar un modelo de
regresión lineal para predecir el recuento de suscriptores / seguidores para cualquier cuenta
de redes sociales, por ejemplo, un canal de YouTube o una cuenta en Instagram.
En la tabla 3-2 se muestra el resumen de los trabajos relacionados, con las técnicas y las
redes sociales que se usaron.
35
Tabla 3-2: Técnicas utilizadas en los trabajos relacionados con el análisis de sentimientos
Autores Técnica - Software - Librería -
Algoritmo - Método - Aplicación
Red Social
(Morency et al., 2011) Clasificador HMM YouTube
(Vinodhini & Chandrasekaran, 2012)
SVM, NB, BPN NA
(Mostafa, 2013) twitteR, SentiWordNet Twitter
(Ortigosa et al., 2014) SentBuk, SVM Facebook
(Dasgupta et al., 2015) Hadoop, R Sentiment Package Facebook
(Vaghela & Jadav, 2016) SVM, NB, Máxima Entropía Twitter
(Baj-Rogowska, 2017) ProSuite Facebook
(Zhan et al., 2018) Random Forest Instagram
(Noureen et al., 2018) SVM Instagram
(Păvăloaia et al., 2019) Syuzhet Facebook, Twitter,
Instagram, Pinterest, Google+ y YouTube
(Chandrasekaran et al., 2019)
Sentistrength Facebook
(Aly & van der Haar, 2020)
SVM, Random Forest, NB Instagram
(Kaswidjanti et al., 2020) Basado en el léxico, SVM Instagram y Twitter
(Sa et al., 2020) Modelo de regresión lineal Instagram y YouTube
Fuente propia
36 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
3.2 Trabajos relacionados con sesgo de muestreos
(Gjoka, Kurant, Butts, & Markopoulou, 2010) tienen como objetivo obtener una muestra
representativa (imparcial) de usuarios de Facebook rastreando su gráfico social. En esta
búsqueda, consideran e implementaron varias técnicas candidatas. Dos enfoques que
funcionan bien son la caminata aleatoria Metropolis-Hasting (MHRW) y una caminata
aleatoria re-ponderada (RWRW). Además de la evaluación del desempeño fuera de línea,
presentan diagnósticos en línea para evaluar la calidad de la muestra durante el proceso
de recopilación de datos. Muestran cómo se pueden usar para determinar de manera
efectiva cuándo una muestra de caminata aleatoria es de tamaño y calidad adecuados para
su uso posterior (es decir, cuándo es seguro dejar de tomar muestras).
(Park & Moon, 2013) en su artículo cambian el enfoque a los atributos de nodo. Para el
estudio utilizan 7 métodos de muestreo. Concluyen que los métodos de muestreo existentes
producen productos sesgados y necesitan modificaciones para aliviar el sesgo.
(Lu & Li, 2013) discuten el problema de sesgo al estimar el tamaño de la población de
grandes datos, como lo son las redes sociales utilizando un muestreo aleatorio uniforme y
una caminata aleatoria simple. Señalan que cuando se usan muestras pequeñas, hay un
sesgo que ya no es despreciable. El resultado es respaldado por los estudios de simulación
y la red real de Twitter que contiene 41,7 millones de nodos.
(Culotta, 2014) presenta resultados que estiman varias estadísticas de salud (entre ellas,
obesidad, diabetes, acceso a alimentos saludables) basadas en la actividad de los usuarios
de Twitter, en los 100 condados principales en los EE. UU., y comparan estrategias para
reducir el sesgo de selección. Los resultados sugieren que ajustar el sesgo de selección
puede mejorar en gran medida la precisión de las estimaciones realizadas con los datos de
las redes sociales. Estos resultados se mantienen a pesar del ruido introducido por la
inferencia demográfica.
(González-Bailón et al., 2014) consideran el sesgo de muestreo introducido en el estudio
de redes sociales al recopilar datos a través del uso de la API de Twitter. Evalúan las
37
diferencias entre tres muestras de actividad de Twitter. El estudio lo realizaron tomando una
muestra de la actividad en Twitter durante el período del 30 de abril al 30 de mayo de 2012
en el marco de las protestas que se organizaron para celebrar el primer aniversario de los
indignados españoles o movimiento indignado, que estalló en 2011 para protestar contra
los recortes de gastos y la gestión de la crisis económica. Hacen un seguimiento de la
comunicación y reconstruyen la red de menciones y re-tweets según las API de búsqueda
y transmisión con diferentes parámetros de filtrado.
(Morstatter & Liu, 2017) en su trabajo investigan el sesgo de recopilación de datos asociado
con las redes sociales. Proponen métodos computacionales para evaluar si existe un sesgo
debido a la forma en que un sitio de redes sociales pone a disposición sus datos, detectar
sesgos a partir de muestras de datos sin acceso a los datos completos y mitigar el sesgo
mediante el diseño de estrategias de recopilación de datos que maximicen cobertura para
minimizar el sesgo. También presentan un nuevo tipo de sesgo de datos derivado de los
ataques API con algoritmos, datos y resultados de validación. Además, en el artículo
demuestran cómo algunas características de los datos de las redes sociales pueden ser
ampliamente estudiadas y verificadas y cómo los mecanismos de intervención
correspondientes pueden diseñarse para superar los efectos negativos.
(Fan, Yu, Guo, Wang, & Yang, 2017) realizaron la intervención al procedimiento de
muestreo de acuerdo con la divergencia en tiempo real del conjunto de muestras recogidas
con respecto a la distribución objetivo, aplicaron la teoría de la homofilia para descubrir a
los usuarios con características coincidentes y refinar las muestras con muestreo recursivo.
Además, se requirió menos tiempo de acceso para recolectar un cierto número de muestras
para el método propuesto y así ahorrar tiempo y recursos informáticos.
(Ardehaly & Culotta, 2018) investigan algoritmos de clasificación que utilizan restricciones
estadísticas de la población, como datos demográficos, nombres y seguidores de redes
sociales para ajustar los clasificadores para predecir los atributos de los usuarios
individuales para la disminución del sesgo del muestreo. Proponen métodos de aprendizaje
con proporción de etiqueta (LLP) que modelan explícitamente el ruido inherente a estas
proporciones de etiquetas. En varios conjuntos de datos reales y sintéticos, encuentran que
38 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
combinar estas mejoras juntas puede reducir significativamente el error de clasificación
promedio en un 7%.
(Yuan et al., 2020) formalizan los sesgos de muestreo de los datos de las redes sociales
basadas en la ubicación (RSBU) desde varias perspectivas, incluidas las
sociodemográficas, espaciotemporales y semánticas. Examinan los problemas de
representatividad de datos de RSBU utilizando casos empíricos y analiza los impactos en
las aplicaciones de ciudades inteligentes. Los resultados proporcionan información para
comprender las limitaciones de los datos de las RSBU para aplicaciones de ciudades
inteligentes y para desarrollar enfoques de mitigación.
3.3 Trabajos relacionados en eliminación del ruido
(Xiong, Pandey, Steinbach, & Kumar, 2006) exploran cuatro técnicas destinadas a la
eliminación de ruido para mejorar el análisis de datos en presencia de altos niveles de ruido.
Tres de estos métodos se basan en técnicas tradicionales de detección de valores atípicos:
basados en la distancia, en clústeres y un enfoque basado en el factor local de valores
atípicos (LOF) de un objeto. La otra técnica, que es un método que proponen, es un
limpiador de datos basado en hiperclique (HCleaner).
(Hernández, Sallis, & Garden, 2011) abordan el proceso de descarte como eliminación de
ruido dentro del contexto de métodos de procesamiento de señales. Proponen un enfoque
basado en la entropía utilizando una matriz ponderada de valor para la coincidencia de
relevancia de palabras, donde el texto completo se divide en función de si existe una
relevancia directa de pares de palabras para el significado declarado buscado, que se
expresa como un conjunto de parámetros y el ruido se considera como errores en el flujo
de datos. Los datos no ruidosos resultantes se representan como un vector de significado
de texto, donde se almacenan los términos de relevancia directa para los valores de los
parámetros iniciales.
39
Autores como (Tang & Liu, 2012) han desarrollado marcos de eliminación de ruido en
conjunto para realizar la eliminación de múltiples tipos de ruido en los datos de las redes
sociales de forma simultánea.
(Gao, Wang, Tang, & Liu, 2013) abordan el proceso de descarte como eliminación de ruido
dentro del contexto de métodos de procesamiento de señales. Proponen un enfoque
basado en la entropía que utiliza una matriz ponderada por el valor para la correspondencia
de relevancia de palabras, donde el texto completo se divide de acuerdo a si existe una
relevancia directa de los pares de palabras para el significado declarado que se busca, que
se expresa como un conjunto de parámetros y el ruido se considera como errores en el flujo
de datos.
(Wang, Zhang, Chen, & Zhang, 2015) presentan un diseño de un sistema en tiempo real,
SocialAnalysis. Las tecnologías clave en el sistema incluye métodos de eliminación de
datos basados en funciones múltiples, que eliminan los datos de eventos relacionados con
consultas de datos.
(Chang, Xiang, & Hospedales, 2016) proponen un enfoque novedoso basado en gráficos
para la eliminación de ruido de etiquetas. Demuestran el rendimiento superior de
eliminación de ruido de su modelo en datos reales de redes sociales con patrones de ruido
en etiquetas estructuradas.
(Wani, Agarwal, Jabin, & Hussain, 2019) presentan una técnica de eliminación de ruido para
eliminar los valores atípicos de conjunto de datos en las publicaciones de los usuarios de
Facebook. El modelo de detección está entrenado en 12 atributos basados en la emoción,
incluidas las ocho emociones básicas, positividad y negatividad de Plutchik. Utilizaron
varias técnicas de aprendizaje automático, como SVM, NB, JRip y RF para entrenar el
modelo de detección.
3.4 Trabajos relacionados en difusión de la información
Algunos trabajos han tratado el problema de la procedencia de la información. Una posible
solución a este problema es, dado un gráfico con un conjunto de destinos conocidos como
terminales, busque algorítmicamente las fuentes, denominadas nodos raíz. Algunos
40 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
algoritmos de referencia son Modelo de Difusión de Rumores (Shah & Zaman, 2011),
Modelo de cascada independiente (Lappas, Terzi, Gunopulos, & Mannila, 2010) y NetSleuth
(Prakash, Vreeken & Faloutsos, 2012).
Algunos investigadores trabajan en el desarrollo de modelos globales para predecir el flujo
de información y han tenido éxito como es el caso de (Gómez Rodríguez, Leskovec, &
Schölkopf, 2013) en los cuales se utilizan las vías de propagación de información para inferir
la verdadera estructura de la red.
(Guille et al., 2013) presentan una encuesta de métodos representativos de la difusión de
la información en redes sociales y proponen una taxonomía que resume el estado del arte.
El objetivo de la encuesta es ayudar a los investigadores a comprender rápidamente los
trabajos existentes y las posibles mejoras a aportar.
(Luarn, Yang, & Chiu, 2014) diseñaron una aplicación de Facebook para examinar la
influencia de la red de personas en la diseminación de información. Los resultados
mostraron que tanto el grado de la red como el conglomerado de la red afectaron
significativamente la frecuencia de difusión de la información. En otras palabras, las
personas con más conexiones y con altas conexiones agrupadas podrían ejercer una mayor
influencia en su proceso de difusión de información.
(W. H. Tang, Yeh, & Lee, 2014) investigaron el impacto de la influencia social de una página
de seguidores de Facebook en las taquillas de películas. Su objetivo era mejorar la precisión
de predecir la taquilla aprovechando la influencia social entre los usuarios en la página de
fans. Proponen el Modelo de predicción de ingresos de taquilla lineal (LBRPM) para
calcular la influencia del usuario y predecir la interacción entre la fan page y los usuarios.
(Jiang, Chen, & Liu, 2014) proponen un marco teórico de juego evolutivo para modelar el
proceso dinámico de difusión de información en las redes sociales. Para verificar realizan
experimentos utilizando la red de Facebook y el conjunto de datos de difusión de
información del mundo real de Memetracker. Los resultados del experimento muestran que
el marco teórico del juego propuesto es efectivo y práctico para modelar los
comportamientos de reenvío de información de los usuarios de las redes sociales.
41
(Seltzer, Jean, Kramer-Golinkoff, Asch, & Merchant, 2015) tenían como objetivo explorar
cómo las plataformas de intercambio de imágenes se utilizan para la difusión de información
en emergencias de salud pública. Usando la palabra clave '#ebola' identificaron una
muestra del 1% de imágenes publicadas en Instagram y Flickr en dos semanas
consecutivas en noviembre de 2014. Concluyeron que las plataformas de intercambio de
imágenes se están utilizando para el intercambio de información sobre crisis de salud
pública.
(Kumaran & Chitrakala, 2015) discutieron diferentes métodos, modelos y enfoques
involucrados en la detección de temas, la identificación del difusor de influencia y los
modelos de difusión de información. También enuncian los problemas, aplicaciones,
medidas de red y algunos conjuntos de datos de redes sociales comunes utilizados en la
difusión de información.
(Desmarchelier & Fang, 2016) examinan cómo las redes sociales han modificado el proceso
a través del cual la información se propaga dentro de una población. Sobre la base de la
modelización basada en agentes y una encuesta de comportamiento sobre la difusión de
información tras un rumor de una emergencia alimentaria en China, estudiaron las redes de
difusión en poblaciones simuladas con y sin acceso a las redes sociales. Concluyen que, si
bien el uso de las redes sociales no aumenta la probabilidad de cascadas informativas, los
resultados sugieren un cambio significativo en la topología de las redes de difusión.
(Chen et al., 2017) presentan D-Map (Diffusion Map), un novedoso método de visualización
para apoyar la exploración y el análisis de comportamientos sociales durante la difusión y
propagación de información en redes sociales. En D-Map, los usuarios que participaron en
reenviar un mensaje inicialmente publicado por otros las publicaciones de un usuario
central, se recopilan y asignan a una grilla hexagonal en función de sus similitudes de
comportamiento y en orden de los reposteos. Con interacción adicional y enlaces, D-Map
es capaz de proporcionar retratos visuales de los usuarios influyentes y describir sus
comportamientos sociales.
(Chiu & Hsu, 2017) analizaron la difusión de información a través de la difusión de
mensajes, como compartir publicaciones o comentar publicaciones en Facebook.
Analizaron los comportamientos de reacción de los usuarios y desarrollaron un método para
42 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
encontrar usuarios importantes que cambian la velocidad de difusión de la información y
desempeñan un papel crucial.
(Aminolroaya & Katanforoush, 2017) investigan algunos aspectos novedosos de la difusión
de hashtags entre las comunidades iraníes en Instagram en el período de las últimas
elecciones legislativas en Irán. Analizan la validación de tres supuestos diferentes. Primero,
estudian los efectos de las relaciones entre seguidores y seguidores en la difusión de los
hashtags de la campaña. Con base en las marcas de tiempo de las publicaciones, utilizan
el método NetRate para estimar las tasas de difusión de información sobre los nodos de la
red. Luego, mediante la aplicación del método de Lovaina como algoritmo de detección de
la comunidad, investigaron la relación entre la membresía de la comunidad y la tasa de
transmisión del contagio. Los resultados muestran el flujo de información de los seguidores
a los seguidores con una tasa significativa de difusión en toda la red.
(Yang et al., 2018) presentan un estudio del proceso de difusión de la información verdadera
y falsa a través de las redes sociales, particularmente Facebook. Investigan la estructura
topológica de dos conjuntos de datos de red de Facebook a gran escala con respecto a sus
propiedades estadísticas. Además, establecen un modelo de información para simular la
información verdadera y falsa que se extiende por Facebook.
(Jain, Mohan, & Sinha, 2018) realizaron detección de comunidades con medidas de
centralidad ejecutadas sobre nodos. Sus resultados ayudaron a mejorar el seguimiento de
la difusión de información al máximo de personas en la red conectada para promover una
mejor publicidad de productos o servicios, de acuerdo con las necesidades, preferencias y
criterios de búsqueda.
(S. H. Park, Yoon, & Chung, 2019) investigaron cómo líderes políticos se comunicaron con
el público del Reino Unido a través de las páginas de seguidores de Facebook a través del
proceso del Brexit. Este estudio empleó dos tipos diferentes de análisis de datos (análisis
de redes sociales y análisis de redes semánticas) para explorar la estructura y los
contenidos del proceso de difusión de información.
(Kim & Seo, 2020) proponen modelos de epidemia realistas para describir el proceso
probabilístico de propagación de hashtag. Sus modelos tienen en cuenta la forma en que
43
los usuarios se comunican en las redes sociales. En base a los modelos propuestos,
desarrollan algoritmos de inferencia eficientes que miden las tasas de propagación de los
hashtags en las redes sociales.
En la tabla 3-3 se muestra el resumen de los trabajos relacionados, con las técnicas que se
utilizaron y las redes sociales que se usaron.
Tabla 3-3: Técnicas utilizadas en los trabajos relacionados con la difusión de información
Autores Técnica - Software - Librería - Algoritmo -
Método - Aplicación - Modelo Red
Social
(Shah & Zaman, 2011) Modelo de difusión de rumores NA
(Lappas et al., 2010) Modelo de cascada independiente NA
(Prakash et al., 2012) Método Netsleuth NA
(Gómez Rodríguez et al., 2013)
INFOPATH Facebook
(Guille et al., 2013) NETINF, NETRATE, INFOPATH NA
(Luarn et al., 2014) App en Facebook Facebook
(W. H. Tang et al., 2014) Modelo de predicción de ingresos de taquilla lineal Facebook
(Jiang et al., 2014) Teoría del juego evolutivo Facebook
(Seltzer et al., 2015) Uso #hashtag Instagram
(Kumaran & Chitrakala, 2015)
NETINF, NETRATE, INFOPATH, Umbral Lineal NA
(Desmarchelier & Fang, 2016)
Modelo de agentes NA
(Chen et al., 2017) D-Map Weibo
(Chiu & Hsu, 2017 Share acceleration max Facebook
(Aminolroaya & Katanforoush, 2017)
NetRate, Louvain Instagram
(Yang et al., 2018) Modelo Propio Facebook
(Jain, Mohan, & Sinha, 2018)
Girvann-Newman, Louvain Facebook
(S. H. Park et al., 2019) NodeXL Facebook
(Kim & Seo, 2020) Uso #hashtag Facebook
44 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
4. Modelo propuesto para realizar Social Media Mining en Facebook e Instagram
El objetivo de este capítulo, es elaborar un modelo propio que nos permita abordar los
desafíos del SMM en las redes sociales de Facebook y Instagram. Por lo tanto, se tiene en
cuenta la literatura revisada para diseñar el modelo que contenga las estrategias y técnicas
que tuvieron mejor desempeño en los estudios realizados.
En la figura 4-1, se muestra la secuencia de pasos involucrados en el modelo propuesto, el
cual consta de los procesos de obtención de la data, preprocesamiento, generación de data
de entrenamiento, escogencia del clasificador, ejecución del algoritmo, validación y
resultados.
45
Figura 4-1: Modelo genérico propuesto
46 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
4.1 Pasos y procesos del Modelo Propuesto
Primer paso: Recopilación de datos: en esta etapa, los datos que se analizarán, se rastrean
desde varias fuentes como las redes sociales y/o herramientas que nos permitan extraer
los comentarios para hacer el respectivo análisis (Thakkar & Patel, 2015).
Segundo paso: Preprocesamiento: La aplicación de las técnicas correctas de
preprocesamiento de datos que implica transformar los datos en bruto, en un formato
comprensible puede mejorar la calidad de los datos, lo que ayuda a mejorar la precisión y
la eficiencia del proceso. Este preprocesamiento puede tener varios pasos (García,
Ramírez-Gallego, Luengo, & Herrera, 2016):
• Limpieza de datos: los datos se limpian a través de procesos como completar los
valores faltantes, suavizar los datos ruidosos o resolver las inconsistencias en los
datos. La limpieza incluye la extracción de palabras clave y símbolos, cambiar todo
en mayúsculas y minúsculas a un caso común, eliminación de stopwords, etc.
• Transformación de datos: La normalización de texto es el proceso de transformar
un texto en una forma canónica (estándar). La normalización del texto es importante
para textos ruidosos como comentarios en redes sociales, mensajes de texto y
comentarios a publicaciones de blog donde prevalecen las abreviaturas, errores
ortográficos y el uso de palabras fuera del vocabulario.
Tercer paso: Datos para el entrenamiento: El conjunto de datos para el datatest, es el
insumo a través del cual el modelo clasificador aprende a procesar la información.
Utilizando capacitación iterativa en los datos, finalmente el modelo clasificador puede
reconocer características o patrones. Los datatest son absolutamente esenciales para el
proceso: pueden considerarse como el "alimento" que el modelo clasificador utiliza para
operar (Shah, 2019).
Cuarto paso: Aplicación de algoritmo de Clasificación: Este es el corazón de todo el
modelo. Dependiendo de los requisitos de la aplicación, el clasificador se implementa para
47
su análisis. El clasificador (después de completar el entrenamiento) está listo para
desplegarse para fines de extracción de sentimientos (Thakkar & Patel, 2015).
Para autores como (Thakkar & Patel, 2015),(Mesnil, Mikolov, Ranzato, & Bengio, 2015),
(Pang et al., 2002),(Anjaria & Guddeti, 2014),(Ortigosa et al., 2014), (Ramírez-Tinoco, Alor-
Hernández, Sánchez-Cervantes, Olivares-Zepahua, & Rodríguez-Mazahua, 2018),
(Alsmadi & Gan, 2019), (Rameshbhai & Paulose, 2019), (Mr. S. M. Vohra, 2012),
concuerdan que el SVM (Support Vector Machine) tiene una alta precisión y mejor
desempeño frente a otros algoritmos. Por lo tanto, para nuestro modelo se escoge el
clasificador SVM para hacer la experimentación.
Quinto paso: Resultados: La evaluación del rendimiento de un modelo es una de las fases
principales en el proceso de ciencia de datos. Indica el nivel de acierto de las puntuaciones
(predicciones) de un conjunto de datos mediante un modelo entrenado (Microsoft, 2017).
Las métricas de evaluación disponibles para los modelos de clasificación son: Accuracy,
Precision, Recall y F1 Score.
48 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
5. Experimentación y análisis de los resultados
5.1 Metodología
La construcción del modelo, aborda el tercer objetivo específico de este trabajo y para su
implementación se trabajó con la herramienta Kaggle.
Kaggle, es una comunidad en línea de científicos de datos y profesionales del aprendizaje
automático. Kaggle permite a los usuarios encontrar y publicar conjuntos de datos, explorar
y construir modelos en un entorno de ciencia de datos basado en la web, trabajar con otros
científicos de datos e ingenieros de aprendizaje automático, y participar en concursos para
resolver desafíos de ciencia de datos.
Kaggle ofrece los siguientes servicios:
• Concursos de aprendizaje automático: Las empresas publican problemas y los
alumnos aprenden a construir el mejor algoritmo.
• Kaggle Kernels: un banco de trabajo basado en la nube para la ciencia de datos y
el aprendizaje automático. Permite a los científicos de datos compartir código y
análisis en Python y R.
• Plataforma de conjuntos de datos públicos: los miembros de la comunidad
comparten conjuntos de datos entre sí.
• Kaggle Learn: cursos sobre ciencia de los datos.
En la figura 5-1 se define la estructura para implementar el modelo, y el script y herramientas
requeridas para la experimentación.
49
Figura 5-1: Modelo propuesto detallado para la experimentación
50 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
5.1.1 Obtención de los datos
Los datos de la experimentación se obtuvieron para Facebook del perfil oficial de la
Universidad Nacional de Colombia, y para Instagram, del perfil oficial de la Universidad
Nacional de Colombia – Sede Medellín. Para las pruebas en Facebook, se escogieron dos
posts y una para Instagram. Para la elección de los posts, se tuvo en cuenta que tuviera un
buen número de comentarios.
En la figura 5-2, se muestra el primer post de Facebook, que fue una publicación en formato
de video, donde la rectora de la Universidad, da su opinión referente al paro nacional del
21 de noviembre del 2019.
Figura 5-2: Post 1 de Facebook
En la figura 5-3, se muestra el segundo post de Facebook, que fue una publicación en
formato de imagen, donde se dicta por parte del Consejo Académico de la Universidad,
51
establecer las cátedras sobre las problemáticas sociales del país que se ofrecerán en el
2020 para toda la comunidad académica de la universidad.
Figura 5-3: Post 2 de Facebook
En la figura 5-4, se muestra el post de Instagram, que fue una publicación en formato de
imagen, donde anuncian que la Universidad, mediante un convenio con la alcaldía de
Medellín, realizarán la construcción del Plan de Desarrollo.
52 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
Figura 5-4: Post Instagram
Para la obtención de los comentarios de los posts, es necesario tomar la URL de cada cada
una, para luego pegarlas en las herramientas de extracción. Para Facebook, se utilizó la
herramienta web https://www.commentexporter.com/. y para Instagram, se usó
https://exportcomments.com/. Las dos herramientas exportan los datos en un archivo con
formato csv. En la figura 5-5 y 5-6, se muestra el proceso de descargar lo comentarios para
Facebook e Instagram respectivamente.
Figura 5-5: Proceso descarga de comentarios de Facebook
53
Figura 5-6: Proceso descarga comentarios de Instagram
Cabe señalar que las dos herramientas en su versión gratis permite la descarga de hasta
500 comentarios y tienen como ventajas que no se necesita ser dueño de la página de
Facebook o Instagram donde se produjo la publicación. Ya sea un estado, una foto o un
video, (siempre y cuando sea público el contenido), se puede exportar los comentarios
disponibles.
Posteriormente, se hace el análisis de sentimientos de los comentarios con la herramienta
web https://www.meaningcloud.com, el cual permite instalar un complemento en la
herramienta ofimática de Excel, que permite realizar fácilmente análisis de texto en las hojas
de cálculo. Los comentarios se analizan para determinar si expresa un sentimiento positivo,
negativo o neutral; para hacer esto, la herramienta identifica la polaridad local de las
diferentes oraciones en el texto y se evalúa la relación entre ellas, lo que resulta en un valor
de polaridad global para todo el texto; además, genera un campo con el valor de confianza
respecto al análisis de sentimientos que va de 0 a 100, donde 100 es el máximo valor de
confianza. Se escogió esta herramienta, ya que, en búsqueda realizada, fue la que permitió
hacer análisis de sentimientos en español.
54 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
5.1.2 Preprocesamiento
Para el procesamiento de los datos, se empleó el paquete Natural Language Toolkit (NLTK),
el cual proporciona bibliotecas de procesamiento de texto para clasificación, tokenización,
derivación, etiquetado, análisis y razonamiento semántico (NLTK Project, 2019). En esta
etapa se definieron 3 procesos de procesamiento: remoción de stopwords, tokenización y
normalización.
Las stopwords son palabras que se filtran en el procesamiento de los datos y son
generalmente las palabras más comunes en un idioma. El grupo de palabras puede estar
conformado por artículos, pronombres, preposiciones, adverbios e incluso algunos verbos,
que no agregan mucho valor al significado del documento (Rajaraman & Ullman, 2011).
Para este proceso en la experimentación, se utilizó la función del paquete NLTK
nltk.corpus.stopwords.words.
La tokenización es un paso que divide cadenas de texto más largas en piezas más
pequeñas o tokens. Los trozos de texto más grandes pueden ser convertidos en oraciones,
las oraciones pueden ser tokenizadas en palabras, etc. El procesamiento adicional
generalmente se realiza después de que una pieza de texto ha sido apropiadamente
concatenada. La tokenización también se conoce como segmentación de texto o análisis
léxico. A veces la segmentación se usa para referirse al desglose de un gran trozo de texto
en partes más grandes que las palabras (por ejemplo, párrafos u oraciones), mientras que
la tokenización se reserva para el proceso de desglose que se produce exclusivamente en
palabras (Mayo, 2020). Para este proceso en la experimentación, se utilizó la función del
paquete NLTK nltk.tokenize, que permite dividir los comentarios de los posts en palabras
para el entrenamiento del modelo.
La normalización generalmente se refiere a una serie de tareas relacionadas destinadas a
colocar todo el texto en igualdad de condiciones: convirtiendo todo el texto en el mismo tipo
(mayúsculas o minúsculas), eliminando la puntuación, convirtiendo los números a sus
equivalentes de palabras, etc. La normalización pone todas las palabras en igualdad, y
permite que el procesamiento pueda producirse de manera uniforme (Mayo, 2020). Para
55
este proceso en la experimentación, se utilizó la función del paquete NLTK
nltk.normalize_corpus.
5.1.3 Data de Entrenamiento
El objetivo de un modelo de aprendizaje automático es identificar patrones en los datos de
entrenamiento. Estos patrones se usan para realizar predicciones con datos nuevos. Para
la experimentación, se utilizó la función train_test_split del paquete
sklearn.model_selection. Esta función divide los datos en conjuntos de entrenamiento y
pruebas.
5.1.4 Clasificación
En esta etapa de clasificación, se trabajó con el algoritmo SVM, que es un método
supervisado de clasificación binaria que basa su entrenamiento en encontrar un hiperplano
que separe los vectores que representan los documentos del conjunto de datos (vectores
de features) en dos grupos, siendo esta separación la más grande posible. Aquellos
vectores que definen los márgenes de la máxima separación entre las clases se conocen
como support vectors y pueden observarse en cuadros en la figura 5-7 (Cortes & Vapnik,
1995).
Figura 5-7: Representación de una Máquina de Vector de Soporte (SVM)
Fuente: (Cortes & Vapnik, 1995)
56 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
El SVM pertenecen a una clase de algoritmos de ML denominados métodos kernel y
también se conocen como máquinas kernel.
El entrenamiento de una máquina de vectores de soporte consta de dos fases:
1. Transformar los predictores (datos de entrada) en un espacio de características
altamente dimensional. En esta fase es suficiente con especificar el kernel; los datos
nunca se transforman explícitamente al espacio de características. Este proceso se
conoce comúnmente como el truco kernel (MathWorks, 2020).
2. Resolver un problema de optimización cuadrática que se ajuste a un hiperplano
óptimo para clasificar las características transformadas en dos clases. El número de
características transformadas está determinado por el número de vectores de
soporte.
Para construir la superficie de decisión solo se requieren los vectores de soporte
seleccionados de los datos de entrenamiento. Una vez entrenados, el resto de los datos de
entrenamiento son irrelevantes (MathWorks, 2020).
Para la experimentación se trabajó con el paquete sklearn.linear_model con la función
SGDClassifier
5.1.5 Resultados
En esta etapa, se utilizó la función metrics.classification_report del paquete sklearns, donde
elabora un informe de texto que muestra las principales métricas de clasificación. Las
métricas son: precisión, recall, f1-score y accuracy.
La métrica precisión (del inglés precision) es la relación TP / (TP + FP) donde TP es el
número de positivos verdaderos y FP el número de falsos positivos. Esta métrica es
intuitivamente la capacidad del clasificador de no etiquetar como positiva una muestra que
es negativa (Scikit-Learn, 2020a).
La métrica Exhaustividad (del inglés recall) es la relación TP / (TP + FN) donde TP es el
número de verdaderos positivos y FN el número de falsos negativos. Esta métrica es
57
intuitivamente la capacidad del clasificador para encontrar todas las muestras positivas
(Scikit-Learn, 2020a).
La métrica Valor-F (del inglés f1-score), se puede interpretar como un promedio ponderado
de la métrica precision y recall, donde f1-score, alcanza su mejor valor en 1 y el peor puntaje
en 0 (Scikit-Learn, 2020b). Su fórmula es la siguiente:
𝑓1 − 𝑠𝑐𝑜𝑟𝑒 = 2 ∗ (𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑟𝑒𝑐𝑎𝑙𝑙)/(𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙)
Exactitud (del inglés Accuracy): esta medida de rendimiento representa la razón entre las
predicciones correctas sobre el total de predicciones realizadas. Es el número de elementos
clasificados correctamente entre el número total de clasificaciones llevadas a cabo (Scikit-
Learn, 2020c). Su fórmula es la siguiente:
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃 + 𝑇𝑁
𝑇𝑃 + 𝐹𝑃 + 𝑇𝑁 + 𝐹𝑁
También se elaboró un datatest para evaluar la precisión del modelo con la función
svm.predict del paquete sklearns, donde se realiza la clasificación en los datos de prueba.
En la figura 5-8, se muestra el porcentaje de cada polaridad (positive, neutral y negative)
de los 3 post analizados, donde se evidencia que el post 1 y 2 de Facebook, tiene un mayor
porcentaje de polaridad neutra, mientras que el post de Instagram, tiene un mayor
porcentaje de polaridad positiva.
58 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
Figura 5-8: Porcentaje de polaridad de los posts
En las tablas 5-1, 5-2 y 5-3, se muestra el resumen de las métricas obtenidas por cada post
analizado.
Tabla 5-1: Resumen Métricas Post 1 Facebook
precision recall f1-score accuracy
positive 0.64 0.57 0.57
0.63 neutral 0.5 1 0.67
negative 1 0.33 0.5
Tabla 5-2: Resumen Métricas Post 2 Facebook
precision recall f1-score accuracy
positive 0.80 0.8 0.8
0.8 neutral 1 0.75 0.86
negative 0.5 1 0.67
59
Tabla 5-3: Resumen Métricas Post 1 Instagram
precision recall f1-score accuracy
positive 0.67 1 0.8
0.66 neutral 0.67 0.67 0.67
negative 0.44 0.67 0.53
En la figura 5-4 se muestra el resumen de las métricas obtenidas
Figura 5-9: Resumen Métricas Post Analizados
Se observa que para métrica recall, el modelo identifica el 100% para la polaridad neutral,
negative y positive del post 1 de Facebook, post 2 de Facebook y Post de Instagram,
respectivamente. El de menor valor fue para la polaridad negative, del post 1 de Facebook.
El modelo propuesto tiene una precisión de 1, en hallar la polaridad negativa y neutral de
los posts 1 y 2 de Facebook, es decir, cuando predice la polaridad, acierta el 100% de las
veces.
0%
20%
40%
60%
80%
100%
120%
positive neutral negative positive neutral negative positive neutral negative
Post Facebook 1 Post Facebook 2 Post Instagram 1
precision recall f1-score accuracy
60 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
La métrica F-Score, nos proporciona una medida más realista del rendimiento de la prueba.
El valor más alto está en la polaridad neutral del post 1 de Facebook con 0.86, seguido con
0.8 de la polaridad positive del post 2 de Facebook y el post de Instagram.
Para la métrica accuracy, el de mejor rendimiento fue el post 2 de Facebook con 0.8,
seguido del post de Instagram con 0.66 y post 1 de Facebook con 0.63.
61
6. Conclusiones y recomendaciones
6.1 Conclusiones
En este trabajo se trató de abordar los desafíos y oportunidades del SMM proponiendo
estrategias para la aplicación del Social Media Mining en las redes sociales de Facebook e
Instagram.
• En el cumplimiento de los objetivos específicos se establecieron los desafíos más
importantes reportados en la literatura en lo relacionado con minería en las redes
Facebook e Instagram. Igualmente se definieron e implementaron estrategias para
enfrentar estos desafíos y se seleccionaron las técnicas en las diferentes fases de
SMM que permitieron centrarse en el análisis de sentimientos en los comentarios
de los posts bajo estudio. La implementación integra diferentes herramientas y
desarrollo propio para el logro del objetivo general, mostrando la viabilidad de
aplicación en casos concretos.
• El principal aporte de esta Trabajo de Maestría es la elaboración del modelo, que
permite la realización de SMM con los datos las dos redes en estudio. Sin duda, los
procesos de extracción, procesamiento, análisis y toma de decisiones a partir del
gran número de datos de las redes sociales, será un área que tendrá un mayor
crecimiento y actividad tecnológica en los próximos tiempos.
• Para la validación se hizo una experimentación con datos de las redes sociales de
Facebook e Instagram de la Universidad Nacional del Colombia. Los resultados
obtenidos para los casos de estudio muestran que el enfoque propuesto es válido y
puede ser aplicado en ambientes académicos y comerciales.
• Se identifica que las publicaciones realizadas por la universidad son en su mayoría
de carácter informativo, por lo tanto, el grado de conversación e interacción de estas
publicaciones es relativamente bajo. Las polaridades de este tipo de publicaciones,
tienden a ser entre neutrales y negativos. Por esta razón, se recomienda crear
62 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
contenidos que inviten a la interacción como, por ejemplo, la realización de
preguntas, ya que este tipo de publicaciones conectan aún más la marca con las
personas, porque empiezan a generar un diálogo entre ambas partes.
• El porcentaje de exactitud promedio del modelo final es del 69,6%. Se podría decir
que este porcentaje no es lo suficientemente alto como para afirmar que el modelo
posee un buen rendimiento, pero en el análisis de sentimientos, se estima que un
sistema presenta un buen nivel de precisión cuando alcanza un valor del 70% de
acierto (Ellis, 2019).
6.2 Trabajo futuro
Como trabajo futuro se explorarán soluciones para resolver las dificultades de clasificación
mostrada en la etapa de experimentación de este trabajo; evaluar otras librerías de
preprocesamiento de texto (por ejemplo, corrección ortográfica, detección de ironía) y otros
tipos de atributos específicos de opinión que permitan mejorar los resultados y generalizar
los clasificadores.
También se podría desarrollar un modelo basado en léxico de opinión utilizando como
recurso el conocimiento adquirido de los conjuntos de datos etiquetados que se
construyeron para esta tesis; y experimentar con otros tipos de tareas de análisis de
sentimientos como análisis del grado de polaridad de emociones de los distintos aspectos
que generan opinión en un mismo post.
63
A. Anexo: Instalación Complemento
MeaningCloud
65
66 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
67
B. Anexo: Análisis de Sentimientos en MeaningCloud
68 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
69
70 Estrategias para la aplicación del Social Media Mining en las redes sociales de
Facebook e Instagram
C. Anexo: Código Script
71
Bibliografía
Adedoyin-olowe, M., Gaber, M. M., & Stahl, F. (2014). A Survey of Data Mining Techniques for Social Network Analysis. International Journal of Research in Computer Engineering and Electronics, 3(6), 1–8. Retrieved from http://jdmdh.episciences.org/18/pdf%5Cnhttp://jdmdh.episciences.org/18/
Agyapong, K. B., Hayfron-Acquah, D. J. ., & Asante., D. M. (2016). An Overview of Data Mining Models (Descriptive and Predictive). International Journal of Software & Hardware Research in Engineering.
Allem, J. P., & Ferrara, E. (2016). The importance of debiasing social media data to better understand e-cigarette-related attitudes and behaviors. Journal of Medical Internet Research. https://doi.org/10.2196/jmir.6185
Alsmadi, I., & Gan, K. H. (2019). Review of short-text classification. International Journal of Web Information Systems, 15(2), 155–182. https://doi.org/10.1108/IJWIS-12-2017-0083
Aly, E. S., & van der Haar, D. T. (2020). Slang-Based Text Sentiment Analysis in Instagram. Advances in Intelligent Systems and Computing. https://doi.org/10.1007/978-981-32-9343-4_25
Aminolroaya, Z., & Katanforoush, A. (2017). How Iranian Instagram users act for parliament election campaign A study based on followee network. 2017 3rd International Conference on Web Research, ICWR 2017. https://doi.org/10.1109/ICWR.2017.7959297
Anjaria, M., & Guddeti, R. M. R. (2014). A novel sentiment analysis of social networks using supervised learning. Social Network Analysis and Mining, 4(1), 1–15. https://doi.org/10.1007/s13278-014-0181-9
Ardehaly, E. M., & Culotta, A. (2018). Learning from noisy label proportions for classifying online social data. Social Network Analysis and Mining. https://doi.org/10.1007/s13278-017-0478-6
Baj-Rogowska, A. (2017). Sentiment analysis of Facebook posts: The Uber case. 2017 IEEE 8th International Conference on Intelligent Computing and Information Systems, ICICIS 2017. https://doi.org/10.1109/INTELCIS.2017.8260068
Bakshy, E., Rosenn, I., Marlow, C., & Adamic, L. (2012). The role of social networks in information diffusion. WWW’12 - Proceedings of the 21st Annual Conference on World Wide Web. https://doi.org/10.1145/2187836.2187907
Bampo, M., Ewing, M. T., Mather, D. R., Stewart, D., & Wallace, M. (2008). The effects of the social structure of digital networks on viral marketing performance. Information Systems Research, 19(3), 273–290. https://doi.org/10.1287/isre.1070.0152
Bibliografía 73
Barbier, G., & Liu, H. (2011). Social Network Data Analytics. Social Network Data Analytics. https://doi.org/10.1007/978-1-4419-8462-3
Berry, M. W., Mohamed, A. H., & Wah, Y. B. (2015). Soft computing in data science: First international conference, SCDS 2015 putrajaya, malaysia, september 2-3, 2015 proceedings. Communications in Computer and Information Science. https://doi.org/10.1007/978-981-287-936-3
Bhagat, S., Goyal, A., & Lakshmanan, L. V. S. (2012). Maximizing product adoption in social networks. WSDM 2012 - Proceedings of the 5th ACM International Conference on Web Search and Data Mining. https://doi.org/10.1145/2124295.2124368
Cameron, J. J., Leung, C. K. S., & Tanbeer, S. K. (2011). Finding strong groups of friends among friends in social networks. Proceedings - IEEE 9th International Conference on Dependable, Autonomic and Secure Computing, DASC 2011. https://doi.org/10.1109/DASC.2011.141
Canal Díaz, N. (2009). Técnicas de muestreo. Sesgos más frecuentes. Revista Seden, 121–132.
Chandrasekaran, S., Annamalai, B., & De, S. K. (2019). Evaluating marketer generated content popularity on brand fan pages – A multilevel modelling approach. Telematics and Informatics, 44(August), 101266. https://doi.org/10.1016/j.tele.2019.101266
Chang, X., Xiang, T., & Hospedales, T. M. (2016). L1 graph based sparse model for label de-noising. British Machine Vision Conference 2016, BMVC 2016. https://doi.org/10.5244/C.30.74
Chen, S., Chen, S., Wang, Z., Liang, J., Yuan, X., Cao, N., & Wu, Y. (2017). D-Map: Visual analysis of ego-centric information diffusion patterns in social media. 2016 IEEE Conference on Visual Analytics Science and Technology, VAST 2016 - Proceedings. https://doi.org/10.1109/VAST.2016.7883510
Chiu, S. I., & Hsu, K. W. (2017). Information diffusion on facebook: A case study of the sunflower student movement in Taiwan. Proceedings of the 11th International Conference on Ubiquitous Information Management and Communication, IMCOM 2017. https://doi.org/10.1145/3022227.3022274
Cortes, C., & Vapnik, V. (1995). Support-Vector Networks. Machine Learning. https://doi.org/10.1023/A:1022627411411
Culotta, A. (2014). Reducing Sampling Bias in Social Media Data for County Health Inference. Joint Statistical Meetings Proceedings. Retrieved from http://cs.iit.edu/~culotta/pubs/culotta14reducing.pdf%5Cnhttp://tapilab.github.io/public health/2014/08/02/bias/
Dasgupta, S. S., Natarajan, S., Kaipa, K. K., Bhattacherjee, S. K., & Viswanathan, A. (2015). Sentiment analysis of Facebook data using Hadoop based open source technologies. Proceedings of the 2015 IEEE International Conference on Data Science and Advanced Analytics, DSAA 2015, (1), 3–5. https://doi.org/10.1109/DSAA.2015.7344883
Desmarchelier, B., & Fang, E. S. (2016). Social Media and the Diffusion of Information: A
74 Título de la tesis o trabajo de investigación
Computational Experiment on the Emergence of Food Scares. Kyklos. https://doi.org/10.1111/kykl.12120
Deuja, R., & Shah, K. B. (2019). An Insight on Social Media Stream Mining. SCITECH Nepal, 14(1), 36–43. https://doi.org/10.3126/scitech.v14i1.25532
Ellis, B. (2019). On Social Sentiment and Sentiment Analysis — brnrd.me. Retrieved 23 February 2020, from https://brnrd.me/posts/social-sentiment-sentiment-analysis
Fan, R., Yu, Z., Guo, B., Wang, L., & Yang, D. (2017). Target Distribution Guided Network Sampling. Proceedings - 5th International Conference on Advanced Cloud and Big Data, CBD 2017. https://doi.org/10.1109/CBD.2017.71
Frawley, W. J., Piatetsky-Shapiro, G., & Matheus, C. J. (1992). Knowledge Discovery in Databases: An Overview. AI Magazine, 13(3), 57–70. https://doi.org/10.1609/aimag.v13i3.1011
Fresno García, M., Daly, A., & Supovitz, J. (2015). Desvelando climas de opinión por medio del Social Media Mining y Análisis de Redes Sociales en Twitter: el caso de los Common Core State Standards. Redes: Revista Hispana Para El Análisis de Redes Sociales, 26(1), 3.
Gao, H., Wang, X., Tang, J., & Liu, H. (2013). Network denoising in social media. Proceedings of the 2013 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining, ASONAM 2013. https://doi.org/10.1145/2492517.2492547
García, S., Ramírez-Gallego, S., Luengo, J., & Herrera, F. (2016). Big Data: Preprocesamiento y calidad de datos. Novática, (237), 17.
Gautam, G., & Yadav, D. (2014). Sentiment analysis of twitter data using machine learning approaches and semantic analysis. 2014 7th International Conference on Contemporary Computing, IC3 2014. https://doi.org/10.1109/IC3.2014.6897213
Giachanou, A., & Crestani, F. (2016). Like it or not: A survey of Twitter sentiment analysis methods. ACM Computing Surveys, 49(2). https://doi.org/10.1145/2938640
Gjoka, M., Kurant, M., Butts, C. T., & Markopoulou, A. (2010). Walking in facebook: A case study of unbiased sampling of OSNs. Proceedings - IEEE INFOCOM. https://doi.org/10.1109/INFCOM.2010.5462078
Go, A., Bhayani, R., & Huang, L. (2009). Twitter Sentiment Classification using Distant Supervision. Processing.
Gómez Rodríguez, M., Leskovec, J., & Schölkopf, B. (2013). Structure and dynamics of information pathways in online media. Proceedings of the Sixth ACM International Conference on Web Search and Data Mining - WSDM ’13, 23. https://doi.org/10.1145/2433396.2433402
González-Bailón, S., Wang, N., Rivero, A., Borge-Holthoefer, J., & Moreno, Y. (2014). Assessing the bias in samples of large online networks. Social Networks. https://doi.org/10.1016/j.socnet.2014.01.004
Guille, A., Hacid, H., Favre, C., & Zighed, D. A. (2013). Information diffusion in online social networks:
Bibliografía 75
A survey. SIGMOD Record. https://doi.org/10.1145/2503792.2503797
Hadoop. (2019). MapReduce Tutorial. Retrieved 20 February 2020, from https://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html
Hernández, S., Sallis, P., & Garden, K. (2011). A signal denoising method for text meaning vectors. Proceedings - AMS 2011: Asia Modelling Symposium 2011 - 5th Asia International Conference on Mathematical Modelling and Computer Simulation. https://doi.org/10.1109/AMS.2011.16
Hu, C., Xu, W., & Shi, P. (2015). Information Diffusion in Online Social Networks: Models, Methods and Applications. In Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) (Vol. 9391, pp. 65–76). https://doi.org/10.1007/978-3-319-23531-8_6
IAB. (2019). Reporte de Inversión en Publicidad Digital Primer Trimestre 2019. In Iab.
Jain, S., Mohan, G., & Sinha, A. (2018). Network diffusion for information propagation in online social communities. 2017 10th International Conference on Contemporary Computing, IC3 2017. https://doi.org/10.1109/IC3.2017.8284358
Jiang, C., Chen, Y., & Liu, K. J. R. (2014). Evolutionary social information diffusion analysis. 2014 IEEE Global Communications Conference, GLOBECOM 2014, 2911–2916. https://doi.org/10.1109/GLOCOM.2014.7037250
Jones, I., & Liu, H. (2013). Mining social media: Challenges and opportunities. Proceedings - 2013 International Conference on Social Intelligence and Technology, SOCIETY 2013. https://doi.org/10.1109/SOCIETY.2013.12
Kaplan, A. M., & Haenlein, M. (2010). Users of the world, unite! The challenges and opportunities of Social Media. Business Horizons, 53(1), 59–68. https://doi.org/10.1016/j.bushor.2009.09.003
Kaswidjanti, W., Himawan, H., & Silitonga, P. D. P. (2020). The accuracy comparison of social media sentiment analysis using lexicon based and support vector machine on souvenir recommendations. Test Engineering and Management, 82(3-4), 3953-3961.
Kim, Y., & Seo, J. (2020). Detection of Rapidly Spreading Hashtags via Social Networks. IEEE Access. https://doi.org/10.1109/ACCESS.2020.2976126
Kumaran, P., & Chitrakala, S. (2015). Information diffusion in online social network: Techniques, applications and challenges. 6th International Conference on Advances in Computing, Control, and Telecommunication Technologies, ACT 2015. https://doi.org/10.1515/9783110450101-013
Lappas, T., Terzi, E., Gunopulos, D., & Mannila, H. (2010). Finding effectors in social networks. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. https://doi.org/10.1145/1835804.1835937
Leung, C. K. S., & Tanbeer, S. K. (2012). Mining social networks for significant friend groups. In Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence
76 Título de la tesis o trabajo de investigación
and Lecture Notes in Bioinformatics): Vol. 7240 LNCS (pp. 180–192). https://doi.org/10.1007/978-3-642-29023-7_19
Liu, B. (2012). Sentiment analysis and opinion mining. Synthesis Lectures on Human Language Technologies. https://doi.org/10.2200/S00416ED1V01Y201204HLT016
Liu, B., & Zhang, L. (2012). A Survey of Opinion Mining and Sentiment Analysis. In Mining Text Data (pp. 415–463). https://doi.org/10.1007/978-1-4614-3223-4_13
Liu, H., Morstatter, F., Tang, J., & Zafarani, R. (2016). The good, the bad, and the ugly: uncovering novel research opportunities in social media mining. International Journal of Data Science and Analytics, 1(3), 1–7. https://doi.org/10.1007/s41060-016-0023-0
Lu, J., & Li, D. (2013). Bias correction in a small sample from big data. IEEE Transactions on Knowledge and Data Engineering. https://doi.org/10.1109/TKDE.2012.220
Luarn, P., Yang, J. C., & Chiu, Y. P. (2014). The network effect on information dissemination on social network sites. Computers in Human Behavior. https://doi.org/10.1016/j.chb.2014.04.019
Mayo, M. (2020). Text Data Preprocessing: A Walkthrough in Python - KDnuggets. Retrieved 23 February 2020, from https://www.kdnuggets.com/2018/03/text-data-preprocessing-walkthrough-python.html
Medhat, W., Hassan, A., & Korashy, H. (2014). Sentiment analysis algorithms and applications: A survey. Ain Shams Engineering Journal, 5(4), 1093–1113. https://doi.org/10.1016/j.asej.2014.04.011
Mesnil, G., Mikolov, T., Ranzato, M. A., & Bengio, Y. (2015). Ensemble of generative and discriminative techniques for sentiment analysis of movie reviews. 3rd International Conference on Learning Representations, ICLR 2015 - Workshop Track Proceedings.
Microsoft. (2017). Evaluación del rendimiento del modelo - ML Studio (classic) - Azure. Retrieved 24 February 2020, from https://docs.microsoft.com/es-es/azure/machine-learning/studio/evaluate-model-performance
MinTIC. (2017). Primera Gran Encuesta TIC.
Mislove, A., Lehmann, S., Ahn, Y.-Y., Onnela, J.-P., & Rosenquist, J. N. (2011). Understanding the Demographics of Twitter Users. Int’l AAAI Conference on Weblogs and Social Media (ICWSM).
Morency, L. P., Mihalcea, R., & Doshi, P. (2011). Towards multimodal sentiment analysis: Harvesting opinions from the web. ICMI’11 - Proceedings of the 2011 ACM International Conference on Multimodal Interaction. https://doi.org/10.1145/2070481.2070509
Morstatter, F., Dani, H., Sampson, J., & Liu, H. (2016). Can One Tamper with the Sample API?: Toward Neutralizing Bias from Spam and Bot Content. WWW. https://doi.org/10.1145/2872518.2889372
Morstatter, F., & Liu, H. (2017). Discovering, assessing, and mitigating data bias in social media. Online Social Networks and Media. https://doi.org/10.1016/j.osnem.2017.01.001
Bibliografía 77
Morstatter, F., Pfeffer, J., Liu, H., & Carley, K. M. (2013). Is the sample good enough? Comparing data from twitter’s streaming API with Twitter’s firehose. Proceedings of the 7th International Conference on Weblogs and Social Media, ICWSM 2013.
Mostafa, M. M. (2013). More than words: Social networks’ text mining for consumer brand sentiments. Expert Systems with Applications. https://doi.org/10.1016/j.eswa.2013.01.019
Mr. S. M. Vohra, P. J. B. T. (2012). A Comparative Study Of Sentiment Analysis Techniques. Journal Of Information, Knowledge And Research In Computer Engineering. https://doi.org/10.13140/2.1.4255.0722
NLTK Project. (2019). Natural Language Toolkit — NLTK 3.4.5 documentation. Retrieved 21 February 2020, from https://www.nltk.org/
Noureen, R., Qamar, U., Khan, F. H., & Muhammad, I. (2018). InstaSent: A novel framework for sentiment analysis based on instagram selfies. Advances in Intelligent Systems and Computing. https://doi.org/10.1007/978-3-030-01054-6_23
Nyce, C. (2007). Predictive Analytics White Paper. American Institute for Chartered Property Casuality Underwriters, 16. Retrieved from http://ieg-sites.s3.amazonaws.com/sites/4e70a00a3723a839c1000042/contents/content_instance/4ec268ce3723a856ba00015c/files/PredictiveModelingWhitepaper.pdf
Ortigosa, A., Martín, J. M., & Carro, R. M. (2014). Sentiment analysis in Facebook and its application to e-learning. Computers in Human Behavior, 31(1), 527–541. https://doi.org/10.1016/j.chb.2013.05.024
Pang, B., Lee, L., & Vaithyanathan, S. (2002). Thumbs up? Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing - EMNLP ’02, 10, 79–86. https://doi.org/10.3115/1118693.1118704
Park, H., & Moon, S. (2013). Sampling bias in user attribute estimation of OSNs. WWW 2013 Companion - Proceedings of the 22nd International Conference on World Wide Web. https://doi.org/10.1145/2487788.2487880
Park, S. H., Yoon, S. W., & Chung, S. W. (2019). Social and semantic network analysis of Facebook pages: the case of Brexit and Bremain leaders. Asia Europe Journal. https://doi.org/10.1007/s10308-019-00567-x
Păvăloaia, V.-D., Teodor, E.-M., Fotache, D., & Danileţ, M. (2019). Opinion Mining on Social Media Data: Sentiment Analysis of User Preferences. Sustainability, 11(16), 4459. https://doi.org/10.3390/su11164459
Prakash, B. A., Vrekeen, J., & Faloutsos, C. (2012). Spotting culprits in epidemics: How many and which ones? Proceedings - IEEE International Conference on Data Mining, ICDM. https://doi.org/10.1109/ICDM.2012.136
Rajaraman, A., & Ullman, J. D. (2011). Mining of massive datasets. In Mining of Massive Datasets. https://doi.org/10.1017/CBO9781139058452
78 Título de la tesis o trabajo de investigación
Rameshbhai, C. J., & Paulose, J. (2019). Opinion mining on newspaper headlines using SVM and NLP. International Journal of Electrical and Computer Engineering, 9(3), 2152–2163. https://doi.org/10.11591/ijece.v9i3.pp2152-2163
Ramírez-Tinoco, F. J., Alor-Hernández, G., Sánchez-Cervantes, J. L., Olivares-Zepahua, B. A., & Rodríguez-Mazahua, L. (2018). A brief review on the use of sentiment analysis approaches in social networks. Advances in Intelligent Systems and Computing, 688, 263–273. https://doi.org/10.1007/978-3-319-69341-5_24
Sa, A., Bhave, P., Deshpande, P., & Chaudhari, A. (2020). Sentiment analysis and prediction in social media. Test Engineering and Management, 83, 2129-2136.
SAS. (2019). Aprendizaje automático: Qué es y por qué es importante. Retrieved 20 February 2020, from https://www.sas.com/es_co/insights/analytics/machine-learning.html
Seltzer, E. K., Jean, N. S., Kramer-Golinkoff, E., Asch, D. A., & Merchant, R. M. (2015). The content of social media’s shared images about Ebola: A retrospective study. Public Health. https://doi.org/10.1016/j.puhe.2015.07.025
Scikit-Learn. (2020a). sklearn.metrics.precision_recall_fscore_support — scikit-learn 0.22.1 documentation. Retrieved 24 February 2020, from https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_fscore_support.html
Scikit-Learn. (2020b). sklearn.metrics.f1_score — scikit-learn 0.22.1 documentation. Retrieved 24 February 2020, from https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html
Scikit-Learn. (2020c). sklearn.metrics.accuracy_score — scikit-learn 0.22.1 documentation. Retrieved 24 February 2020, from https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html
Shah, D., & Zaman, T. (2011). Rumors in a network: Who’s the culprit? IEEE Transactions on Information Theory. https://doi.org/10.1109/TIT.2011.2158885
Tang, J., & Liu, H. (2012). Feature selection with linked data in social media. Proceedings of the 12th SIAM International Conference on Data Mining, SDM 2012. https://doi.org/10.1137/1.9781611972825.11
Tang, W. H., Yeh, M. Y., & Lee, A. J. T. (2014). Information diffusion among users on Facebook fan pages over time: Its impact on movie box office. DSAA 2014 - Proceedings of the 2014 IEEE International Conference on Data Science and Advanced Analytics. https://doi.org/10.1109/DSAA.2014.7058094
Thakkar, H., & Patel, D. (2015). Approaches for Sentiment Analysis on Twitter: A State-of-Art study. Retrieved from http://arxiv.org/abs/1512.01043
Shah, T. (2019). About Train, Validation and Test Sets in Machine Learning. Retrieved 24 February 2020, from https://towardsdatascience.com/train-validation-and-test-sets-72cb40cba9e7
Bibliografía 79
Tripathy, A., Agrawal, A., & Rath, S. K. (2015). Classification of Sentimental Reviews Using Machine Learning Techniques. Procedia Computer Science. https://doi.org/10.1016/j.procs.2015.07.523
Tyagi, P., & Tripathi, R. C. (2019). A Review Towards the Sentiment Analysis Techniques for the Analysis of Twitter Data. SSRN Electronic Journal. https://doi.org/10.2139/ssrn.3368718
Vaghela, V. B., & Jadav, B. M. (2016). Analysis of Various Sentiment Classification Techniques. International Journal of Computer Applications, 140(3), 22–27. https://doi.org/10.5120/ijca2016909259
Vinodhini, G., & Chandrasekaran, R. (2012). Sentiment Analysis and Opinion Mining : A Survey International Journal of Advanced Research in Sentiment Analysis and Opinion Mining : A Survey. International Journal of Advanced Research in Computer Science and Software Engineering, 2(6), 283–292.
Wang, H., Zhang, P., Chen, L., & Zhang, C. (2015). Socialanalysis: A Real-Time query and mining system from social media data streams. Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). https://doi.org/10.1007/978-3-319-19548-3_27
Wani, M. A., Agarwal, N., Jabin, S., & Hussain, S. Z. (2019). Analyzing Real and Fake users in Facebook Network based on Emotions. 2019 11th International Conference on Communication Systems and Networks, COMSNETS 2019. https://doi.org/10.1109/COMSNETS.2019.8711124
We Are Social, & Hootsuite. (2019). Digital 2019: Essential Insights Into How People Around The World Use The Internet, Mobile Devices, Social Media, and E-Commerce. In We Are Social & Hootsuite.
Xiong, H., Pandey, G., Steinbach, M., & Kumar, V. (2006). Enhancing data analysis with noise removal. IEEE Transactions on Knowledge and Data Engineering. https://doi.org/10.1109/TKDE.2006.46
Xu, G., & Li, L. (2013). Social media mining and social network analysis: Emerging research. In Social Media Mining and Social Network Analysis: Emerging Research. https://doi.org/10.4018/978-1-4666-2806-9
Yang, D., Chow, T. W. S., Zhong, L., Tian, Z., Zhang, Q., & Chen, G. (2018). True and fake information spreading over the Facebook. Physica A: Statistical Mechanics and Its Applications. https://doi.org/10.1016/j.physa.2018.04.026
Yuan, Y., Lu, Y., Chow, T. E., Ye, C., Alyaqout, A., & Liu, Y. (2020). The Missing Parts from Social Media–Enabled Smart Cities: Who, Where, When, and What? Annals of the American Association of Geographers. https://doi.org/10.1080/24694452.2019.1631144
Zafarani, R., Abbasi, M. A., & Liu, H. (2014). Social media mining: An introduction. In Social Media Mining: An Introduction. https://doi.org/10.1017/CBO9781139088510
Zhan, M., Tu, R., & Yu, Q. (2018). Understanding readers: Conducting sentiment analysis of
80 Título de la tesis o trabajo de investigación
instagram captions. ACM International Conference Proceeding Series, (April 2017), 33–40. https://doi.org/10.1145/3297156.3297270