estrategias para la aplicación del social media mining en

Estrategias para la aplicación del

Social Media Mining en las redes

sociales de Facebook e Instagram

Juan Camilo Zuluaga Gómez

Universidad Nacional de Colombia

Facultad de Administración, Departamento de Informática y Computación

Manizales, Colombia

2020

2 Estrategias para la aplicación del Social Media Mining en las redes sociales de

Facebook e Instagram

Estrategias para la aplicación del Social Media Mining en las redes

sociales de Facebook e Instagram

Juan Camilo Zuluaga Gómez

Tesis presentada como requisito parcial para optar al título de:

Magister en Administración de Sistemas Informáticos

Director:

Ph.D. Néstor Darío Duque Méndez

Línea de Investigación:

Tecnologías de la Información y Comunicación

Universidad Nacional de Colombia

Facultad de Administración, Departamento de Informática y Computación

Manizales, Colombia

2020

Dedicatoria

Quiero dedicar este trabajo primeramente a

Dios, quien ha sido mi guía y luz en todo este

proceso. Igualmente, a mis padres Mery y

Albeiro; mi hermana Viviana y a mi ángel en el

cielo; mi nana Rosita. Infinitas gracias a ellos

por todo su amor, su cariño, su entrega, su

ayuda, su comprensión y especialmente por el

apoyo que me han brindado a lo largo de este

camino que he recorrido.

Agradecimientos

Agradezco inmensamente a mi director, el profesor Néstor Darío Duque Méndez, ya que,

gracias a su acompañamiento, dedicación, tiempo y buena orientación, pude completar

satisfactoriamente este trabajo de maestría, que contribuyó a acrecentar mis conocimientos

tanto en mi vida académica, profesional y personal.

También doy las gracias al profesor Sebastián Robledo Giraldo, porque, gracias a él,

descubrí el tema de redes sociales, que se ha convertido en mi mayor pasión.

Resumen y Abstract 5

Resumen

Dado el gran uso de las redes sociales en la actualidad, es indudable la gran cantidad de

datos que se genera cada día y por lo cual es necesario tener la capacidad de hacer un

análisis detallado. Debido a la particularidad que presentan los datos del social media, es

importante que se requieren nuevas técnicas que puedan manejar eficazmente este nuevo

tipo de data. El estudio y desarrollo de estas nuevas técnicas, se conoce como el Social

Media Mining (SMM). Este trabajo se orientó a la construcción de un modelo que aborde

los desafíos y oportunidades del SMM en las redes sociales de Facebook e Instagram.

Palabras clave: (Social Media Mining, redes sociales, análisis de sentimientos,

difusión de la información, sesgo de muestreo, eliminación del ruido, Facebook,

Instagram).



Strategies for the application of Social Media

Mining in the social networks of Facebook and

Instagram

Abstract

Given the great use of social networks today, there is no doubt the large amount of data that

is generated every day and therefore it is necessary to have the ability to make a detailed

analysis. Due to the particularity of social media data, it is important that new techniques are

required that can effectively handle this new type of data. The study and development of

these new techniques is known as the Social Media Mining (SMM). This work was aimed at

building a model that addresses the challenges and opportunities of the SMM in social

networks Facebook and Instagram.

Keywords:

Social Media Mining, social networks, sentiment analysis, information dissemination,

sampling bias, noise elimination, Facebook, Instagram.

Contenido 7

Contenido

Pág.

Resumen ................................................................................................................................ 5

Lista de figuras ................................................................................................................... 10

Lista de tablas ..................................................................................................................... 11

Introducción ........................................................................................................................ 12

1. Descripción del Problema .......................................................................................... 14

1.1 Objetivos ................................................................................................................. 16

1.1.1 Objetivo general .............................................................................................. 16

1.1.2 Objetivos específicos ...................................................................................... 16

1.2 Metodología ............................................................................................................ 17

2. Marco Conceptual ....................................................................................................... 19

2.1 Marco Teórico ........................................................................................................ 19

2.1.1 Data Mining: Conceptos Generales ............................................................... 19

2.1.2 Social Media Mining: Conceptos Generales .................................................. 21

2.1.3 Análisis de Sentimientos: Conceptos Generales ........................................... 22

2.1.4 Sesgo de Muestreo: Conceptos Generales ................................................... 25

2.1.5 Eliminación del ruido del SM: Conceptos Generales ..................................... 26

2.1.6 Difusión de la información: Conceptos Generales ......................................... 28

3. Trabajos relacionados ................................................................................................ 31

3.1 Trabajos relacionados en análisis de sentimientos ............................................... 31

3.2 Trabajos relacionados con sesgo de muestreos ................................................... 36

3.3 Trabajos relacionados en eliminación del ruido .................................................... 38

3.4 Trabajos relacionados en difusión de la información ............................................ 39

4. Modelo propuesto para realizar Social Media Mining en Facebook e Instagram 44

4.1 Pasos y procesos del Modelo Propuesto .............................................................. 46

8 Título de la tesis o trabajo de investigación

5. Experimentación y análisis de los resultados ......................................................... 48

5.1 Metodología ............................................................................................................ 48

5.1.1 Obtención de los datos......................................................................................... 50

5.1.2 Preprocesamiento ................................................................................................ 54

5.1.3 Data de Entrenamiento ........................................................................................ 55

5.1.4 Clasificación ......................................................................................................... 55

5.1.5 Resultados ............................................................................................................ 56

6. Conclusiones y recomendaciones ............................................................................... 61

6.1 Conclusiones ............................................................................................................... 61

6.2 Trabajo futuro .............................................................................................................. 62

Bibliografía .......................................................................................................................... 72

Lista de figuras

Pág.

Figura 2-1: Clasificación de las técnicas de Data Mining ................................................... 20

Figura 2-2: Técnicas del análisis de sentimientos .............................................................. 24

Figura 2-3: Algoritmos según las técnicas del Aprendizaje Automático ............................. 25

Figura 2-4: Ejemplo de red social ........................................................................................ 30

Figura 4-1: Modelo genérico propuesto............................................................................... 45

Figura 5-1: Modelo propuesto detallado para la experimentación ..................................... 49

Figura 5-2: Post 1 de Facebook .......................................................................................... 50

Figura 5-3: Post 2 de Facebook .......................................................................................... 51

Figura 5-4: Post Instagram .................................................................................................. 52

Figura 5-5: Proceso descarga de comentarios de Facebook ............................................. 52

Figura 5-6: Proceso descarga comentarios de Instagram .................................................. 53

Figura 5-7: Representación de una Máquina de Vector de Soporte (SVM) ....................... 55

Figura 5-8: Porcentaje de polaridad de los posts ............................................................... 58

Figura 5-9: Resumen Métricas Post Analizados ................................................................. 59

11

Lista de tablas

Pág.

Tabla 3-1: Comparación de los resultados de precisión de las técnicas evaluadas .......... 32

Tabla 3-2: Técnicas utilizadas en los trabajos relacionados con el análisis de sentimientos

............................................................................................................................................... 35

Tabla 3-3: Técnicas utilizadas en los trabajos relacionados con la difusión de información

............................................................................................................................................... 43

Tabla 5-1: Resumen Métricas Post 1 Facebook ................................................................. 58

Tabla 5-2: Resumen Métricas Post 2 Facebook ................................................................. 58

Tabla 5-3: Resumen Métricas Post 1 Instagram ................................................................. 59



Introducción

El Internet y las redes sociales se han convertido en parte esencial de nuestras vidas. Han

evolucionado de tal manera que no solo influyen en conexiones personales y sociales, sino

que ahora también influyen en la manera de hacer negocios.

Según el Ministerio de Tecnologías de la Información y las Comunicaciones (MinTIC) con

su estudio “Primera Gran Encuesta TIC”, las constantes mejoras en la cobertura de Internet,

la interacción virtual y el crecimiento de los pagos electrónicos han contribuido a una

“revolución digital” que nos conecta cada vez más a los colombianos (MinTIC, 2017).

De acuerdo con el estudio, la penetración de internet en el país ha detonado en que el 66

% de los ciudadanos encuentren oportunidades de trabajo, el 58,8 % lo usen como una

herramienta para trabajar y el 78 % lo empleen para interactuar en redes sociales,

ingresando en promedio 10 veces al día.

Entre los datos más relevantes, se encuentra que las redes sociales más utilizadas en

nuestro país son Facebook (88 %), WhatsApp (87 %), YouTube (51,6 %), Instagram (34%),

Twitter (20 %) y Snapchat (7,2 %).

De todas ellas, Facebook e Instagram, que cuentan con un alcance potencial de 32 millones

y 11 millones respectivamente según (We Are Social & Hootsuite, 2019), son las favoritas

para tomar decisiones de compra y venta de productos y servicios.

Así mismo, revela que el 68 % de las compañías cuenta con acceso a Internet y la mayor

parte de estas conexiones son contratadas exclusivamente para el negocio. Las principales

razones por las que usan la red son la comunicación con clientes y proveedores (68 %), la

posibilidad de ofrecer sus productos a un mayor número de personas (44 %) y la presencia

en línea (29%). Además, 35 % realiza ventas y 34 % compras de productos o servicios por

Internet.

13

Gracias al uso de las tecnologías de la comunicación tanto para las personas como para

las organizaciones, el mercado de la publicidad digital en América Latina está creciendo y

expandiéndose aceleradamente. Según el reporte del primer trimestre dado por la

Interactive Advertising Bureau Colombia (IAB), el total de inversión en publicidad digital en

Colombia fue de $183.306.201.487 frente a unos $137.008.119.521 respecto al mismo

periodo del 2018, un aumento del 33,8 % (IAB, 2019).

Estas cifras dejan en claro cómo el mercado latinoamericano de publicidad digital crecerá

en los próximos años y este movimiento implica necesariamente que las marcas empiecen

a centrar su atención en el análisis y procesamiento de la gran cantidad de datos que

generan las redes sociales.

El Social Media Mining (SMM) es un nuevo campo que trata de comprender y procesar este

nuevo tipo de datos. El SMM presenta desafíos y oportunidades para la investigación

interdisciplinaria, la creación de nuevos algoritmos y el desarrollo de nuevas herramientas.

En sí, el SMM tiene el firme objetivo de crear campañas de marketing altamente específicas

y personalizadas según los patrones de comportamientos de la audiencia objetivo; al mismo

tiempo que logra que las conversiones se den a un ritmo mucho más rápido y, se eliminan

los gastos innecesarios que no producen ningún tipo de beneficios.

Este trabajo aportará una serie de herramientas para implementar SMM, ya que se

convierte en una herramienta estratégica para la toma de decisiones de mercadeo,

producción, organización y demás factores en las organizaciones, que de cierta manera las

harán más competitivas.



1. Descripción del Problema

Según lo definido por (Kaplan & Haenlein, 2010), el Social Media (SM) son un grupo de

aplicaciones basadas en Internet que se desarrollan sobre los fundamentos ideológicos y

tecnológicos de la Web 2.0, y que permiten la creación y el intercambio de contenidos

generados por el usuario.

El SM es una nueva fuente de datos que es significativamente diferente al de los medios

de comunicación convencionales. Los datos del SM son en su mayoría generados por los

usuarios y tienen como características que son de grandes volúmenes, son vinculados y

heterogéneos (Adedoyin-olowe, Gaber, & Stahl, 2014).

Los datos del SM se pueden obtener de fuentes disponibles públicamente a través de

diversos medios como la extracción, el uso de aplicaciones proporcionadas por los sitios y

el rastreo.

Según (Fresno García, Daly, & Supovitz, 2015), exponen que las fuentes de los datos del

SM presentan características novedosas que incrementan su complejidad:

1. Los datos del social media, son los datos generados por la actividad de las personas en

su despliegue social en línea por medio de las múltiples tipologías de relaciones que se

establecen (por ejemplo, compartir imágenes, ideas, textos, vídeos, etc.) por lo que estamos

ante un tipo de datos multimodales.

2. Las fuentes de los datos son múltiples, crecen y desaparecen cada día, por lo tanto, estas

fuentes no son estables y supone una exigencia constante el mantenerlas identificadas y

activas.

3. La heterogeneidad de las fuentes, dificulta la agregación de los datos de forma

consistente, en la búsqueda de patrones significativos para la toma de decisiones.

15

Debido a la singularidad de los datos del SM, se requieren nuevas técnicas de minería de

datos que puedan manejar eficazmente el contenido generado en las redes sociales que

abarca considerables relaciones sociales (Liu, Morstatter, Tang, & Zafarani, 2016).

El estudio y desarrollo de estas nuevas técnicas, se conoce como el Social Media Mining

(SMM), que es el proceso de representación, análisis y extracción de patrones significativos

a partir de datos del SM a gran escala (Zafarani, Abbasi, & Liu, 2014).

En la actualidad el SMM presenta algunos nuevos desafíos y oportunidades que se

describen a continuación (Liu et al., 2016), (Jones & Liu, 2013).

● Sesgo de muestreo: A menudo, obtenemos una pequeña muestra de datos. ¿Cómo se

puede asegurar si los datos pueden conducir a hallazgos creíbles?

● Eliminación de ruido del SM: Cómo eliminar el ruido de los datos del SM sin perder

demasiada información.

●Difusión de información: comprender los patrones subyacentes a la viralidad en las

redes sociales.

● Análisis de sentimientos: extracción automática del contenido emocional de los

elementos de las redes sociales.

En la medida que estos desafíos se vayan afrontando mediante nuevos trabajos de

investigación y aplicación, estos se convertirán en nuevas oportunidades, que

proporcionará en mejor detalle información para la toma de decisiones tanto para las

compañías y consumidores de las redes sociales.

Entre estas oportunidades están por ejemplo, las técnicas de minería de datos, que pueden

ayudar a identificar a personas influyentes, la detección de comunidades en las redes

sociales, identificación de los sentimientos de los usuarios para una planificación en

campañas de marketing, desarrollo de sistemas de recomendación para tareas que van

desde la compra de productos específicos hasta hacer nuevos amigos, comprender la

evolución de la red y construir y fortalecer la confianza entre los usuarios o entre usuarios

y entidades.



A partir de los desafíos y oportunidades expuestos se plantea la siguiente pregunta:

¿Cómo implementar Social Media Mining en las redes sociales de Facebook e

Instagram abordando los desafíos y oportunidades del Social Media Mining?

1.1 Objetivos

1.1.1 Objetivo general

Implementar estrategias para Social Media Mining en las redes sociales Facebook e

Instagram, abordando los desafíos y oportunidades encontradas en estas en estas redes.

1.1.2 Objetivos específicos

● Determinar los desafíos del Social Media Mining en las redes sociales de Facebook e

Instagram.

● Evaluar y seleccionar las estrategias y técnicas que permitan enfrentar los desafíos del

Social Media Mining.

● Implementar las estrategias seleccionadas mediante un script

● Evaluar los resultados mediante casos de estudio

17

1.2 Metodología

A continuación, se establece la metodología que se desarrollará para realizar el trabajo. La

metodología se llevará por etapas, que a la vez se compone de actividades que buscan

lograr los objetivos propuestos.

Objetivo Etapa Actividades

Determinar los desafíos del

Social Media Mining en las

redes sociales de

Facebook e Instagram.

Identificación de los

desafíos del Social Media

Mining en Facebook e

Instagram

- Exploración bibliográfica de

desafíos reportados

-Revisión de las plataformas

de Facebook e Instagram

- Identificar los desafíos de

cada red social.

- Iniciar la redacción del

documento final.



Evaluar y seleccionar las

estrategias y técnicas que

permitan enfrentar los

desafíos del Social Media

Mining.

Búsqueda sistemática a

través de las bases de

datos

- Realizar la búsqueda en las

bases de datos.

- Identificar las estrategias

más relevantes que enfrentan

los desafíos de SMM

- Determinar las técnicas que

permitan aplicar las

estrategias adoptadas.

Implementar las

estrategias seleccionadas

Desarrollo e

Implementación

- Desarrollar e implementar la

aplicación de las técnicas que

se ajusten a las redes sociales

de Facebook e Instagram.

- Construir o seleccionar el

data set a partir de datos de

cuentas de Facebook e

Instagram.

Evaluar los resultados

mediante casos de estudio

Validación de la

propuesta

- Pruebas y experimentación

para validación de la

propuesta.

19

2. Marco Conceptual

2.1 Marco Teórico

2.1.1 Data Mining: Conceptos Generales

Una definición de Data Mining (DM) es identificar patrones novedosos y procesables en los

datos. El DM está relacionado con el aprendizaje automático, la recuperación de

información, las estadísticas, las bases de datos e incluso la visualización de datos (Barbier

& Liu, 2011). La idea clave detrás del DM es encontrar nueva información en un conjunto

de datos que está oculto o latente.

La minería de datos puede ser considerada un súper conjunto de muchos métodos

diferentes para extraer el entendimiento de los datos. La minería de datos aplica métodos

de muchas áreas diferentes para identificar patrones desconocidos en los datos. Esto

puede incluir algoritmos estadísticos, aprendizaje basado en máquina, analítica de texto,

análisis de series de tiempo y otras áreas de la analítica. La minería de datos incluye

también el estudio y la práctica del almacenaje y la manipulación de datos (SAS, 2019).

Las técnicas de DM se pueden dividir en dos categorías:

Técnicas de minería de datos predictivas

Las técnicas predictivas utilizan métodos estadísticos de modelización, aprendizaje

automático y minería de datos que analiza los datos actuales e históricos reales para hacer

predicciones acerca del futuro o acontecimientos no conocidos (Nyce, 2007).

Las técnicas predictivas realizan pronósticos sobre valores de datos no identificados

mediante el uso de los valores identificados. El pronóstico es el proceso de investigar los

estados existentes y anteriores del atributo y el pronóstico de su próximo estado (Agyapong,

Hayfron-Acquah, & Asante., 2016).

Técnicas descriptivas de minería de datos

Las técnicas descriptivas generalmente se usan para producir correlaciones, tabulaciones

cruzadas y frecuencias. Estas técnicas están determinadas para encontrar las



regularidades en los datos y para revelar patrones. La otra aplicación del análisis descriptivo

es descubrir agrupamientos en la mayor parte de los datos (Agyapong et al., 2016).

En la figura 2-1 se muestran la clasificación de las técnicas de DM descritas por (Barbier &

Liu, 2011).

Figura 2-1: Clasificación de las técnicas de Data Mining

Fuente: (Barbier & Liu, 2011)

21

2.1.2 Social Media Mining: Conceptos Generales

El Social Media Mining (SMM) es el proceso de representar, analizar y extraer patrones

significativos de los datos en las redes sociales, como resultado de las interacciones

sociales. Es un campo interdisciplinario que abarca técnicas de ciencias de la computación,

minería de datos, aprendizaje automático, análisis de redes sociales, ciencias de redes,

sociología, etnografía, estadísticas, optimización y matemáticas (Zafarani et al., 2014).

Abarca las herramientas para representar, medir, modelar y minar formalmente patrones

significativos de datos de redes sociales a gran escala.

El SMM representa el mundo virtual de las redes sociales de una manera computable, lo

mide y diseña modelos que pueden ayudarnos a comprender sus interacciones. Además,

la minería en las redes sociales proporciona las herramientas necesarias para explotar este

mundo en busca de patrones interesantes, difusión de información o rumores, influencia,

homofilia, comportamiento social o de consumo, predicción, etc. a partir de las interacciones

sociales en los medios sociales de Internet (Xu & Li, 2013).

Para (Cameron, Leung, & Tanbeer, 2011), (Bhagat, Goyal, & Lakshmanan, 2012) y (Leung

& Tanbeer, 2012), el SMM y el Análisis de Redes Sociales (ARS), pueden considerarse

como una fusión de la minería de datos y la informática social, que se han convertido en

temas de investigación emergentes en el campo de la informática.

La extracción de datos (Frawley, Piatetsky-Shapiro, & Matheus, 1992) se refiere a la

extracción no trivial de información implícita, previamente desconocida y potencialmente útil

de datos. La informática social une el comportamiento social y los sistemas informáticos en

el sentido de que facilita computacionalmente los estudios sociales y las dinámicas

humano-sociales en las redes sociales, crea convenciones sociales a través del uso de

software y diseña tecnologías de información y comunicación para adaptarlas al contexto

social. Una tarea importante de extracción de medios sociales es descubrir conocimiento

significativo sobre las redes sociales que residen en los datos de las redes sociales.



2.1.3 Análisis de Sentimientos: Conceptos Generales

El análisis de sentimientos (también llamado minería de opinión), es el campo de estudio

que analiza las opiniones, sentimientos, evaluaciones, actitudes, emociones de las

personas hacia entidades, por ejemplo, servicios, productos, individuos, organizaciones,

problemas, temas, eventos y sus atributos (Tyagi & Tripathi, 2019). También la podemos

definir como la detección de la polaridad dentro de una opinión sobre si el texto está

asignado como sentimiento positivo o negativo (Giachanou & Crestani, 2016).

La creciente importancia del análisis de sentimientos coincide con el crecimiento de las

redes sociales, como las reseñas, los debates en los foros, los blogs, los micro blogs y las

redes sociales. Los sistemas de análisis de sentimientos se están aplicando en casi todos

los negocios y dominios sociales porque las opiniones son fundamentales para casi todas

las actividades humanas y son clave de nuestros comportamientos (B. Liu & Zhang, 2012).

El análisis de sentimientos ayuda a lograr diferentes objetivos, como observar el estado de

ánimo público en lo que respecta a la inteligencia de mercado, el movimiento político, la

predicción de ventas de películas, la medición de la satisfacción del cliente, entre otros.

En la figura 2-2, se presentan las técnicas de análisis de sentimientos, las cuales se

clasifican en dos categorías:

• Análisis de léxico, que tiene como objetivo calcular la polaridad de un documento a partir

de la orientación semántica de palabras o frases dentro de los documentos. Las técnicas

basadas en el análisis de léxico, se pueden clasificar en dos enfoques: (i) Basado en

diccionario; donde se utiliza un diccionario de palabras para establecer la clasificación de

los sentimientos. El diccionario contiene la polaridad de cada palabra si son palabras

positivas, negativas y objetivas. La polaridad de las palabras de opinión se puede

determinar haciendo coincidir esas palabras con las palabras del diccionario y (ii) basado

en corpus, donde se utilizan métodos semánticos o estadísticos para buscar la polaridad

de los sentimientos (Berry, Mohamed, & Wah, 2015).

• Aprendizaje automático o Machine Learning (ML), abarca la construcción de modelos

derivados de conjuntos de datos entrenados etiquetados (oraciones o instancias de textos)

23

para encontrar la orientación del documento. Las técnicas para el ML, se clasifican en tres

métodos: Aprendizaje Supervisado, Aprendizaje No Supervisado y Aprendizaje

Semisupervisado.

Los algoritmos de aprendizaje supervisado son entrenados utilizando ejemplos etiquetados,

como una entrada donde se conoce el resultado deseado. El algoritmo de aprendizaje

recibe un conjunto de entradas junto con los resultados correctos correspondientes, y el

algoritmo aprende comparando su resultado real con resultados correctos para encontrar

errores. Luego modifica el modelo en consecuencia (SAS, 2019). A través de métodos

como la clasificación, regresión, predicción y aumento de gradiente, el aprendizaje

supervisado utiliza patrones para predecir los valores de la etiqueta en datos no etiquetados

adicionales (Vaghela & Jadav, 2016).

El aprendizaje no supervisado se utiliza contra datos que no tienen etiquetas históricas. No

se da la "respuesta correcta" al sistema. El algoritmo debe descubrir lo que se muestra. El

objetivo es explorar los datos y encontrar alguna estructura en su interior (SAS, 2019). Estos

algoritmos se pueden utilizar también para segmentar temas de texto, recomendar

elementos e identificar valores atípicos de datos (Vaghela & Jadav, 2016).

El aprendizaje semisupervisado se utiliza para las mismas aplicaciones que el aprendizaje

supervisado. Sin embargo, utiliza datos etiquetados y no etiquetados para el entrenamiento,

por lo general una pequeña cantidad de datos etiquetados con una gran cantidad de datos

no etiquetados (porque los datos no etiquetados son menos costosos y se requiere menos

esfuerzo en su obtención). Este tipo de aprendizaje se puede utilizar con métodos como la

clasificación, regresión y predicción (SAS, 2019). El aprendizaje semisupervisado es de

utilidad cuando el costo asociado con el etiquetado es demasiado alto para permitir un

proceso de entrenamiento completamente etiquetado (B. Liu, 2012).



Figura 2-2: Técnicas del análisis de sentimientos

Fuente: (Medhat, Hassan, & Korashy, 2014)

En la figura 2-3 se clasifican los algoritmos más utilizados según las técnicas del aprendizaje

automático

25

Figura 2-3: Algoritmos según las técnicas del Aprendizaje Automático

Fuente: (Barbier & Liu,2011)

2.1.4 Sesgo de Muestreo: Conceptos Generales

Las técnicas de muestreo son un conjunto de técnicas estadísticas que estudian la forma

de seleccionar una muestra representativa de la población, es decir, que represente lo más

fielmente posible a la población a la que se pretende extrapolar o inferir los resultados de

la investigación, asumiendo un error mesurable y determinado (Canal Díaz, 2009).

Al seleccionar una muestra pueden cometerse dos tipos de errores: los errores aleatorios y

los errores sistemáticos o sesgos. El error aleatorio corresponde a la diferencia entre el

resultado obtenido a partir de la muestra y la realidad de la población. Realmente, siempre

existe una diferencia entre el resultado obtenido de una muestra y el resultado que

deberíamos haber obtenido de la población y es debida a no estudiar la población completa.

El error aleatorio se debe en mayor parte al azar y no afecta a la validez interna del

resultado, pero puede disminuir la probabilidad de encontrar relación entre las variables

estudiadas (Canal Díaz, 2009).



Estudios recientes han encontrado evidencia de muchas fuentes diferentes de sesgo en los

datos de las redes sociales. Este sesgo puede provenir del sesgo demográfico en las redes

sociales. Por ejemplo, la edad promedio de los usuarios de Twitter es mucho más joven

que la población general (Mislove, Lehmann, Ahn, Onnela, & Rosenquist, 2011). Las

cuentas maliciosas y automáticas pueden producir cantidades masivas de contaminación

del contenido, lo que sesga las estadísticas del sitio (Morstatter, Dani, Sampson, & Liu,

2016). Además, la manera en que los sitios distribuyen sus datos puede ser sesgada

(Morstatter, Pfeffer, Liu, & Carley, 2013), proporcionando una representación sesgada de

su contenido a través de sus interfaces de usuario y API.

Por lo tanto, es esencial que se recopilen suficientes datos para que puedan obtenerse

resultados creíbles. Investigaciones previas, sin embargo, encontraron evidencia de sesgo

en las redes sociales (Morstatter et al., 2013), por ejemplo, los principales hashtags de los

tweets que vienen a través de las API de Twitter (es decir, 1%) pueden ser

significativamente diferentes de los principales hashtags en todo Twitter durante el mismo

periodo.

Esto tiene implicaciones para la investigación realizada sobre estas API, ya que significa

que las mediciones tomadas de estas muestras API pueden no reflejar realmente lo que se

está desarrollando en Twitter.

La realización de algunos sesgos en los datos de las redes sociales sugiere nuevos

problemas de investigación relacionados con la detección de bots, neutralización de la

contaminación del contenido y estimación del sesgo de muestreo.

2.1.5 Eliminación del ruido del SM: Conceptos Generales

El ruido es la distorsión de los datos que están presentes en las redes sociales. La relación

señal / ruido suele ser muy alta en las redes sociales. Existen cuatro fuentes principales de

ruido en los datos de las redes sociales que enuncian (Deuja & Shah, 2019):

• Cuentas falsas / no utilizadas: muchas de las cuentas de redes sociales no son

propiedad ni están administradas por una persona con su verdadera identidad. Del

27

mismo modo, los usuarios crean muchas cuentas en diferentes sitios, pero nunca

más las usan.

• Spam: los spams se caracterizan principalmente por enlaces maliciosos, intentos de

inyección de malware, mensajes de marketing no solicitados y mal dirigidos,

phishing, etc. Los spams no son deseables y su apariencia afecta el análisis de los

sentimientos del usuario y las tendencias de palabras clave / marca.

• Contenido engañoso: el contenido engañoso incluye información que se produce

con el motivo de engañar a los usuarios y se transmite como información válida.

• Datos duplicados: los datos duplicados se forman cuando hay varias instancias con

exactamente los mismos valores característicos. Múltiples cuentas del mismo

usuario, retweets, reposts, etc., pueden conducir a una copia duplicada de los

mismos datos. Los datos duplicados dificultan la magnitud y la validez de las

estadísticas en una secuencia de muestra.

Para estas situaciones, se notó dos observaciones importantes: (1) eliminar totalmente el

ruido, puede empeorar el problema, porque la eliminación también puede eliminar

información valiosa, y (2) la definición de ruido se vuelve complicada y relativa porque

depende de la tarea en cuestión que se realiza.

Los datos de las redes sociales son especiales en muchos aspectos con respecto a los

datos convencionales de valor de atributo comúnmente utilizados en la minería de datos

clásica. Ambos tipos de datos pueden ser extremadamente grandes en términos de tamaño

y dimensionalidad.

Los datos de las redes sociales suelen ser de grandes dimensiones. Por ejemplo, hay

millones de términos en los tweets, mientras que las imágenes de alta calidad de la red

social Flickr pueden tener millones de píxeles. Por lo general, solo una pequeña parte de

las características son relevantes para una determinada tarea de minería de redes sociales

y otras son irrelevantes, redundantes y ruidosas (Tang & Liu, 2012).

Por lo tanto, es intuitivo y sensible eliminar las características ruidosas, las instancias

ruidosas y los enlaces ruidosos. Sin embargo, dado el hecho de que a menudo se puede

acceder a un pequeño porcentaje de datos (p. ej., 1 % de Twitter) (Morstatter et al., 2013),

se genera la pregunta: ¿Qué queda después de la eliminación del ruido?



Siguiendo los métodos tradicionales de preprocesamiento de datos, es muy probable que

queden pocos datos dado las grandes cantidades de ruido. Esto se convierte en desafíos

únicos para la eliminación de ruido.

2.1.6 Difusión de la información: Conceptos Generales

El uso de las redes sociales ha traído nuevas oportunidades y desafíos para el estudio de

la difusión de información. Por un lado, los datos masivos generados por las redes sociales,

proporcionan un recurso importante para los investigadores. Con miles de millones de

conexiones, los usuarios constituyen una red a gran escala.

El proceso de difusión de diversos tipos de información, como innovaciones tecnológicas,

noticias, temas de tendencia y opiniones, se describe como un contagio que se propaga de

usuario a usuario como una epidemia. Gracias al masivo empleo de las redes sociales, hoy

en día se difunden rápidamente grandes cantidades de información a través de estas.

Las redes sociales permiten que cientos de millones de usuarios de Internet en todo el

mundo produzcan y consuman contenido. Proporcionan acceso a una fuente de información

muy amplia a una escala sin precedentes. Las redes sociales desempeñan una función

valiosa en la difusión de información al incrementar la propagación de nueva información y

diversos puntos de vista y la variedad de escenarios de aplicación como sistemas de

recomendación y marketing. Ser capaz de cuantificar y medir la difusión de información

puede mejorar enormemente el rendimiento en estos escenarios (Bakshy, Rosenn, Marlow,

& Adamic, 2012), (Hu, Xu, & Shi, 2015).

Se han intentado una variedad de métodos para capturar el proceso de difusión en las redes

sociales, que van desde la termodinámica a la epidemiología, a la inferencia probabilística

y estadística. Estos métodos difieren entre sí con respecto a las condiciones de uso, la

complejidad del modelo y el rendimiento de la predicción.

Una red social resulta del uso de un servicio web dedicado, a menudo denominado sitio de

red social, que permite a sus usuarios (1) crear una página de perfil y publicar mensajes y

(2) conectarse explícitamente a otros usuarios creando así relaciones sociales. De hecho,

29

una red social se puede describir como un sistema de contenido generado por el usuario

que permite a sus usuarios comunicarse y compartir información.

En cierto grado, las características de comportamiento de los usuarios tienen un efecto en

la difusión de información. En general, las fuentes de información son personas como

celebridades, representantes de medios de comunicación y otras organizaciones formales

que tienen un número mucho mayor de seguidores que sus seguidores. Si una publicación

es publicada por una fuente de información, provocará una difusión más amplia (Hu et al.,

2015).

Una red social se representa formalmente mediante un grafo, donde los nodos son usuarios

y las aristas son relaciones que pueden ser dirigidas o no, dependiendo de cómo el sitio de

red social gestiona las relaciones, más precisamente, depende de si permite conectarse de

manera unilateral (por ejemplo, modelo social de seguimiento de Twitter) o bilateral (por

ejemplo, modelo de amistad social de Facebook). Por lo tanto, la estructura de las redes

sociales, proporciona una plataforma base y sus comunidades promueven directamente la

difusión de información. (Bampo, Ewing, Mather, Stewart, & Wallace, 2008), (Guille, Hacid,

Favre, & Zighed, 2013).

Los mensajes son el principal vehículo de información en dichos servicios. Los usuarios

publican mensajes para compartir o reenviar diversos tipos de información, como

recomendaciones de productos, opiniones políticas, ideas, etc.

Un mensaje se describe mediante (1) un texto, (2) un autor, (3) una marca de tiempo y

opcionalmente (4) el conjunto de personas (llamadas usuarios mencionados) a las que se

dirige específicamente el mensaje.

La Figura 2-4 se muestra un bosquejo de una red social representada por un grafo dirigido

enriquecido por los mensajes publicados por sus cuatro miembros. Una arista e = (ux, uy)

significa que el usuario "ux" está expuesto a los mensajes publicados por "uy". Esta

representación revela que, por ejemplo, el usuario llamado "u1" está expuesto al contenido

compartido por "u2" y "u3". También indica que nadie recibe los mensajes escritos por "u4"



Figura 2-4: Ejemplo de red social

Fuente: (Guille et al., 2013)

31

3. Trabajos relacionados

3.1 Trabajos relacionados en análisis de sentimientos

(Morency, Mihalcea, & Doshi, 2011) en su trabajo hacen tres contribuciones importantes.

En primer lugar, abordan la tarea del análisis de sentimiento trimodal y muestra que es una

tarea factible que puede beneficiarse de la explotación conjunta de las modalidades

visuales, auditivas y textuales. En segundo lugar, identifica un subconjunto de

características audiovisuales relevantes para el análisis de sentimientos y presenta pautas

sobre cómo integrar estas características. Finalmente, introduce un nuevo conjunto de

datos que consiste en datos reales en línea, que serán útiles para futuras investigaciones

en esta área.

(Vinodhini & Chandrasekaran, 2012) presentan una encuesta que cubre las técnicas y

métodos en el análisis del sentimiento y los desafíos que aparecen en el área. Además,

realiza un cuadro comparativo midiendo la efectividad de las técnicas. Utiliza técnicas como

Máquinas de vectores de soporte (SVM), Clasificadores Bayesianos (NB), Redes

Neuronales de Propagación (BPN).

(Mostafa, 2013) presenta un estudio para evaluar el sentimiento de los consumidores hacia

marcas conocidas. En esta investigación, se utiliza una muestra aleatoria de 3.516 tweets

para evaluar el sentimiento de los consumidores hacia marcas conocidas como Nokia, T-

Mobile, IBM, KLM y DHL. Se utiliza un léxico predefinido por expertos que incluía alrededor

de 6.800 adjetivos para realizar el análisis. Los resultados indican un sentimiento de

confianza del consumidor generalmente positivo hacía varias marcas famosas.

(Ortigosa, Martín, & Carro, 2014) presentan un nuevo método para el análisis de

sentimiento en Facebook que, a partir de mensajes escritos por usuarios, permiten extraer

información sobre la polaridad del sentimiento de los usuarios (positiva, neutra o negativa)

transmitida en los mensajes que escriben; y modelar la polaridad del sentimiento habitual

de los usuarios y detectar cambios emocionales significativos.

(Dasgupta, Natarajan, Kaipa, Bhattacherjee, & Viswanathan, 2015) ilustran el uso de

tecnologías de código abierto para el análisis de sentimientos de marca a partir de datos de



Facebook. Utilizan una plataforma llamada Infosys Information Platform, la cual proporciona

una capa de análisis de información sobre Hadoop, que abarca el paradigma MapReduce.

MapReduce es un modelo de programación y una implementación asociada para procesar

y generar grandes conjuntos de datos (Hadoop, 2019). Para hacer el análisis de

sentimientos, utilizar el Paquete de Sentimientos del software R.

(Vaghela & Jadav, 2016) en su investigación evaluaron tres técnicas de análisis de datos

(Máquina de Vector de Soporte, Naive Bayesiano y Máxima Entropía) con varios conjuntos

de datos entre ellos datos de Twitter, datos de clientes de (amazon.com, epinions.com,

cnet.com) y datos del debate presidencial en Estados Unidos en el año 2008 entre los

candidatos Obama-McCain.

En la tabla 3-1 se muestran los resultados de las evaluaciones de precisión de varios

algoritmos, donde concluyen que la Máquina de Vector de Soporte es el algoritmo de

clasificación más utilizado para el análisis de sentimientos y el que puede generar mejores

resultados.

Tabla 3-1: Comparación de los resultados de precisión de las técnicas evaluadas

Técnicas

Artículos

(Tripathy,

Agrawal, &

Rath, 2015)

(Pang, Lee, &

Vaithyanathan,

2002)

(Gautam &

Yadav, 2014)

(Go, Bhayani, &

Huang, 2009)

Máquina de Vector

de Soporte 94% 82,9% 85,5% 86,2%

Naive Bayesiano 89,5% 81,5% 88,2% 83%

Máxima Entropía NA 81% 83,8% 82,2%

Fuente: (Vaghela & Jadav, 2016)

33

(Baj-Rogowska, 2017) analiza el sentimiento de las opiniones utilizando los datos de

opiniones expresadas por usuarios de Facebook sobre Uber y recopiladas en el período

comprendido entre julio de 2016 y julio de 2017. El objetivo principal del estudio fue obtener

información sobre las percepciones de Uber durante trece meses consecutivos. El análisis

de sentimiento se llevó a cabo (incluyendo la recopilación de datos), utilizando el software

comercial ProSuite.

(Zhan, Tu, & Yu, 2018) efectuaron un estudio para investigar el contenido generado por los

usuarios en Instagram en el contexto de las bibliotecas públicas, mediante la realización de

análisis de opinión de dos millones de subtítulos en Instagram. Se emplearon algoritmos

supervisados de aprendizaje automático para crear el clasificador. Tres polaridades de

opinión y seis emociones se identificaron finalmente a través de estos subtítulos. Estas

polaridades proporcionan nuevos conocimientos para comprender a los lectores, lo que

ayuda a las bibliotecas a ofrecer mejores servicios.

(Noureen, Qamar, Khan, & Muhammad, 2018) proponen un marco llamado InstaSent para

el análisis de sentimientos basado en selfies de Instagram. El marco incorpora técnicas de

minería de texto y minería de imágenes para la predicción de sentimientos. Usan SVM para

la clasificación de sentimientos basada en el texto asociado con selfies como subtítulos,

hashtags, comentarios y emoticones, mientras que usan algoritmos de redes neuronales

para el procesamiento datos de imágenes para análisis de sentimientos.

(Păvăloaia, Teodor, Fotache, & Danileţ, 2019) realizaron un estudio que tenía como objetivo

analizar la reacción del cliente a dos tipos de publicaciones (fotos o videos) en seis redes

sociales: Facebook, Twitter, Instagram, Pinterest, Google+ y YouTube. Aportaron evidencia

sobre las diferencias y similitudes entre los comportamientos de los clientes de dos marcas

altamente competitivas en la industria de bebidas. Basándose en la literatura actual sobre

SM, Social Customer Relationship Managements (SCRM) y marketing, el resultado del

estudio es la conceptualización y medición de la capacidad del SM de una marca para

comprender las preferencias del cliente para diferentes tipos de publicaciones mediante el

uso de diversas herramientas estadísticas y la técnica de análisis de sentimientos aplicada

a grandes conjuntos de datos.



(Chandrasekaran, Annamalai, & De, 2019) examinaron el efecto del contenido generado

por el vendedor (tipo de contenido y tipo de medios) y los sentimientos de los usuarios

asociados sobre la interacción del usuario utilizando la técnica de minería de sentimientos

y el modelado de niveles múltiples. Para este estudio, se analizaron aproximadamente 3000

contenidos de marketing y 26 millones de impresiones de usuarios tomadas de las páginas

de marcas de Facebook de las 25 principales marcas de teléfonos móviles de la India. El

análisis revela que los comentarios que expresan los sentimientos de los usuarios influyen

de manera positiva y recursiva en los me gusta y las acciones relacionadas con el contenido

de los vendedores.

(Aly & van der Haar, 2020) presentan un clasificador de diccionario basado en la jerga

popular con el objetivo de determinar el sentimiento de los comentarios de Instagram dentro

del contexto de la moda, más específicamente calzado deportivo, y compararlo con el

rendimiento de otros clasificadores como Naive Bayes, J48 y Random Forest.

(Kaswidjanti, Himawan, & Silitonga, 2020) comparan la precisión del análisis de

sentimientos sobre la recomendación de recuerdos favoritos en el área de Yogyakarta

(Indonesia), utilizando los métodos basado en el léxico y en SVM. Los datos procesados

son datos de opinión de las redes sociales de Twitter e Instagram.

(Sa, Bhave, Deshpande, & Chaudhari, 2020) proponen predecir el sentimiento y clasificar

los comentarios como positivos, negativos o neutrales. Intentan ajustar un modelo de

regresión lineal para predecir el recuento de suscriptores / seguidores para cualquier cuenta

de redes sociales, por ejemplo, un canal de YouTube o una cuenta en Instagram.

En la tabla 3-2 se muestra el resumen de los trabajos relacionados, con las técnicas y las

redes sociales que se usaron.

35

Tabla 3-2: Técnicas utilizadas en los trabajos relacionados con el análisis de sentimientos

Autores Técnica - Software - Librería -

Algoritmo - Método - Aplicación

Red Social

(Morency et al., 2011) Clasificador HMM YouTube

(Vinodhini & Chandrasekaran, 2012)

SVM, NB, BPN NA

(Mostafa, 2013) twitteR, SentiWordNet Twitter

(Ortigosa et al., 2014) SentBuk, SVM Facebook

(Dasgupta et al., 2015) Hadoop, R Sentiment Package Facebook

(Vaghela & Jadav, 2016) SVM, NB, Máxima Entropía Twitter

(Baj-Rogowska, 2017) ProSuite Facebook

(Zhan et al., 2018) Random Forest Instagram

(Noureen et al., 2018) SVM Instagram

(Păvăloaia et al., 2019) Syuzhet Facebook, Twitter,

Instagram, Pinterest, Google+ y YouTube

(Chandrasekaran et al., 2019)

Sentistrength Facebook

(Aly & van der Haar, 2020)

SVM, Random Forest, NB Instagram

(Kaswidjanti et al., 2020) Basado en el léxico, SVM Instagram y Twitter

(Sa et al., 2020) Modelo de regresión lineal Instagram y YouTube

Fuente propia



3.2 Trabajos relacionados con sesgo de muestreos

(Gjoka, Kurant, Butts, & Markopoulou, 2010) tienen como objetivo obtener una muestra

representativa (imparcial) de usuarios de Facebook rastreando su gráfico social. En esta

búsqueda, consideran e implementaron varias técnicas candidatas. Dos enfoques que

funcionan bien son la caminata aleatoria Metropolis-Hasting (MHRW) y una caminata

aleatoria re-ponderada (RWRW). Además de la evaluación del desempeño fuera de línea,

presentan diagnósticos en línea para evaluar la calidad de la muestra durante el proceso

de recopilación de datos. Muestran cómo se pueden usar para determinar de manera

efectiva cuándo una muestra de caminata aleatoria es de tamaño y calidad adecuados para

su uso posterior (es decir, cuándo es seguro dejar de tomar muestras).

(Park & Moon, 2013) en su artículo cambian el enfoque a los atributos de nodo. Para el

estudio utilizan 7 métodos de muestreo. Concluyen que los métodos de muestreo existentes

producen productos sesgados y necesitan modificaciones para aliviar el sesgo.

(Lu & Li, 2013) discuten el problema de sesgo al estimar el tamaño de la población de

grandes datos, como lo son las redes sociales utilizando un muestreo aleatorio uniforme y

una caminata aleatoria simple. Señalan que cuando se usan muestras pequeñas, hay un

sesgo que ya no es despreciable. El resultado es respaldado por los estudios de simulación

y la red real de Twitter que contiene 41,7 millones de nodos.

(Culotta, 2014) presenta resultados que estiman varias estadísticas de salud (entre ellas,

obesidad, diabetes, acceso a alimentos saludables) basadas en la actividad de los usuarios

de Twitter, en los 100 condados principales en los EE. UU., y comparan estrategias para

reducir el sesgo de selección. Los resultados sugieren que ajustar el sesgo de selección

puede mejorar en gran medida la precisión de las estimaciones realizadas con los datos de

las redes sociales. Estos resultados se mantienen a pesar del ruido introducido por la

inferencia demográfica.

(González-Bailón et al., 2014) consideran el sesgo de muestreo introducido en el estudio

de redes sociales al recopilar datos a través del uso de la API de Twitter. Evalúan las

37

diferencias entre tres muestras de actividad de Twitter. El estudio lo realizaron tomando una

muestra de la actividad en Twitter durante el período del 30 de abril al 30 de mayo de 2012

en el marco de las protestas que se organizaron para celebrar el primer aniversario de los

indignados españoles o movimiento indignado, que estalló en 2011 para protestar contra

los recortes de gastos y la gestión de la crisis económica. Hacen un seguimiento de la

comunicación y reconstruyen la red de menciones y re-tweets según las API de búsqueda

y transmisión con diferentes parámetros de filtrado.

(Morstatter & Liu, 2017) en su trabajo investigan el sesgo de recopilación de datos asociado

con las redes sociales. Proponen métodos computacionales para evaluar si existe un sesgo

debido a la forma en que un sitio de redes sociales pone a disposición sus datos, detectar

sesgos a partir de muestras de datos sin acceso a los datos completos y mitigar el sesgo

mediante el diseño de estrategias de recopilación de datos que maximicen cobertura para

minimizar el sesgo. También presentan un nuevo tipo de sesgo de datos derivado de los

ataques API con algoritmos, datos y resultados de validación. Además, en el artículo

demuestran cómo algunas características de los datos de las redes sociales pueden ser

ampliamente estudiadas y verificadas y cómo los mecanismos de intervención

correspondientes pueden diseñarse para superar los efectos negativos.

(Fan, Yu, Guo, Wang, & Yang, 2017) realizaron la intervención al procedimiento de

muestreo de acuerdo con la divergencia en tiempo real del conjunto de muestras recogidas

con respecto a la distribución objetivo, aplicaron la teoría de la homofilia para descubrir a

los usuarios con características coincidentes y refinar las muestras con muestreo recursivo.

Además, se requirió menos tiempo de acceso para recolectar un cierto número de muestras

para el método propuesto y así ahorrar tiempo y recursos informáticos.

(Ardehaly & Culotta, 2018) investigan algoritmos de clasificación que utilizan restricciones

estadísticas de la población, como datos demográficos, nombres y seguidores de redes

sociales para ajustar los clasificadores para predecir los atributos de los usuarios

individuales para la disminución del sesgo del muestreo. Proponen métodos de aprendizaje

con proporción de etiqueta (LLP) que modelan explícitamente el ruido inherente a estas

proporciones de etiquetas. En varios conjuntos de datos reales y sintéticos, encuentran que



combinar estas mejoras juntas puede reducir significativamente el error de clasificación

promedio en un 7%.

(Yuan et al., 2020) formalizan los sesgos de muestreo de los datos de las redes sociales

basadas en la ubicación (RSBU) desde varias perspectivas, incluidas las

sociodemográficas, espaciotemporales y semánticas. Examinan los problemas de

representatividad de datos de RSBU utilizando casos empíricos y analiza los impactos en

las aplicaciones de ciudades inteligentes. Los resultados proporcionan información para

comprender las limitaciones de los datos de las RSBU para aplicaciones de ciudades

inteligentes y para desarrollar enfoques de mitigación.

3.3 Trabajos relacionados en eliminación del ruido

(Xiong, Pandey, Steinbach, & Kumar, 2006) exploran cuatro técnicas destinadas a la

eliminación de ruido para mejorar el análisis de datos en presencia de altos niveles de ruido.

Tres de estos métodos se basan en técnicas tradicionales de detección de valores atípicos:

basados en la distancia, en clústeres y un enfoque basado en el factor local de valores

atípicos (LOF) de un objeto. La otra técnica, que es un método que proponen, es un

limpiador de datos basado en hiperclique (HCleaner).

(Hernández, Sallis, & Garden, 2011) abordan el proceso de descarte como eliminación de

ruido dentro del contexto de métodos de procesamiento de señales. Proponen un enfoque

basado en la entropía utilizando una matriz ponderada de valor para la coincidencia de

relevancia de palabras, donde el texto completo se divide en función de si existe una

relevancia directa de pares de palabras para el significado declarado buscado, que se

expresa como un conjunto de parámetros y el ruido se considera como errores en el flujo

de datos. Los datos no ruidosos resultantes se representan como un vector de significado

de texto, donde se almacenan los términos de relevancia directa para los valores de los

parámetros iniciales.

39

Autores como (Tang & Liu, 2012) han desarrollado marcos de eliminación de ruido en

conjunto para realizar la eliminación de múltiples tipos de ruido en los datos de las redes

sociales de forma simultánea.

(Gao, Wang, Tang, & Liu, 2013) abordan el proceso de descarte como eliminación de ruido

dentro del contexto de métodos de procesamiento de señales. Proponen un enfoque

basado en la entropía que utiliza una matriz ponderada por el valor para la correspondencia

de relevancia de palabras, donde el texto completo se divide de acuerdo a si existe una

relevancia directa de los pares de palabras para el significado declarado que se busca, que

se expresa como un conjunto de parámetros y el ruido se considera como errores en el flujo

de datos.

(Wang, Zhang, Chen, & Zhang, 2015) presentan un diseño de un sistema en tiempo real,

SocialAnalysis. Las tecnologías clave en el sistema incluye métodos de eliminación de

datos basados en funciones múltiples, que eliminan los datos de eventos relacionados con

consultas de datos.

(Chang, Xiang, & Hospedales, 2016) proponen un enfoque novedoso basado en gráficos

para la eliminación de ruido de etiquetas. Demuestran el rendimiento superior de

eliminación de ruido de su modelo en datos reales de redes sociales con patrones de ruido

en etiquetas estructuradas.

(Wani, Agarwal, Jabin, & Hussain, 2019) presentan una técnica de eliminación de ruido para

eliminar los valores atípicos de conjunto de datos en las publicaciones de los usuarios de

Facebook. El modelo de detección está entrenado en 12 atributos basados en la emoción,

incluidas las ocho emociones básicas, positividad y negatividad de Plutchik. Utilizaron

varias técnicas de aprendizaje automático, como SVM, NB, JRip y RF para entrenar el

modelo de detección.

3.4 Trabajos relacionados en difusión de la información

Algunos trabajos han tratado el problema de la procedencia de la información. Una posible

solución a este problema es, dado un gráfico con un conjunto de destinos conocidos como

terminales, busque algorítmicamente las fuentes, denominadas nodos raíz. Algunos



algoritmos de referencia son Modelo de Difusión de Rumores (Shah & Zaman, 2011),

Modelo de cascada independiente (Lappas, Terzi, Gunopulos, & Mannila, 2010) y NetSleuth

(Prakash, Vreeken & Faloutsos, 2012).

Algunos investigadores trabajan en el desarrollo de modelos globales para predecir el flujo

de información y han tenido éxito como es el caso de (Gómez Rodríguez, Leskovec, &

Schölkopf, 2013) en los cuales se utilizan las vías de propagación de información para inferir

la verdadera estructura de la red.

(Guille et al., 2013) presentan una encuesta de métodos representativos de la difusión de

la información en redes sociales y proponen una taxonomía que resume el estado del arte.

El objetivo de la encuesta es ayudar a los investigadores a comprender rápidamente los

trabajos existentes y las posibles mejoras a aportar.

(Luarn, Yang, & Chiu, 2014) diseñaron una aplicación de Facebook para examinar la

influencia de la red de personas en la diseminación de información. Los resultados

mostraron que tanto el grado de la red como el conglomerado de la red afectaron

significativamente la frecuencia de difusión de la información. En otras palabras, las

personas con más conexiones y con altas conexiones agrupadas podrían ejercer una mayor

influencia en su proceso de difusión de información.

(W. H. Tang, Yeh, & Lee, 2014) investigaron el impacto de la influencia social de una página

de seguidores de Facebook en las taquillas de películas. Su objetivo era mejorar la precisión

de predecir la taquilla aprovechando la influencia social entre los usuarios en la página de

fans. Proponen el Modelo de predicción de ingresos de taquilla lineal (LBRPM) para

calcular la influencia del usuario y predecir la interacción entre la fan page y los usuarios.

(Jiang, Chen, & Liu, 2014) proponen un marco teórico de juego evolutivo para modelar el

proceso dinámico de difusión de información en las redes sociales. Para verificar realizan

experimentos utilizando la red de Facebook y el conjunto de datos de difusión de

información del mundo real de Memetracker. Los resultados del experimento muestran que

el marco teórico del juego propuesto es efectivo y práctico para modelar los

comportamientos de reenvío de información de los usuarios de las redes sociales.

41

(Seltzer, Jean, Kramer-Golinkoff, Asch, & Merchant, 2015) tenían como objetivo explorar

cómo las plataformas de intercambio de imágenes se utilizan para la difusión de información

en emergencias de salud pública. Usando la palabra clave '#ebola' identificaron una

muestra del 1% de imágenes publicadas en Instagram y Flickr en dos semanas

consecutivas en noviembre de 2014. Concluyeron que las plataformas de intercambio de

imágenes se están utilizando para el intercambio de información sobre crisis de salud

pública.

(Kumaran & Chitrakala, 2015) discutieron diferentes métodos, modelos y enfoques

involucrados en la detección de temas, la identificación del difusor de influencia y los

modelos de difusión de información. También enuncian los problemas, aplicaciones,

medidas de red y algunos conjuntos de datos de redes sociales comunes utilizados en la

difusión de información.

(Desmarchelier & Fang, 2016) examinan cómo las redes sociales han modificado el proceso

a través del cual la información se propaga dentro de una población. Sobre la base de la

modelización basada en agentes y una encuesta de comportamiento sobre la difusión de

información tras un rumor de una emergencia alimentaria en China, estudiaron las redes de

difusión en poblaciones simuladas con y sin acceso a las redes sociales. Concluyen que, si

bien el uso de las redes sociales no aumenta la probabilidad de cascadas informativas, los

resultados sugieren un cambio significativo en la topología de las redes de difusión.

(Chen et al., 2017) presentan D-Map (Diffusion Map), un novedoso método de visualización

para apoyar la exploración y el análisis de comportamientos sociales durante la difusión y

propagación de información en redes sociales. En D-Map, los usuarios que participaron en

reenviar un mensaje inicialmente publicado por otros las publicaciones de un usuario

central, se recopilan y asignan a una grilla hexagonal en función de sus similitudes de

comportamiento y en orden de los reposteos. Con interacción adicional y enlaces, D-Map

es capaz de proporcionar retratos visuales de los usuarios influyentes y describir sus

comportamientos sociales.

(Chiu & Hsu, 2017) analizaron la difusión de información a través de la difusión de

mensajes, como compartir publicaciones o comentar publicaciones en Facebook.

Analizaron los comportamientos de reacción de los usuarios y desarrollaron un método para



encontrar usuarios importantes que cambian la velocidad de difusión de la información y

desempeñan un papel crucial.

(Aminolroaya & Katanforoush, 2017) investigan algunos aspectos novedosos de la difusión

de hashtags entre las comunidades iraníes en Instagram en el período de las últimas

elecciones legislativas en Irán. Analizan la validación de tres supuestos diferentes. Primero,

estudian los efectos de las relaciones entre seguidores y seguidores en la difusión de los

hashtags de la campaña. Con base en las marcas de tiempo de las publicaciones, utilizan

el método NetRate para estimar las tasas de difusión de información sobre los nodos de la

red. Luego, mediante la aplicación del método de Lovaina como algoritmo de detección de

la comunidad, investigaron la relación entre la membresía de la comunidad y la tasa de

transmisión del contagio. Los resultados muestran el flujo de información de los seguidores

a los seguidores con una tasa significativa de difusión en toda la red.

(Yang et al., 2018) presentan un estudio del proceso de difusión de la información verdadera

y falsa a través de las redes sociales, particularmente Facebook. Investigan la estructura

topológica de dos conjuntos de datos de red de Facebook a gran escala con respecto a sus

propiedades estadísticas. Además, establecen un modelo de información para simular la

información verdadera y falsa que se extiende por Facebook.

(Jain, Mohan, & Sinha, 2018) realizaron detección de comunidades con medidas de

centralidad ejecutadas sobre nodos. Sus resultados ayudaron a mejorar el seguimiento de

la difusión de información al máximo de personas en la red conectada para promover una

mejor publicidad de productos o servicios, de acuerdo con las necesidades, preferencias y

criterios de búsqueda.

(S. H. Park, Yoon, & Chung, 2019) investigaron cómo líderes políticos se comunicaron con

el público del Reino Unido a través de las páginas de seguidores de Facebook a través del

proceso del Brexit. Este estudio empleó dos tipos diferentes de análisis de datos (análisis

de redes sociales y análisis de redes semánticas) para explorar la estructura y los

contenidos del proceso de difusión de información.

(Kim & Seo, 2020) proponen modelos de epidemia realistas para describir el proceso

probabilístico de propagación de hashtag. Sus modelos tienen en cuenta la forma en que

43

los usuarios se comunican en las redes sociales. En base a los modelos propuestos,

desarrollan algoritmos de inferencia eficientes que miden las tasas de propagación de los

hashtags en las redes sociales.

En la tabla 3-3 se muestra el resumen de los trabajos relacionados, con las técnicas que se

utilizaron y las redes sociales que se usaron.

Tabla 3-3: Técnicas utilizadas en los trabajos relacionados con la difusión de información

Autores Técnica - Software - Librería - Algoritmo -

Método - Aplicación - Modelo Red

Social

(Shah & Zaman, 2011) Modelo de difusión de rumores NA

(Lappas et al., 2010) Modelo de cascada independiente NA

(Prakash et al., 2012) Método Netsleuth NA

(Gómez Rodríguez et al., 2013)

INFOPATH Facebook

(Guille et al., 2013) NETINF, NETRATE, INFOPATH NA

(Luarn et al., 2014) App en Facebook Facebook

(W. H. Tang et al., 2014) Modelo de predicción de ingresos de taquilla lineal Facebook

(Jiang et al., 2014) Teoría del juego evolutivo Facebook

(Seltzer et al., 2015) Uso #hashtag Instagram

(Kumaran & Chitrakala, 2015)

NETINF, NETRATE, INFOPATH, Umbral Lineal NA

(Desmarchelier & Fang, 2016)

Modelo de agentes NA

(Chen et al., 2017) D-Map Weibo

(Chiu & Hsu, 2017 Share acceleration max Facebook

(Aminolroaya & Katanforoush, 2017)

NetRate, Louvain Instagram

(Yang et al., 2018) Modelo Propio Facebook

(Jain, Mohan, & Sinha, 2018)

Girvann-Newman, Louvain Facebook

(S. H. Park et al., 2019) NodeXL Facebook

(Kim & Seo, 2020) Uso #hashtag Facebook



4. Modelo propuesto para realizar Social Media Mining en Facebook e Instagram

El objetivo de este capítulo, es elaborar un modelo propio que nos permita abordar los

desafíos del SMM en las redes sociales de Facebook y Instagram. Por lo tanto, se tiene en

cuenta la literatura revisada para diseñar el modelo que contenga las estrategias y técnicas

que tuvieron mejor desempeño en los estudios realizados.

En la figura 4-1, se muestra la secuencia de pasos involucrados en el modelo propuesto, el

cual consta de los procesos de obtención de la data, preprocesamiento, generación de data

de entrenamiento, escogencia del clasificador, ejecución del algoritmo, validación y

resultados.

45

Figura 4-1: Modelo genérico propuesto



4.1 Pasos y procesos del Modelo Propuesto

Primer paso: Recopilación de datos: en esta etapa, los datos que se analizarán, se rastrean

desde varias fuentes como las redes sociales y/o herramientas que nos permitan extraer

los comentarios para hacer el respectivo análisis (Thakkar & Patel, 2015).

Segundo paso: Preprocesamiento: La aplicación de las técnicas correctas de

preprocesamiento de datos que implica transformar los datos en bruto, en un formato

comprensible puede mejorar la calidad de los datos, lo que ayuda a mejorar la precisión y

la eficiencia del proceso. Este preprocesamiento puede tener varios pasos (García,

Ramírez-Gallego, Luengo, & Herrera, 2016):

• Limpieza de datos: los datos se limpian a través de procesos como completar los

valores faltantes, suavizar los datos ruidosos o resolver las inconsistencias en los

datos. La limpieza incluye la extracción de palabras clave y símbolos, cambiar todo

en mayúsculas y minúsculas a un caso común, eliminación de stopwords, etc.

• Transformación de datos: La normalización de texto es el proceso de transformar

un texto en una forma canónica (estándar). La normalización del texto es importante

para textos ruidosos como comentarios en redes sociales, mensajes de texto y

comentarios a publicaciones de blog donde prevalecen las abreviaturas, errores

ortográficos y el uso de palabras fuera del vocabulario.

Tercer paso: Datos para el entrenamiento: El conjunto de datos para el datatest, es el

insumo a través del cual el modelo clasificador aprende a procesar la información.

Utilizando capacitación iterativa en los datos, finalmente el modelo clasificador puede

reconocer características o patrones. Los datatest son absolutamente esenciales para el

proceso: pueden considerarse como el "alimento" que el modelo clasificador utiliza para

operar (Shah, 2019).

Cuarto paso: Aplicación de algoritmo de Clasificación: Este es el corazón de todo el

modelo. Dependiendo de los requisitos de la aplicación, el clasificador se implementa para

47

su análisis. El clasificador (después de completar el entrenamiento) está listo para

desplegarse para fines de extracción de sentimientos (Thakkar & Patel, 2015).

Para autores como (Thakkar & Patel, 2015),(Mesnil, Mikolov, Ranzato, & Bengio, 2015),

(Pang et al., 2002),(Anjaria & Guddeti, 2014),(Ortigosa et al., 2014), (Ramírez-Tinoco, Alor-

Hernández, Sánchez-Cervantes, Olivares-Zepahua, & Rodríguez-Mazahua, 2018),

(Alsmadi & Gan, 2019), (Rameshbhai & Paulose, 2019), (Mr. S. M. Vohra, 2012),

concuerdan que el SVM (Support Vector Machine) tiene una alta precisión y mejor

desempeño frente a otros algoritmos. Por lo tanto, para nuestro modelo se escoge el

clasificador SVM para hacer la experimentación.

Quinto paso: Resultados: La evaluación del rendimiento de un modelo es una de las fases

principales en el proceso de ciencia de datos. Indica el nivel de acierto de las puntuaciones

(predicciones) de un conjunto de datos mediante un modelo entrenado (Microsoft, 2017).

Las métricas de evaluación disponibles para los modelos de clasificación son: Accuracy,

Precision, Recall y F1 Score.



5. Experimentación y análisis de los resultados

5.1 Metodología

La construcción del modelo, aborda el tercer objetivo específico de este trabajo y para su

implementación se trabajó con la herramienta Kaggle.

Kaggle, es una comunidad en línea de científicos de datos y profesionales del aprendizaje

automático. Kaggle permite a los usuarios encontrar y publicar conjuntos de datos, explorar

y construir modelos en un entorno de ciencia de datos basado en la web, trabajar con otros

científicos de datos e ingenieros de aprendizaje automático, y participar en concursos para

resolver desafíos de ciencia de datos.

Kaggle ofrece los siguientes servicios:

• Concursos de aprendizaje automático: Las empresas publican problemas y los

alumnos aprenden a construir el mejor algoritmo.

• Kaggle Kernels: un banco de trabajo basado en la nube para la ciencia de datos y

el aprendizaje automático. Permite a los científicos de datos compartir código y

análisis en Python y R.

• Plataforma de conjuntos de datos públicos: los miembros de la comunidad

comparten conjuntos de datos entre sí.

• Kaggle Learn: cursos sobre ciencia de los datos.

En la figura 5-1 se define la estructura para implementar el modelo, y el script y herramientas

requeridas para la experimentación.

49

Figura 5-1: Modelo propuesto detallado para la experimentación



5.1.1 Obtención de los datos

Los datos de la experimentación se obtuvieron para Facebook del perfil oficial de la

Universidad Nacional de Colombia, y para Instagram, del perfil oficial de la Universidad

Nacional de Colombia – Sede Medellín. Para las pruebas en Facebook, se escogieron dos

posts y una para Instagram. Para la elección de los posts, se tuvo en cuenta que tuviera un

buen número de comentarios.

En la figura 5-2, se muestra el primer post de Facebook, que fue una publicación en formato

de video, donde la rectora de la Universidad, da su opinión referente al paro nacional del

21 de noviembre del 2019.

Figura 5-2: Post 1 de Facebook

En la figura 5-3, se muestra el segundo post de Facebook, que fue una publicación en

formato de imagen, donde se dicta por parte del Consejo Académico de la Universidad,

https://www.facebook.com/UNColombia/

https://www.instagram.com/sedemedellin_unal/?hl=es-la

https://www.instagram.com/sedemedellin_unal/?hl=es-la

51

establecer las cátedras sobre las problemáticas sociales del país que se ofrecerán en el

2020 para toda la comunidad académica de la universidad.

Figura 5-3: Post 2 de Facebook

En la figura 5-4, se muestra el post de Instagram, que fue una publicación en formato de

imagen, donde anuncian que la Universidad, mediante un convenio con la alcaldía de

Medellín, realizarán la construcción del Plan de Desarrollo.



Figura 5-4: Post Instagram

Para la obtención de los comentarios de los posts, es necesario tomar la URL de cada cada

una, para luego pegarlas en las herramientas de extracción. Para Facebook, se utilizó la

herramienta web https://www.commentexporter.com/. y para Instagram, se usó

https://exportcomments.com/. Las dos herramientas exportan los datos en un archivo con

formato csv. En la figura 5-5 y 5-6, se muestra el proceso de descargar lo comentarios para

Facebook e Instagram respectivamente.

Figura 5-5: Proceso descarga de comentarios de Facebook

https://www.commentexporter.com/

https://exportcomments.com/

53

Figura 5-6: Proceso descarga comentarios de Instagram

Cabe señalar que las dos herramientas en su versión gratis permite la descarga de hasta

500 comentarios y tienen como ventajas que no se necesita ser dueño de la página de

Facebook o Instagram donde se produjo la publicación. Ya sea un estado, una foto o un

video, (siempre y cuando sea público el contenido), se puede exportar los comentarios

disponibles.

Posteriormente, se hace el análisis de sentimientos de los comentarios con la herramienta

web https://www.meaningcloud.com, el cual permite instalar un complemento en la

herramienta ofimática de Excel, que permite realizar fácilmente análisis de texto en las hojas

de cálculo. Los comentarios se analizan para determinar si expresa un sentimiento positivo,

negativo o neutral; para hacer esto, la herramienta identifica la polaridad local de las

diferentes oraciones en el texto y se evalúa la relación entre ellas, lo que resulta en un valor

de polaridad global para todo el texto; además, genera un campo con el valor de confianza

respecto al análisis de sentimientos que va de 0 a 100, donde 100 es el máximo valor de

confianza. Se escogió esta herramienta, ya que, en búsqueda realizada, fue la que permitió

hacer análisis de sentimientos en español.

https://www.meaningcloud.com/



5.1.2 Preprocesamiento

Para el procesamiento de los datos, se empleó el paquete Natural Language Toolkit (NLTK),

el cual proporciona bibliotecas de procesamiento de texto para clasificación, tokenización,

derivación, etiquetado, análisis y razonamiento semántico (NLTK Project, 2019). En esta

etapa se definieron 3 procesos de procesamiento: remoción de stopwords, tokenización y

normalización.

Las stopwords son palabras que se filtran en el procesamiento de los datos y son

generalmente las palabras más comunes en un idioma. El grupo de palabras puede estar

conformado por artículos, pronombres, preposiciones, adverbios e incluso algunos verbos,

que no agregan mucho valor al significado del documento (Rajaraman & Ullman, 2011).

Para este proceso en la experimentación, se utilizó la función del paquete NLTK

nltk.corpus.stopwords.words.

La tokenización es un paso que divide cadenas de texto más largas en piezas más

pequeñas o tokens. Los trozos de texto más grandes pueden ser convertidos en oraciones,

las oraciones pueden ser tokenizadas en palabras, etc. El procesamiento adicional

generalmente se realiza después de que una pieza de texto ha sido apropiadamente

concatenada. La tokenización también se conoce como segmentación de texto o análisis

léxico. A veces la segmentación se usa para referirse al desglose de un gran trozo de texto

en partes más grandes que las palabras (por ejemplo, párrafos u oraciones), mientras que

la tokenización se reserva para el proceso de desglose que se produce exclusivamente en

palabras (Mayo, 2020). Para este proceso en la experimentación, se utilizó la función del

paquete NLTK nltk.tokenize, que permite dividir los comentarios de los posts en palabras

para el entrenamiento del modelo.

La normalización generalmente se refiere a una serie de tareas relacionadas destinadas a

colocar todo el texto en igualdad de condiciones: convirtiendo todo el texto en el mismo tipo

(mayúsculas o minúsculas), eliminando la puntuación, convirtiendo los números a sus

equivalentes de palabras, etc. La normalización pone todas las palabras en igualdad, y

permite que el procesamiento pueda producirse de manera uniforme (Mayo, 2020). Para

55

este proceso en la experimentación, se utilizó la función del paquete NLTK

nltk.normalize_corpus.

5.1.3 Data de Entrenamiento

El objetivo de un modelo de aprendizaje automático es identificar patrones en los datos de

entrenamiento. Estos patrones se usan para realizar predicciones con datos nuevos. Para

la experimentación, se utilizó la función train_test_split del paquete

sklearn.model_selection. Esta función divide los datos en conjuntos de entrenamiento y

pruebas.

5.1.4 Clasificación

En esta etapa de clasificación, se trabajó con el algoritmo SVM, que es un método

supervisado de clasificación binaria que basa su entrenamiento en encontrar un hiperplano

que separe los vectores que representan los documentos del conjunto de datos (vectores

de features) en dos grupos, siendo esta separación la más grande posible. Aquellos

vectores que definen los márgenes de la máxima separación entre las clases se conocen

como support vectors y pueden observarse en cuadros en la figura 5-7 (Cortes & Vapnik,

1995).

Figura 5-7: Representación de una Máquina de Vector de Soporte (SVM)

Fuente: (Cortes & Vapnik, 1995)



El SVM pertenecen a una clase de algoritmos de ML denominados métodos kernel y

también se conocen como máquinas kernel.

El entrenamiento de una máquina de vectores de soporte consta de dos fases:

1. Transformar los predictores (datos de entrada) en un espacio de características

altamente dimensional. En esta fase es suficiente con especificar el kernel; los datos

nunca se transforman explícitamente al espacio de características. Este proceso se

conoce comúnmente como el truco kernel (MathWorks, 2020).

2. Resolver un problema de optimización cuadrática que se ajuste a un hiperplano

óptimo para clasificar las características transformadas en dos clases. El número de

características transformadas está determinado por el número de vectores de

soporte.

Para construir la superficie de decisión solo se requieren los vectores de soporte

seleccionados de los datos de entrenamiento. Una vez entrenados, el resto de los datos de

entrenamiento son irrelevantes (MathWorks, 2020).

Para la experimentación se trabajó con el paquete sklearn.linear_model con la función

SGDClassifier

5.1.5 Resultados

En esta etapa, se utilizó la función metrics.classification_report del paquete sklearns, donde

elabora un informe de texto que muestra las principales métricas de clasificación. Las

métricas son: precisión, recall, f1-score y accuracy.

La métrica precisión (del inglés precision) es la relación TP / (TP + FP) donde TP es el

número de positivos verdaderos y FP el número de falsos positivos. Esta métrica es

intuitivamente la capacidad del clasificador de no etiquetar como positiva una muestra que

es negativa (Scikit-Learn, 2020a).

La métrica Exhaustividad (del inglés recall) es la relación TP / (TP + FN) donde TP es el

número de verdaderos positivos y FN el número de falsos negativos. Esta métrica es

57

intuitivamente la capacidad del clasificador para encontrar todas las muestras positivas

(Scikit-Learn, 2020a).

La métrica Valor-F (del inglés f1-score), se puede interpretar como un promedio ponderado

de la métrica precision y recall, donde f1-score, alcanza su mejor valor en 1 y el peor puntaje

en 0 (Scikit-Learn, 2020b). Su fórmula es la siguiente:

𝑓1 − 𝑠𝑐𝑜𝑟𝑒 = 2 ∗ (𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑟𝑒𝑐𝑎𝑙𝑙)/(𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙)

Exactitud (del inglés Accuracy): esta medida de rendimiento representa la razón entre las

predicciones correctas sobre el total de predicciones realizadas. Es el número de elementos

clasificados correctamente entre el número total de clasificaciones llevadas a cabo (Scikit-

Learn, 2020c). Su fórmula es la siguiente:

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃 + 𝑇𝑁

𝑇𝑃 + 𝐹𝑃 + 𝑇𝑁 + 𝐹𝑁

También se elaboró un datatest para evaluar la precisión del modelo con la función

svm.predict del paquete sklearns, donde se realiza la clasificación en los datos de prueba.

En la figura 5-8, se muestra el porcentaje de cada polaridad (positive, neutral y negative)

de los 3 post analizados, donde se evidencia que el post 1 y 2 de Facebook, tiene un mayor

porcentaje de polaridad neutra, mientras que el post de Instagram, tiene un mayor

porcentaje de polaridad positiva.



Figura 5-8: Porcentaje de polaridad de los posts

En las tablas 5-1, 5-2 y 5-3, se muestra el resumen de las métricas obtenidas por cada post

analizado.

Tabla 5-1: Resumen Métricas Post 1 Facebook

precision recall f1-score accuracy

positive 0.64 0.57 0.57

0.63 neutral 0.5 1 0.67

negative 1 0.33 0.5

Tabla 5-2: Resumen Métricas Post 2 Facebook


positive 0.80 0.8 0.8

0.8 neutral 1 0.75 0.86

negative 0.5 1 0.67

59

Tabla 5-3: Resumen Métricas Post 1 Instagram


positive 0.67 1 0.8

0.66 neutral 0.67 0.67 0.67

negative 0.44 0.67 0.53

En la figura 5-4 se muestra el resumen de las métricas obtenidas

Figura 5-9: Resumen Métricas Post Analizados

Se observa que para métrica recall, el modelo identifica el 100% para la polaridad neutral,

negative y positive del post 1 de Facebook, post 2 de Facebook y Post de Instagram,

respectivamente. El de menor valor fue para la polaridad negative, del post 1 de Facebook.

El modelo propuesto tiene una precisión de 1, en hallar la polaridad negativa y neutral de

los posts 1 y 2 de Facebook, es decir, cuando predice la polaridad, acierta el 100% de las

veces.

0%

20%

40%

60%

80%

100%

120%

positive neutral negative positive neutral negative positive neutral negative

Post Facebook 1 Post Facebook 2 Post Instagram 1




La métrica F-Score, nos proporciona una medida más realista del rendimiento de la prueba.

El valor más alto está en la polaridad neutral del post 1 de Facebook con 0.86, seguido con

0.8 de la polaridad positive del post 2 de Facebook y el post de Instagram.

Para la métrica accuracy, el de mejor rendimiento fue el post 2 de Facebook con 0.8,

seguido del post de Instagram con 0.66 y post 1 de Facebook con 0.63.

61

6. Conclusiones y recomendaciones

6.1 Conclusiones

En este trabajo se trató de abordar los desafíos y oportunidades del SMM proponiendo

estrategias para la aplicación del Social Media Mining en las redes sociales de Facebook e

Instagram.

• En el cumplimiento de los objetivos específicos se establecieron los desafíos más

importantes reportados en la literatura en lo relacionado con minería en las redes

Facebook e Instagram. Igualmente se definieron e implementaron estrategias para

enfrentar estos desafíos y se seleccionaron las técnicas en las diferentes fases de

SMM que permitieron centrarse en el análisis de sentimientos en los comentarios

de los posts bajo estudio. La implementación integra diferentes herramientas y

desarrollo propio para el logro del objetivo general, mostrando la viabilidad de

aplicación en casos concretos.

• El principal aporte de esta Trabajo de Maestría es la elaboración del modelo, que

permite la realización de SMM con los datos las dos redes en estudio. Sin duda, los

procesos de extracción, procesamiento, análisis y toma de decisiones a partir del

gran número de datos de las redes sociales, será un área que tendrá un mayor

crecimiento y actividad tecnológica en los próximos tiempos.

• Para la validación se hizo una experimentación con datos de las redes sociales de

Facebook e Instagram de la Universidad Nacional del Colombia. Los resultados

obtenidos para los casos de estudio muestran que el enfoque propuesto es válido y

puede ser aplicado en ambientes académicos y comerciales.

• Se identifica que las publicaciones realizadas por la universidad son en su mayoría

de carácter informativo, por lo tanto, el grado de conversación e interacción de estas

publicaciones es relativamente bajo. Las polaridades de este tipo de publicaciones,

tienden a ser entre neutrales y negativos. Por esta razón, se recomienda crear



contenidos que inviten a la interacción como, por ejemplo, la realización de

preguntas, ya que este tipo de publicaciones conectan aún más la marca con las

personas, porque empiezan a generar un diálogo entre ambas partes.

• El porcentaje de exactitud promedio del modelo final es del 69,6%. Se podría decir

que este porcentaje no es lo suficientemente alto como para afirmar que el modelo

posee un buen rendimiento, pero en el análisis de sentimientos, se estima que un

sistema presenta un buen nivel de precisión cuando alcanza un valor del 70% de

acierto (Ellis, 2019).

6.2 Trabajo futuro

Como trabajo futuro se explorarán soluciones para resolver las dificultades de clasificación

mostrada en la etapa de experimentación de este trabajo; evaluar otras librerías de

preprocesamiento de texto (por ejemplo, corrección ortográfica, detección de ironía) y otros

tipos de atributos específicos de opinión que permitan mejorar los resultados y generalizar

los clasificadores.

También se podría desarrollar un modelo basado en léxico de opinión utilizando como

recurso el conocimiento adquirido de los conjuntos de datos etiquetados que se

construyeron para esta tesis; y experimentar con otros tipos de tareas de análisis de

sentimientos como análisis del grado de polaridad de emociones de los distintos aspectos

que generan opinión en un mismo post.

A. Anexo: Instalación Complemento

MeaningCloud

67

B. Anexo: Análisis de Sentimientos en MeaningCloud



C. Anexo: Código Script

Bibliografía

Adedoyin-olowe, M., Gaber, M. M., & Stahl, F. (2014). A Survey of Data Mining Techniques for Social Network Analysis. International Journal of Research in Computer Engineering and Electronics, 3(6), 1–8. Retrieved from http://jdmdh.episciences.org/18/pdf%5Cnhttp://jdmdh.episciences.org/18/

Agyapong, K. B., Hayfron-Acquah, D. J. ., & Asante., D. M. (2016). An Overview of Data Mining Models (Descriptive and Predictive). International Journal of Software & Hardware Research in Engineering.

Allem, J. P., & Ferrara, E. (2016). The importance of debiasing social media data to better understand e-cigarette-related attitudes and behaviors. Journal of Medical Internet Research. https://doi.org/10.2196/jmir.6185

Alsmadi, I., & Gan, K. H. (2019). Review of short-text classification. International Journal of Web Information Systems, 15(2), 155–182. https://doi.org/10.1108/IJWIS-12-2017-0083

Aly, E. S., & van der Haar, D. T. (2020). Slang-Based Text Sentiment Analysis in Instagram. Advances in Intelligent Systems and Computing. https://doi.org/10.1007/978-981-32-9343-4_25

Aminolroaya, Z., & Katanforoush, A. (2017). How Iranian Instagram users act for parliament election campaign A study based on followee network. 2017 3rd International Conference on Web Research, ICWR 2017. https://doi.org/10.1109/ICWR.2017.7959297

Anjaria, M., & Guddeti, R. M. R. (2014). A novel sentiment analysis of social networks using supervised learning. Social Network Analysis and Mining, 4(1), 1–15. https://doi.org/10.1007/s13278-014-0181-9

Ardehaly, E. M., & Culotta, A. (2018). Learning from noisy label proportions for classifying online social data. Social Network Analysis and Mining. https://doi.org/10.1007/s13278-017-0478-6

Baj-Rogowska, A. (2017). Sentiment analysis of Facebook posts: The Uber case. 2017 IEEE 8th International Conference on Intelligent Computing and Information Systems, ICICIS 2017. https://doi.org/10.1109/INTELCIS.2017.8260068

Bakshy, E., Rosenn, I., Marlow, C., & Adamic, L. (2012). The role of social networks in information diffusion. WWW’12 - Proceedings of the 21st Annual Conference on World Wide Web. https://doi.org/10.1145/2187836.2187907

Bampo, M., Ewing, M. T., Mather, D. R., Stewart, D., & Wallace, M. (2008). The effects of the social structure of digital networks on viral marketing performance. Information Systems Research, 19(3), 273–290. https://doi.org/10.1287/isre.1070.0152

Bibliografía 73

Barbier, G., & Liu, H. (2011). Social Network Data Analytics. Social Network Data Analytics. https://doi.org/10.1007/978-1-4419-8462-3

Berry, M. W., Mohamed, A. H., & Wah, Y. B. (2015). Soft computing in data science: First international conference, SCDS 2015 putrajaya, malaysia, september 2-3, 2015 proceedings. Communications in Computer and Information Science. https://doi.org/10.1007/978-981-287-936-3

Bhagat, S., Goyal, A., & Lakshmanan, L. V. S. (2012). Maximizing product adoption in social networks. WSDM 2012 - Proceedings of the 5th ACM International Conference on Web Search and Data Mining. https://doi.org/10.1145/2124295.2124368

Cameron, J. J., Leung, C. K. S., & Tanbeer, S. K. (2011). Finding strong groups of friends among friends in social networks. Proceedings - IEEE 9th International Conference on Dependable, Autonomic and Secure Computing, DASC 2011. https://doi.org/10.1109/DASC.2011.141

Canal Díaz, N. (2009). Técnicas de muestreo. Sesgos más frecuentes. Revista Seden, 121–132.

Chandrasekaran, S., Annamalai, B., & De, S. K. (2019). Evaluating marketer generated content popularity on brand fan pages – A multilevel modelling approach. Telematics and Informatics, 44(August), 101266. https://doi.org/10.1016/j.tele.2019.101266

Chang, X., Xiang, T., & Hospedales, T. M. (2016). L1 graph based sparse model for label de-noising. British Machine Vision Conference 2016, BMVC 2016. https://doi.org/10.5244/C.30.74

Chen, S., Chen, S., Wang, Z., Liang, J., Yuan, X., Cao, N., & Wu, Y. (2017). D-Map: Visual analysis of ego-centric information diffusion patterns in social media. 2016 IEEE Conference on Visual Analytics Science and Technology, VAST 2016 - Proceedings. https://doi.org/10.1109/VAST.2016.7883510

Chiu, S. I., & Hsu, K. W. (2017). Information diffusion on facebook: A case study of the sunflower student movement in Taiwan. Proceedings of the 11th International Conference on Ubiquitous Information Management and Communication, IMCOM 2017. https://doi.org/10.1145/3022227.3022274

Cortes, C., & Vapnik, V. (1995). Support-Vector Networks. Machine Learning. https://doi.org/10.1023/A:1022627411411

Culotta, A. (2014). Reducing Sampling Bias in Social Media Data for County Health Inference. Joint Statistical Meetings Proceedings. Retrieved from http://cs.iit.edu/~culotta/pubs/culotta14reducing.pdf%5Cnhttp://tapilab.github.io/public health/2014/08/02/bias/

Dasgupta, S. S., Natarajan, S., Kaipa, K. K., Bhattacherjee, S. K., & Viswanathan, A. (2015). Sentiment analysis of Facebook data using Hadoop based open source technologies. Proceedings of the 2015 IEEE International Conference on Data Science and Advanced Analytics, DSAA 2015, (1), 3–5. https://doi.org/10.1109/DSAA.2015.7344883

Desmarchelier, B., & Fang, E. S. (2016). Social Media and the Diffusion of Information: A


Computational Experiment on the Emergence of Food Scares. Kyklos. https://doi.org/10.1111/kykl.12120

Deuja, R., & Shah, K. B. (2019). An Insight on Social Media Stream Mining. SCITECH Nepal, 14(1), 36–43. https://doi.org/10.3126/scitech.v14i1.25532

Ellis, B. (2019). On Social Sentiment and Sentiment Analysis — brnrd.me. Retrieved 23 February 2020, from https://brnrd.me/posts/social-sentiment-sentiment-analysis

Fan, R., Yu, Z., Guo, B., Wang, L., & Yang, D. (2017). Target Distribution Guided Network Sampling. Proceedings - 5th International Conference on Advanced Cloud and Big Data, CBD 2017. https://doi.org/10.1109/CBD.2017.71

Frawley, W. J., Piatetsky-Shapiro, G., & Matheus, C. J. (1992). Knowledge Discovery in Databases: An Overview. AI Magazine, 13(3), 57–70. https://doi.org/10.1609/aimag.v13i3.1011

Fresno García, M., Daly, A., & Supovitz, J. (2015). Desvelando climas de opinión por medio del Social Media Mining y Análisis de Redes Sociales en Twitter: el caso de los Common Core State Standards. Redes: Revista Hispana Para El Análisis de Redes Sociales, 26(1), 3.

Gao, H., Wang, X., Tang, J., & Liu, H. (2013). Network denoising in social media. Proceedings of the 2013 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining, ASONAM 2013. https://doi.org/10.1145/2492517.2492547

García, S., Ramírez-Gallego, S., Luengo, J., & Herrera, F. (2016). Big Data: Preprocesamiento y calidad de datos. Novática, (237), 17.

Gautam, G., & Yadav, D. (2014). Sentiment analysis of twitter data using machine learning approaches and semantic analysis. 2014 7th International Conference on Contemporary Computing, IC3 2014. https://doi.org/10.1109/IC3.2014.6897213

Giachanou, A., & Crestani, F. (2016). Like it or not: A survey of Twitter sentiment analysis methods. ACM Computing Surveys, 49(2). https://doi.org/10.1145/2938640

Gjoka, M., Kurant, M., Butts, C. T., & Markopoulou, A. (2010). Walking in facebook: A case study of unbiased sampling of OSNs. Proceedings - IEEE INFOCOM. https://doi.org/10.1109/INFCOM.2010.5462078

Go, A., Bhayani, R., & Huang, L. (2009). Twitter Sentiment Classification using Distant Supervision. Processing.

Gómez Rodríguez, M., Leskovec, J., & Schölkopf, B. (2013). Structure and dynamics of information pathways in online media. Proceedings of the Sixth ACM International Conference on Web Search and Data Mining - WSDM ’13, 23. https://doi.org/10.1145/2433396.2433402

González-Bailón, S., Wang, N., Rivero, A., Borge-Holthoefer, J., & Moreno, Y. (2014). Assessing the bias in samples of large online networks. Social Networks. https://doi.org/10.1016/j.socnet.2014.01.004

Guille, A., Hacid, H., Favre, C., & Zighed, D. A. (2013). Information diffusion in online social networks:

Bibliografía 75

A survey. SIGMOD Record. https://doi.org/10.1145/2503792.2503797

Hadoop. (2019). MapReduce Tutorial. Retrieved 20 February 2020, from https://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html

Hernández, S., Sallis, P., & Garden, K. (2011). A signal denoising method for text meaning vectors. Proceedings - AMS 2011: Asia Modelling Symposium 2011 - 5th Asia International Conference on Mathematical Modelling and Computer Simulation. https://doi.org/10.1109/AMS.2011.16

Hu, C., Xu, W., & Shi, P. (2015). Information Diffusion in Online Social Networks: Models, Methods and Applications. In Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) (Vol. 9391, pp. 65–76). https://doi.org/10.1007/978-3-319-23531-8_6

IAB. (2019). Reporte de Inversión en Publicidad Digital Primer Trimestre 2019. In Iab.

Jain, S., Mohan, G., & Sinha, A. (2018). Network diffusion for information propagation in online social communities. 2017 10th International Conference on Contemporary Computing, IC3 2017. https://doi.org/10.1109/IC3.2017.8284358

Jiang, C., Chen, Y., & Liu, K. J. R. (2014). Evolutionary social information diffusion analysis. 2014 IEEE Global Communications Conference, GLOBECOM 2014, 2911–2916. https://doi.org/10.1109/GLOCOM.2014.7037250

Jones, I., & Liu, H. (2013). Mining social media: Challenges and opportunities. Proceedings - 2013 International Conference on Social Intelligence and Technology, SOCIETY 2013. https://doi.org/10.1109/SOCIETY.2013.12

Kaplan, A. M., & Haenlein, M. (2010). Users of the world, unite! The challenges and opportunities of Social Media. Business Horizons, 53(1), 59–68. https://doi.org/10.1016/j.bushor.2009.09.003

Kaswidjanti, W., Himawan, H., & Silitonga, P. D. P. (2020). The accuracy comparison of social media sentiment analysis using lexicon based and support vector machine on souvenir recommendations. Test Engineering and Management, 82(3-4), 3953-3961.

Kim, Y., & Seo, J. (2020). Detection of Rapidly Spreading Hashtags via Social Networks. IEEE Access. https://doi.org/10.1109/ACCESS.2020.2976126

Kumaran, P., & Chitrakala, S. (2015). Information diffusion in online social network: Techniques, applications and challenges. 6th International Conference on Advances in Computing, Control, and Telecommunication Technologies, ACT 2015. https://doi.org/10.1515/9783110450101-013

Lappas, T., Terzi, E., Gunopulos, D., & Mannila, H. (2010). Finding effectors in social networks. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. https://doi.org/10.1145/1835804.1835937

Leung, C. K. S., & Tanbeer, S. K. (2012). Mining social networks for significant friend groups. In Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence


and Lecture Notes in Bioinformatics): Vol. 7240 LNCS (pp. 180–192). https://doi.org/10.1007/978-3-642-29023-7_19

Liu, B. (2012). Sentiment analysis and opinion mining. Synthesis Lectures on Human Language Technologies. https://doi.org/10.2200/S00416ED1V01Y201204HLT016

Liu, B., & Zhang, L. (2012). A Survey of Opinion Mining and Sentiment Analysis. In Mining Text Data (pp. 415–463). https://doi.org/10.1007/978-1-4614-3223-4_13

Liu, H., Morstatter, F., Tang, J., & Zafarani, R. (2016). The good, the bad, and the ugly: uncovering novel research opportunities in social media mining. International Journal of Data Science and Analytics, 1(3), 1–7. https://doi.org/10.1007/s41060-016-0023-0

Lu, J., & Li, D. (2013). Bias correction in a small sample from big data. IEEE Transactions on Knowledge and Data Engineering. https://doi.org/10.1109/TKDE.2012.220

Luarn, P., Yang, J. C., & Chiu, Y. P. (2014). The network effect on information dissemination on social network sites. Computers in Human Behavior. https://doi.org/10.1016/j.chb.2014.04.019

Mayo, M. (2020). Text Data Preprocessing: A Walkthrough in Python - KDnuggets. Retrieved 23 February 2020, from https://www.kdnuggets.com/2018/03/text-data-preprocessing-walkthrough-python.html

Medhat, W., Hassan, A., & Korashy, H. (2014). Sentiment analysis algorithms and applications: A survey. Ain Shams Engineering Journal, 5(4), 1093–1113. https://doi.org/10.1016/j.asej.2014.04.011

Mesnil, G., Mikolov, T., Ranzato, M. A., & Bengio, Y. (2015). Ensemble of generative and discriminative techniques for sentiment analysis of movie reviews. 3rd International Conference on Learning Representations, ICLR 2015 - Workshop Track Proceedings.

Microsoft. (2017). Evaluación del rendimiento del modelo - ML Studio (classic) - Azure. Retrieved 24 February 2020, from https://docs.microsoft.com/es-es/azure/machine-learning/studio/evaluate-model-performance

MinTIC. (2017). Primera Gran Encuesta TIC.

Mislove, A., Lehmann, S., Ahn, Y.-Y., Onnela, J.-P., & Rosenquist, J. N. (2011). Understanding the Demographics of Twitter Users. Int’l AAAI Conference on Weblogs and Social Media (ICWSM).

Morency, L. P., Mihalcea, R., & Doshi, P. (2011). Towards multimodal sentiment analysis: Harvesting opinions from the web. ICMI’11 - Proceedings of the 2011 ACM International Conference on Multimodal Interaction. https://doi.org/10.1145/2070481.2070509

Morstatter, F., Dani, H., Sampson, J., & Liu, H. (2016). Can One Tamper with the Sample API?: Toward Neutralizing Bias from Spam and Bot Content. WWW. https://doi.org/10.1145/2872518.2889372

Morstatter, F., & Liu, H. (2017). Discovering, assessing, and mitigating data bias in social media. Online Social Networks and Media. https://doi.org/10.1016/j.osnem.2017.01.001

Bibliografía 77

Morstatter, F., Pfeffer, J., Liu, H., & Carley, K. M. (2013). Is the sample good enough? Comparing data from twitter’s streaming API with Twitter’s firehose. Proceedings of the 7th International Conference on Weblogs and Social Media, ICWSM 2013.

Mostafa, M. M. (2013). More than words: Social networks’ text mining for consumer brand sentiments. Expert Systems with Applications. https://doi.org/10.1016/j.eswa.2013.01.019

Mr. S. M. Vohra, P. J. B. T. (2012). A Comparative Study Of Sentiment Analysis Techniques. Journal Of Information, Knowledge And Research In Computer Engineering. https://doi.org/10.13140/2.1.4255.0722

NLTK Project. (2019). Natural Language Toolkit — NLTK 3.4.5 documentation. Retrieved 21 February 2020, from https://www.nltk.org/

Noureen, R., Qamar, U., Khan, F. H., & Muhammad, I. (2018). InstaSent: A novel framework for sentiment analysis based on instagram selfies. Advances in Intelligent Systems and Computing. https://doi.org/10.1007/978-3-030-01054-6_23

Nyce, C. (2007). Predictive Analytics White Paper. American Institute for Chartered Property Casuality Underwriters, 16. Retrieved from http://ieg-sites.s3.amazonaws.com/sites/4e70a00a3723a839c1000042/contents/content_instance/4ec268ce3723a856ba00015c/files/PredictiveModelingWhitepaper.pdf

Ortigosa, A., Martín, J. M., & Carro, R. M. (2014). Sentiment analysis in Facebook and its application to e-learning. Computers in Human Behavior, 31(1), 527–541. https://doi.org/10.1016/j.chb.2013.05.024

Pang, B., Lee, L., & Vaithyanathan, S. (2002). Thumbs up? Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing - EMNLP ’02, 10, 79–86. https://doi.org/10.3115/1118693.1118704

Park, H., & Moon, S. (2013). Sampling bias in user attribute estimation of OSNs. WWW 2013 Companion - Proceedings of the 22nd International Conference on World Wide Web. https://doi.org/10.1145/2487788.2487880

Park, S. H., Yoon, S. W., & Chung, S. W. (2019). Social and semantic network analysis of Facebook pages: the case of Brexit and Bremain leaders. Asia Europe Journal. https://doi.org/10.1007/s10308-019-00567-x

Păvăloaia, V.-D., Teodor, E.-M., Fotache, D., & Danileţ, M. (2019). Opinion Mining on Social Media Data: Sentiment Analysis of User Preferences. Sustainability, 11(16), 4459. https://doi.org/10.3390/su11164459

Prakash, B. A., Vrekeen, J., & Faloutsos, C. (2012). Spotting culprits in epidemics: How many and which ones? Proceedings - IEEE International Conference on Data Mining, ICDM. https://doi.org/10.1109/ICDM.2012.136

Rajaraman, A., & Ullman, J. D. (2011). Mining of massive datasets. In Mining of Massive Datasets. https://doi.org/10.1017/CBO9781139058452


Rameshbhai, C. J., & Paulose, J. (2019). Opinion mining on newspaper headlines using SVM and NLP. International Journal of Electrical and Computer Engineering, 9(3), 2152–2163. https://doi.org/10.11591/ijece.v9i3.pp2152-2163

Ramírez-Tinoco, F. J., Alor-Hernández, G., Sánchez-Cervantes, J. L., Olivares-Zepahua, B. A., & Rodríguez-Mazahua, L. (2018). A brief review on the use of sentiment analysis approaches in social networks. Advances in Intelligent Systems and Computing, 688, 263–273. https://doi.org/10.1007/978-3-319-69341-5_24

Sa, A., Bhave, P., Deshpande, P., & Chaudhari, A. (2020). Sentiment analysis and prediction in social media. Test Engineering and Management, 83, 2129-2136.

SAS. (2019). Aprendizaje automático: Qué es y por qué es importante. Retrieved 20 February 2020, from https://www.sas.com/es_co/insights/analytics/machine-learning.html

Seltzer, E. K., Jean, N. S., Kramer-Golinkoff, E., Asch, D. A., & Merchant, R. M. (2015). The content of social media’s shared images about Ebola: A retrospective study. Public Health. https://doi.org/10.1016/j.puhe.2015.07.025

Scikit-Learn. (2020a). sklearn.metrics.precision_recall_fscore_support — scikit-learn 0.22.1 documentation. Retrieved 24 February 2020, from https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_fscore_support.html

Scikit-Learn. (2020b). sklearn.metrics.f1_score — scikit-learn 0.22.1 documentation. Retrieved 24 February 2020, from https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html

Scikit-Learn. (2020c). sklearn.metrics.accuracy_score — scikit-learn 0.22.1 documentation. Retrieved 24 February 2020, from https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html

Shah, D., & Zaman, T. (2011). Rumors in a network: Who’s the culprit? IEEE Transactions on Information Theory. https://doi.org/10.1109/TIT.2011.2158885

Tang, J., & Liu, H. (2012). Feature selection with linked data in social media. Proceedings of the 12th SIAM International Conference on Data Mining, SDM 2012. https://doi.org/10.1137/1.9781611972825.11

Tang, W. H., Yeh, M. Y., & Lee, A. J. T. (2014). Information diffusion among users on Facebook fan pages over time: Its impact on movie box office. DSAA 2014 - Proceedings of the 2014 IEEE International Conference on Data Science and Advanced Analytics. https://doi.org/10.1109/DSAA.2014.7058094

Thakkar, H., & Patel, D. (2015). Approaches for Sentiment Analysis on Twitter: A State-of-Art study. Retrieved from http://arxiv.org/abs/1512.01043

Shah, T. (2019). About Train, Validation and Test Sets in Machine Learning. Retrieved 24 February 2020, from https://towardsdatascience.com/train-validation-and-test-sets-72cb40cba9e7

Bibliografía 79

Tripathy, A., Agrawal, A., & Rath, S. K. (2015). Classification of Sentimental Reviews Using Machine Learning Techniques. Procedia Computer Science. https://doi.org/10.1016/j.procs.2015.07.523

Tyagi, P., & Tripathi, R. C. (2019). A Review Towards the Sentiment Analysis Techniques for the Analysis of Twitter Data. SSRN Electronic Journal. https://doi.org/10.2139/ssrn.3368718

Vaghela, V. B., & Jadav, B. M. (2016). Analysis of Various Sentiment Classification Techniques. International Journal of Computer Applications, 140(3), 22–27. https://doi.org/10.5120/ijca2016909259

Vinodhini, G., & Chandrasekaran, R. (2012). Sentiment Analysis and Opinion Mining : A Survey International Journal of Advanced Research in Sentiment Analysis and Opinion Mining : A Survey. International Journal of Advanced Research in Computer Science and Software Engineering, 2(6), 283–292.

Wang, H., Zhang, P., Chen, L., & Zhang, C. (2015). Socialanalysis: A Real-Time query and mining system from social media data streams. Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). https://doi.org/10.1007/978-3-319-19548-3_27

Wani, M. A., Agarwal, N., Jabin, S., & Hussain, S. Z. (2019). Analyzing Real and Fake users in Facebook Network based on Emotions. 2019 11th International Conference on Communication Systems and Networks, COMSNETS 2019. https://doi.org/10.1109/COMSNETS.2019.8711124

We Are Social, & Hootsuite. (2019). Digital 2019: Essential Insights Into How People Around The World Use The Internet, Mobile Devices, Social Media, and E-Commerce. In We Are Social & Hootsuite.

Xiong, H., Pandey, G., Steinbach, M., & Kumar, V. (2006). Enhancing data analysis with noise removal. IEEE Transactions on Knowledge and Data Engineering. https://doi.org/10.1109/TKDE.2006.46

Xu, G., & Li, L. (2013). Social media mining and social network analysis: Emerging research. In Social Media Mining and Social Network Analysis: Emerging Research. https://doi.org/10.4018/978-1-4666-2806-9

Yang, D., Chow, T. W. S., Zhong, L., Tian, Z., Zhang, Q., & Chen, G. (2018). True and fake information spreading over the Facebook. Physica A: Statistical Mechanics and Its Applications. https://doi.org/10.1016/j.physa.2018.04.026

Yuan, Y., Lu, Y., Chow, T. E., Ye, C., Alyaqout, A., & Liu, Y. (2020). The Missing Parts from Social Media–Enabled Smart Cities: Who, Where, When, and What? Annals of the American Association of Geographers. https://doi.org/10.1080/24694452.2019.1631144

Zafarani, R., Abbasi, M. A., & Liu, H. (2014). Social media mining: An introduction. In Social Media Mining: An Introduction. https://doi.org/10.1017/CBO9781139088510

Zhan, M., Tu, R., & Yu, Q. (2018). Understanding readers: Conducting sentiment analysis of


instagram captions. ACM International Conference Proceeding Series, (April 2017), 33–40. https://doi.org/10.1145/3297156.3297270

estrategias para la aplicación del social media mining en

Documents