sistema de análisis de contenido basado en el análisis de...

VAEP-RITA Vol. 7, Núm. 4, Nov. 2019 EARLY ACCESS

XXX-X-XXXX-XXXX-X/XX/$XX.00 ©20XX IEEE

Sistema de Análisis de Contenido basado en el

Análisis de Sentimiento para detectar la

Subjetividad y Polaridad en los cursos onlineRuth Cobos, Francisco Jurado, Alberto Blázquez-Herranz

Departamento de Ingeniería Informática

Universidad Autónoma de Madrid, 28049 Madrid (España)

{Ruth.Cobos; Francisco.Jurado: Alberto.Blazquez}@uam.es

Title— A Content Analysis System that supports

Sentiment Analysis for Subjectivity and Polarity

detection in Online Courses

Abstract— Dado el actual interés en la optimización de los

procesos de enseñanza y aprendizaje en la educación

online, se han llevado a cabo una gran cantidad de

estudios centrados en la aplicación de distintas tecnologías

con este propósito. Un ejemplo es la utilización del

Procesamiento del Lenguaje Natural (NLP) para detectar

potenciales opiniones y sentimientos en textos. En la

Universidad Autónoma de Madrid (España), hemos

diseñado y desarrollado una herramienta que emplea

técnicas de NLP para el análisis del contenido de los

cursos online (transcripciones de videos, ficheros de texto,

preguntas y respuestas en actividades de evaluación) y las

contribuciones de los estudiantes (los comentarios en los

foros y su información de registro) con el fin de mejorar

sus materiales y los procesos de enseñanza-aprendizaje

asociados. A dicha herramienta la hemos llamado

edX-CAS (“Content Analyser System for edX MOOCs”).

Se presenta una descripción detallada de la herramienta,

sus funcionalidades y los procesos de NLP que dan

soporte al Análisis de Sentimiento y la detección de

Subjetividad y Polaridad. Además, se expone una revisión

del estado de la investigación actual en el campo de la

aplicación de NLP a la mejora de las experiencias de

enseñanza y aprendizaje en MOOCs.

Index Term—MOOC, análisis de sentimiento, minería

de la opinión, procesamiento del lenguaje natural,

polaridad, subjetividad.

I. INTRODUCCIÓN

Actualmente, se encuentran una gran variedad de

propuestas destinadas a mejorar los procesos de enseñanza-

aprendizaje en los cursos online basadas en técnicas de

Analíticas para el Aprendizaje (Learning Analytics, LA son

sus siglas en inglés), mediante las cuales se analizan las

interacciones de los estudiantes en base al número de

contribuciones en foros, al tiempo que los estudiantes pasan

en tareas específicas, al tiempo que dedican a los materiales

del curso como videos o textos, etc. solo por mencionar

algunos ejemplos [1]–[4].

Este artículo es una versión extendida del trabajo

publicado en la edición de 2019 del IEEE Global Engineering

Education Conference (EDUCON2019) [5]. Aquí, se

presenta una revisión bibliográfica más amplia y un mayor

detalle en la explicación del funcionamiento de la herramienta

ya presentada en el anterior artículo: “edX-CAS: Content

Analyser System for edX courses” (Sistema de Análisis de

Contenido para MOOCs de edX). Esta herramienta ha sido

diseñada y desarrollada en la Universidad Autónoma de

Madrid (UAM, España).

Más en detalle, la citada herramienta edX-CAS se utiliza

para detectar la subjetividad y polaridad en los contenidos de

los cursos online y en las contribuciones de sus estudiantes.

Para ello, la herramienta realiza la extracción y análisis de

sentimiento y opinión, es decir, la polaridad, en el material de

nuestros cursos online, tanto en SPOCs (Small Private Online

Courses) como en MOOCs (Massive Open Online Courses).

Además, hace uso de técnicas de Procesamiento del Lenguaje

Natural (Natural Language Processing, NLP son sus siglas

en inglés) con el fin de extraer la opinión sobre partes

específicas del curso.

Por ello, el uso de NLP hace posible extraer características

del texto que pueden ser usadas en otros procesos de LA. De

hecho, existe investigación al respecto del enriquecimiento de

variables de entrada a través del uso de procesos de NLP: para

predicción de éxito en el curso [6], evaluación de las

capacidades reflexivas de los alumnos [7] y asignación

automática de calificaciones [8], entre otros casos.

La mayoría de estos estudios se centran en los procesos de

extracción de variables en la información textual generada

por los estudiantes, como la proporcionada en resolución de

ejercicios, discusiones en foros o su información de perfil, y

en menor medida encontramos propuestas para el análisis de

los contenidos de los cursos.

Transcripciones de videos y ficheros de texto (HTML,

PDF, etc.) son sólo parte de la inmensa cantidad de

información “adicional” presente en todos los cursos y que es

susceptible de ser procesada y analizada. Mediante el

procesamiento y análisis de sus variables asociadas, el

conjunto de fuentes del que extraer conocimiento se expande,

así como su potencial asociado: habilita la toma de decisiones

sobre la modificación y/o mejora del contenido de los cursos

online, la obtención de conocimientos sobre los servicios de

aprendizaje y sus efectos en los estudiantes, el desarrollo de

medidas referidas a los efectos del contenido del curso en

facetas específicas de los alumnos, etc.

Teniendo en cuenta todo lo expuesto, el principal

propósito del trabajo presentado en este artículo está

orientado a mejorar la experiencia de aprendizaje de los

estudiantes mediante la inspección del contenido de los

cursos, haciendo énfasis en potenciales puntos de mejora con

respecto a la objetividad y subjetividad.

El resto del artículo se estructura como sigue: la siguiente

sección presenta una revisión del estado del arte y la

terminología empleada en este trabajo de investigación; en la

sección 3 se presenta una descripción detallada de la

herramienta edX-CAS para la extracción y análisis de

sentimiento y opinión en cursos online; la sección 4 describe

los procesos de NLP empleados en edX-CAS; la sección 5

muestra las visualizaciones que proporciona la herramienta;

y, en la sección 6, presentamos el uso de la herramienta en

varios de los cursos online proporcionados por la UAM.

Finalmente, el artículo concluye con una discusión de las

conclusiones extraídas y el trabajo futuro planificado para

este trabajo de investigación.

II. ESTADO DEL ARTE

En el campo del Procesamiento del Lenguaje Natural

(NLP), los términos Análisis de Sentimiento (SA) y Minería

de Opinión (OM), frecuentemente concebidos como una

disciplina única, han sido definidos como el "tratamiento

computacional de la opinión, el sentimiento y la subjetividad

en el texto" [9]–[11]. Esto involucra tres conceptos:

subjetividad y opinión o sentimiento. En este contexto, el

análisis de subjetividad permite clasificar un texto como

subjetivo u objetivo. Una vez que ha sido etiquetado como

subjetivo, se puede estimar la opinión, calculada como el

grado de polaridad (positiva o negativa) frente a algo. Sin

embargo, es importante señalar que la diversidad de ámbitos

en los que se han aplicado estas técnicas y la consiguiente

falta de consenso sobre su distinción, pueden dar lugar a una

interpretación errónea de lo que realmente concierne a estos

dos campos.

A. Terminología

Resulta interesante proporcionar algunos matices en la

terminología. En particular, [12] distingue los siguientes

conceptos:

• Sensaciones (feelings): son causadas por estados

fisiológicos (por ejemplo, ira, dolor, fatiga...) e

influenciadas por la experiencia previa, que las

convierte en personales.

• Emoción (emotion): es la respuesta corporal a un

acontecimiento vinculado a la faceta social de

expresar un estado interno, influenciado por la

cultura.

• Sentimiento (sentiment): la propensión a un tipo de

reacción a un estímulo, teniendo en cuenta tanto la

reacción como su causa.

• Opinión (opinion): el conocimiento que posee con

respecto a algo, no lo suficiente fundamentado como

para ser objetivo. Puede implicar emociones o

sentimientos.

Con este ámbito, se ha considerado de especial

importancia aclarar los términos en torno a los cuales se va a

desarrollar la investigación. En primer lugar, al abordar la

diferencia entre sentimientos y emociones, estos difieren en

su durabilidad y estabilidad, ya que los primeros duran mucho

tiempo, mientras que los segundos se relacionan con

momentos específicos y pueden superponerse a un

sentimiento ya existente [12]. Esto es suficiente para

establecer objetivamente una preferencia por el análisis de los

sentimientos, ya que se asocian a una invariancia que permite

su identificación de forma más factible.

Por otra parte, es interesante tener en cuenta el estudio de

Wierzbicka sobre la influencia de la cultura en las emociones

[13]: "El sentimiento es universal y puede ser utilizado con

seguridad en la investigación de la experiencia humana y la

naturaleza humana, el concepto de emoción está vinculado a

la cultura y no se puede confiar en él de manera similar". Por

lo tanto, el conjunto de factores de los cuales las emociones

pueden depender está fuera del alcance de esta investigación.

En consecuencia, y resumiendo lo que se ha dicho a este

respecto, se han identificado cuatro términos clave en nuestro

trabajo: Análisis de Subjetividad, Análisis de Sentimiento

(SA), Minería de Opinión (OM) y Análisis de Polaridad

(PA).

Sin embargo, si se atiende al ámbito de aplicación de estas

técnicas, es importante señalar que, en lo que respecta a la

aplicación tecnológica de SA y OM, han sido desarrolladas e

investigadas como equivalentes [11]. Por otro lado, la medida

de la opinión respecto a algo se realiza identificando el grado

de polaridad específico. Así, para simplificar, de ahora en

adelante, se empleará de manera única el término Análisis de

Sentimiento (SA).

Consecuentemente, se ha definido un proceso jerárquico

en el que se lleva a cabo el SA (ver Figura 1). Después de

realizar un procesamiento del texto mediante tokenización,

eliminación de las stopwords, lematización de las palabras

relevantes y etiquetado de las partes del texto (POS-tagging),

se inicia un proceso de clasificación del texto para

categorizarlo como objetivo o subjetivo. Si el texto es

subjetivo, se considera identificar la polaridad como uno de

los muchos factores involucrados en el Análisis de Polaridad.

Fig. 1. Flujo del Análisis de Sentimiento.

B. Usos de NLP en MOOCs

Restringiendo el ámbito de aplicación al entorno de

aprendizaje, se puede encontrar en [14] una reciente revisión

sistemática de la literatura sobre la aplicación de la SA en la

educación. Esta revisión revela que los principales usos de la

SA en el ámbito educativo son la mejora del proceso de

enseñanza-aprendizaje y la reducción de la tasa de abandono

escolar. Asimismo, destacan que los foros y las redes sociales

de los MOOCs son los recursos más utilizados para llevar a

cabo el proceso de SA. En este contexto, el enfoque general

establecido en estas investigaciones tiene como objetivo la

detección, distinción y etiquetado de los sentimientos y

opiniones presentes en las fuentes mencionadas (utilizando

técnicas de clasificación como Naive Bayes y Máquinas de

Soporte Vectorial).

Con el fin de llevar a cabo una revisión de la literatura lo

suficientemente exhaustiva como para que sirva como primer

enfoque para las aplicaciones de NLP actualmente

desarrolladas en MOOCs, la investigación en [15] ayuda a

identificar directrices para la distinción de los contenidos

ligados a esta cuestión.

De acuerdo con [15], se identifican las siguientes

categorías como las más generales y comunes en el campo de

la NLP en los MOOC: la información sobre el rendimiento de

los estudiantes, la interacción y la retroalimentación de los

estudiantes, y la mejora del material didáctico.

Así, la investigación revisada relacionada con cada una de

las categorías anteriores, se muestra y resume en las

siguientes subsecciones.

• Información sobre el rendimiento de los estudiantes

En este caso, se revisó la investigación dirigida a evaluar

la viabilidad de incluir las opciones obtenidas por NLP en las

tareas comunes de Learning Analytics, como la predicción de

ciertas medidas de rendimiento (ej., el éxito o el abandono).

En [16] se presenta un modelo de SA para analizar datos

sobre el comportamiento de los estudiantes en un MOOC. De

esta manera, los estudiantes se distinguen en términos de sus

tendencias emocionales y participación en el curso, lo que

permite una evaluación en profundidad de la relación entre

sus facetas emocionales y los efectos del aprendizaje (como

las tasas de finalización de estudios y de finalización).

Posteriormente se desarrolla un método para predecir la

probabilidad de finalización mediante el análisis de los

cambios de sentimiento de los alumnos.

Asimismo, la investigación realizada en [17] explora el

campo paralelo de la Computación Afectiva (AC) como

medio para identificar la carga emocional (felicidad, tristeza,

miedo, cólera-pasión, etc.) que se refleja en el texto,

dependiendo de las palabras utilizadas e independientemente

de la presencia de una opinión en él.

En [18] se puede encontrar un ejemplo de experiencia en

AC donde los autores realizan un análisis para identificar si

hay correlaciones entre las notas académicas de los

estudiantes y las huellas emocionales que revelaron en sus

trabajos de redacción colaborativa. Los resultados revelan

correlaciones entre las notas y emociones de los estudiantes

en las notas más altas y más bajas.

• Interacción y feedback de los estudiantes

La investigación realizada en esta categoría se centró en

la evaluación del contenido textual generado por los

estudiantes con el fin de analizar sus implicaciones (p.ej.,

etiquetado de sentimientos, evaluación de redes, etc.).

Entre los ejemplos encontrados en nuestra revisión, [19]

y [20] inspeccionan el uso de SA en el feedback que los

estudiantes proporcionan sobre los docentes mediante redes

sociales como Twitter de modo que estos puedan adaptar su

proceso de enseñanza.

También analizando el feedback de los estudiantes en [21]

se puede encontrar una aproximación basada en lexicón para

identificar su actitud positiva o negativa, y así, predecir el

nivel de desempeño de la enseñanza. Con un objetivo similar

[22] lleva a cabo SA empleando Latent Dirichlet Allocation

(LDA) como sensor de sentimientos para detectar la opinión

de los estudiantes sobre varios temas, para que el profesor

pueda afinar mejor el proceso de enseñanza-aprendizaje.

No para mejorar el material didáctico, sino el rendimiento

del profesor en sí mismo, [23]–[26] realizan SA sobre los

comentarios de los alumnos para evaluar el desempeño de los

docentes e implementar estrategias constructivas.

Por su parte, [27] analizan los posts en redes sociales,

principalmente Twitter. De modo similar, [28] emplea

Máquinas de Soporte Vectorial (SVM de sus siglas en inglés)

para realizar SA a fin de evaluar la interacción de los

estudiantes en este tipo de redes, explorando los tweets y

mensajes de correo electrónico en el contexto de un MOOC.

Aunque se encuentra en un estado inicial, [29] propone

TutorAlert, una herramienta basada en NLP para identificar

atributos como la confusión o la frustración en los estudiantes

utilizando SVM, Naïve Bayes y Random Forest para

clasificar los posts de discusión de los estudiantes.

De forma similar, [30] compara varios algoritmos de

aprendizaje automático y enfoques basados en lexicones para

realizar SA en el feedback de los estudiantes con el fin de

identificar las mejores combinaciones de características y

algoritmos.

Por su parte en [31] se desarrolló SentBuk para soportar

SA en Facebook. Los autores adoptan un enfoque basado en

el lexicones, combinando el análisis léxico y sintáctico junto

con otras técnicas para procesar los mensajes escritos por los

usuarios en la red social. Aunque en un principio se diseñó

para su uso en Facebook, los autores aportan algunas ideas

para explotar su enfoque en el contexto del e-learning.

• Mejora del material didáctico

Por último, la revisión en este apartado tenía como

objetivo identificar estudios centrados en la propuesta y

desarrollo de estrategias para mejorar la adaptabilidad de los

contenidos MOOC. A pesar de su escasez, ya existen líneas

de investigación centradas en el desarrollo de estrategias para

la evaluación del contenido de un curso (y su posterior

optimización).

Un ejemplo interesante es el trabajo realizado en [32] en

el que, además de inspeccionar el feedback de los posts de los

estudiantes en el foro de un curso, aplican el framework de

análisis de contenidos de Henri [33] para organizar el

etiquetado de la información extraída, y proponen una

estrategia instruccional para mejorar los procesos de

aprendizaje (p.ej. fomentando la creación de nuevos

conocimientos y la participación en foros).

Por su parte [34] establece un enfoque en el que se estudia

la relación entre el feedback de los foros y los datos de uso de

los contenidos de los cursos. Además, las discusiones de los

estudiantes se agrupan por el material del curso con la

intención de permitir que los profesores evalúen los posibles

malentendidos del contenido y adapten el contenido

correspondiente según sea necesario.

Aunque se han identificado algunas soluciones

prometedoras para la adaptación de los contenidos de los

cursos, no existe ninguna herramienta que los profesores

puedan integrar y utilizar directamente para llevar a cabo SA

en el texto dentro de los contenidos de su MOOC. Es por esta

razón que se ha implementado edX-CAS, cuyo detalle se

presenta en la siguiente sección.

III. LA HERRAMIENTA PROPUESTA: EDX-CAS

En la Universidad Autónoma de Madrid (UAM), se ha

diseñado y desarrollado la herramienta edX-CAS: Content

Analyser System for edX courses (Sistema de Análisis de

Contenido para MOOCs de edX). Es una aplicación Web para

el Análisis de Sentimiento y la detección de Subjetividad y

Polaridad en los MOOCs que la UAM ofrece en edX

(https://www.edx.org/).

EdX-CAS hace uso de técnicas NLP y herramientas

adaptadas al castellano, ya que los MOOCs de la UAM están

en este idioma (sólo algunos de ellos están también en inglés).

Son analizados todos los contenidos de los cursos online

que están en formato textual. En el caso de los videos, como

todos ellos tienen transcripciones, son éstas las que son

analizadas y pasan a formar parte del corpus textual del curso.

En los siguientes apartados se describen los diferentes

análisis que ofrece la herramienta, los conjuntos de datos que

son procesados y la arquitectura de la herramienta.

A. Análisis que ofrece edX-CAS

La herramienta proporciona los siguientes resultados de

los análisis que realiza sobre cada texto (de los cursos

analizados) mediante su adecuado procesamiento:

• Número de frases, tokens y caracteres diferentes del

texto.

• Diversidad léxica, como medida de cuántas palabras

diferentes se utilizan en el texto.

• Extracción de los términos claves del texto.

• Representación vectorial para cada término en el

texto.

• Identificación de Subjetividad, para reflejar si el texto

tiene algún tipo de opinión que indique su

subjetividad u objetividad.

• Grado de Polaridad, para indicar si la opinión

revelada en el texto es positiva, negativa o neutral.

• Una representación gráfica en forma de una nube de

palabras de los términos relevantes del texto.

B. Descripción de los conjuntos de datos de entrada

Todos sus MOOCs en edX facilitan los siguientes

conjuntos de datos que son los procesados por edX-CAS:

• Datos de los estudiantes: Cuando los estudiantes se

registran en la plataforma edX, pueden introducir

información. En particular, facilitan información

demográfica (género, edad, país, idioma, nivel

académico, etc.), así como otros datos en formato

textual, como lo que les motiva a inscribirse en la

plataforma, sus objetivos para aprender online, etc.

Esta información textual se analiza para conocer la

diversidad léxica, la subjetividad y la polaridad que

tienen los estudiantes cuando realizan su inscripción.

• Datos de los textos: Los cursos tienen contenidos

textuales en forma de archivos pdf y HTML. A partir

de este tipo de archivos, la herramienta los transforma

en textos sin formato. El texto es dividido en

oraciones y éstas se analizan para extraer su

subjetividad y polaridad. La herramienta muestra los

textos originales y su lista de oraciones en texto sin

formato, y la herramienta permite que se elija y

analice cualquier oración. Además, para cada texto

completo, se calculan y muestran su nube de palabras,

la diversidad léxica y la representación vectorial de

cada término principal extraído en el texto.

• Datos de los videos: Este conjunto de datos contiene

las transcripciones de todos los videos. De esta

manera, edX-CAS realiza el mismo análisis que para

el resto del material textual, proporcionando su

subjetividad y polaridad. La herramienta reproduce y

muestra el video, su transcripción y su duración. Los

usuarios de la herramienta pueden seleccionar

cualquier oración de la transcripción del video, así

como interactuar con el video para ver el análisis

asociado a su selección. Para cada video

(transcripción total), también se calculan y muestran

su nube de palabras, la diversidad léxica y la

representación vectorial de cada término principal

extraído en la transcripción.

• Datos de los tests (ejercicios): La evaluación del

curso se basa en ejercicios de evaluación. Dichos

ejercicios están compuestos de preguntas y

respuestas. Cada pregunta y sus respuestas también

se analizan para extraer su subjetividad, polaridad,

diversidad léxica y términos principales.

• Datos de los foros: Los estudiantes pueden participar

en los foros que los equipos docentes proponen en el

curso. En estos foros, los estudiantes tienen la

oportunidad de dar sus opiniones sobre varias partes

del curso. Como otro texto, estos comentarios en los

foros se analizan para extraer su subjetividad,

polaridad, diversidad léxica y términos principales.

• Datos de certificación: Aunque este conjunto de datos

no tiene información textual, es útil para extraer

información estadística sobre cuántos estudiantes

aprobaron el curso, cuántos estudiantes obtuvieron

certificado verificado del curso, etc.

C. edX-CAS arquitectura y características:

Para construir edX-CAS, se diseñó la arquitectura por

niveles que se muestra en la Figura 2, donde se pueden

identificar las siguientes capas de abajo hacia arriba:

Fig. 2. Arquitectura de edX-CAS.

Plantillas interfaz de usuario (servidor)Flask microframework

Interfaz de usuario (cliente)

Datos

estudiante

Datos

vídeo

REST-API

Text scrapping, procesos NLP,

análisis de sentimiento, etc.

Datos

textos

Datos

certificación

Datos

testsDatos

foros

MongoDB + MySQL

• Capa de almacenamiento: encargada de procesar y

organizar los conjuntos de datos de los MOOCs (ver

sección III.B) en una base de datos SQL (MySQL) y

otra no-SQL (MongoDB) dependiendo del tipo de

contenido que se vaya a almacenar, que es gestionada

por edX-CAS.

• Capa de transformación: es la encargada de aplicar

las técnicas de NLP para transformar el texto de los

conjuntos de datos a fin de obtener las características

y análisis anteriormente mencionados (véase el

apartado III.A). Los detalles sobre las bibliotecas

software y las herramientas utilizadas para

implementar esta capa se proporcionan en la Tabla I.

• Capa de visualización: ofrece la representación visual

de los análisis sobre los contenidos del curso online,

y la comunicación con la capa de almacenamiento

(ver apartado V).

TABLA I. Bibliotecas y toolkits utilizados para desarrollar la capa de

transformación para extraer características y realizar análisis de texto.

Herramienta Propósito

NLTK (Natural Language

Toolkit)

Librería de procesamiento de texto para clasificación, tokenización, estemización,

etiquetado, parseo y razonamiento semánticoo.

EAGLES Analizador morfológico para Español

Word2Vec Gensim Trabajo de vectores de palabras

TextBlob

Extracción de subjetividad y polaridad.

Extracción de sustantivos, análisis de

sentimientos, clasificación, traducción.

VADER

(Valence Aware Dictionary and

Sentiment Reasoner)

[38]

Extracción positiva/negativa/neutral y

compuesta

IV. LOS PROCESOS NLP EN EDX-CAS

Como detalle más preciso de los procesos realizados por

edX-CAS, esta sección proporciona un resumen de las

consideraciones terminológicas y técnicas sobre cada

procedimiento.

• La finalidad de la tokenización se describe en [35] como el proceso de "identificación de las unidades básicas a procesar". EdX-CAS se basa en las funcionalidades proporcionadas por la biblioteca NLTK1 para identificar cada unidad textual diferente en las frases proporcionadas.

• La eliminación de las stopwords se lleva a cabo para ignorar las palabras de un texto o frase que pueden no proporcionar ningún valor añadido a otros análisis (por ejemplo, a, algunos, para...). También se basa en la funcionalidad NLTK.

• La lematización implica obtener la forma normalizada de la palabra [36]. Es decir, identifica flexiones, sufijos y prefijos para extraer la forma normalizada de la palabra. Nuevamente, la biblioteca NLTK también se utiliza para la implementación de esta funcionalidad.

1 https://www.nltk.org/

2 http://nlp.lsi.upc.edu/freeling/doc/tagsets/tagset-es.html/

• El proceso de POS-tagging implica la habilidad de clasificar adecuadamente cada palabra de un texto como sustantivos, adjetivos, verbos, pronombres, etc.

Usando el modelo de EAGLES2 para esta funcionalidad, edX-CAS puede recuperar información sobre las principales propiedades sintácticas de una palabra. Su funcionamiento implica la asignación de diferentes letras a la etiqueta de una palabra, de manera que cada letra señala una característica específica (por ejemplo, la etiqueta de un adjetivo contendría información sobre su tipo, género, forma, etc.)

• La representación vectorial de las palabras se aplica utilizando el algoritmo word2vec [37]. De esta forma se puede contar con un vector que representa cada palabra en un texto dado, lo que facilita los procesos de análisis y evaluación posteriores, como la evaluación de la similitud de las palabras.

• La detección de subjetividad se realiza con el uso de la biblioteca TextBlob3. Se proporciona un valor numérico relacionado con el grado de objetividad de un texto basado en datos de entrenamiento.

• La detección de la polaridad se realiza una vez que un texto ha sido calificado como subjetivo (de lo contrario, no se produce). Esta tarea también se realiza a través de las funcionalidades de TextBlob. Se da como salida un resultado probabilístico relacionado con su positividad o negatividad, una vez finalizada la fase de entrenamiento.

• Una nube de palabras4 se proporciona además como representación visual sobre la relevancia de los diferentes términos clave del texto evaluado. Cada uno de estos términos se representaría con diferentes tamaños según su frecuencia de aparición (cuanto más frecuente sea una palabra, mayor tamaño).

Para relacionar esta información con la subsección A de

esta sección (Características y análisis proporcionados por

edX-CAS), se incluye la Tabla II que indica qué proceso

proporciona cada resultado de los análisis.

TABLA II. Relación entre los procesos llevados a cabo por edX-CAS y

sus resultados (como se detalla en sección III.A).

3 https://github.com/sloria/TextBlob

4 http://amueller.github.io/word_cloud

Procesos Resultados

Tokenización

+

Lematización

Nº de frases diferentes, tokens y número de

caracteres como características principales.

Diversidad léxica, como medida de cuántas

palabras diferentes se usan en el texto.

Extracción de los términos claves del texto.

Representación de

vectores de palabras

Representación vectorial para cada uno de

los términos del texto.

Detección de

subjetividad Grado de subjetividad.

Detección de

polaridad Tipo de polaridad (como un grado).

Nubes de palabras Representación gráfica de términos

relevantes.

V. LAS VISUALIZACIONES QUE OFRECE EDX-CAS

Esta capa de la herramienta se ha implementado

utilizando una arquitectura cliente-servidor con una interfaz

REST-API para acceder a los recursos. Como podemos ver

en la Figura 2, el backend usa el microframework Flask y el

front-end tiene una interfaz gráfica de usuario (GUI) web que

genera solicitudes a la REST-API mencionada.

La interfaz gráfica de usuario de edX-CAS permite las

siguientes visualizaciones.

A. Análisis global: para visualizar análisis de los datos de

todos los cursos.

La herramienta proporciona la información relacionada

con los resultados de los análisis presentados en la sección

III.A del contenido de todos los cursos al mismo tiempo. La

Figura 3 muestra la pantalla inicial de edX-CAS.

La herramienta ofrece los resultados de los análisis

ejecutados en los siguientes espacios: i) Análisis de los datos

de los estudiantes haciendo clic en el botón "Usuarios", ii)

Análisis de los datos de los foros haciendo clic en el botón

"Social" y iii) Análisis de los datos de los textos, videos y

ejercicios haciendo clic en el botón "General". Además, la

herramienta ofrece la opción de descargar todos los resultados

de los análisis ejecutados como archivos CSV haciendo clic

en el botón "Descargas", y ejecutar el análisis online de

cualquier oración haciendo clic en el botón "Live".

Esta visualización permite la comparación directa de la

información de los cursos, así como la adquisición de datos

agregados referidos a todos ellos. Por lo tanto, hace posible

revelar asociaciones de indicadores de subjetividad a un

conjunto de características comunes de los cursos, descubrir

diferencias y similitudes entre las opiniones que los

estudiantes reflejan sobre uno u otro, y así sucesivamente.

Fig. 3. Pantalla inicial de la herramienta: listado de los cursos disponibles

para ser analizados.

La Figura 4 muestra un ejemplo del espacio de análisis de

datos de los estudiantes: el análisis de polaridad de las

biografías de los estudiantes para todos los cursos. La figura

5 muestra un ejemplo del espacio de análisis de datos de los

foros: el análisis de polaridad de los comentarios de los

estudiantes en todos los foros de los cursos. El usuario de la

herramienta puede hacer clic en cualquier identificador de un

curso (en el lado izquierdo de cada gráfico) para seleccionarlo

y mostrar así sus datos. El valor de cada elemento en

cualquier gráfico se puede mostrar cuando el usuario hace clic

en él.

Fig. 4. Para todos los cursos, se muestran los grados de polaridad de las

biografías de sus estudiantes.

Fig. 5. Para todos los cursos, se muestran los grados de polaridad de los

comentarios en los foros de sus estudiantes.

Como podemos ver en la Figura 6, en cualquier momento

el usuario de la herramienta puede analizar (es decir, solicitar

la extracción de los términos principales en el texto,

diversidad léxica, polaridad y subjetividad, entre otros) un

texto online escribiéndolo en el cuadro de texto ofrecido en el

espacio "Live" de la herramienta.

Fig. 6. Para cualquier frase introducida por el usuario, se muestran los

diferentes análisis que ejecuta la herramienta.

B. Análisis local: para visualizar análisis de los datos de un

curso seleccionado

En este caso, edX-CAS ofrece los resultados de los análisis

ejecutados para un curso seleccionado (ver Figura 7) en los

siguientes espacios: i) Análisis de los datos de los estudiantes

haciendo clic en el botón "Usuarios", ii) Análisis de los datos

de los foros haciendo clic en el botón "Social", iii) Análisis

de los datos de los textos y videos haciendo clic en el botón

"General" y iv) Análisis de los datos de tests (ejercicios)

haciendo clic en el botón “Tests”. Además, se puede navegar

en las secciones del curso (cada sección es una semana del

curso) para buscar contenidos específicos del curso en

formato de video o textos en formato pdf o HTML.

Fig. 7. Para un curso seleccionado (en este caso el curso Equidad_801x), se

puede seleccionar una sección (o semana) y un espacio (o panel)

Esta visualización permite tener una visión más detallada

de un curso específico con respecto a la detección de

sentimiento y por tanto sobre la subjetividad y polaridad de

sus contenidos. Además, la posibilidad de navegar por

unidades de contenido específicas (por ejemplo, videos o

documentos) le permite al usuario tomar decisiones sobre si

sería útil modificar o no alguno de sus elementos, teniendo en

cuenta la información obtenida sobre su subjetividad e

indicadores de sentimiento.

La Figura 8 muestra un ejemplo del espacio de Análisis

de datos de los estudiantes: análisis de los objetivos y

biografías de los alumnos para un curso seleccionado.

Fig. 8. Ejemplo del análisis ejecutado sobre los objetivos y biografías de los

estudiantes de un curso seleccionado.

C. Análisis aplicado a los videos

El usuario puede navegar entre las secciones de un curso

con el fin de analizar los contenidos en formato de video y

una vez tenga un video seleccionado, podrá ver la siguiente

información (ver Figura 9): i) número de diferentes oraciones,

tokens y duración del video y ii) el video y su transcripción

dividida en oraciones.

Fig. 9. Al seleccionar un video, se muestra éste junto su transcripción

dividida en oraciones.

El usuario puede seleccionar cualquier oración de video

para mostrar sus análisis de subjetividad y polaridad (ver

Figura 11).

A través de la evaluación de la polaridad y subjetividad de

un video específico, el usuario puede tomar decisiones sobre

si sería beneficioso modificarlo de alguna manera, a fin de

alcanzar un cierto nivel de referencia en estos indicadores y

hacer que el contenido involucrado sea más adecuado para las

necesidades de los estudiantes del curso.

D. Análisis del contenido textual.

El usuario puede navegar entre las secciones de un curso

con el fin de analizar contenidos extraídos de documentos en

pdf y HTML. De estos textos se muestra la siguiente

información: i) el texto original ii) la representación vectorial

de sus palabras, iii) un cuadro de texto donde el usuario puede

escribir una palabra para encontrar sus similitudes con el

texto y iv) el texto dividido en oraciones (ver Figuras 10 y

12).

Fig. 10. Para cualquier texto seleccionado, el usuario puede solicitar la

similitud de una palabra cualquiera con dicho texto.

Al igual que en el caso del análisis de video, la evaluación del

contenido textual ayuda al usuario en la tarea de identificar

secciones en las que puede estar presente una subjetividad o

polaridad innecesaria.

Fig. 11. Ejemplo del análisis aplicado a las frases de un video .

Fig. 12. Ejemplo del análisis aplicado a las frases de un texto.

E. Análisis de los tests (preguntas y respuestas)

El usuario puede acceder al espacio de análisis de ejercicios

de evaluación y allí se muestran las preguntas y respuestas del

curso. El usuario puede elegir cualquier pregunta o respuesta

para ver sus análisis (ver Figura 13).

Esto permite al usuario realizar un análisis detallado sobre

la presencia o ausencia de polaridad, sentimientos u opiniones

en los ejercicios de un curso. La información proporcionada

con este análisis le daría información al usuario para mejorar

la manera de formular las preguntas y plantear las respuestas

de los tests.

VI. UTILIZACIÓN DE EDX-CAS

Se ha probado la herramienta edX-CAS con siete MOOCs

de la UAM, sobre los cuales se ha llevado un Análisis de

Sentimiento de todos sus contenidos: textos, videos, tests

(preguntas y respuestas), foros e información de registro.

A lo largo de todos los cursos, la polaridad es mayormente

positiva (ver Figura 14), y en algunos cursos en la primera

mitad del curso hay algunos contenidos. con polaridad

negativa, éste es el caso del curso TxEtj301x (Trasplantes de

órganos - desafíos éticos y jurídicos) y el curso Equidad801x

(Educación de calidad para todos: Equidad, inclusión y

atención a la diversidad).

Fig. 13. Ejemplo del análisis aplicado a las preguntas y respuestas de un test

de un curso.

Es entendible que esto suceda en estos dos cursos

nombrados debido su alta carga de contenidos éticos.

Los equipos docentes de los siete cursos han podido

utilizar la información facilitada por la herramienta para

contrastar y comparar con sus visualizaciones si el efecto y el

resultado que producen sus contenidos gracias a los análisis

de edX-CAS son los deseados o no. Lo que les ha ayudado a

detectar las partes que producían el efecto contrario de

polaridad o subjetividad del deseado y corregirlo.

Fig. 14. Vista de la polaridad a lo largo de todos los cursos.

En cuanto a los textos proporcionados por los estudiantes

cuando se registran en la plataforma (datos de los

estudiantes), uno de los cursos destaca principalmente por los

altos valores de polaridad y subjetividad expresados por sus

estudiantes, este es el caso de los estudiantes del curso

Equidad801x (ver Figura 4). En este curso, la mayoría de sus

estudiantes eran maestros de instituciones educativas

interesadas en aplicar el contenido del curso en sus aulas, por

lo tanto, estaban muy motivados con el curso. Este curso tuvo

las tasas de certificación más altas de todos y, además, sus

tasas de abandono fueron las más bajas en comparación con

la misma tasa en los otros cursos [1].

Finalmente, con respecto a las opiniones de los

estudiantes expresadas en los foros del curso (datos de los

foros), para todos los cursos, su polaridad es mayormente

neutral, luego positiva y muy poco negativa (ver Figura 5).

Además, las opiniones de los estudiantes en todos los cursos

tuvieron valores similares de subjetividad.

VII. CONCLUSIONES Y TRABAJO FUTURO

En este artículo, se ha presentado el diseño y desarrollo de

edX-CAS (Sistema de análisis de contenido para MOOCs en

edX), una herramienta basada en el procesamiento del

lenguaje natural (PNL) que permite el análisis de sentimiento

para detectar subjetividad y polaridad en los cursos online

(MOOCs y SPOCs) en la Universidad Autónoma de Madrid

(UAM).

En primer lugar, se ha presentado una revisión

terminológica (basada en la literatura de psicología) para

aclarar el alcance de este trabajo de investigación. Con este

propósito, se han establecido las diferencias entre

sensaciones, sentimientos, emociones y opiniones, junto con

la posterior identificación del análisis de sentimiento como el

término clave para referirse a esta investigación. Además, se

definió el flujo de trabajo asociado con la aplicación del

análisis de sentimiento al texto en los cursos online, que

involucra múltiples tareas de preprocesamiento

(tokenización, eliminación de stopwords, lematización y

POS-tagging), análisis de subjetividad y análisis de polaridad.

EdX-CAS se ha desarrollado como una aplicación web

para llevar a cabo análisis de sentimiento sobre los contenidos

(transcripciones de video, lecturas, preguntas y respuestas de

las actividades de evaluación) de un conjunto de MOOCs

proporcionados por la UAM y sobre las contribuciones de sus

estudiantes (sus publicaciones en foros y sus datos de

registro). La herramienta hace uso de múltiples técnicas de

NLP para llevar a cabo sus procesos de análisis. Estas

funcionalidades se adaptaron para el castellano ya que los

MOOCs evaluados en este estudio están en dicho idioma.

En segundo lugar, edX-CAS proporciona varias salidas de

análisis como resultado de la aplicación del análisis de

sentimientos a los contenidos de los cursos. Proporciona

información sobre análisis de subjetividad (clasificación de

un texto como objetivo o subjetivo), análisis de polaridad

(detección de positividad, negatividad o neutralidad en una

opinión expresada) y múltiples visualizaciones (nubes de

palabras para poder detectar tokens frecuentes y mapas de

palabras para ser capaz de evaluar la similitud de cualquier

palabra con los contenidos del curso).

Finalmente, la herramienta se ha probado en siete MOOC

(proporcionados por la UAM). Los resultados con respecto a

la polaridad observada en cada uno de ellos revelaron que a

lo largo de todos los cursos su polaridad es mayormente

positiva. La única excepción tiene lugar en la primera parte

de algunos cursos, donde los materiales de aprendizaje

tienden a la polaridad negativa. Esto podría ser debido a que

hay una alta carga ética en los contenidos de estos cursos, que

puede haberse reflejado en opiniones negativas, aunque se

requeriría una mayor investigación (y colaboración de

expertos) para confirmar esta hipótesis.

El trabajo futuro planificado para esta línea de

investigación implica la evaluación del rendimiento de la

herramienta en otros MOOCs y SPOCs, de modo que se

pueda verificar su funcionamiento para detectar

adecuadamente la subjetividad y las opiniones sobre una

variedad más amplia de temas (particularidades sintácticas y

semánticas de palabras y texto es más probable que varíen de

una disciplina a otra, como se observa en los cursos evaluados

en este documento).

También consideramos potencialmente valioso colaborar

con los equipos docentes de los cursos para evaluar la

posibilidad de modificar y mejorar activamente sus

materiales propuestos, prestando atención a los resultados y

análisis proporcionados por edX-CAS.

Además, creemos que es interesante evaluar aún más la

relación de los marcadores de subjetividad y polaridad

identificados con diferentes etiquetas de sentimientos (por

ejemplo, ira, tristeza, apatía ...).

AGRADECIMIENTOS

Este trabajo ha sido cofinanciado por el Gobierno regional de la Comunidad de Madrid, a través del proyecto e-Madrid-CM (P2018 / TCS-4307). El proyecto e-Madrid-CM a su vez está cofinanciado por los Fondos estructurales FSE y FEDER. Queremos agradecer a la escuela Comfacor de Montería su activa participación en este trabajo.

REFERENCIAS

[1] R. Cobos and F. Jurado, “An exploratory analysis on MOOCs retention and certification in two courses of different knowledge

areas,” in IEEE Global Engineering Education Conference,

EDUCON, 2018. [2] C. Coffrin, L. Corrin, P. de Barba, and G. Kennedy, “Visualizing

patterns of student engagement and performance in MOOCs,” in

Proceedings of the Fourth International Conference on Learning Analytics and Knowledge - LAK ’14, 2014.

[3] H. Drachsler and M. Kalz, “The MOOC and learning analytics

innovation cycle (MOLAC): A reflective summary of ongoing research and its challenges,” J. Comput. Assist. Learn., 2016.

[4] Y. Tabaa and A. Medouri, “LASyM: A Learning Analytics

System for MOOCs,” Int. J. Adv. Comput. Sci. Appl., 2013. [5] R. Cobos, F. Jurado and A. Villén, “Moods in MOOCs:

Analyzing Emotions in the Content of Online Courses with edX-

CAS” in IEEE Global Engineering Education Conference, EDUCON, 2019.

[6] C. Stone, A. Quirk, M. Gardener, S. Hutt, A.I. DuckWorth and

S.K. D’Mello, “Language as Thought: Using Natural Language Processing to Model Noncognitive Traits that Predict College

Success”, Learning Analytics & Knowledge Conference, 2019.

[7] V. Kovanovic, S. Joksimovic, N. Mirriahi, E. Blaine, D. Gasevic, G. Siemens and S. Dawson, “Understand Students’ Self-

Reflections Through Learning Analytics”, Learning Analytics &

Knowledge Conference, 2018. [8] N. Madnani and A. Cahill, “Automated Scoring: Beyond Natural

Language Processing” in Proceedings of the 27th International Conference on Computational Linguistics, New Mexico, USA,

2018, pp. 1099-1109.

[9] B. Pang and L. Lee, “Opinion Mining and Sentiment Analysis,” Found. Trends Inf. Retr., vol. 2, no. 1–2, pp. 1–135, Jan. 2008.

[10] B. Liu, “Sentiment Analysis and Subjectivity,” N. Indurkhya and

F. J. Damerau, Eds. Boca Raton, FL: CRC Press, Taylor and Francis Group, 2010.

[11] B. Liu, “Sentiment Analysis and Opinion Mining,” vol. 5,

Morgan & Claypool Publishers, 2012. [12] M. D. Munezero, C.S. Montero, E. Sutinen and J. Pajunen, “Are

They Different? Affect, Feeling, Emotion, Sentiment and Opinion

Detection in Text”, IEEE Transactions on Affective Computing, 2013.

[13] A. Wierzbicka, “Emotions Across Languages and Cultures:

Diversity and Universals”, Cambridge, U.K.: Cambridge University Press, 1999.

[14] K. Mite-Baidal, C. Delgado-Vera, E. Solís-Avilés, A. H.

Espinoza, J. Ortiz-Zambrano, and E. Varela-Tapia, “Sentiment

Analysis in Education Domain: A Systematic Literature Review,”

International Conference on Technologies and Innovation, 2018,

pp. 285–297. [15] N. Souza and G. Perry, “Identification of Affective States in

MOOCs: A Systematic Literature Review”, International Journal

for Innovation Education and Research, vol. 6, no. 12, pp. 39-55, Dec. 2018.

[16] L. Wang, G. Hu and T. Zhou, “Semantic Analysis of Learners’

Emotional Tendencies on Online MOOC Education”, Sustainability, vol.10, no. 6, p. 1921, Jun. 2018.

[17] F. Jurado and P. Rodriguez, “An Experience in Automatically

Building Lexicons for Affective Computing in Multiple Target Languages,” . Computer Science and Information Systems,

vol.16(1). pp 273-287. 2019

[18] R. Cobos, F. Jurado, A. Ortigosa, and P. Rodriguez, “An Experience on the Correlation Analysis Between Academic

Marks and Emotions,” Int. J. Emerg. Technol. Learn., vol. 9, no.

7, p. 15, Apr. 2014. [19] N. Altrabsheh, M. M. Gaber, and M. Cocea, “SA-E: Sentiment

analysis for education,” Front. Artif. Intell. Appl., vol. 255, no.

January 2014, pp. 353–362, 2013. [20] N. Altrabsheh, M. Cocea, S. Fallahkhair, and K. Dhou,

“Evaluation of the SA-E System for Analysis of Students’ Real-

Time Feedback,” in Proceedings - IEEE 17th International Conference on Advanced Learning Technologies, ICALT 2017,

2017.

[21] K. Z. Aung and N. N. Myo, “Sentiment analysis of students’ comment using lexicon-based approach,” in Proceedings - 16th

IEEE/ACIS International Conference on Computer and

Information Science, ICIS 2017, 2017. [22] F. Clarizia, F. Colace, M. De Santo, M. Lombardi, F. Pascale, and

A. Pietrosanto, “E-learning and sentiment analysis,” Proc. 6th Int. Conf. Inf. Educ. Technol. - ICIET ’18, pp. 111–118, 2018.

[23] Q. Rajput, S. Haider, and S. Ghani, “Lexicon-Based Sentiment

Analysis of Teachers’ Evaluation,” Appl. Comput. Intell. Soft

Comput., 2016. [24] Z. Nasim, Q. Rajput, and S. Haider, “Sentiment analysis of

student feedback using machine learning and lexicon-based

approaches,” in International Conference on Research and Innovation in Information Systems, ICRIIS, 2017.

[25] G. G. Esparza et al., “A sentiment analysis model to analyse

students reviews of teacher performance using support vector machines,” in Advances in Intelligent Systems and Computing,

2018.

[26] G. Gutiérrez, J. Ponce, A. Ochoa, and M. Álvarez, “Analysing students reviews of teacher performance using support vector

machines by a proposed model,” in Communications in Computer

and Information Science, 2018. [27] F. S. Relucio and T. D. Palaoag, “Sentiment analysis on

educational posts from social media,” in Proceedings of the 9th

International Conference on E-Education, E-Business, E-Management and E-Learning - IC4E ’18, 2018.

[28] D. Buenano-Fernandez, W. Villegas-Ch, and S. Lujan-Mora,

“Using text mining to evaluate student interaction in virtual leaming environments,” EDUNINE 2018 - 2nd IEEE World Eng.

Educ. Conf. Role Prof. Assoc. Contemp. Eng. Careers, Proc., pp.

1–6, 2018. [29] S. C. Harris and V. Kumar, “Identifying student difficulty in a

digital learning environment,” in Proceedings - IEEE 18th

International Conference on Advanced Learning Technologies, ICALT 2018, 2018.

[30] P. M. Moreno-Marcos, C. Alario-Hoyos, P. J. Munoz-Merino, I. Estevez-Ayres, and C. D. Kloos, “Sentiment analysis in MOOCs:

A case study,” in IEEE Global Engineering Education

Conference, EDUCON, 2018. [31] A. Ortigosa, J. M. Martín, and R. M. Carro, “Sentiment analysis

in Facebook and its application to e-learning,” Comput. Human

Behav., vol. 31, no. 1, pp. 527–541, 2014. [32] A. Cohen, U. Shimony and R. Nachmias, “Content Analysis of

MOOC Forums: The characteristics of the learners’ discourse in

forums”, Intelligent Systems Conference, Sep. 2018. [33] F. Henri, “Computer Conferencing and Content Analysis”,

Proceedings of the NATO Advanced Research Workshop on

Collaborative Learning and Computer Conferencing, Copenhagen, Denmark, 1991, pp. 117-136.

[34] A.W. Wong, K. Wong and A. Hindle, “Tracing Forum Posts to

MOOC Content using Topic Analysis”, ArXiv preprint, 2019. [35] J.J. Webster and C. Kit, “Tokenization as the initial phase in

NLP”, Actes de Colling-92, Nantes, France, Aug. 1992.

[36] J. Plisson, N. Lavrac and D. Mladenic, “A Rule based Approach

to Word Lemmatization”, Proceedings of IS-2004, pp. 83–86.

[37] T. Mikolov, K. Chen, G. Corrado and J. Dean, “Efficient

Estimation of Word Representations in Vector Space”, Conference: Proceedings of the International Conference on

Learning Representations, 2013.

[38] C. J. Hutto and E. Gilbert, “VADER: A Parsimonious Rule-based Model for Sentiment Analysis of Social Media Text,” in Eighth

International AAAI Conference on Weblogs and Social Media,

2014, pp. 216–225. [39] B. Pang and L. Lee, “Opinion mining and sentiment analysis”,

Foundations and Trends in Information Retrieval, vol. 2, no 1-2,

2008.

sistema de análisis de contenido basado en el análisis de...

Documents