presentacion clasificador de opiniones tbontb

45
Este obra se publica bajo una licencia de Creative Commons Reconocimiento- NoComercial-CompartirIgual 3.0 España. ANÁLISIS, DISEÑO E IMPLEMENTACIÓN DEL CLASIFICADOR DE OPINIONES TBONTB Autor: Manuel José Lazo Reyes Tutor: Alejandro Calderón Mateos 1 Trabajo de Fin de grado Titulación: Grado en Ingeniería Informática

Upload: manuel-jose-lazo-reyes

Post on 15-Apr-2017

162 views

Category:

Engineering


0 download

TRANSCRIPT

Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.

ANÁLISIS, DISEÑO E IMPLEMENTACIÓN DEL CLASIFICADOR DE OPINIONES

TBONTB

Autor: Manuel José Lazo Reyes

Tutor: Alejandro Calderón Mateos

1

Trabajo de Fin de grado Titulación: Grado en Ingeniería Informática

Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.

CONTENIDO

2

INTRODUCCIÓN

Motivación (4-5)

Objetivo (6)

Estado del Arte (7-10)

PROPUESTA

Algoritmo (12-17)

Evaluación (18-34) CIERRE

Planificación (39-41)

Presupuesto (42-44)

Conclusiones (45)

Trabajo Futuro (46)

Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.

MOTIVACIÓN

5

Encuesta

Solución: Medir polaridad emocional de forma continua

? ? ? ? ?

Otras aplicaciones: Marketing, Inteligencia de negocios, Estudio de mercados

INICIO de cuatrimestre

FINAL de cuatrimestre

Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España. 6

OBJETIVO

Desarrollar un CLASIFICADOR DE OPINIONES con las siguientes características:

• Precisión similar a la de los seres humanos al clasificar.

• Independiente del contexto sobre el cual se expresa la opinión.

• Válido tanto para opiniones subjetivas como objetivas.

• Dos formatos: microblogging y blogging.

Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.

Niveles de análisis de sentimientos:

Nivel de documento (formato blogging).

Nivel de oración (formato microblogging).

Nivel de característica.

Hedonometer:

http://hedonometer.org/index.html

7

ESTADO DEL ARTE

Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.

Nivel de Documento

Clasificador Contexto Precisión Supervisado

Turney Críticas 70-80% No

Pang Independiente 71-85% Si

8

Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.

Nivel de Oración

Clasificador Contexto Precisión Supervisado

Rilof y Wiebe Oración subjetiva

70-80% Si

Yu y Hatzivassiloglou Independiente 86-91% No

9

Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.

Nivel de Característica

Clasificador Contexto Precisión Supervisado

Hu y Liu Customer Review 84% Si

10

Además de subjetividad y polaridad del texto se determina: Características del objeto comentado Orientación positiva, negativa o neutral de las opiniones Agrupar características que son sinónimos y producir un resumen

Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.

Limitaciones del hedonómetro

Tamaño de grano muy grande: todos los tweets de

un día conforman un documento

Devuelve valores numéricos entre 1 y 9 para cada día

Dependiente del contexto de la opinión:

Twitter como red social

13

Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.

ALGORITMO TBONTB

• PASO 1: Separar en componentes léxicos el texto. Esto es normalizar

el texto eliminando concatenaciones de espacios en blancos, caracteres

de tabulación, saltos de línea, retornos de carro, etc. y finalmente

separar el texto en tokens.

• PASO 2: Filtrar por palabras vacías. Conocido como stopwords.

• PASO 3: Hallar qué palabras aparecen en la lista de palabras afectivas.

15

Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.

ALGORITMO TBONTB

• PASO 4: Calcular la valencia media del texto a partir de la valencia

media de cada palabra afectiva encontrada.

• PASO 5: Clasificar el texto según el umbral de decisión. El umbral de

decisión aplicado para una opinión en formato microblogging es 5,795

mientras que para blogging es 5,725.

16

Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.

¿Qué es supervisado?

• El aprendizaje del umbral de decisión, es supervisado por un algoritmo 1-

vecino más cercano, de aprendizaje basado en instancias.

• Cada instancia de una opinión tiene un solo atributo, la valencia

psicológica media correspondiente.

• Conjunto de entrenamiento microblogging:

http://inclass.kaggle.com/c/si650winter11

• Conjunto de entrenamiento blogging:

http://www.cs.cornell.edu/People/pabo/movie-review-data/

17

Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.

EVALUACIÓN

21

TIPOS DE EVALUACIÓN

• Evaluación de conjunto de opiniones

en formato microblogging

• Evaluación de conjunto de opiniones

en formato blogging

• Evaluación manual

• Evaluación aleatoria

MEDIDAS DE EVALUACIÓN

• Porcentaje de acierto • Porcentaje de acierto positivo • Porcentaje de acierto negativo • Porcentaje de textos no

clasificados • Cantidad de positivos • Cantidad de negativos • Valencia media positiva global • Desviación estándar positiva • Valencia media negativa global • Desviación estándar negativa

Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.

• Porcentaje de acierto es 84%

• Porcentaje de acierto positivo es 87%

• Porcentaje de acierto negativo es 79%

• Porcentaje de textos no clasificados es 15%

• Cantidad de positivos es 699

• Cantidad de negativos es 524

• La valencia media positiva entre 1 y 9 evaluada es 6,78

• La desviación estándar positiva de la muestra evaluada es 0,88

• La valencia media negativa entre 1 y 9 evaluada es 4,81

• La desviación negativa estándar de la muestra evaluada es 1,36

24

Evaluación en formato microblogging

Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.

Evaluación en formato blogging

28

de bijbel is ontzettend populair en een inspiratiebron voor veel mensen . vooral de mysterieuze en paranormale aspecten van dit boek interesseren veel mensen ...

Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.

Evaluación en formato blogging • Porcentaje de acierto es 59%

• Porcentaje de acierto positivo es 60%

• Porcentaje de acierto negativo es 59%

• Porcentaje de textos no clasificados es 0%

• Cantidad de positivos es 699

• Cantidad de negativos es 698

• La valencia media positiva entre 1 y 9 evaluada es 5,77

• La desviación estándar positiva de la muestra evaluada es 0,21

• La valencia media negativa entre 1 y 9 evaluada es 5,68

• La desviación negativa estándar de la muestra evaluada es 0,19

29

Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.

Evaluación aleatoria

Generador de texto aleatorio a partir de opinión con polaridad

emocional conocida, empleando cadenas de Markov.

Observación de la herencia del ruido de la opinión padre, y la

polaridad emocional de la misma.

Modelo de representación de cadenas de tweets. Análisis y

estudio de la polaridad emocional de un hilo de conversación en

una red social en formato blogging.

31

Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.

Cadena de Markov

33

“El hombre armado miró enojado, armado de valor. El hombre miró nuevamente. El hombre miró por última vez”

Palabras Relevantes: Hombre, Armado, Miró, Alrededor, Valor, Nuevamente, Última, Vez

Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.

PLANIFICACIÓN

37

Estudio del Problema

Análisis del Sistema

Diseño del Sistema

Implementación del Sistema

Validación del Sistema

Documentación

Presentación y Preparación Lectura

Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.

Presupuesto de Personal

Rol Horas Coste por hora Coste total

Jefe de proyecto 46 40 € 1.840 €

Arquitecto 93 25 € 2.325 €

Analista 116 20 € 2.320 €

Desarrollador 209 13 € 2.717 €

TOTAL 9.202 €

40

Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.

Presupuesto de Material Material Precio

Período de

amortización

Duración del

proyecto Coste total

Equipo Intel(R)

Core(TM) I3 CPU a

2.40 Gh cada

procesador

530 € 36 meses 8 meses 117,77 €

Impresora HP C3180 Photosmart

160 € 36 meses 8 meses 35,56 €

Licencia de Microsoft

Office 2007

129,99 € 36 meses 8 meses 28,89 €

Licencia de Visual

Studio 2010

0 € 36 meses 8 meses 0 €

Licencia de Microsoft

SQL Server 2005

0 € 36 meses 8 meses 0 €

Microsoft Windows

8.1

0 € 36 meses 8 meses 0 €

TOTAL 182,22 €

41

Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.

Conclusiones

• Dificultades encontradas

Idioma: Traducir del español al inglés y clasificar.

Evaluación: Conjuntos de entrenamiento en formato

microblogging y blogging.

Documentación: Poca información disponible.

• Resultados obtenidos

84% de precisión en formato microblogging.

59% de precisión en formato blogging.

43

Este obra se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 3.0 España.

Trabajo Futuro

• Filtro semántico para formato blogging.

• Incrementar el valor del parámetro k de vecinos más cercanos para

formato blogging, con la restricción de que k sea siempre impar.

• Aplicar una valencia media más específica, en correspondencia con

el género, nivel educacional y edad del autor de la opinión.

• Probar otras fórmulas que involucren además de la valencia media,

la dominancia y la excitación. Pensar en Weka.

• Extracción de sentimientos. Nivel de característica.

44