m etodo para la determinaci on de la polaridad de las ... · a mi suegra, que aunque la tengo un...

66
Universidad de Oriente Facultad de Matem´ atica y Computaci´ on etodo para la determinaci´ on de la polaridad de las opiniones Tesis en opci´ on al T´ ıtulo de aster en Ciencia de la Computaci´ on Presentada por: Lic. Tamara Mart´ ın Wanton Dirigida por: Dra.C. Aurora Pons Porrata Santiago de Cuba, Septiembre de 2009

Upload: others

Post on 12-Mar-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Universidad de OrienteFacultad de Matematica y Computacion

Metodo para la determinacion de lapolaridad de las opiniones

Tesis en opcion al Tıtulo deMaster en Ciencia de la Computacion

Presentada por:

Lic. Tamara Martın Wanton

Dirigida por:

Dra.C. Aurora Pons Porrata

Santiago de Cuba, Septiembre de 2009

Page 2: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

A mis padres

Page 3: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Agradecimientos

Quiero dar mi mas sincero agradecimiento a todas aquellas personas que han posibilitadoel desarrollo de este trabajo y que han estado conmigo en todo momento apoyandome:

En especial, a mi tutora Aurora Pons Porrata, por preocuparse siempre por mi trabajoy de mi futuro como profesional, por todos los consejos y las ideas que permitieron obtener losresultados expuestos en este informe, por no dejar que perdiera el interes en ningun momentoy demostrarme lo importante que es ser detallista y metodica. Por todo, mil gracias profesora.

A mis companeros de CERPAMID y DATYS por hacer que el dıa a dıa con tantotrabajo no se convierta en algo tedioso y aburrido. En especial a Yunior y a Adrian porquererme tanto y estar siempre dispuestos para ayudarme incondicionalmente. A Lisette ya Henry, que aunque ya no forman parte de este colectivo siguen siempre atentos como siestuviesen de cuerpo presente.

A mis padres por ser mi inspiracion. Han sido mi ejemplo y guıa. Todo lo que he con-quistado ha sido para ustedes, para que se sientan orgullosos de mı y vean realizados sussuenos.

A mis hermanos, por ser cada uno especial a su forma. Principalmente a Susana, queya esta siguiendo mi camino.

A Wilbe, mi esposo, mi amor, mi amigo, mi apoyo, mi universo. Todo lo que hago espara fortalecer nuestro futuro, sin perder de vista todas nuestras metas y suenos. Gracias porestar siempre para mı. Te amo.

A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor demadre que siente por mı.

A mis eternos amigos: Rios, Alejandro, Tula, Frank David, Rene y Lisbeth por compartirtantos momentos especiales e inolvidables, siempre estaran en mi corazon.

A todas las personas que me quieren y me han ayudado de una forma u otra.

A todos:

MUCHAS GRACIAS.

i

Page 4: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Resumen

En este trabajo se presenta un metodo no supervisado para la determinacion de la po-laridad de las opiniones. Utiliza un algoritmo de desambiguacion para determinar el sentidocorrecto de las palabras en la opinion y se basa en los recursos externos SentiWordNet yGeneral Inquirer para clasificar la polaridad de los sentidos. Debido a las caracterısticas deestos recursos el metodo no depende del dominio de conocimiento y puede ser extendido aotros idiomas.

El metodo se evalua en dos corpus de distintos dominios de conocimiento, los cualespresentan caracterısticas intrınsecas al tipo de opinion, lo que permite evaluar el impacto dediferentes factores sobre el metodo propuesto. De manera general, los resultados obtenidosen ambos corpus son alentadores teniendo en cuenta el caracter no supervisado del metodoy la dificultad inherente de la tarea.

ii

Page 5: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Abstract

In this work, we present an unsupervised method for determining the polarity of opinions.It uses a word sense disambiguation algorithm to determine the correct sense of the wordsin the opinion. The method is also based on SentiWordNet and General Inquirer to classifythe polarity of the senses. Due to the characteristics of these external resources, the proposedmethod does not depend on the knowledge domain and can be extended to other languages.

The method is evaluated over two corpora of different knowledge domains which haveintrinsic characteristics of the opinion’s type. We evaluated the impact of several factors onthe proposed method. In general, the results obtained in both corpora are encouraging giventhe unsupervised nature of the method and the inherent difficulty of the task.

iii

Page 6: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Indice general

Introduccion 1

1. Minerıa de opiniones - Determinacion de la polaridad 3

1.1. Determinacion de la polaridad . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.2. Algunas aproximaciones no supervisadas . . . . . . . . . . . . . . . . . . . . . 6

1.2.1. Turney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.2.2. Kamps et al. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.2.3. Kim y Hovy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.2.4. Takamura et al. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.2.5. CLaC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.2.6. UPAR7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.2.7. Balahur et al. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.3. Algunas aproximaciones supervisadas . . . . . . . . . . . . . . . . . . . . . . . 16

1.3.1. Hatzivassiloglou y McKeown . . . . . . . . . . . . . . . . . . . . . . . . 16

1.3.2. SWAT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.3.3. SICS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.3.4. CLAC-NB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.3.5. Thomas et al. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.3.6. Bansal et al. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.3.7. Burfoot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

1.4. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2. Descripcion del metodo propuesto 26

2.1. Recursos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

iv

Page 7: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

2.1.1. WordNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.1.2. SentiWordNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.1.3. General Inquirer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.2. Metodo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.2.1. Desambiguacion del sentido de las palabras . . . . . . . . . . . . . . . . 31

2.2.2. Determinacion de la polaridad . . . . . . . . . . . . . . . . . . . . . . . 32

2.3. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.3.1. Ejemplo de opinion clasificada como negativa . . . . . . . . . . . . . . 33

2.3.2. Ejemplo de opinion clasificada como positiva . . . . . . . . . . . . . . . 35

2.4. Experimentacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.4.1. Medidas de evaluacion de la calidad . . . . . . . . . . . . . . . . . . . . 37

2.4.2. Descripcion de los corpus . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.4.2.1. SemEval . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.4.2.2. Convote . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.4.3. Experimentos sobre el corpus convote . . . . . . . . . . . . . . . . . . . 40

2.4.3.1. Impacto de clasificar a nivel de orador y de intervencion . . . 40

2.4.3.2. Diferencias entre las tres versiones del corpus convote . . . . . 42

2.4.4. Impacto de distintos factores del metodo . . . . . . . . . . . . . . . . . 43

2.4.4.1. Impacto de la desambiguacion . . . . . . . . . . . . . . . . . . 43

2.4.4.2. Impacto de utilizar el General Inquirer . . . . . . . . . . . . . 44

2.4.4.3. Impacto de utilizar palabras objetivas . . . . . . . . . . . . . 46

2.4.4.4. Impacto de los modificadores de polaridad . . . . . . . . . . . 47

2.4.5. Comparacion del metodo con otros sistemas . . . . . . . . . . . . . . . 48

2.4.5.1. Comparacion con los sistemas participantes en SemEval . . . 48

2.4.5.2. Comparacion con los sistemas que utilizan el corpus convote . 49

Conclusiones 51

Bibliografıa 52

Anexo I: Palabras clasificadas como negaciones en GI (VS) 58

v

Page 8: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Introduccion

En el proceso de tomar decisiones las personas siempre tienen en cuenta, ademas de supropia experiencia, la experiencia de otros, por lo que las opiniones son una parte importanteen la vida de los seres humanos. En la actualidad con el gran auge de la Web, cada vezexisten mas sitios (blogs, grupos de discusion, foros) que le permiten al internauta expresarsus opiniones, ya sea acerca de un producto o servicio, de un tema, de otra persona, etc. Elestudio de estas opiniones resulta de gran importancia. Por ejemplo, para el estudio de unproducto en el mercado, a una empresa le puede interesar lo que piensan sus compradoresal respecto. Para realizar este estudio, necesitarıan tener analistas que se dediquen a obtenerestadısticas sobre las opiniones positivas y negativas de los productos y obtener conclusionesque le permitan a la empresa tomar las decisiones adecuadas (bajar los precios, cambiarcomponentes, redisenar el producto, etc.). Esta tarea puede resultar tediosa, pues se tendrıanque procesar miles de opiniones, extraer cuales son los rasgos positivos y cuales los rasgosnegativos de un producto, entre otros analisis. Esto se podrıa facilitar con un sistema deminerıa de opiniones.

La Minerıa de Opiniones (conocida en ingles bajo los nombres de opinion mining, senti-ment classification, subjectivity analysis) es un area de la Minerıa de Textos consistente enla clasificacion de palabras, textos o documentos de acuerdo a las opiniones, sentimientos,emociones y subjetividades expresadas.

Aunque ya en la decada de los 90 se pueden encontrar algunos estudios en esta area no eshasta hace unos pocos anos que se retoman los problemas y las oportunidades que presenta laMinerıa de Opiniones. En consecuencia, ya se pueden encontrar muchos artıculos y sistemasque abordan esta tematica. Este despertar se debe a tres factores fundamentales:

La cantidad de metodos de aprendizaje que se han propuesto para el procesamiento dellenguaje natural y la extraccion de informacion.

La disponibilidad de grandes colecciones de datos para entrenar estos algoritmos, graciasa Internet y especıficamente al desarrollo de sitios de crıticas, blogs, etc.

Desarrollo de los retos intelectuales y comerciales que el area ofrece.

El procesamiento automatico de opiniones no es una tarea sencilla. Algunos de los pro-blemas presentes en el tratamiento de las opiniones son: el uso de lenguaje informal, las

1

Page 9: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

abreviaturas, los errores ortograficos y tipograficos, el lenguaje ironico y sarcastico, el nivelde conocimiento del lenguaje, el nivel cultural, entre otros. Estos problemas, en comparacioncon el procesamiento de documentos en otras tareas de la Minerıa de Textos, imponen unamayor dificultad a la Minerıa de Opiniones.

La deteccion del sentimiento y de la subjetividad en textos presenta una fuerte dependen-cia del contexto y del dominio de conocimiento. La dependencia del dominio de conocimientose debe en parte al cambio en el vocabulario, una misma expresion puede indicar diferen-tes sentimientos en dominios diferentes (por ejemplo, “ir a leer el libro”, indica sentimientospositivos para una persona que es crıtico de libros, pero negativo para un crıtico de cine).Ademas, entran en juego fenomenos del lenguaje no solo lexicos, sintacticos y semanticos,sino tambien pragmaticos y en gran medida de conocimiento del mundo.

Una de las principales tareas de la Minerıa de Opiniones es la clasificacion de la polaridadde la opinion, que consiste en determinar si la opinion es positiva o negativa con respecto ala entidad a la que se este refiriendo, que puede ser una persona, un producto, una tematica,etc.

La mayorıa de las aproximaciones existentes para la determinacion de la polaridad aplicantecnicas de aprendizaje supervisado. Estas tecnicas, aun cuando hasta el momento obtienenmejores resultados, presentan varias desventajas, por ejemplo, estan sujetas al sobreentre-namiento y son altamente dependientes de la calidad, tamano y dominio de los datos deentrenamiento. Por su parte, las aproximaciones no supervisadas se basan en recursos exter-nos (por ejemplo: WordNet Affect o SentiWordNet), pero actualmente existen pocos recursosdisponibles y son mayormente dependientes del idioma.

Este trabajo tiene como objetivo proponer un metodo no supervisado para la determi-nacion de la polaridad de las opiniones, que pueda ser extendido a otros idiomas y que nodependa del dominio del conocimiento.

La tesis se estructura como sigue. En el capıtulo 1 se analiza el problema de la determi-nacion de la polaridad de las opiniones y se presentan las principales aproximaciones. En elcapıtulo 2 se describe el metodo propuesto y los resultados de los experimentos realizadosPor ultimo, se exponen nuestras conclusiones, ası como las direcciones a seguir como trabajofuturo. Adicionalmente, en el Anexo I se presenta el conjunto de palabras etiquetas comonegaciones en el General Inquirer.

2

Page 10: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Capıtulo 1

Minerıa de opiniones - Determinacionde la polaridad

Desde hace unos pocos anos, ha habido un gran aumento del interes en la identificaciony extraccion automatica de las actitudes, opiniones y sentimientos expresadas en textos.Esta motivacion, se debe a la necesidad de proveer herramientas y soporte para analistasde sistemas de diferentes dominios, los cuales necesitan del seguimiento automatizado de lainformacion que expresa sentimiento. Un sistema que permita realizar esta tarea de formaautomatica sera una ayuda enorme para evitar el tedioso esfuerzo de extraer conocimientoutil de toda la informacion disponible en la web.

La Minerıa de Opiniones (conocida tambien como: clasificacion del sentimiento o analisisde la subjetividad) se refiere a una amplia area del Procesamiento del Lenguaje Natural, laLinguıstica Computacional y la Minerıa de Textos. Su objetivo no es determinar el topico delque trata un documento sino la opinion que este expresa, es decir, su objetivo es determinar laactitud (sentimientos, emociones y subjetividades) de un orador o de un escritor con respectoa cierto topico.

La Minerıa de Opiniones se puede dividir en varias tareas:

1. Deteccion de subjetividad, que consiste en determinar si una unidad textual tieneuna naturaleza objetiva (hecho) o subjetiva (opinion).

2. Clasificacion de la opinion, determinar su polaridad, es decir, si la opinion es nega-tiva o positiva.

3. Determinar la fuerza de la opinion, en que medida es positiva o negativa.

4. Determinar la fuente de la opinion, la fuente de una opinion puede ser una personao una institucion, esta tarea requiere frecuentemente resolucion de anaforas.

5. Determinar el objetivo de la opinion, de quien se habla en la opinion, con quiense esta de acuerdo o no.

3

Page 11: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

6. Resumen de las opiniones y/o visualizacion grafica de los resultados, puedeser agregando votos (ındice de 1-5, estrellas), sobresaltando algunas opiniones, repre-sentando acuerdo/desacuerdo, etc.

En este trabajo nos centramos en el problema de la determinacion de la polaridad.

1.1. Determinacion de la polaridad

La determinacion de la polaridad (conocida ademas como orientacion semantica o va-lencia), es una de las tareas mas importantes de la Minerıa de Opiniones consistente endeterminar cuando una opinion es positiva, negativa o neutra con respecto a la entidad a lacual se esta refiriendo (una persona, un producto, un tema, un filme, etc.).

Por ejemplo, la oracion “Casi Famosos es una excelente pelıcula con un argumento fresco,dinamico y original...” es una opinion positiva, mientras que, “El resultado es decepcionante,porque los cambios de tono (del drama a la comedia) son constantes, y rompe muchas esce-nas...” expresa una opinion negativa y una opinion neutra “La pelıcula tiene una duracion decasi dos horas y se podrıa clasificar como genero entre comedia y drama...”.

De manera general, el tratamiento computacional de las opiniones y de los sentimientosesta motivado por el deseo de mejorar la interaccion hombre-maquina e incorporar nuevasfacilidades a los sistemas ya existentes de procesamiento de textos. El interes creciente en labusqueda de algoritmos para la determinacion de la polaridad, se debe principalmente a lagran cantidad de aplicaciones potenciales.

Una de las aplicaciones mas conocidas y por tanto la mas estudiada por la comunidadcientıfica es la clasificacion de crıticas (reviews) de productos en positivas o negativas (Turney,2002; Morinaga et al., 2002; Hu and Liu, 2004; Popescu and Etzioni, 2005). Un sistema deMinerıa de Opiniones podrıa recopilar informacion sobre un producto, obtener resumenes delas cualidades positivas y/o negativas, incluso, corregir errores que cometen los usuarios enlas puntuaciones. Esto se puede aplicar ademas, a otros dominios como las crıticas de cine,musica, artıculos polıticos, entre otros.

Otra aplicacion potencial, es el filtrado de mensajes abusivos (flames) (Spertus, 1997;Jin et al., 2007). Por ejemplo, en sistemas en lınea que muestran advertencias como barraslaterales o en sitios de grupos de noticias dirigidos por moderadores humanos, puede serde ayuda detectar cuando esta informacion tiene un contenido inapropiado o presenta sen-timientos positivos relevantes y a partir de esta alerta, decidir que tratamiento darle a estainformacion.

El seguimiento de opiniones en discusiones en lınea (Tong, 2001) tiene gran importanciapara disımiles usuarios. Por ejemplo, los publicistas pueden realizar un seguimiento de lascampanas de publicidad; los polıticos, el seguimiento de opiniones publicas; los reporteros,las respuestas del publico a algun evento; los comerciantes, el seguimiento de opiniones fi-nancieras, etc.

4

Page 12: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Los sistemas de determinacion de la polaridad desempenan, ademas, un rol importantecomo componentes para otros sistemas. Los sistemas de recomendacion, por ejemplo, puedentener en cuenta para una recomendacion solamente los productos que reciben una retroa-limentacion positiva (Terveen et al., 1997; Tatemura, 2000). Tambien, en los sistemas deconversacion automaticos (chatbot), para ayudar a decidir si una respuesta positiva o negati-va es la mas apropiada. Del mismo modo, los personajes de juegos de computadora podrıanparecer mas realistas si responden segun la polaridad de las palabras habladas o escritas porel jugador.

La literatura existente muestra que se han utilizado dos tipos de tecnicas para abordar elproblema de la determinacion de la polaridad: aprendizaje automatico y orientacion seman-tica. Las aproximaciones de aprendizaje automatico aplicadas a este problema casi siemprepertenecen a la clasificacion supervisada y, en particular, para la determinacion de la pola-ridad se aplican tecnicas de clasificacion de textos. Este tipo de tecnica tiende a ser mejorporque los clasificadores se entrenan en una coleccion representativa de datos.

Por su parte, la orientacion semantica es un aprendizaje no supervisado, ya que no requiereentrenamiento previo para analizar los datos. Esta tecnica, se basa en recursos externos y nonecesita del entrenamiento sobre ejemplos etiquetados de antemano. Generalmente procedeen tres pasos:

1. Extrae del texto palabras o frases que expresen orientacion semantica,

2. Determina la polaridad de las palabras o frases extraıdas y

3. Calcula la polaridad del texto combinando las polaridades individuales de las palabraso frases en el texto.

Cada una de estas aproximaciones tiene sus ventajas y desventajas. Aunque las aproxima-ciones supervisadas obtienen mejores resultados, presentan varias desventajas, por ejemploson dependientes del dominio de conocimiento, necesitando un reentrenamiento del clasifi-cador si se va a aplicar sobre datos de un dominio diferente. En la practica es casi imposibletener datos anotados para todos los posibles dominios de interes. Ademas, estan sujetas alsobre-entrenamiento y son altamente dependientes de la calidad y tamano de los datos deentrenamiento. En cambio, las no supervisadas al no requerir de un corpus de entrenamien-to, tienen mayor facilidad de poder ser aplicadas sobre cualquier dominio de conocimientopero no superan la calidad de los resultados de las supervisadas. Por tanto, la seleccion de latecnica a usar constituye un compromiso entre precision y generalidad.

Resumiendo, las tecnicas no supervisadas tienen en cuenta para determinar la positividady la negatividad la presencia de palabras disparadoras de sentimientos con orientacionesconocidas que son obtenidas de diccionarios o corpus, en cambio, en las supervisadas, losrasgos extraıdos del texto y el metodo de aprendizaje determinan cuando este pertenece a laclase positiva o negativa.

5

Page 13: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

1.2. Algunas aproximaciones no supervisadas

1.2.1. Turney

La aproximacion propuesta en (Turney, 2002) clasifica una crıtica como recomendada(thumbs up) o no recomendada (thumbs down) basandose en un algoritmo no supervisadomuy simple.

El primer paso del algoritmo consiste en extraer frases que contengan bigramas formadospor un adjetivo o un adverbio y por otra palabra como contexto. Para ello, primeramenterealiza un analisis morfologico y extrae palabras consecutivas que coincidan con alguno delos patrones presentados en la tabla 1.1 (donde: JJ-adjetivos, NN-sustantivos, RB-adverbios,VB-verbos).

Primera palabra Segunda palabra Tercera palabra(no se extrae)

1. JJ NN o NNS cualquiera2. RB, RBR o RBS JJ ni NN ni NNS3. JJ JJ ni NN ni NNS4. NN o NNS JJ ni NN ni NNS5. RB, RBR o RBS VB, VBD, VBN o VBG cualquiera

Tabla 1.1: Patrones de las etiquetas a extraer de las frases formadas por dos palabras.

El segundo paso estima la orientacion semantica (polaridad) de las frases extraıdas usandoel algoritmo PMI-IR (Pointwise Mutual Information - Information Retrieval). PMI permitecalcular la fuerza de la asociacion semantica entre palabras y luego, se aplica recuperacionde informacion (IR) para obtener las estadısticas de la co-ocurrencia de palabras.

Las frases extraıdas son consultadas para saber en que medida se encuentran mas cercade palabras positivas y negativas (en este caso “excellent” y “poor”, respectivamente). Laestimacion de la orientacion semantica (SO -Semantic Orientation) de una frase se calculacomo:

SO(frase) = PMI(frase,“excellent”)− PMI(frase,“poor”)

El valor PMI de dos palabras w1 y w2 esta dado por la probabilidad de que las dos palabrasocurran juntas dividido por la probabilidad de cada palabra por separado, esto es:

PMI(w1, w2) = logP (w1, w2)

P (w1)P (w2)

Aquı, P (w1, w2) es la probabilidad de que las palabras w1 y w2 co-ocurran. Si las palabrasson estadısticamente independientes, la probabilidad de que ellas co-ocurran esta dada por el

6

Page 14: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

producto P (w1)P (w2). La razon entre P (w1, w2) y P (w1)P (w2) es una medida del grado dedependencia estadıstica entre estas palabras. El logaritmo de esta razon corresponde a unaforma de correlacion, la cual es positiva cuando las palabras tienden a co-ocurrir y negativaen caso contrario.

PMI-IR estima PMI empleando un metodo de recuperacion de informacion que consulta aun motor de busqueda y calcula las frecuencias en dependencia de la cantidad de documentosrecuperados:

PMI(w1, w2) = loghits(w1, w2)N

hits(w1)hits(w2)

En este caso, hits(q) es el numero de documentos recuperados dada la consulta q y N esel numero total de documentos indexados por el motor de busqueda.

Haciendo algunas modificaciones algebraicas e interpretando la co-ocurrencia como eloperador de busqueda NEAR, la estimacion de SO se puede derivar de las formulas anteriorescomo sigue:

SO(frase) = log

(hits(frase NEAR “excellent”)hits(“poor”)

hits(frase NEAR “poor”)hits(“excellent”)

)Los experimentos se realizaron con el motor de busqueda AltaVista1 y usando el operador

NEAR para restringir la busqueda a los documentos en los cuales las palabras de la consultase encuentran en una ventana de 10 palabras y en cualquier orden.

El tercer paso clasifica las crıticas como positivas o negativas (recomendadas, no recomen-dadas), basandose en el promedio de los valores de orientacion semantica de las frases extraı-das. La crıtica es positiva si el promedio tambien lo es; en caso contrario, es negativa.

Para la evaluacion del metodo construyeron un corpus de 410 crıticas tomadas del sitioEpinions2. Realizaron experimentos sobre varios dominios: automoviles, bancos, filmes y des-tinos de viajes. De las 410 crıticas, 170 son no recomendadas y 240 recomendadas (esta es laclasificacion de los autores de la crıtica). Clasificando las crıticas con la mayor de las clases(recomendada), se obtiene una precision del 59 %. El algoritmo obtiene una precision prome-dio del 74 %, variando este valor en dependencia del dominio en un intervalo de 66 %-84 %.Una de las limitaciones de este algoritmo es el tiempo requerido para consultar un motor debusqueda.

1www.altavista.com2www.epinions.com

7

Page 15: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

1.2.2. Kamps et al.

Kamps et al. (Kamps et al., 2004) determina la polaridad de una palabra teniendo encuenta relaciones lexicas definidas en WordNet. Para ello, definen un grafo a partir de larelacion de sinonimia entre adjetivos. Para obtener la polaridad de un adjetivo en el subgrafo,tienen en cuenta la distancia del camino mas corto del adjetivo a los terminos good y bad :

SO(t) =d(t, bad)− d(t, good)

d(good, bad)

Se considera que el adjetivo t es positivo si y solo si SO(t) > 0, y el valor absoluto de SO(t)determina la fuerza de esta polaridad (el denominador constante d(good, bad) es un factor denormalizacion para restringir que los valores de SO se encuentren en el rango [−1, 1]). Porejemplo, para determinar la orientacion semantica de la palabra honest serıa:

SO(honest) =d(honest, bad)− d(honest, good)

d(good, bad)=

6− 2

4= 1

como la orientacion semantica de honest es mayor que 0, entonces honest es un adjetivopositivo.

Con este metodo, solamente se pueden evaluar adjetivos que se encuentren conectadospor un camino de relaciones de sinonimia con alguna de las dos semillas. Esta es la razonpor la cual los autores limitan sus experimentos a los 663 adjetivos del corpus construidopor (Turney and Littman, 2003), alcanzables por good o bad a traves de la relacion desinonimia de WordNet. Esto provoca que el metodo de determinacion de la polaridad nopueda tomar decision en los textos donde no ocurran estos adjetivos, lo cual sin dudas limitasu aplicabilidad.

Ademas, la manera de aplicar la relacion de sinonimia presenta problemas. En este metodono se determina el significado correcto de las palabras; simplemente se relacionan dos palabrassi tienen al menos un significado en el que son sinonimas. Esto provoca que pueden existirdos palabras cuya distancia sea pequena, a pesar de ser semanticamente bien diferentesen el contexto en el que aparecen. Un ejemplo es el camino obtenido entre good y bad :(good , sound , heavy , big , bad) cuya distancia es d(good, bad) = 4, obteniendose un caminomuy corto a pesar de que estos adjetivos tienen significados opuestos. En la evaluacion delmetodo obtienen una precision del 67.32 %, que no es tan significativa dado el tamano tanpequeno del conjunto de prueba y las limitaciones inherentes del metodo.

1.2.3. Kim y Hovy

El sistema de Kim and Hovy (Kim and Hovy, 2004) aborda la deteccion de la polaridadatribuyendo a cada palabra un valor positivo y otro negativo y luego, combinando estas pola-ridades para obtener la clasificacion final. Para ello, primeramente se detecta la entidad que

8

Page 16: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

emite la opinion, luego se define la region del texto donde supuestamente se debe encontrarel sentimiento expresado por esta entidad acerca del topico principal de la opinion y final-mente, se clasifica el sentimiento como positivo o negativo. Notese que en este metodo, en ladeterminacion de la polaridad no se tiene en cuenta toda la opinion, sino que esta se restringea regiones que expresan sentimientos acerca del topico principal de la opinion.

Dada la definicion de un topico y un conjunto de textos acerca de el, primeramente elsistema selecciona aquellas oraciones que contengan tanto a la expresion que define al topicocomo entidades candidatas. Para cada oracion identifica las entidades que emiten la opinionutilizando un etiquetador de nombres de entidades y se selecciona aquella entidad que seencuentre mas cercana a la expresion del topico. Luego, delimitan el tamano de la regiondonde se encuentra el sentimiento expresado por la entidad. El tamano de la region se puededefinir de varias formas:

1. La oracion completa

2. Las palabras entre la entidad y la expresion que define al topico

3. Las dos palabras antes y despues de la entidad

4. Las palabras a partir de la entidad y hasta el final de la oracion

Finalmente, se clasifica la polaridad de las palabras de la region y se combinan estaspolaridades para determinar la polaridad del sentimiento en la region.

Para la clasificacion de la polaridad a nivel de palabra se construyen dos listas de sen-timientos: una de palabras positivas y otra de palabras negativas. Inicialmente estas listascontienen palabras semillas y se expanden utilizando palabras y relaciones de WordNet asu-miendo que las palabras sinonimas tienen la misma polaridad y las palabras antonimas tienenpolaridad opuesta. La lista de semillas positivas (negativas) se expande, anadiendo los sinoni-mos de las semillas positivas (negativas) y los antonimos de las semillas negativas (positivas).Ademas, para cada palabra semilla, se extraen de WordNet las palabras del glosario y seanaden al final de la lista correspondiente. Para evitar la presencia de palabras ambiguas seeliminaron aquellas palabras que aparecen en ambas listas.

Luego, para calcular la polaridad de una nueva palabra se obtienen sus sinonimos enWordNet y se determina como interactua con la lista de sentimientos, esto es:

arg maxc

P (c|w) ∼= arg maxc

P (c|syn1, syn2....synn)

donde c es una categorıa de sentimiento (positivo o negativo), w es la palabra a clasificar ysyni, i = 1, . . . , n son los sinonimos de w en WordNet. Para calcular esta ecuacion utilizandos modelos. En el primero de ellos:

9

Page 17: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

arg maxc

P (c|w) = arg maxc

P (c)P (w|c)

= arg maxc

P (c)P (syn1syn2syn3...synn|c)

= arg maxc

P (c)m∏k=1

P (fk|c)count(fk,synset(w))

donde, fk es la k− esima palabra de la lista de sentimiento correspondiente a la clase c siendo,ademas, miembro del conjunto de sinonimos de w y count(fk, synset(w)) es el numero totalde ocurrencias de fk en el conjunto de sinonimos de w. P (fk|c) es la cantidad de veces queaparece esta palabra en la lista de sentimiento correspondiente a c dividida por la cantidadtotal de palabras en esta lista. P (c) es el numero de palabras en la clase c dividido porel numero total de palabras en ambas clases de sentimiento. Este modelo se deriva de laclasificacion de documentos.

La ecuacion siguiente presenta el segundo modelo para el clasificador de polaridad:

arg maxc

P (c|w) = arg maxc

P (c)P (w|c)

= arg maxc

P (c)

n∑i=1

count(syni,c)

count(c)

Para obtener la probabilidad P (w|c) de la palabra w dada la clase de sentimiento c, secalculan las ocurrencias de sinonimos de w en la lista de c, donde count(c) es la cantidadde palabras en la lista de sentimiento de c y count(syni, c) es la cantidad de ocurrencias delsinonimo syni en c. La idea subyacente es que mientras mas sinonimos de w se encuentrenen c es mas probable que la palabra pertenezca a esta clase.

Una vez obtenido los valores de polaridad para la palabra w en ambas clases de sentimiento(positiva, negativa), se clasifica la palabra en la clase de sentimiento que tenga el mayor valor.

Finalmente, para asignar una categorıa de sentimiento a una region en el metodo seconstruyeron tres modelos. Cada uno de ellos combina de manera diferente los valores desentimiento de las palabras presentes en la region.

El primer modelo considera la polaridad de las palabras de manera binaria y no el valorobtenido por los modelos descritos anteriormente:

polaridad(s) =

|s|∏i=1

signo(wi)

donde, s es la region, |s| es la cantidad de palabras de la region y signo(wi) es 1 si lapolaridad de la palabra wi es positiva o −1 si es negativa. En este modelo se incluyen palabras

10

Page 18: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

modificadoras de polaridad. Este modelo se basa en la intuicion de que los negativos secancelan unos a otros, por ejemplo, una region en la que se exprese que se esta realizandouna accion negativa sobre un hecho tambien negativo contiene una opinion positiva.

En el segundo modelo, la polaridad de una region se calcula como la media armonica delos valores de sentimiento en la region:

P (c|s) =1

n(c)

n∑i=1

p(c|wi), si arg maxj

p(cj|wi) = c

Aquı n(c) es el numero de palabras en la region cuya categorıa de sentimiento es c. Eneste caso, la opinion emitida en esa region sera positiva si prevalecen las palabras positivas,considerando no solo su cantidad sino tambien su fortaleza.

El tercer modelo es la media geometrica:

P (c|s) = 10n(c)−1

n∏i=1

p(c|wi), si arg maxj

p(cj|wi) = c

Para la evaluacion del metodo se anotaron manualmente con la polaridad 100 oracionesde diferentes topicos (“illegal alien”, “term limits”, “gun contro”l y “NAFTA”) extraıdas delcorpus de la competicion DUC 2001 (Over, 2001). Se alcanzaron mejores resultados usandola region definida desde la entidad hasta el final de la oracion (cuarta region), el segundomodelo para la clasificacion a nivel de palabras y el primer modelo para la clasificacion anivel de region.

Este metodo aborda dos de los retos mas difıciles en la Minerıa de Opiniones, la deter-minacion de la entidad que emite la opinion y la region donde se expresa el sentimiento. Sinembargo, presenta algunas deficiencias, por ejemplo, no se tiene en cuenta que una mismaoracion puede contener varias entidades y por demas, varias opiniones, debido a que el meto-do solamente analiza la entidad mas cercana al topico y la region que se encuentra asociadaa ella.

1.2.4. Takamura et al.

El metodo propuesto en (Takamura et al., 2005) se basa en una teorıa de la Fısica:“modelospin”. Un sistema spin es un arreglo de N electrones donde cada uno tiene un spin con unadireccion que toma como valor +1 (“up”) o -1 (“down”). Por razones energeticas, dos electronesque se encuentren cerca tienden a tener el mismo spin. Para lograr alcanzar una configuracionde “mınima energıa”, se debe aplicar iterativamente una funcion de energıa al modelo spin.

Takamura et al. proponen usar el modelo spin para extraer la polaridad de las palabras,considerando cada palabra como un electron y su polaridad como el spin del electron. Pararepresentar el modelo, construyen un grafo conectando dos palabras si una de ellas aparece

11

Page 19: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

en el glosario de la otra. Se basan en la intuicion de que, si una palabra tiene una polaridadentonces las palabras de su glosario tienden a tener la misma polaridad.

Para construir el grafo, definen GL+(t) como el conjunto de palabras en el glosario dela palabra t, excluyendo las palabras que dependen sintacticamente de una negacion y sedefine GL−(t), como los antonimos de t y las palabras sintacticamente dependientes de unanegacion. La matriz de adyacencia W = {wij} se define como:

wij =

1 si ti ∈ GL+(tj) o tj ∈ GL+(ti)

−1 si ti ∈ GL−(tj) o tj ∈ GL−(ti)

0 en otro caso

Por ejemplo, las palabras t1 “exquisite” y t2 “beautiful” con glosarios:

exquisite: extremely beautiful or delicate

beautiful: delighting the aesthetic senses

obtienen un peso w12 = 1 porque el glosario de “exquisite” contiene a “beautiful”.

Para obtener la polaridad de las palabras en el grafo se aplica la funcion de energıa delmodelo spin. Para ello, definen la polaridad de algunas palabras semillas y estas transmitensu polaridad (energıa) a las demas. Los detalles de como se realiza esta transmision puedenverse en (Takamura et al., 2005).

Para la construccion del grafo, usaron el diccionario japones Iwanami (Nishio et al.,1994) y un sistema de analisis morfologico para el japones (Matsumoto et al., 2002). So-lamente tienen en cuenta palabras de contenido: sustantivos, adjetivos, verbos, adverbios yalgunas palabras de negacion. Las palabras que se encuentren precedidas por una negacion seconsideran sintacticamente dependientes a esta. Una vez construido el grafo, eliminaron laspalabras aisladas (palabras que no estan relacionadas a ninguna otra) obteniendo un grafode 58 185 palabras. Como palabras semillas tomaron: good y bad.

Para la evaluacion del metodo se anotaron manualmente con la polaridad 9 790 palabrasde las extraıdas del diccionario (2 491 positivas, 3 141 negativas y 4 158 neutrales). Debido aque, en el modelo no se incluyo la polaridad neutra, fue evaluado para una clasificacion binaria(positiva, negativa). Los resultados mostrados en la tabla 1.2 demuestran que la polaridadde las palabras (especialmente los sustantivos) pudo clasificarse con una alta precision. Unade las deficiencias de este modelo es que los spin solamente pueden tomar dos valores, perola polaridad de una palabra puede ser neutra y por otra parte, el conjunto de prueba es muypequeno.

12

Page 20: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Categorıa gramatical Precisionsustantivos 0.812adjetivos 0.745verbos 0.762otras 0.777

Tabla 1.2: Precision obtenida por el metodo de (Takamura et al., 2005).

1.2.5. CLaC

El sistema CLaC (Andreevskaia and Bergler, 2007) propone una aproximacion no su-pervisada e independiente del dominio de conocimiento para la clasificacion de la polaridadde titulares de noticias. El sistema utiliza tres tipos de recursos: una lista de palabras dis-paradoras de sentimiento, una lista de palabras modificadoras de polaridad y un conjuntode reglas que definen el alcance y el resultado de combinar las palabras disparadoras y lasmodificadoras de polaridad.

Para construir la lista de palabras disparadoras el metodo extiende la lista de adje-tivos anotados manualmente por (Hatzivassiloglou and McKeown, 1997) usando el algoritmoSTEP(Andreevskaia and Bergler, 2006b). El algoritmo STEP comienza con un conjunto pe-queno de palabras semillas anotadas manualmente con la polaridad y lo extiende utilizandolas relaciones de sinonimia y antonimia de WordNet. Las palabras sinonimas mantienen lamisma polaridad y las antonimas, la polaridad opuesta. Luego, el algoritmo realiza variascorridas sobre todos los glosarios de WordNet agregando a la lista de palabras disparadorasaquellas palabras para las cuales su definicion (glosario) contiene alguna de las palabras yaincorporadas a la lista. Estas palabras se anotan con la polaridad de la palabra disparadoraque se encontro en su glosario. Finalmente, se eliminan aquellas palabras anotadas con po-laridades contradictorias en una misma corrida. Ademas, se agregaron palabras etiquetadascomo positivas y negativas en el diccionario General Inquirer (Stone et al., 1966) si estas nofueron agregadas por el algoritmo STEP.

A cada palabra en la lista resultante se le asigna un grado de pertenencia a la categorıapositiva o negativa; estos valores fueron asignados usando un metodo difuso Net OverlapScore (NOS ) descrito en (Andreevskaia and Bergler, 2006a). El metodo difuso NOS tiene encuenta la cantidad de veces que esa palabra fue recuperada de WordNet por multiples corridasindependientes del algoritmo STEP y determina el valor difuso hallando la diferencia entre lacantidad de veces en que la palabra resulto positiva y la cantidad de corridas en que resultonegativa. Luego, se eliminan de la lista las palabras que obtuvieron un valor de pertenenciadifuso igual a 0. Finalmente, se obtuvo una lista que contiene 10 809 palabras disparadorasde sentimiento.

El metodo difuso NOS se complemento con algunos elementos relevantes de la estructurasintactica de las oraciones. Para ello, anaden al sistema dos componentes: (1) reglas para eltratamiento de palabras modificadoras de polaridad y (2) analisis del arbol sintactico.

13

Page 21: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Cada entrada en la lista de palabras modificadoras de polaridad tiene asociado una acciony un alcance. Estas palabras son usadas por reglas construidas manualmente, permitiendo alsistema identificarlas y tenerlas en cuenta para la clasificacion de la polaridad. Con el objetivode determinar correctamente el alcance de las palabras modificadoras de polaridad se realizaun analisis del arbol sintactico de la oracion.

Como resultado de aplicar las reglas construidas, a cada titular se le asigna un valorbasado en la combinacion de las componentes del metodo difuso NOS.

Finalmente, el sistema determina la polaridad de un titular aplicando las reglas construi-das manualmente y obteniendo un valor difuso que permite clasificar el titular como positivosi el valor difuso es mayor que 0, negativo si es menor que 0 o neutro en caso de que el valordifuso sea igual a 0.

1.2.6. UPAR7

El sistema UPAR7 (Chaumartin, 2007) esta basado en reglas y utiliza una aproximacionlinguıstica. Los autores evaluaron el metodo en una coleccion de titulares de noticias. Aplicanun analizador sintactico en los titulares e identifica que se esta diciendo acerca del sujetoprincipal explotando el grafo de dependencias obtenido. El sistema detecta la valencia paracada palabra usando una version enriquecida de WordNet Affect y SentiWordNet.

Como pre-procesamiento, analizan los titulares que tienen palabras en mayusculas y elsistema decide si se deja o no la mayuscula. Para ello, utilizan un analizador morfosintactico,informacion de WordNet y algunas reglas construidas manualmente (por ejemplo, los nombrespropios no se modifican).

Para determinar los valores de polaridad de las palabras individuales, primeramente usanlas funciones morfologicas de WordNet para encontrar la forma basica de cada palabra. Elmetodo no determina el sentido correcto de las palabras, por lo que, el valor de valencia deuna palabra se calcula como la combinacion lineal de todos sus posibles sentidos balanceadospor la frecuencia de cada lema. Ademas, tiene en cuenta reglas para detectar negaciones,nombres de celebridades y acronimos relacionados con tecnologıa.

Una vez obtenido el valor de valencia para cada palabra, el sistema trata de identificarel sujeto principal del titular utilizando el grafo de dependencias obtenido de realizar elanalisis sintactico. Apoyandose en la hipotesis de que la contribucion de la palabra principales mucho mas importante que el resto, el metodo incrementa el valor de la polaridad de lapalabra principal por un factor entero.

Ademas, definieron manualmente reglas que basadas en palabras modificadores de polari-dad e intensificadores, disminuyen, aumentan o invierten el valor de polaridad de las palabrasafectadas.

14

Page 22: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

1.2.7. Balahur et al.

En (Balahur et al., 2009) se presentan varias aproximaciones no supervisadas para la de-terminacion de la polaridad de las opiniones. Para ello, construyen como base de conocimientotres tipos de lexicones: de afecto, de opinion y de actitud.

El lexicon de afecto se construye a partir de tres fuentes diferentes: WordNet Affect (con 6categorıas de emocion: joy, surprise, anger, fear, sadness, disgust), el corpus ISEAR (Schererand Wallbott, 1997) (que contiene 7 categorıas de emocion: anger, disgust, fear, guilt, joy,sadness y shame) y una base de datos de palabras disparadoras de emocion (Balahur andMontoyo, 2008a), la cual contiene terminos relacionados con necesidades humanas y motiva-ciones anotadas con 6 categorıas de emocion de WordNet Affect.

El lexicon de opinion contiene palabras que expresan valores positivos y negativos (talescomo: “good”, “bad”, “great”, etc.) obtenidas del corpus de minerıa de opiniones de (Balahurand Montoyo, 2008b).

Finalmente, el lexicon de actitud contiene categorıas como: accept, approval, confidence,importance, competence, correctness, justice, power, support, truth y trust, con sus respectivascategorıas opuestas- criticism, opposition, uncertainty, doubt, unimportance, incompetence,injustice, objection, refusal, incorrectness.

Para comparar la opinion con los lexicones usan la medida de similitud del paquete TedPedersen’s Statistics Package3.

Una vez obtenido los valores de similitud, suman los valores correspondientes a las ca-tegorıas positivas de los corpus de emocion, opinion y actitud y de las categorıas negativas,respectivamente. Se realizaron experimentos con dos reglas de decision:

1. La primera compara los dos valores globales obtenidos, el positivo y el negativo, selec-cionando como polaridad la categorıa de mayor valor.

2. La segunda utiliza un analizador sintactico para determinar posibles dependencias entrelas palabras pertenecientes a los corpus y el topico del que se esta hablando. Esto sedebe a que, algunas de las intervenciones que se clasificaron como negativas, estandoanotadas manualmente como positivas, contienen una opinion negativa pero no hacia eltopico en discusion, sino con respecto a la opinion de otro orador presente en el debate.De esta manera, los autores tratan de verificar cuando los falsos negativos obtenidosse deben al metodo de clasificacion o al hecho de que el objeto al que se refiere laopinion no es el topico en cuestion. En este caso, no tienen en cuenta las palabras queno dependen del topico.

Evaluaron el metodo a nivel de intervencion y a nivel de orador. La clasificacion a nivelde orador considera las intervenciones de un mismo orador en un debate como una opinion.

3http://www.d.umn.edu/ tpederse/text-similarity.html

15

Page 23: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Una de las desventajas principales de este metodo es la cantidad de recursos utilizados yque por demas, no queda claro el rol que desempena cada uno de ellos en la determinacionde la polaridad. Por otro lado, la utilizacion de estos recursos hace que el metodo sea masdependiente del idioma.

1.3. Algunas aproximaciones supervisadas

1.3.1. Hatzivassiloglou y McKeown

(Hatzivassiloglou and McKeown, 1997) fue la primera aproximacion en abordar el proble-ma de determinar la polaridad de las palabras. El metodo trata de predecir la polaridad de losadjetivos, analizandolos en pares (unidos por conjunciones: and, or, but, either-or, or, neither-nor). La intuicion subyacente es que el hecho de tener adjetivos unidos por conjunciones, estasujeto a restricciones linguısticas con respecto a la orientacion de los adjetivos involucrados(por ejemplo, and usualmente une dos adjetivos con la misma polaridad, mientras que butune adjetivos con diferente polaridad).

El metodo utilizado para inferir la polaridad de los adjetivos a partir del analisis de lasconjunciones, usa un algoritmo supervisado que consta de los siguientes pasos:

1. Se extraen de un conjunto de documentos todas las conjunciones de adjetivos.

2. El conjunto de conjunciones de adjetivos se divide en dos (conjunto de prueba y deentrenamiento). Las conjunciones en el conjunto de entrenamiento se usan para entre-nar un clasificador basado en un modelo de regresion log-lineal. De esta forma, cadaconjuncion se clasifica en dependencia de si el par de adjetivos presentan o no la mismapolaridad. Luego, el clasificador se aplica al conjunto de prueba obteniendose un grafocon los supuestos enlaces (igual o diferente polaridad) entre todos los pares de adjetivospresentes en este conjunto.

3. Se aplica un algoritmo de agrupamiento sobre este grafo para particionar los adjetivos deprueba en dos grupos. El particionamiento se realiza de forma tal que dentro de cadagrupo los adjetivos tengan la misma polaridad, es decir, un grupo con palabras conpolaridad positiva y otro con las palabras de polaridad negativa. Por ultimo, usandola intuicion de que los adjetivos positivos son usados con mayor frecuencia que losnegativos, el grupo que contiene los terminos que aparecen con mayor frecuencia en elconjunto de documentos, se considera como el que contiene los terminos positivos.

Para los experimentos utilizaron un conjunto de 1 336 adjetivos (657 positivos y 679negativos) y la coleccion de documentos no etiquetados del Wall Street Journal 1987 4. Enlos experimentos reportados en (Hatzivassiloglou and McKeown, 1997) y resumidos en la

4Disponible en ACL Data Collection Initiative (http://www.ldc.upenn.edu/Catalog/)

16

Page 24: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Numero deadjetivos en el

conjunto deprueba

Porcentajeque

representa elconjunto de

prueba

Precision

730 100.0 % 78.08 %516 70.7 % 82.56 %369 50.5 % 87.26 %236 32.2 % 92.37 %

Tabla 1.3: Resultados (Hatzivassiloglou and McKeown, 1997).

tabla 1.3, el algoritmo anterior determina la polaridad de los adjetivos con un 78.08 % deprecision cuando todos los adjetivos son incluidos en el conjunto de prueba. La precisionse encuentra en un intervalo de 78.08 % a 92.37 % en dependencia del tamano del conjuntode prueba. Esta aproximacion tiene como desventaja que se restringe al tratamiento de losadjetivos.

1.3.2. SWAT

El sistema SWAT (Katz et al., 2007) presenta una aproximacion supervisada para deter-minar la polaridad de titulares de noticias usando un modelo de unigramas.

El algoritmo utiliza un conjunto de entrenamiento que contiene titulares de noticias eti-quetados manualmente con la polaridad (valor entre -100 y 100) y a partir de ellos se construyeuna base de conocimientos formada por palabras que ocurren en el conjunto de entrenamien-to, a las que se les asigna un valor de pertenencia a la clase positiva y negativa (valores depolaridad). Para ello, primeramente, se lematizan todas las palabras y luego, se calculan losvalores de polaridad de una palabra w presente en el conjunto de entrenamiento como elpromedio de la polaridad que presenta cada titular H donde ella ocurre:

Score(Pol, w) =

∑H:w∈H

Score(Pol,H)

|{H : w ∈ H}|

donde Pol es la clase de polaridad de la palabra w.

Finalmente, extienden esta base de conocimientos con sus sinonimos y antonimos obtenidosa partir del tesauro Roget (Thesaurus.com, 2007). A los sinonimos se les asigna un valor depolaridad de 100 mientras que a los antonimos se les asigna -40.

Para determinar la polaridad de un nuevo titular, se promedian los valores de polaridadde las palabras que ocurren en el titular y se selecciona el mayor de ellos. Las palabras queno ocurren en la base de conocimientos se ignoran.

17

Page 25: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

La principal desventaja de este metodo es que depende de las palabras presentes en labase de conocimientos para determinar su polaridad. Por ejemplo, al no poder considerar laspalabras del titular que no aparecen en la base de conocimientos, pueden existir titularesdonde no se tiene decision o donde una sola palabra define su polaridad.

1.3.3. SICS

El sistema SICS (Sahlgren et al., 2007) presenta una aproximacion sencilla para la clasifi-cacion de titulares de noticias basandose en un modelo de espacio vectorial y en un conjuntode palabras semillas. La idea es crear dos vectores en un espacio de palabras de alta dimen-sion: uno representando la polaridad positiva y otro la negativa. Cada titular se proyectaen este espacio y se elige la polaridad cuyo vector se encuentre mas cerca del vector querepresenta al titular.

El modelo se entrena en un corpus de periodicos en ingles disponible para experimentosen la conferencia Cross Language Evaluation Forum5 (CLEF). El corpus consiste en 100 000documentos del periodico Los Angeles Times del ano 1994.

Este metodo realiza un pre-procesamiento de los documentos, lematizando y eliminandolas palabras vacıas (stop words) y considera cada titular del corpus como un documento.

Un espacio de palabras es un espacio vectorial de alta dimension en el cual cada palabraen el vocabulario se representa como un vector de contexto −→vi de frecuencias de ocurrencia:−→vi = [f1, . . . , fn] donde fj es la frecuencia de la palabra i en un contexto j, j = 1, . . . , n.

Para la construccion del espacio de palabras el metodo utiliza como contextos los docu-mentos del corpus (cada dimension en el espacio de palabras se corresponde con un documentodel corpus) y para calcular las frecuencias de las palabras se uso el esquema de pesado TF-IDF. En el metodo no se usa reduccion de dimensionalidad, resultando en un espacio depalabras de 220 220 dimensiones.

Con el objetivo de construir vectores de polaridad, se usan dos conjuntos de palabrassemillas (8 positivas y 8 negativas) mostradas en la tabla 1.4.

Estos conjuntos fueron utilizados para calcular dos vectores en el espacio, uno represen-tando a la polaridad positiva y otro a la negativa. Los vectores de polaridad se crearon apartir de la suma de los vectores de contexto de las palabras semillas: ~vS =

∑~vw∈S, donde

S es uno de los conjuntos semillas y w es una palabra en este conjunto.

Para determinar la polaridad de un titular este se representa como un vector que seconstruye a partir de los vectores de contexto de sus palabras: ~vH =

∑~vw∈H , donde H es el

titular a clasificar y w es una palabra en ese titular. Este vector se compara con los vectoresde polaridad calculando el coseno del angulo formado entre ellos. De esta forma, se obtienendos valores del coseno, uno entre el vector del titular y el vector positivo y otro entre el vectordel titular y el vector negativo. La polaridad del titular sera aquella cuyo vector de polaridad

5http://www.clef-campaign.org/

18

Page 26: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Positivas Negativaspositive negative

good badwin defeat

success disasterpeace warhappy sadhealthy sick

safe dangerous

Tabla 1.4: Palabras semillas usadas para crear los vectores de valencia.

tenga el mayor valor del coseno.

1.3.4. CLAC-NB

El sistema CLaC-NB (Andreevskaia and Bergler, 2007) utiliza el conocido clasificadorNaıve Bayes para anotar titulares de noticias con la polaridad. Para el entrenamiento requiereuna gran coleccion de titulares anotados manualmente para poder estimar las probabilidadesdel clasificador.

1.3.5. Thomas et al.

En (Thomas et al., 2006) se presenta un metodo para determinar si un orador esta afavor o en contra de un topico en un debate polıtico. Los autores explotan el hecho deque las intervenciones ocurren como parte de una discusion para descubrir relaciones entreellas. Usando esta informacion, presentan mejoras sustanciales con respecto al analisis de lasintervenciones de manera aislada. Adoptan un modelo basado en grafos de corte mınimo,balanceando de manera optima la clasificacion de intervenciones aisladas con informacionacerca de cuando o no es probable que pares de intervenciones tengan el mismo voto.

Sea s1, s2, ..., sn la secuencia de intervenciones en un debate anotadas con Y o N endependencia del voto que ofrece el orador hacia el topico en discusion, que puede ser a favor oen oposicion, respectivamente. Se construye un grafo, donde los nodos son las intervencionessi y se asume que algunas intervenciones estan conectadas mediante enlaces pesados. Lasrelaciones existentes entre las intervenciones se modelaron como enlaces “de acuerdo”. Elpeso str(l) del enlace l indica el grado al que se prefiere que estas intervenciones recibanla misma polaridad. Existen dos tipos de relaciones: relacion entre las intervenciones de unmismo orador y relacion “de acuerdo” entre diferentes oradores.

La primera relacion esta dada por la naturaleza del debate, donde un mismo orador puedeintervenir varias veces y se asume que no cambia su opinion durante todo el debate. Por tal

19

Page 27: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

motivo, se asume que las intervenciones de un mismo orador en un debate presentan el mismovoto (polaridad). A los enlaces que representan esta relacion se le asigna un peso str(l) =∞.

La segunda relacion tiene en cuenta que un orador puede estar de acuerdo con otro oradorpresente en el debate. El problema de identificar un enlace“de acuerdo”se descompone en dossubproblemas: identificar cuando un orador hace referencia a otro y decidir si esa referenciarepresenta una instancia “de acuerdo”. El corpus utilizado por los autores tiene etiquetadode forma explıcita esta referencia. Para resolver el segundo subproblema, emplean un clasi-ficador maquina de vectores de soporte (SVM, del ingles Support Vector Machine) (Boseret al., 1992) que clasifica las referencias en “de acuerdo” (misma polaridad) o “desacuerdo”(polaridades diferentes). Para ello, las referencias se representan como un vector booleanocuyas dimensiones son los terminos contenidos en una ventana de 8 palabras alrededor de lareferencia. Los pesos de los enlaces “de acuerdo” entre dos intervenciones si y sj se calculana partir de la distancia del vector que representa la referencia de si a sj al plano de decisionde la clase “de acuerdo” obtenido por el clasificador SVM.

Se asume, ademas, que los nodos del grafo tienen asociada una funcion no negativaind(si, C) que indica la preferencia de que un clasificador clasifique a si en la clase C. Paracalcular esta funcion se emplea otro clasificador SVM considerando a las intervenciones comovectores de terminos booleanos. El valor ind para cada intervencion s se calcula a partir de ladistancia d(s) entre el vector que representa a s y el plano de decision del clasificador SVM :

ind(s, Y ) =

1 si d(s) > 2σs;(1 + d(s)

2σs

)/2 si |d(s)| ≤ 2σs;

0 si d(s) < −2σs;

donde, σs es la desviacion estandar de d(s) sobre todas las intervenciones s en el debate encuestion e ind(s,N) = 1− ind(s, Y ). En los experimentos se utiliza SVM light6 para obtenerla clasificacion de las intervenciones, tratando a Y como la clase positiva y a N como la clasenegativa.

Una vez definido el grafo con todos sus pesos se aplica un algoritmo de corte mınimopara minimizar una funcion de costo y asignar a cada intervencion su polaridad. Entonces,la asignaciones de las clases C(s1), ..., C(sn) a las intervenciones s1, ..., sn tienen un costo de:

n∑i=1

ind(si, C(s)) +∑

s,s′:C(s) 6=C(s′)l between s, s’

str(l)

donde C(s) es la clase opuesta de C(s). Por tanto, una asignacion de mınimo costo representauna forma optima de clasificar las intervenciones tal que, cada una tiende a estar en la clase

6Disponible en svmlight.joachims.org

20

Page 28: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

que prefiere el clasificador y ademas, las intervenciones fuertemente relacionadas tienden apertenecer a la misma clase. En este metodo se aplica un algoritmo para encontrar el cortemınimo del grafo de las intervenciones usando esta funcion de optimizacion.

1.3.6. Bansal et al.

En (Bansal et al., 2008) se presenta una aproximacion similar a la de (Thomas et al.,2006) pero introduciendo, ademas, relaciones “de desacuerdo”.

Encontrar un corte mınimo en un grafo que contiene enlaces con pesos positivos y ne-gativos es un problema NP-difıcil (McCormick et al., 2003). Por tal motivo, representarlas relaciones “de acuerdo” y “de desacuerdo” con valores positivos y negativos se convierteen un problema computacionalmente intratable. En esta aproximacion se proponen variasheurısticas para representar la informacion “de desacuerdo” con enlaces pesados no negativoslogrando mantener polinomial la complejidad del algoritmo de corte mınimo.

En este metodo se define la funcion de preferencia ind y el peso str(si, sj) del enlace entrelas intervenciones si y sj a partir de las funciones descritas en (Thomas et al., 2006), lascuales se denotan aquı como ind′ y str′ respectivamente. Como funcion de costo utilizan:

n∑i=1

ind(si, C(si)) + α∑

i,j:C(si)=C(sj)

str(si, sj),

donde C(si) es la clase opuesta a C(si) y α regula la importancia de la informacion “deacuerdo”. Al igual que en (Thomas et al., 2006) se utiliza un algoritmo de corte mınimo engrafos. Para que este algoritmo pueda hallar el grafo de corte mınimo en tiempo polinomialteniendo en cuenta que existen relaciones “de desacuerdo” con valores negativos, es necesarioque tanto ind como str sean funciones no negativas. Para solucionar este problema en estaaproximacion se tienen en cuenta varias heurısticas:

1. Heurıstica Scale all up: En esta heurıstica se utiliza como estrategia aumentar elvalor de los pesos de los enlaces en una constante positiva lo suficientemente grandepara que todos los enlaces tengan valores no negativos:

ind(si, C) = ind′(si, C)

str(si, sj) = str′(si, sj) +N

2. Heurıstica SetTo: moviendose ordenadamente por los nodos s1, s2, . . . , si se encuentraun si tal que str′(si, sj) < 0 para algun j > i, se trata de forzar a las intervenciones si ysj a estar en diferentes clases alternando los cuatro valores de la funcion de preferenciaque afectan a estos dos nodos, es decir, ind′(si, Y ), ind′(si, N), ind′(sj, Y ), ind′(sj, N),esto es:

21

Page 29: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

ind(si, Y ) = max{β, ind′(si, Y )}ind(si, N) = mın{1− β, ind′(si, N)}ind(sj, Y ) = mın{1− β, ind′(sj, Y )}ind(sj, N) = max{β, ind′(sj, N)}

para alguna constante β ∈ (0.5, 1].

3. Heurıstica IncBy: es una version de la heurıstica anterior mas conservadora. Consisteen incrementar y decrementar los valores de preferencia individual de manera tal quesean preservados en vez de reemplazados totalmente por constantes fijas:

ind(si, Y ) = mın{1, ind′(si, Y ) + β}

ind(si, N) = max{0, ind′(si, N)− β}

ind(sj, Y ) = max{0, ind′(sj, Y )− β}

ind(sj, N) = mın{1, ind′(sj, N) + β}

Este metodo fue evaluado en la misma coleccion de (Thomas et al., 2006) obteniendopara algunas heurısticas (setTo, IncBy) mejores resultados y demostrandose la importanciade incorporar informacion “de desacuerdo”.

1.3.7. Burfoot

La aproximacion presentada por Burfoot (Burfoot, 2008) se basa en la propuesta por(Thomas et al., 2006), con la diferencia de que Burfoot tiene en cuenta , ademas, otros tiposde relaciones “de acuerdo”.

Una de ellas es la relacion “de acuerdo” entre oradores de un mismo partido. Esto se basaen la intuicion de que, por lo general, los oradores tienden a votar segun lo hace la mayorıa desu partido. Para clasificar el partido del orador en una intervencion se usa el metodo de cortemınimo en el grafo construido por (Thomas et al., 2006). Aquı en el calculo de la funcionde preferencia ind(s, Y ) se sutituyen las clases de polaridad por los partidos. El calculo delos pesos str(l) de los enlaces “de acuerdo” se realiza tambien de la misma manera que en(Thomas et al., 2006) pero el enlace“de acuerdo”, en lugar de representar la misma polaridad,representa la pertenencia al mismo partido.

El peso pstr(s, s′) de este tipo de referencia “de acuerdo” por partido se calcula como:

pstr(s, s′) =

{αp p(s) = p(s′);0 p(s) 6= p(s′)

22

Page 30: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

donde p(s) indica el partido en el que se clasifico al orador en la intervencion s y αp es unaconstante que representa la importancia que se le otorga a los enlaces entre intervencionescorrespondientes a oradores de un mismo partido.

La segunda es la relacion “de acuerdo” segun la similitud que se establece entre dosintervenciones si comparten el mismo vocabulario. Aquı, se asume que dos intervenciones dela misma polaridad contienen las mismas palabras para expresar la posicion del orador enel debate. Sea sim(s, s′) la similitud entre dos intervenciones (representadas como un vectorcon pesos TF-IDF) en un debate definida como la medida del coseno. El peso de este enlacese calcula como:

bstr(s, s′) =

{sim(s, s′) ∗ αb sim(s, s′) > 4σb;0 sim(s, s′) ≤ 4σb

donde σb es la desviacion estandar de sim(s, s′) sobre todas las intervenciones del debate yαb es una constante que representa la importancia que se le otorga a los enlaces de similitud.

Para la clasificacion de la polaridad se agrega al modelo presentado por (Thomas et al.,2006) estas dos nuevas relaciones “de acuerdo” de la siguiente forma:

∑s

ind(s, c(s)) +∑

s,s′:c(s)6=c(s′)

(pstr(s, s′) + bstr(s, s′) +

∑l between s, s’

str(l)

)

En la evaluacion del metodo se demuestra que al agregar la relacion “de acuerdo” entreoradores de un mismo partido se mejoran los resultados obtenidos por (Thomas et al., 2006)(79.67 vs. 80.50 en el conjunto de prueba, 81.77 vs. 85.07 en el conjunto de desarrollo);por el contrario, al agregar la relacion “de acuerdo” segun la similitud los resultados fueroninferiores. Nosotros consideramos que en la determinacion de la polaridad, una relacion desimilitud no tiene mucho sentido, ya que dos opiniones que contengan palabras en comun notienen por que tener la misma polaridad, por ejemplo, una de ellas puede estar negando a laotra usando practicamente las mismas palabras.

1.4. Resumen

A continuacion se resumen las principales caracterısticas de las aproximaciones descritasanteriormente. Para cada aproximacion se muestra la tecnica utilizada para abordar el pro-blema de la clasificacion de la polaridad, si es dependiente del dominio de conocimiento ydel idioma, los recursos externos utilizados, los principales rasgos usados como conocimientopara la clasificacion y los conjuntos donde fueron evaluadas.

23

Page 31: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Aproxim

acio

nT

ecnic

aD

om

inio

Idio

ma

Recu

rso

sR

asg

os

Evalu

acio

n

(Tu

rney

,2002)

Info

rmaci

on

Mutu

ay

Rec

up

eraci

on

de

Info

rmaci

on

No

-M

oto

rd

eB

usq

ued

a-

Reg

las

sinta

ctic

as

big

ram

as

Crı

tica

sd

eE

pin

ion

s

(Kam

ps

etal.,

2004)

Cam

ino

de

lon

gi-

tud

mın

ima

enu

ngra

fod

esi

non

imia

No

No

-W

ord

Net

Ad

jeti

vos

Lis

tad

eadje

tivos

an

ota

dos

por

(Tu

rney

an

dL

ittm

an

,2003)

(Kim

and

Hovy,

2004)

Pro

bab

ilıs

tica

No

No

-W

ord

Net

(top

ico,

enti

dad

,re

gio

n)

100

ora

cion

esex

traıd

as

del

cor-

pus

DU

C2001

etiq

uet

ad

as

ma-

nualm

ente

(Takam

ura

etal.,

2005)

Mod

elo

spin

sob

reu

ngra

fode

pala

-b

ras

No

No

-D

icci

on

ari

oP

ala

bra

sL

ista

de

pala

bra

set

iquet

adas

com

op

osi

tivas

yneg

ati

vas

por

(Takam

ura

etal.,

2005)

CL

AC

Basa

do

enre

gla

ssi

nta

ctic

as

No

-L

ista

de

ad

jeti

vos

(Hatz

ivass

iloglo

uan

dM

cKeo

wn

,1997)

-L

ista

de

pala

bra

sm

odifi

cadora

sd

ep

ola

rid

ad

-W

ord

Net

-G

ener

al

Inqu

irer

-R

egla

ssi

nta

ctic

as

Pala

bra

sT

itu

lare

sd

enoti

cias

UP

AR

7A

pro

xim

aci

on

lin

guıs

tica

basa

da

enre

gla

s

No

-W

ord

Net

Aff

ect

-S

enti

Word

Net

-R

egla

ssi

nta

ctic

as

-P

ala

bra

sm

od

ifica

dora

sd

ep

ola

rid

ad

-P

ala

bra

sin

ten

sifica

dora

s

Pala

bra

sT

itu

lare

sd

enoti

cias

(Bala

hur

etal.,

2009)

Ap

roxim

aci

on

lin

guıs

tica

No

-W

ord

Net

Aff

ect

-C

orp

us

ISE

AR

-P

ala

bra

sd

isp

ara

dora

sd

eem

oci

on

(Bala

hu

rand

Monto

yo,

2008a)

-C

orp

us

de

min

erıa

de

op

inio

nes

de

(Bala

hu

ran

dM

onto

yo,

2008b)

-P

ala

bra

sin

ten

sifica

dora

s

Pala

bra

sD

ebate

sp

olıti

cos

Tab

la1.

5:A

pro

xim

acio

nes

no

sup

ervis

adas

.

24

Page 32: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Aproxim

acio

nT

ecnic

aD

om

inio

Idio

ma

Recu

rso

sR

asg

os

Evalu

acio

n

(Hatz

ivass

iloglo

uan

dM

cKeo

wn,

1997)

Mod

elo

de

regre

-si

on

log-l

inea

lSı

-L

ista

de

ad

jeti

vos

an

ota

dos

manu

alm

ente

Con

jun

cion

esd

eadje

tivos

Lis

tade

ad

jeti

vos

SW

AT

Mod

elo

de

unig

ra-

mas

-T

esau

ro

-T

itula

res

de

noti

cias

an

ota

dos

manu

alm

ente

Pala

bra

sT

itu

lare

sd

enoti

cias

SIC

SM

od

elo

de

espaci

ovec

tori

al

No

-V

ecto

res

de

conte

xto

de

frec

uen

cias

de

ocu

rren

cia

ap

art

ird

eun

con

junto

de

docu

men

tos

Vec

tore

sen

un

es-

paci

ode

pala

bra

sT

itu

lare

sd

enoti

cias

CL

AC

-NB

Naıv

eB

ayes

No

-T

itula

res

de

noti

cias

an

ota

das

manu

alm

ente

Pala

bra

sT

itu

lare

sd

enoti

cias

(Th

om

as

etal.,

2006)

Mod

elo

basa

do

engra

fos

de

cort

em

ınim

o

No

-D

ebate

squ

ete

ngan

etiq

uet

ad

os

las

rela

cion

es(i

nte

rven

cion

esde

un

mis

mo

ora

dor,

refe

ren

cia

entr

eora

dore

s)

Gra

foco

nre

la-

cion

es“de

acu

erd

o”

Deb

ate

sp

olıti

cos

(Ban

sal

etal.,

2008)

Mod

elo

basa

do

engra

fos

de

cort

em

ınim

o

No

-D

ebate

squ

ete

ngan

etiq

uet

ad

os

las

rela

cion

es(i

nte

rven

cion

esde

un

mis

mo

ora

dor,

refe

ren

cia

entr

eora

dore

s)

Gra

foco

nre

la-

cion

es“de

acu

erd

o”

y“d

ed

esacu

erdo”

Deb

ate

sp

olıti

cos

(Burf

oot,

2008)

Mod

elo

basa

do

engra

fos

de

cort

em

ınim

o

No

-D

ebate

squ

ete

ngan

etiq

uet

ad

as

las

rela

cion

es(i

nte

rven

cion

esde

un

mis

mo

ora

dor,

refe

ren

cia

entr

eora

dore

s,re

fere

nci

aen

tre

ora

dore

sd

eun

mis

mo

part

ido)

Gra

foco

nre

la-

cion

es“de

acu

erd

o”

yd

esi

milit

ud

Deb

ate

sp

olıti

cos

Tab

la1.

6:A

pro

xim

acio

nes

sup

ervis

adas

.

25

Page 33: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Capıtulo 2

Descripcion del metodo propuesto

Como se expuso en el capıtulo anterior la clasificacion de la polaridad de las opinionesha sido abordada utilizando aproximaciones supervisadas y no supervisadas. Cada una deellas tiene sus ventajas y desventajas. Las aproximaciones supervisadas son dependientes deldominio de conocimiento, ya que necesitan de datos etiquetados a priori con la polaridad. Encambio, las aproximaciones no supervisadas generalmente pueden ser aplicadas a cualquierdominio de conocimiento pero dependen de recursos externos; en muchos casos es necesariala interaccion de varios recursos lo que conlleva a que sean dependientes del idioma.

La mayorıa de los trabajos existentes determinan la polaridad a nivel de palabras pero notienen en cuenta el contexto donde ella aparece. En la Minerıa de Opiniones las aproxima-ciones que tienen en cuenta el sentido correcto de una palabra se centran generalmente en laclasificacion de la subjetividad de las palabras (Wiebe and Mihalcea, 2006; Su and Markert,2008; Akkaya et al., 2009). Existen algunos trabajos que tratan de etiquetar la polaridadde diferentes sentidos de una mima palabra (Esuli and Sebastiani, 2006, 2007) pero, hastadonde conocemos, no existe ninguno que dado un texto determine la polaridad de una palabrateniendo en cuenta su sentido correcto en un contexto determinado.

En este trabajo se presenta un nuevo metodo no supervisado para la determinacion dela polaridad de las opiniones. Se basa en la hipotesis de que una misma palabra en contex-tos diferentes puede no presentar la misma polaridad. Por ejemplo, la palabra “drug” puedeser positiva o negativa en dependencia del contexto donde aparezca (“she takes drugs forher heart”, “to be on drugs”). Para demostrar la hipotesis, se utiliza un algoritmo de desam-biguacion del sentido de las palabras para obtener el sentido correcto de las palabras en laopinion y la polaridad de los sentidos se obtiene a partir de las anotaciones en SentiWordNety General Inquirer. Se tienen en cuenta, ademas, negaciones y otras palabras modificadorasde polaridad obtenidas del diccionario General Inquirer. Por las caracterısticas de los recur-sos utilizados, este metodo no depende del dominio de conocimiento y puede ser extendido aotros idiomas.

26

Page 34: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

2.1. Recursos

El metodo propuesto para la determinacion de la polaridad de las opiniones utiliza lossiguientes recursos: WordNet, SentiWordNet y un subconjunto del General Inquirer. Parauna mejor comprension del metodo se brinda a continuacion una breve descripcion de estosrecursos.

2.1.1. WordNet

WordNet (Miller et al., 1993) es una base de datos lexica disenada sobre la base de lasteorıas psicolinguısticas acerca del lexicon mental. En WordNet las palabras estan agrupadasen conjuntos de sinonimos (synsets). Cada synset esta provisto de un glosario que especificasu significado mediante una definicion que puede estar o no acompanada de ejemplos. Acontinuacion se muestran los diferentes synsets en los que interviene la palabra polisemicacomputer. Sus glosarios se encuentran encerrados entre parentesis.

synset#1{computer, computing machine, computing device, data processor,electronic computer, information processing system } – (a machinefor performing calculations automatically)

synset#2{calculator, reckoner, figurer, estimator, computer } – (an expert atcalculation (or at operating calculating machines))

Los synsets pueden estar conectados mediante relaciones semanticas (por ejemplo, hipero-nimia, hiponimia, inclusion, antonimia, meronimia, etc.). Algunos de los synsets relacionadosal primer sentido de la palabra computer son:

(hiperonimo) => {machine} – (any mechanical or electrical device that transmits ormodifies energy to perform or assist in the performance of humantasks)

(hiponimo) => {analog computer, analogue computer} – (a computer that repre-sents information by variable quantities (e.g., positions or voltages))

(meronimo) => {busbar, bus} – (an electrical conductor that makes a common con-nection between several circuits; ”the busbar in this computer cantransmit data either way between any two components of the system”)

Existen versiones de WordNet para varios idiomas (por ejemplo, espanol, italiano, frances,aleman, etc.). Cada una de ellas se encuentra interconectada con la version en ingles medianteun ındice interlinguıstico. Esto permite que los metodos que utilizan WordNet como recursoexterno sean independientes del idioma.

27

Page 35: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

2.1.2. SentiWordNet

SentiWordNet (Esuli and Sebastiani, 2006)1 es un recurso lexico creado para la Minerıade Opiniones. A cada synset de WordNet se le asigna tres valores de sentimiento: Positivo,Negativo y Objetivo, cuya suma es 1. Por ejemplo, el synset #3 del adjetivo happy ({felicitous,happy} - (marked by good fortune; “a felicitous life”; “a happy outcome”)) esta clasificado como:Positivo = 0.875, Negativo = 0.0 y Objetivo = 0.125.

Este recurso fue creado mediante una mezcla de tecnicas linguısticas y clasificadores es-tadısticos. Por ser construido semi-automaticamente todos los resultados no fueron validadosmanualmente, por lo que, algunas clasificaciones pueden ser incorrectas. Por ejemplo, el synset#1 del sustantivo flu ({influenza, flu, grippe} - (an acute febrile highly contagious viral dis-ease)) se clasifico como Positivo = 0.75, Negativo = 0.0, Objetivo = 0.25, a pesar de tenervarias palabras negativas en su glosario.

Dado que la suma de los valores asignados a un synset siempre es igual a 1 es posiblerepresentar estos valores en un triangulo cuyos vertices son los valores maximos posibles paralas tres dimensiones. La figura 2.1 muestra el modelo grafico para representar las anotacionesde un synset. En http://sentiwordnet.isti.cnr.it/browse/ se encuentra disponible una inter-faz que dada una palabra obtiene las anotaciones para todos sus sentidos y representa lainformacion usando dicho modelo.

Figura 2.1: Representacion grafica de SentiWordNet.

1http://sentiwordnet.isti.cnr.it/

28

Page 36: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Las tablas 2.1 y 2.2 muestran las anotaciones para algunos de los synsets de la palabrashort como verbo y como adjetivo, respectivamente.

P = 0, N = 0.75, O = 0.25

{short-change, short} – (cheat someone by not returninghim enough money)

P = 0, N = 0, O = 1

{short-circuit, short} – (create a short-circuit in)

Tabla 2.1: Representacion grafica de la anotacion de SentiWordNet para los synsets del verboshort.

P = 0, N = 0.375, O = 0.625

{short, shortsighted, unforesightful, myopic} – (lack-ing foresight or scope; “a short view of the problem”; “short-sighted policies”; “shortsighted critics derided the plan”; “my-opic thinking”)

P = 0, N = 0.75, O = 0.25

{short} – (low in stature; not tall; “his was short andstocky”; “short in stature”; “a short smokestack”)

P = 0, N = 0.125, O = 0.875

{short} – ((of memory) deficient in retentiveness or range;“a short memory”)

Tabla 2.2: Representacion grafica de la anotacion de SentiWordNet para algunos de los synsetsdel adjetivo short.

29

Page 37: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

2.1.3. General Inquirer

General Inquirer (GI) (Stone et al., 1966) es un diccionario en ingles que contiene in-formacion sobre las palabras; esto incluye etiquetas de categorıas como: positiva, negativa,negaciones, intensificadores, etc 2. Para el metodo propuesto se utilizaron las palabras eti-quetadas como positivas, negativas y negaciones (categorıas Positiv, Negativ y Negate enGI).

A partir de las categorıas Positiv y Negativ se contruyo una lista de palabras positi-vas y negativas respectivamente y de la categorıa Negate obtuvimos una lista de terminosmodificadores de polaridad.

Los modificadores de polaridad (valence shifters, en ingles) son terminos que puedencambiar la orientacion semantica de otro termino (por ejemplo, convertir un termino positivoen negativo, “This movie is not good”) (Kennedy and Inkpen, 2005). Ejemplo de terminosmodificadores de polaridad son: not, never, none y nobody.

Estas tres listas son pequenas y contienen palabras faciles de traducir a otro idioma. Estopermite que el metodo propuesto pueda ser adaptado a otros idiomas sin mucho esfuerzo.

2.2. Metodo

La arquitectura general del metodo de clasificacion de la polaridad que se propone semuestra en la Figura 2.2. Ella consta de dos componentes fundamentales: desambiguacionde las palabras presentes en la opinion y determinacion de la polaridad. La primera, dadauna opinion determina los sentidos correctos de sus terminos y la segunda, para cada palabradetermina su polaridad y a partir de ellas obtiene la polaridad de la opinion.

Figura 2.2: Esquema general del metodo de clasificacion de la opinion.

2Las definiciones de esas categorıas se encuentran disponibles en: http://www.webuse.umd.edu:9090/

30

Page 38: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

2.2.1. Desambiguacion del sentido de las palabras

La Desambiguacion del Sentido de las Palabras (Word Sense Disambiguation, en ingles)es una tarea intermedia del Procesamiento del Lenguaje Natural que consiste en determinarel sentido o significado correcto de una palabra teniendo en cuenta el contexto donde ellaocurre.

Primeramente, se realiza un pre-procesamiento del texto de las opiniones, eliminando laspalabras vacıas (stopwords en ingles, que son palabras que no tienen ningun contenido seman-tico) y lematizando el resto de las palabras mediante un analizador morfologico apropiadopara cada idioma. En nuestros experimentos con colecciones en ingles utilizamos el TreeTagger(Schmid, 1994).

Para la desambiguacion de las palabras presentes en la opinion utilizamos el metodopropuesto en (Anaya-Sanchez et al., 2007), el cual se basa en el agrupamiento como unaforma de identificar palabras relacionadas semanticamente. En (Martın-Wanton et al., 2007)se realizaron experimentos con varios algoritmos de desambiguacion pero (Anaya-Sanchezet al., 2007) obtiene mejores resultados. En este metodo de desambiguacion, los sentidos serepresentan como signaturas construidas a partir del repositorio de conceptos de WordNet.El algoritmo 1 ilustra los pasos para obtener el sentido correcto para cada palabra de unaoracion.

Algoritmo 1 Algoritmo de Desambiguacion del Sentido de las Palabras

Entrada: Conjunto finito W de lemas de las palabras de la oracion.

Salida: Sentidos correctos de las palabras

Sea S el conjunto de todos los sentidos de las palabras en W

repetirG = Estrellas Extendidas(S, β0)

G′ = Filtrado(G,W )

S = ∪g∈G′{s|s ∈ g}

hasta |S| = |W | o β0 = 1

retornar S

El proceso de desambiguacion comienza aplicando el algoritmo de agrupamiento Estre-llas Extendidas (Gil-Garcıa et al., 2003) sobre todos los posibles sentidos de las palabras dela oracion. Dicho agrupamiento intenta identificar grupos cohesivos de sentidos que supues-tamente representan diferentes significados para el conjunto de palabras. El algoritmo deagrupamiento trabaja sobre un grafo de β0-semejanza usando la medida de semejanza delcoseno entre las signaturas y el parametro de mınima semejanza β0. Luego, de los gruposformados se seleccionan aquellos que cubren a la mayor cantidad de palabras a desambiguary tengan mayor semejanza con el contexto. Este contexto se representa como un vector enel mismo espacio de las signaturas de sentidos y contiene a todas las palabras de la oracion,por lo que se puede usar la siguiente funcion para asignar un peso a cada grupo g:

31

Page 39: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

|words(g)|,

∑i

mın{gi, Ti}

mın{∑i

gi,∑i

Ti},−∑s∈g

number(s)

donde words(g) es el conjunto de palabras que tienen sentidos en g, g es el centroide de g,number(s) es el numero del sentido s de acuerdo a la palabra correspondiente en WordNet yT representa el contexto. Los grupos se ordenan lexicograficamente de manera descendentesegun los pesos obtenidos por la funcion anterior. Se seleccionan aquellos grupos que contienenal menos un sentido de una palabra que hasta el momento no haya sido cubierta.

Como resultado del proceso de filtrado se obtiene un conjunto de sentidos que contiene almenos un sentido para cada palabra de W (la union de todos los grupos seleccionados). Si esteconjunto desambigua a todas las palabras de W (es decir, existe un solo sentido para cadapalabra en el conjunto) entonces el proceso se detiene; en caso contrario, se realiza un nuevoagrupamiento del conjunto de sentidos obtenido (descartando a los sentidos de los grupos noseleccionados) aumentando el valor de β0. Este proceso se repite iterativamente mientras nose desambiguen todas las palabras o el parametro β0 no pueda ser aumentado.

2.2.2. Determinacion de la polaridad

Una vez obtenido el sentido correcto para cada palabra, el metodo determina su polaridadde acuerdo a los valores de sentimiento que tiene ese sentido en SentiWordNet y teniendo encuenta ademas, si la palabra pertenece a las categorıas Positiv y Negativ de GI. Es importantemencionar que la polaridad de una palabra cambia a la clase opuesta si tiene como precedenteun modificador de polaridad (VS); estos modificadores se obtienen de la categorıa Negate enGI. Finalmente, la polaridad de la opinion se determina por los votos de las palabras positivasy negativas que contiene.

Resumiendo, para cada palabra w y su sentido correcto s, sus votos Positivo (P (w)) yNegativo (N(w)) se calculan como:

P(w) =

Valor positivo de s en SentiWN +1 si w pertenece a la categorıa Positiv de GI

Valor positivo de s en SentiWN en caso contrario

N(w) =

Valor negativo de s en SentiWN +1 si w pertenece a la categorıa Negativ de GI

Valor negativo de s en SentiWN en caso contrario

Notese que para calcular el voto Positivo (Negativo) de una palabra no se tiene en cuentasolamente el valor Positivo (Negativo) en SentiWordNet del sentido con que fue desambigua-da, sino ademas su pertenencia a la categorıa Positiv (Negativ) de GI. Esto, aunque parece un

32

Page 40: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

poco contradictorio, se debe a que, como se explico en el epıgrafe 2.1.2 algunas clasificacionesen SentiWordNet pueden ser incorrectas y de esta forma se trata de que este problema afectemenos a la clasificacion.

Finalmente, el voto global positivo y negativo para la opinion (Sp, Sn) se calculan como:

Sp =∑

w:P (w)>N(w)

P (w)

Sn =∑

w:N(w)>P (w)

N(w)

Si Sp es mayor que Sn entonces la opinion se considera positiva. Por el contrario, si Sp esmenor que Sn la opinion es negativa. Finalmente, si Sp es igual a Sn entonces la opinion seconsidera neutral.

2.3. Ejemplos

Ilustraremos el funcionamiento del metodo en dos titulares de noticias de la coleccion dela tarea No. 14 Affective Text de SemEval 2007 (los detalles de esta tarea pueden verse en elepıgrafe 2.4.2.1).

2.3.1. Ejemplo de opinion clasificada como negativa

Consideremos la siguiente opinion:

Titular (id #551): “Storms kill, knockout power, cancel flights.”

Primeramente se realiza el analisis morfologico de la oracion. Se eliminan las palabrasvacıas y para el resto de las palabras se obtiene su lema y la categorıa gramatical (n-sustantivo,v-verbo, a-adjetivo):

{storm#n, kill#v, knockout#a, power#n, cancel#v, flight#n}

Luego, se aplica el metodo de desambiguacion y se obtienen los siguientes sentidos. Paracada sentido se muestra la palabra, su categorıa gramatical, el numero del sentido y su glosarioen WordNet.

Como se puede observar el sentido con que fue desambiguada la palabra cancel no es de

33

Page 41: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

storm#n#1 Ô storm, violent storm – (a violent weather condition with winds 64-72 knots (11 on the Beaufort scale) and precipitation and thunderand lightening)

kill#v#5 Ô kill – (be fatal; “cigarettes kill”; “drunken driving kills”)knockout#a#1 Ô hard, knockout, severe – (very strong or vigorous; “strong winds”;

“a hard left to the chin”; “a knockout punch”; “a severe blow”)power#n#1 Ô power, powerfulness – (possession of controlling influence; “the de-

terrent power of nuclear weapons”; “the power of his love saved her”;“his powerfulness was concealed by a gentle facade”)

cancel#v#4 Ô cancel, delete – (remove or make invisible; “Please delete my namefrom your list”)

flight#n#9 Ô flight – (a scheduled trip by plane between designated airports; “Itook the noon flight to Chicago”)

todas sus asepciones3 la correcta para este contexto. Hasta el momento no existe unalgoritmo de desambiguacion que obtenga una precision perfecta, por lo que este tipo deerror constituye un lastre para la clasificacion de la polaridad.

Una vez obtenido el sentido correcto para cada palabra de la oracion se determina lapolaridad de cada una a partir de los valores Positivo y Negativo de cada sentido en SentiWNy de las categorıas Positiv y Negativ de GI (ver tabla 2.3). Ası, se obtiene para cada palabra:

P(storm)=0 N(storm)=0.125+1P(kill)=0 N(kill)=0+1P(knockout)=0.375 N(knockout)=0+1P(power)=0 N(power)=0P(cancel)=0 N(cancel)=0+1P(flight)=0 N(flight)=0

En la tabla 2.3 se evidencia que las anotaciones de SentiWordNet no son las adecuadasen todos los casos. Por ejemplo, el sentido kill#v#5 tiene valor negativo 0 aun cuando ensu glosario esta claro que deberıa tener una polaridad negativa muy fuerte. Por su parte, elsentido knockout#a#1 se considera que contiene cierta carga positiva pero nada de negati-va; como se puede observar en su glosario, este sentido aunque en algunos contextos puedeaparecer como positivo tambien pudiera ser negativo, como es el caso de esta oracion. Comomencionamos anteriormente, este problema trata de atenuarse considerando ademas la infor-macion de las categorıas Positiv y Negativ del GI.

3cancel#v#1 =>{cancel, call off} – (postpone indefinitely or annul something that was scheduled; “cancel the dinner party”)

cancel#v#2 =>{cancel, offset, set off} – (make up for; “His skills offset his opponent’s superior strength”)

cancel#v#3 =>{cancel, strike down }– (declare null and void; make ineffective; “Cancel the election results”)

cancel#v#4 =>{delete, cancel }– (remove or make invisible; “Please delete my name from your list”)

cancel#v#5 =>{cancel, invalidate} – (of cheques or tickets)

34

Page 42: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Sense SentiWN GIValor Positivo Valor Negativo Positiv Negativ

storm#n#1 0 0.125 no sıkill#v#5 0 0 no sı

knockout#a#1 0.375 0 no sıpower#n#1 0 0 no nocancel#v#4 0 0 no sıflight#n#9 0 0 no no

Tabla 2.3: Anotaciones de los recursos externos usados en el ejemplo 2.3.1.

Luego,

Sp = 0 y Sn = 1.125+1+1+1 = 4.125

Por tanto, la opinion se clasifica como negativa.

2.3.2. Ejemplo de opinion clasificada como positiva

Consideremos la siguiente opinion:

Titular (id #765): “Philippine president welcomes Senate approval of anti terror bill.”

Primeramente se realiza el analisis morfologico de la oracion. Se eliminan las palabrasvacıas y para el resto de las palabras se obtiene su lema y la categorıa gramatical (n-sustantivo,v-verbo, a-adjetivo):

{philippine#a, president#n, welcome#v, senate#n, approval#n, anti#a, terror#n, bill#n}

Se aplica el metodo de desambiguacion y se obtienen los siguientes sentidos. Para cadasentido se muestra la palabra, su categorıa gramatical, el numero del sentido y su glosario enWordNet.

philippine#a#1 Ô Filipino, Philippine – (of or relating to or characteristic ofthe Philippines or its people or customs; “the Philippine Pres-ident”; “our Filipino cook”)

president#n#3 Ô president – (the chief executive of a republic)welcome#v#1 Ô welcome – (accept gladly; “I welcome your proposals”)senate#n#1 Ô senate – (assembly possessing high legislative powers)approval#n#4 Ô approval, commendation – (a message expressing a favorable

opinion; “words of approval seldom passed his lips”)anti#a#1 Ô anti – (not in favor of (an action or proposal etc.))terror#n#2 Ô terror, scourge, threat – (a person who inspires fear or dread;

“he was the terror of the neighborhood”)bill#n#1 Ô bill, measure – (a statute in draft before it becomes law; “they

held a public hearing on the bill”)

35

Page 43: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Una vez obtenido el sentido correcto para cada palabra de la oracion se determina lapolaridad de cada una a partir de los valores Positivo y Negativo de cada sentido en SentiWNy de las categorıas Positiv y Negativ de GI (ver tabla 2.4). Note que, en este caso, la palabraanti se trata como un modificador de polaridad por lo que afecta la polaridad de la palabraterror. Ası, se obtiene para cada palabra:

P(philippine)=0 N(philippine)=0P(president)=0 N(president)=0P(welcome)=0+1 N(welcome)=0P(senate)=0 N(senate)=0P(approval)=0.25+1 N(approval)=0.25P(terror)=0+1 N(terror)=0P(bill)=0 N(bill)=0

Sense SentiWN GIValor Positivo Valor Negativo Positiv Negativ

philippine#a#1 0 0 no nopresident#n#3 0 0 no nowelcome#v#3 0 0 sı nosenate#n#1 0 0 no no

approval#n#4 0.25 0.25 sı noterror#n#2 0 0 no sıbill#n#1 0 0 no no

Tabla 2.4: Anotaciones de los recursos externos usados en el ejemplo 2.3.2.

Note que el sentido approval#n#4 se encuentra anotado en SentiWordNet con el mismovalor positivo que negativo (0.25). Sin embargo, el glosario correspondiente a este sentidoexpresa un sentimiento muy positivo. Como esta palabra pertenece a la categorıa Positiv deGI el error se corrige al aumentar en 1 el voto positivo de la palabra. Otro error muy obviose puede observar en la anotacion para el sentido terror#n#2.

Luego,

Sp = 1+1.25+1 = 3.25 y Sn = 0

Por tanto, la opinion se clasifica como positiva.

2.4. Experimentacion

Evaluamos nuestro metodo en dos corpus de referencia: Task #14: Affective Text deSemEval 2007 (Strapparava and Mihalcea, 2007) y convote (Thomas et al., 2006). Se esco-gieron estos dos corpus con el objetivo principal de evaluar el metodo propuesto en dominios

36

Page 44: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

de conocimiento distintos. Ademas, cada uno presenta caracterısticas intrınsecas al tipo deopinion, lo que permite evaluar el impacto de diferentes factores sobre el metodo propuesto.

Se realizaron varios experimentos. Primeramente, se analizaron diferentes caracterısticasdel corpus convote. Luego, para ambos corpus se evaluo el impacto de diferentes elementosen el metodo propuesto y finalmente, se presenta la comparacion con los resultados obtenidospor otros sistemas.

2.4.1. Medidas de evaluacion de la calidad

Para evaluar los resultados se utilizaron las medidas de evaluacion tradicionales en unatarea de clasificacion: Relevancia, Precision, Accuracy y F1:

Relevancia =V P

V P + FN

Precision =V P

V P + FP

Accuracy =V P

numero total de opiniones

donde VP es el numero de opiniones clasificadas correctamente (verdaderos positivos), FPes el numero de opiniones clasificadas incorrectamente (falsos positivos) y FN es el numerode errores por omision (falsos negativos).

F1 es la media armonica entre la Precision y la Relevancia. Esto es:

F1 =2 ∗ Precision ∗RelevanciaPrecision+Relevancia

Estas medidas pueden aplicarse sobre una clase o de manera global.

2.4.2. Descripcion de los corpus

2.4.2.1. SemEval

El objetivo de la Tarea No. 14: Affective Text de SemEval 2007 es anotar titulares denoticias con emociones (anger, disgust, fear, joy, sadness y surprise) y con la polaridad(positiva, negativa o neutra). Como nuestro metodo determina la polaridad de la opinion seconsideraron solamente las anotaciones de la polaridad.

Este corpus consiste en 1000 titulares de noticias obtenidos de periodicos como el NewYork Times, CNN y BBC News. Cada titular esta anotado con un valor de polaridad que

37

Page 45: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

se encuentra en el intervalo [-100,100], donde 0 representa un titular neutro, -100 un titularaltamente negativo y 100 corresponde a un titular altamente positivo. La tabla 2.5 muestrala cantidad de titulares clasificados en cada una de las clases y la tabla 2.6 presenta unapequena muestra del corpus.

Polaridad Cantidad de TitularesPositivo 155Negativo 255Neutro 590

Tabla 2.5: Estadısticas del corpus de SemEval.

ID Titular Polaridad500 Test to predict breast cancer relapse is approved 32501 Two Hussein allies are hanged, Iraqi official says -48502 Sights and sounds from CES 26503 Schuey sees Ferrari unveil new car 40504 Closings and cancellations top advice on flu outbreak -6505 Trucks swallowed in subway collapse -67506 Sarkozy letter surprises French cartoons hearing 14507 Building a memorial to a son, one child at a time -9508 Lawmaker seeks iPod ban in crosswalks in New York -15509 Diabetic waits months for eyeglasses -32510 Sudan tells United Nations envoy to leave in 72 hours -34511 5000 years on but couple still hugging 61512 Defense to challenge Russert’s credibility -6513 Ozzy, a Hero for the hard-rocking masses 34514 CIA leak trial summary -23515 Dance movie takes over No. 1 63516 Asian nations urge Myanmar reform 14517 After Iraq trip, Clinton proposes war limits 38518 7 dead in apartment building fire -86519 Male sweat boosts women’s hormone levels 18520 Carphone Warehouse’s mixed signals -2

Tabla 2.6: Muestra del corpus de la Tarea No. 14: Affective Text de SemEval 2007.

Los titulares tıpicamente son escritos por personas creativas con la intencion de“provocar”emociones y consecuentemente atraer la atencion de los lectores. Estas caracterısticas, hacenque este tipo de texto pueda ser procesado por un sistema de minerıa de opiniones paradeterminar las emociones que provocan y su polaridad. Pero, el hecho de que los titularessuelen ser muy cortos plantea retos considerables para los sistemas automaticos debido a laescasez de sentimiento: a veces, la decision sobre el sentimiento que expresa el titular tieneque estar basada en solo una palabra y el costo de cualquier error es muy alto.

38

Page 46: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Para la evaluacion de los sistemas participantes en esta tarea se calcula el Accuracy (Acc)teniendo en cuenta todas las clases (Positiva, Negativa y Neutra); en cambio, la Precision(Prec) y la Relevancia (Rec) no tienen en cuenta la clase Neutra.

2.4.2.2. Convote

Convote se construyo a partir de la informacion de GovTrack 4, un sitio web que recopiladatos publicos sobre las medidas legislativas y actividades de recaudacion de fondos de loscongresistas de Estados Unidos. Este corpus de debates polıticos se encuentra disponible enla web5 y fue creado en diciembre del 2006. Para su construccion se procesaron las transcrip-ciones de las intervenciones de los debates para el ano 2005.

Cada documento en el corpus es una intervencion ininterrumpida de un orador. Estosdocumentos estan etiquetados con el identificador del debate, el orador, el partido al quepertenece, el orden de la intervencion y el voto correspondiente a ese debate (si esta deacuerdo con el tema del debate el voto es Y (yes) y si no esta de acuerdo el voto es N (no)).Por ejemplo, el documento 055 400144 1031004 DON.txt se refiere a la intervencion enel debate 055 del orador con identificador 400144 que pertenece al partido Democrata (D),cuyo voto es No (N) y es la 4ta intervencion en ese debate (004). 1031 es el identificador dela pagina donde se encuentra el debate en el sitio GovTrack. Un mismo orador puede tenervarias intervenciones en un debate.

Los debates estan divididos en tres conjuntos: el conjunto de entrenamiento, el conjuntode prueba y el conjunto de desarrollo. La tabla 2.7 muestra las estadısticas para cada uno deestos conjuntos.

Total Entrenamiento Prueba DesarrolloIntervenciones 3857 2740 860 257Debates 53 38 10 5Promedio de intervenciones por debates 72.8 72.1 86.0 51.4Promedio de oradores por debate 32.1 30.9 41.1 22.6Prom. de interv. por orador en un debate 2.27 2.33 2.09 2.27

Tabla 2.7: Estadısticas del corpus convote en la tercera version.

El corpus tiene tres versiones o etapas. En la primera version se encuentran todas las in-tervenciones. En la segunda, se eliminan las intervenciones que contienen la palabra “amend-ment”, ya que, segun los autores, estas intervenciones generalmente reflejan la opinion deun orador en una enmienda y esta puede diferir de su opinion sobre los proyectos de leyen discusion. La tercera version mantiene los mismos documentos de la segunda eliminandolas intervenciones cuyo unico objetivo es darle la palabra a otro orador presente en el de-

4http://govtrack.us5http://www.cs.cornell.edu/home/llee/data/convote.html

39

Page 47: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

bate (por ejemplo, “Madam Speaker, I am pleased to yield 5 minutes to the gentleman fromMassachusetts.”), ya que, claramente, estas intervenciones estan fuera del tema.

Este corpus es muy atractivo por su dominio de aplicacion. De manera general, el discursopolıtico es un dominio que es de interes para la mayorıa de las personas y ha sido estudiadoen varias disciplinas academicas, ciencias polıticas, economıa, periodismo, etc. Con el granauge de los blogs polıticos es de considerable valor contar con metodos o herramientas quepermitan realizar analisis del sentimiento en las opiniones dadas en estos debates.

A diferencia del corpus de SemEval, convote presenta varias caracterısticas especiales,algunas de ellas dificultan en mayor medida la determinacion de la polaridad. Por ejemplo,los textos son mas grandes, todas las intervenciones de un debate abordan un mismo topico,existen intervenciones de oradores que expresan oposicion (apoyo) a la opinion de otro y noal topico en discusion, un orador puede cambiar de opinion durante el debate, existen inter-venciones carentes de sentimiento o que presentan argumentos que no abordan directamenteal topico en cuestion, etc.

La otra diferencia es que las anotaciones no contemplan las opiniones neutrales. Por talmotivo, se toma la clase mayoritaria (positiva) como polaridad cuando el metodo propuestono logra una decision, es decir, existe empate en el voto Positivo y Negativo.

Para la evaluacion del metodo en este corpus se calcula la Precision, la Relevancia y elF1 tanto para la categorıa Positiva (Rpos, Ppos, F1pos) como para la Negativa (Rneg, Pneg,F1neg) y el F1 global (F1). Note que, en este caso, el F1 global coincide con la Relevancia yla Precision globales, ya que el metodo tiene una cobertura del 100 %.

2.4.3. Experimentos sobre el corpus convote

2.4.3.1. Impacto de clasificar a nivel de orador y de intervencion

Teniendo en cuenta las caracterısticas del corpus convote (formado por debates dondelos oradores intervienen varias veces defendiendo su opinion respecto al tema en cuestion)evaluamos nuestro metodo atendiendo a dos niveles de clasificacion: a nivel de intervenciony a nivel de orador.

En la clasificacion de la polaridad a nivel de intervencion se considera como opinion cadaintervencion ininterrumpida de un orador, es decir, un documento en el corpus. En el caso dela clasificacion a nivel de orador se considera una opinion como la union de las intervencionesde un mismo orador en un debate. Esto ultimo, asume que un orador mantiene en el debateel mismo voto hacia el topico en discusion.

40

Page 48: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Las tablas 2.8, 2.9 y 2.10 muestran los resultados obtenidos en la clasificacion de lapolaridad a nivel de intervencion y a nivel de orador en cada una de las versiones del corpus.

Ppos Pneg Rpos Rneg F1pos F1neg F1Clasificacion por intervencion

Desarrollo 0.60 0.53 0.67 0.45 0.64 0.49 0.59Entrenamiento 0.58 0.53 0.73 0.39 0.64 0.45 0.57Prueba 0.55 0.51 0.69 0.35 0.61 0.41 0.53

Clasificacion por orador

Desarrollo 0.66 0.52 0.52 0.62 0.58 0.57 0.60Entrenamiento 0.63 0.61 0.63 0.59 0.63 0.60 0.62Prueba 0.59 0.65 0.65 0.51 0.62 0.62 0.63

Tabla 2.8: Clasificacion por intervencion y por orador en la version 1.

Ppos Pneg Rpos Rneg F1pos F1neg F1Clasificacion por intervencion

Desarrollo 0.61 0.58 0.75 0.31 0.67 0.47 0.6Entrenamiento 0.58 0.52 0.75 0.34 0.65 0.41 0.57Prueba 0.57 0.44 0.72 0.28 0.64 0.34 0.53

Clasificacion por orador

Desarrollo 0.64 0.57 0.58 0.61 0.61 0.59 0.65Entrenamiento 0.61 0.63 0.65 0.57 0.63 0.60 0.62Prueba 0.70 0.65 0.68 0.70 0.69 0.67 0.68

Tabla 2.9: Clasificacion por intervencion y por orador en la version 2.

Como se puede notar, en el caso de la clasificacion a nivel de intervencion la deteccion deintervenciones negativas obtiene valores muy bajos de relevancia y F1 en las tres versiones delcorpus. Esto se debe en parte a que la cantidad de palabras negativas con respecto al totalde palabras en cada intervencion es muy pequena. Por el contrario, la clasificacion a nivelde orador obtiene mejor valor de F1 global en los tres conjuntos (Desarrollo, Entrenamientoy Prueba), notandose una mejora significativa de los resultados de la deteccion de opinionesnegativas a pesar de que decrece la relevancia de las positivas. Estos resultados se deben aque en este corpus todas las intervenciones de un orador en un debate estan anotadas con elmismo voto, por lo que al unir estas intervenciones y considerarlas como una sola se tiendea cometer menos errores.

Se puede concluir que la clasificacion a nivel de orador obtiene mejores resultados, portanto, de aquı en adelante se tendra en cuenta este tipo de clasificacion. Es importante senalar

41

Page 49: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Ppos Pneg Rpos Rneg F1pos F1neg F1Clasificacion por intervencion

Desarrollo 0.63 0.58 0.65 0.55 0.64 0.56 0.61Entrenamiento 0.62 0.54 0.68 0.48 0.64 0.50 0.59Prueba 0.67 0.45 0.65 0.51 0.66 0.48 0.59

Clasificacion por orador

Desarrollo 0.61 0.57 0.53 0.73 0.60 0.64 0.66Entrenamiento 0.64 0.63 0.64 0.62 0.64 0.63 0.63Prueba 0.71 0.65 0.67 0.72 0.69 0.68 0.69

Tabla 2.10: Clasificacion por intervencion y por orador en la version 3.

que esto solamente tiene sentido en colecciones que constituyan debates y que ademas, susoradores no cambian de opinion en el transcurso de estos.

2.4.3.2. Diferencias entre las tres versiones del corpus convote

Como se explico anteriormente existen tres versiones del corpus convote. En la primeraversion se encuentran todas las intervenciones; en la segunda, se eliminan las intervencionesque contienen la palabra “amendment” y en la tercera version se eliminan, ademas, las in-tervenciones que contengan la palabra “yield”. Con el objetivo de corroborar que este tipode intervenciones afectan la clasificacion correcta de las opiniones en el debate evaluamos elmetodo en cada una de las versiones. La tabla 2.11 resume los resultados mostrados en lastablas 2.8, 2.9 y 2.10 para la clasificacion por orador.

Ppos Pneg Rpos Rneg F1pos F1neg F1Primera version

Desarrollo 0.66 0.52 0.52 0.62 0.58 0.57 0.60Entrenamiento 0.63 0.61 0.63 0.59 0.63 0.60 0.62Prueba 0.59 0.65 0.65 0.51 0.62 0.62 0.63

Segunda version

Desarrollo 0.64 0.57 0.58 0.61 0.61 0.59 0.65Entrenamiento 0.61 0.63 0.65 0.57 0.63 0.60 0.62Prueba 0.70 0.65 0.68 0.70 0.69 0.67 0.68

Tercera version

Desarrollo 0.61 0.57 0.53 0.73 0.60 0.64 0.66Entrenamiento 0.64 0.63 0.64 0.62 0.64 0.63 0.63Prueba 0.71 0.65 0.67 0.72 0.69 0.68 0.69

Tabla 2.11: Clasificacion en las tres versiones del corpus convote.

Como se puede observar, los resultados obtenidos en la segunda version con respectoa los de la primera son mejores, demostrando que, efectivamente, las intervenciones que

42

Page 50: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

contienen la palabra “amendment” afectan la clasificacion correcta de la polaridad. Este tipode intervencion, por lo general, refleja la opinion de un orador acerca de una ley que nonecesariamente esta incluida en el proyecto que se esta discutiendo en el debate, por lo quepor ejemplo, el orador puede referirse a ella de manera negativa siendo positivo su voto haciael debate.

Igualmente, sobre todo en la clasificacion de las intervenciones negativas, se nota unamejora en los resultados obtenidos en la tercera version. Las intervenciones que contienenla palabra “yield” son puramente procedurales e insustanciales para la clasificacion pues,generalmente, constan de una sola oracion y no transmiten ningun tipo de sentimiento.

Por tal motivo, a partir de este momento todas las evaluaciones se realizan sobre la terceraversion del corpus convote.

2.4.4. Impacto de distintos factores del metodo

2.4.4.1. Impacto de la desambiguacion

Para demostrar el impacto de la desambiguacion comparamos los resultados obtenidos pornuestro metodo y los resultados de un metodo basado solamente en la presencia de palabraspositivas y negativas del GI en la opinion (metodo basado en GI).

Para determinar la polaridad de la opinion, el metodo basado en GI solamente tiene encuenta la lista de palabras positivas y negativas (categorıas Positiv y Negativ de GI) y laspalabras modificadoras de polaridad. Si la cantidad de palabras positivas es mayor que lacantidad de palabras negativas, entonces la opinion es positiva; si es menor, la opinion esnegativa. Finalmente, si tiene la misma cantidad de palabras positivas y negativas, en el casodel corpus de SemEval la opinion es neutra y en el caso del corpus convote se aplica una reglaheurıstica basada en la clase mayoritaria.

Como se puede observar en las tablas 2.12 y 2.13 el metodo propuesto obtiene resultadossignificativamente mejores que el metodo basado solamente en GI.

Acc Prec Rec F1Metodo basado en GI 31.2 31.2 66.38 42.43Metodo propuesto 44.3 37.66 72.11 49.41

Tabla 2.12: Comparacion del metodo propuesto con el metodo basado en GI en el corpus deSemEval.

Se debe senalar que, en el caso del corpus de SemEval (tabla 2.12), el metodo propuesto de-tecta una mayor cantidad de titulares positivos y negativos (mejor relevancia), comete pocoserrores (mejor precision) y detecta mayor cantidad de titulares neutros (mejor accuracy).

En el caso del corpus convote (tabla 2.13), el comportamiento es similar. Se mejora sus-tancialmente la deteccion de opiniones negativas, tanto en cantidad como en calidad (mayor

43

Page 51: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Ppos Pneg Rpos Rneg F1pos F1neg F1Metodo basado en GI

Desarrollo 0.58 0.48 0.83 0.22 0.68 0.21 0.58Entrenamiento 0.54 0.51 0.92 0.17 0.68 0.25 0.55Prueba 0.54 0.28 0.87 0.08 0.66 0.12 0.52

Metodo Propuesto

Desarrollo 0.61 0.57 0.53 0.73 0.60 0.64 0.66Entrenamiento 0.64 0.63 0.64 0.62 0.64 0.63 0.63Prueba 0.71 0.65 0.67 0.72 0.69 0.68 0.69

Tabla 2.13: Comparacion del metodo propuesto con el metodo basado en GI en el corpusconvote.

relevancia y precision negativa), se cometen menos errores en la clasificacion de las positivas(mayor precision positiva) aunque, se detectan menos positivas (baja la relevancia positiva),pero, de manera general, el metodo propuesto obtiene mejores resultados (mayor F1 global).

Los resultados obtenidos confirman nuestra hipotesis de que es de gran importancia uti-lizar la desambiguacion del sentido de las palabras para la determinacion de la polaridad.

2.4.4.2. Impacto de utilizar el General Inquirer

Como se discutio en el epıgrafe 2.1.2 y se evidencio en los ejemplos presentados en estecapıtulo (ver epıgrafes 2.3.1 y 2.3.2) las anotaciones de SentiWordNet para algunos sentidosson incorrectas. El metodo propuesto trata de solucionar este problema aumentando en 1 elvoto Positivo (Negativo) de una palabra si esta pertenece a la categorıa Positiv (Negativ)de GI. La tabla 2.14 muestra anotaciones incorrectas de SentiWordNet para algunos de lossentidos con que se desambiguaron palabras del corpus de SemEval y ademas, muestra lapertenencia de esta palabra a las categorıas de GI.

Con el objetivo de medir el impacto de usar las categorıas de GI en el voto de las palabras,evaluamos nuestro metodo usando solamente la informacion de SentiWordNet, es decir, el votoPositivo (Negativo) de una palabra es el valor positivo (negativo) en SentiWordNet del sentidocon que fue desambiguada. Las tablas 2.15 y 2.16 muestran la comparacion de los resultadosobtenidos por el metodo basado solamente en SentiWordNet (Metodo con SentiWordNet) ylos resultados del metodo propuesto (Metodo Propuesto (SWN+GI)).

De manera general, el metodo propuesto obtiene mejores resultados en los dos corpus,reduciendo los errores en la clasificacion debido a los problemas de las anotaciones de Senti-WordNet. En el caso del conjunto de prueba del corpus convote los resultados obtenidos sonligeramente inferiores, debido a la alta incidencia que tienen los bajos valores de precision yrelevancia obtenidos en la clase Negativa del metodo basado solo en GI (ver tabla 2.13 delepıgrafe 2.4.4.1).

44

Page 52: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Sentido Descripcion del sentido SentiWN[+,-]

GI[+,-]

hope#n#4 hope – (someone (or something) on which expectationsare centered; “he was their best hope for a victory”)

[0.0, 0.5] [1, 0]

revive#v#5 come to, revive, resuscitate – (return to consciousness;“The patient came to quickly”; “She revived after thedoctor gave her an injection”)

[0.0, 0.0] [1, 0]

comfort#n#1 comfort, comfortableness – (a state of being relaxedand feeling no pain; “he is a man who enjoys his com-fort”; “she longed for the comfortableness of her arm-chair”)

[0.0, 0.5] [1, 0]

war#n#1 war, warfare – (the waging of armed conflict againstan enemy; “thousands of people were killed in the war”)

[0.0 , 0.0] [0, 1]

pledge#n#3 pledge, toast – (a drink in honor of or to the health ofa person or event)

[0.0 , 0.0] [1, 0]

enemy#n#1 enemy – (an opposing military force; “the enemy at-tacked at dawn”)

[0.0 , 0.0] [0, 1]

kill#v#5 kill – (be fatal; “cigarettes kill”; “drunken driving kills”) [0.0 , 0.0] [0, 1]congestion#n#1 congestion – (excessive accumulation of blood or other

fluid in a body part)[0.0 , 0.0] [0, 1]

Tabla 2.14: Ejemplo de anotaciones de SentiWordNet y GI.

Ppos Pneg Rpos Rneg F1pos F1neg F1Metodo con SentiWordNet

Desarrollo 0.61 0.54 0.65 0.43 0.63 0.48 0.61Entrenamiento 0.61 0.57 0.68 0.55 0.64 0.56 0.61Prueba 0.74 0.68 0.68 0.72 0.71 0.61 0.71

Metodo Propuesto (SWN+GI)

Desarrollo 0.61 0.57 0.53 0.73 0.60 0.64 0.66Entrenamiento 0.64 0.63 0.64 0.62 0.64 0.63 0.63Prueba 0.71 0.65 0.67 0.72 0.69 0.68 0.69

Tabla 2.15: Comparacion del metodo propuesto con el metodo basado en GI en el corpusconvote.

Acc Prec Rec F1Metodo con SentiWordNet 29.1 25.06 55.12 34.45Metodo propuesto 44.3 37.66 72.11 49.41

Tabla 2.16: Comparacion del metodo propuesto con el metodo basado en GI en el corpus deSemEval.

45

Page 53: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

No obstante, consideramos que en el futuro deben estudiarse otros metodos para reducirel impacto de las malas anotaciones de SentiWordNet, pues el peso asignado a las listaspositivas y negativas de GI puede resultar excesivo e introducir errores adicionales.

2.4.4.3. Impacto de utilizar palabras objetivas

Algunas palabras en dependencia del contexto donde aparezcan pueden presentar una car-ga positiva y/o negativa, pero, no se puede dejar de considerar que tambien pueden presentarcierta naturaleza objetiva. Esto se ve reflejado en los sentidos anotados en SentiWordNet,donde un mismo sentido puede tener valores mayores que cero en las tres categorıas (Positi-vo, Negativo y Objetivo).

Hasta el momento, el metodo propuesto ignora el grado de objetividad del sentido deuna palabra y determina su polaridad considerando solo los valores de las categorıas Positivoy Negativo. Para evaluar el impacto de esta decision se evaluo el metodo considerando lastres categorıas, es decir, si el maximo valor de un sentido se corresponde con la categorıaObjetivo, esta palabra no influye en la determinacion de la polaridad (Metodo propuesto +objetivo). Las tablas 2.17 y 2.18 muestran los resultados obtenidos.

Ppos Pneg Rpos Rneg F1pos F1neg F1Metodo Propuesto + objetivo

Desarrollo 0.69 0.56 0.52 0.73 0.59 0.63 0.65Entrenamiento 0.60 0.62 0.61 0.61 0.61 0.62 0.62Prueba 0.69 0.66 0.66 0.74 0.67 0.61 0.61

Metodo Propuesto

Desarrollo 0.61 0.57 0.53 0.73 0.60 0.64 0.66Entrenamiento 0.64 0.63 0.64 0.62 0.64 0.63 0.63Prueba 0.71 0.65 0.67 0.72 0.69 0.68 0.69

Tabla 2.17: Evaluacion discriminando palabras con sentidos objetivos en el corpus convote.

En el caso de la evaluacion sobre el corpus convote, el uso de la informacion de la categorıaObjetivo de SentiWordNet provoca una reduccion de la calidad, sobre todo en el conjuntode Prueba (ver tabla 2.17).

Acc Prec Rec F1Metodo propuesto + objetivo 55.6 38.54 18.05 24.58Metodo propuesto 44.3 37.66 72.11 49.41

Tabla 2.18: Evaluacion discriminando palabras con sentidos objetivos en el corpus SemEval.

En el caso del corpus de SemEval la clasificacion teniendo en cuenta la anotacion dela objetividad de los sentidos afecta significativamente la relevancia, es decir, clasifica a lamayorıa de las opiniones como objetivas y por ello se obtiene ademas, un valor artificialmente

46

Page 54: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

alto del Accuracy. Este comportamiento se debe fundamentalmente a las caracterısticas deeste corpus, donde las opiniones son oraciones compuestas por pocas palabras. Descartar laspalabras que tienen cierto grado de positividad o negatividad, aunque ellas sean mayormenteobjetivas, afecta la clasificacion de la opinion. En este caso, la clasificacion muchas vecesdepende de una sola palabra.

A pesar de que pudiera parecer contradictorio el hecho de ignorar el grado de objetividaddel sentido de una palabra, los resultados demuestran que no es tan ası. A pesar de queuna palabra puede tener una alta carga objetiva, posee, ademas, cierto grado de positividad(negatividad) dependiendo del contexto donde ella ocurre. Por ejemplo, la palabra full conel sentido: entire, full, total – (constituting the full quantity or extent; complete; “an entiretown devastated by an earthquake”; “gave full attention”; “a total failure”) esta clasificado enSentiWordNet como: Positivo = 0.375, Negativo = 0.125 y Objetivo = 0.50.

Como nuestro metodo se basa en la polaridad de las palabras de modo independiente(unigramas), el considerar el grado de positividad (negatividad) de una palabra netamenteobjetiva contribuye de cierta forma a contemplar los casos en que segun el contexto dondeella ocurre aporte sentimientos positivos (negativos).

2.4.4.4. Impacto de los modificadores de polaridad

Los resultados mostrados en las tablas 2.19 y 2.20 se corresponden con la evaluacion delmetodo propuesto variando el alcance de las palabras modificadoras de polaridad sobre elcorpus convote y SemEval, respectivamente. En estas tablas 0 VS significa que el metodose evaluo sin modificadores de polaridad; 1 VS, 2 VS y Todas VS representa el alcance delmodificador de polaridad afectando solo a una palabra a la derecha, dos palabras y todas laspalabras hasta el final de la oracion, respectivamente.

Para el corpus convote se obtuvieron mejores resultados afectando solamente a la primerapalabra. Suponemos que esto se deba a que, no necesariamente son sintacticamente depen-dientes de la negacion las palabras de la oracion con una distancia mayor que uno con respectoal modificador de polaridad. Note que, para cualquiera de las variantes del alcance del modi-ficador de polaridad (1 VS, 2 VS y Todas VS) se obtienen mejores resultados que sin usarlo(0 VS). Esto demuestra que no se puede clasificar una palabra de manera individual; esnecesario tener en cuenta la interaccion con otros elementos del discurso, en este caso, losmodificadores de polaridad.

Por su parte, en el corpus de SemEval no se obtienen diferencias significativas en los resul-tados cuando se usan o no modificadores de polaridad. Esto ocurre debido a las caracterısticaspropias de este corpus, donde las opiniones son muy cortas y, ademas, contiene pocos titu-lares con modificadores de polaridad resultando difıcil observar el verdadero impacto de estefactor.

47

Page 55: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Ppos Pneg Rpos Rneg F1pos F1neg F1Metodo Propuesto + 0 VS

Desarrollo 0.63 0.52 0.53 0.61 0.58 0.56 0.61Entrenamiento 0.61 0.64 0.66 0.59 0.64 0.62 0.63Prueba 0.59 0.52 0.57 0.57 0.58 0.54 0.57

Metodo Propuest + 1 VS

Desarrollo 0.61 0.57 0.53 0.73 0.60 0.64 0.66Entrenamiento 0.64 0.63 0.64 0.62 0.64 0.63 0.63Prueba 0.71 0.65 0.67 0.72 0.69 0.68 0.69

Metodo Propuesto + 2 VS

Desarrollo 0.71 0.60 0.55 0.71 0.61 0.62 0.65Entrenamiento 0.62 0.64 0.64 0.62 0.63 0.63 0.63Prueba 0.61 0.55 0.55 0.64 0.58 0.59 0.59

Metodo Propuesto + Todas VS

Desarrollo 0.64 0.52 0.58 0.78 0.59 0.60 0.61Entrenamiento 0.65 0.51 0.56 0.69 0.58 0.55 0.60Prueba 0.62 0.48 0.47 0.64 0.53 0.55 0.56

Tabla 2.19: Evaluacion del alcance del VS en el corpus convote.

Acc Prec Rec F1Metodo propuesto + 0 VS 44.4 37.79 72.44 49.67Metodo propuesto + 1 VS 44.3 37.66 72.11 49.41Metodo propuesto + 2 VS 44.3 37.66 72.11 49.41Metodo propuesto + Todos VS 44.2 37.58 71.95 49.37

Tabla 2.20: Evaluacion del alcance del VS en el corpus SemEval.

2.4.5. Comparacion del metodo con otros sistemas

2.4.5.1. Comparacion con los sistemas participantes en SemEval

Finalmente, se comparo el metodo propuesto con los sistemas participantes en la TareaNo. 14 de SemEval 2007 (ver tabla 2.21).

En esta competicion, los sistemas no supervisados CLaC y UPAR7, tienen una relevanciamuy baja y una precision alta, indicando que muy pocos titulares (aproximadamente 35 de410) se clasificaron como positivos y negativos. En estos metodos, la mayorıa de los titularesse clasificaron como neutrales, evidenciandose en el valor artificialmente alto del accuracy.Esto se debe al desbalanceo de las clases en el corpus (ver tabla 2.5).

Por otra parte, los sistemas supervisados (excepto el SWAT, que obtiene resultados muymalos) muestran un comportamiento diferente con respecto a los sistemas no supervisados:presentan una relevancia alta y baja precision. Estos sistemas detectan una mayor cantidad

48

Page 56: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

de titulares positivos y negativos, pero muchos de los neutros estan mal clasificados, por loque obtienen un accuracy bajo.

Acc Prec Rec F1Metodos no supervisados

ClaC 55.10 61.42 9.20 16.00UPAR7 55.00 57.54 8.78 15.24Metodo propuesto 44.3 37.66 72.11 49.41

Metodos supervisadosSWAT 53.20 45.71 3.42 6.36CLaC-NB 31.20 31.18 66.38 42.43SICS 29.00 28.41 60.17 38.60

Tabla 2.21: Comparacion del metodo propuesto con los sistemas participantes en SemEvaltarea No. 14.

Como se puede observar, el metodo propuesto mejora los resultados tanto de los sis-temas supervisados como de los no supervisados. Note que obtiene el mejor valor de F1 yde relevancia y, ademas, logra valores aceptables de precision y accuracy. Por tanto, pode-mos concluir que nuestro metodo presenta un comportamiento mas balanceado, es decir, secomporta bastante bien en las tres clases: positiva, negativa y neutra.

2.4.5.2. Comparacion con los sistemas que utilizan el corpus convote

En la literatura la mayorıa de las aproximaciones que se han evaluado sobre el corpusconvote son supervisadas (Thomas et al., 2006; Bansal et al., 2008; Burfoot, 2008). En nuestroconocimiento existe una sola no supervisada (Balahur et al., 2009), la cual, como mencionamosen el epıgrafe 1.2.7 depende de varios recursos externos construidos ad-hoc y es dependientedel idioma.

La tabla 2.22 muestra los resultados obtenidos por el metodo propuesto y el metodo de(Balahur et al., 2009) evaluados en la segunda version del corpus convote. La diferencia massignificativa se puede observar en la relevancia negativa y esta es la causa principal de que losvalores de F1 global no sean mayores. Sin embargo, en algunos casos nuestro metodo tiene unmejor comportamiento, por ejemplo, en el conjunto de prueba se alcanzan mayores valores deprecision tanto positiva como negativa y de relevancia positiva y, ademas, la diferencia entrela relevancia negativa y el F1 global no es tan significativa como en los otros dos conjuntos.Aquı, es necesario destacar que dos de los recursos utilizados por el metodo de (Balahur et al.,2009) fueron construidos por los mismos autores, por lo que no existe seguridad de que paraconstruirlos utilizaran algun tipo de conocimiento propio del corpus.

Por otra parte, en la tabla 2.23 se muestran los valores de accuracy obtenidos por lasaproximaciones supervisadas en la tercera version del corpus convote. A pesar de que es-tas aproximaciones, precisamente, por disponer de datos de entrenamiento logran un mejordesempeno, los resultados alcanzados por nuestro metodo son alentadores.

49

Page 57: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Ppos Pneg Rpos Rneg F1(Balahur et al., 2009)

Desarrollo 0.71 0.60 0.63 0.87 0.73Entrenamiento 0.69 0.61 0.63 0.86 0.72Prueba 0.70 0.60 0.62 0.87 0.73

Metodo Propuesto

Desarrollo 0.64 0.57 0.58 0.61 0.65Entrenamiento 0.61 0.63 0.65 0.57 0.62Prueba 0.70 0.65 0.68 0.70 0.68

Tabla 2.22: Comparacion del metodo propuesto con el metodo no supervisado (Balahur et al.,2009) en el corpus convote.

Desarrollo Prueba(Thomas et al., 2006) 89.11 70.81(Burfoot, 2008) - 77.40(Bansal et al., 2008) 85.07 80.50Metodo propuesto 63.00 69.00

Tabla 2.23: Comparacion del metodo propuesto con los metodos supervisados en el corpusconvote.

50

Page 58: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Conclusiones

En este trabajo se ha presentado un metodo para la determinacion de la polaridad de lasopiniones que es independiente del dominio del conocimiento. Su novedad mas importanteradica en el uso de la desambiguacion del sentido de las palabras como base para la determi-nacion de la polaridad de las palabras presentes en una opinion. El metodo propuesto se basaen los recursos externos SentiWordNet y General Inquirer. Estos recursos permiten que elmetodo pueda ser extendido facilmente a otros idiomas, utilizando las versiones de WordNetcomo repositorios de conceptos y obteniendo la polaridad correspondiente en SentiWordNetutilizando el ındice que relaciona a esas versiones.

El metodo se evaluo en dos colecciones de dominios diferentes: SemEval y convote. En elanalisis realizado acerca del impacto de diversos factores en la determinacion de la polaridadse demostro que:

La desambiguacion del sentido de las palabras de una opinion repercute favorablementeen la determinacion de su polaridad.

Al incluir la informacion de las listas Positiv y Negativ de GI se reducen los errores enla clasificacion de la polaridad debido a las anotaciones incorrectas de SentiWordNet.

Tener en cuenta el grado de positividad (negatividad) de una palabra objetiva con-tribuye a la determinacion correcta de la polaridad.

El tratamiento de los modificadores de polaridad mejora los resultados de la clasifi-cacion. En particular, afectar la polaridad de la palabra siguiente al modificador es unaheurıstica sencilla que logra obtener buenos resultados.

De manera general, los resultados obtenidos en ambos corpus son alentadores teniendo encuenta el caracter no supervisado del metodo y la dificultad inherente de la tarea. Particu-larmente, en el corpus de SemEval se logro superar tanto a los sistemas supervisados como alos no supervisados.

Como trabajo futuro se pretende:

Probar o construir recursos alternativos para la deteccion de la polaridad. En muchoscasos el metodo no clasifica correctamente debido a los errores en las anotaciones de

51

Page 59: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

SentiWordNet. Esto se debe principalmente a que este recurso no fue construido ma-nualmente sino usando clasificadores.

Tener en cuenta de que trata el topico de la opinion. Hasta el momento, una de lasprincipales dificultades de la mayorıa de los metodos existentes para la determinacionde la polaridad es que no tienen en cuenta de que trata el topico en discusion. Lasopiniones sobre un topico que expresa un sentimiento negativo no pueden ser tratadasde la misma forma que opiniones sobre un topico que exprese sentimiento positivo. Porejemplo, para los topicos: “Esta guerra asesina a ninos inocentes” y “Esta guerra liberaa ninos inocentes” una opinion con lenguaje negativo resultarıa ser positiva al primertopico pero no al segundo.

Tener en cuenta solamente las regiones de la opinion que expresan sentimientos acercadel topico principal de la opinion. Dentro de una opinion se pueden encontrar refe-rencias o senalamientos a cuestiones que no son el topico principal y estas se puedenexpresar con sentimientos opuestos al sentimiento que se esta defendiendo realmente enla opinion. Por ejemplo, la clasificacion de una opinion que expresa de manera generalsentimientos positivos hacia la Ley de Seguridad Social se puede ver afectada si en ellase menciona la mala calidad de la comida en el mercado.

Tener en cuenta otras unidades lexicas. Nuestro metodo se basa solamente en unigramaspara determinar la polaridad de una opinion. Sin embargo, existen unigramas que porsı solos no expresan ningun sentimiento, pero al ser analizados en conjunto con otro uotros unigramas pueden expresar cierto sentimiento o incluso, un sentimiento totalmentediferente que al analizarlos de manera independiente. Por ejemplo, el bigrama “fuegosartificiales” se emplea generalmente en contextos que tratan sobre festejos; sin embargo,si se realiza un analisis a nivel de unigramas se tendrıa “fuegos” y “artificiales” comopalabras independientes y, claramente, la palabra “fuego” por sı sola no implica ninguntipo de celebracion.

52

Page 60: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Bibliografıa

C. Akkaya, J. Wiebe, and R. Mihalcea. Subjectivity word sense disambiguation. In Proceed-ings of the 2009 Conference on Empirical Methods in Natural Language Processing, pages190–199, Singapore, 2009. Association for Computational Linguistics.

H. Anaya-Sanchez, A. Pons-Porrata, and R. Berlanga-Llavori. Tkb-uo: Using sense cluster-ing for wsd. In Proceedings of the 4th International Workshop on Semantic Evaluations(SemEval-2007), pages 322 – 325, Prague, Czech Republic, 2007. Association for Compu-tational Linguistics.

A. Andreevskaia and S. Bergler. Mining wordnet for a fuzzy sentiment: Sentiment tag ex-traction from wordnet glosses. In Proceedings EACL-06, the 11rd Conference of the Eu-ropean Chapter of the Association for Computational Linguistics, pages 209–216, Trento,IT, 2006a. Association for Computational Linguistics.

A. Andreevskaia and S. Bergler. Semantic tag extraction from wordnet glosses. In 5thConference on Language Resources and Evaluation, Genova, IT, 2006b.

A. Andreevskaia and S. Bergler. Clac and clac-nb: Knowledge-based and corpus-based ap-proaches. In Proceedings of the 4th International Workshop on Semantic Evaluations(SemEval-2007), pages 117–120, Prague, Czech Republic, 2007. Association for Compu-tational Linguistics.

A. Balahur and A. Montoyo. An incremental multilingual approach to forming a culturedependent emotion triggers database. In Proceedings of the 8th International Conferenceon Terminology and Knowledge Engineering (TKE 2008), Copenhagen, 2008a.

A. Balahur and A. Montoyo. Multilingual feature–driven opinion mining and summarizationfrom customer reviews. In E. Kapetanios, V. Sugumaran, and M. Spiliopoulou, editors,Lecture Notes in Computer Science, volume 5039, pages 345–346, Berlin, Heidelberg, 2008b.13th International Conference on Natural Language and Information Systems, Springer-Verlag.

A. Balahur, Z. Kozareva, and A. Montoyo. Determining the polarity and source of opinionsexpressed in political debates. In A. Gelbukh, editor, Lecture Notes In Computer Science,

53

Page 61: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

volume 5449, pages 468 – 480. Proceedings of the 10th International Conference on Com-putational Linguistics and Intelligent Text Processing, Springer-Verlag, Berlin, Heidelberg,2009.

M. Bansal, C. Cardie, and L. Lee. The power of negative thinking: Exploiting label dis-agreement in the min-cut classification framework. In Proceedings of COLING: Compan-ion volume: Posters, pages 15–18, Manchester, UK, August 2008. Coling 2008 OrganizingCommittee.

B. E. Boser, I. M. Guyon, and V. N. Vapnik. A training algorithm for optimal marginclassifiers. In Proceedings of the 5th Annual ACM Workshop on Computional LearningTheory, pages 144–152, Pittsburgh, PA, EE.UU, 1992. ACM.

C. Burfoot. Using multiple sources of agreement information for sentiment classification ofpolitical transcripts. In Proceedings of the Australasian Language Technology AssociationWorkshop 2008, pages 11–18, Hobart, Australia, 2008.

F. Chaumartin. Upar7: A knowledge-based system for headline sentiment tagging. In Proceed-ings of the 4th International Workshop on Semantic Evaluations (SemEval-2007), pages450–453, Prague, Czech Republic, 2007. Association for Computational Linguistics.

A. Esuli and F. Sebastiani. Sentiwordnet: A publicly available lexical resource for opinionmining. In Fifth international conference on Language Resources and Evaluation (LREC2006), pages 417–422, 2006.

A. Esuli and F. Sebastiani. Pageranking wordnet synsets: An application to opinion mining. InProceedings of the Association for Computational, pages 424–431. Association for ComputerLinguistics, 2007.

R. Gil-Garcıa, J. M. Badıa-Contelles, and A. Pons-Porrata. Extended star clustering algo-rithm. In A. Sanfeliu and J. Ruiz-Shulcloper, editors, Lecture Notes in Computer Sciences,volume 2905, pages 480–487. 8th Iberoamerican Congress on Pattern Recognition (CIA-RP), Springer-Verlag, 2003.

V. Hatzivassiloglou and K. R. McKeown. Predicting the semantic orientation of adjectives.In Proceedings of ACL-97, 35th Annual Meeting of the Association for ComputationalLinguistics, pages 174–181, Madrid, ES, 1997. Association for Computational Linguistics.

M. Hu and B. Liu. Mining opinion features in customer reviews. In Proceedings of the Nine-teenth National Conference on Artificial Intelligence, pages 755–760, San Jose, California,2004. AAAI Press.

X. Jin, Y. Li, T. Mah, and J. Tong. Sensitive webpage classification for content advertising.In Proceedings of the International Workshop on Data Mining and Audience Intelligencefor Advertising, pages 28–33, San Jose, California, USA, 2007. ACM.

54

Page 62: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

J. Kamps, M. Marx, R. Mokken, and M. de Rijke. Using wordnet to measure semanticorientation of adjectives. In Proceedings of LREC-04, 4th International Conference onLanguage Resources and Evaluation, pages 1115–1118, Lisbon, PT, 2004.

P. Katz, M. Singleton, and R. Wicentowski. Swat-mp: the semeval-2007 systems for task 5and task 14. In Proceedings of the 4th International Workshop on Semantic Evaluations(SemEval-2007), pages 336–341, Prague, Czech Republic, 2007. Association for Computa-tional Linguistics.

A. Kennedy and D. Inkpen. Sentiment classification of movie and product reviews usingcontextual valence shifters. Computational Intelligence, 22(2):110–125, 2005.

S. Kim and E. Hovy. Determining the sentiment of opinions. In Proceedings COLING-04,the Conference on Computational Linguistics, page 1367, Geneva, CH, 2004. Associationfor Computational Linguistics.

T. Martın-Wanton, H. Anaya-Sanchez, and A. Pons-Porrata. Un esquema de recuperacionde conceptos para describir colecciones de textos. In Actas del V Congreso Nacional deReconocimiento de Patrones, pages 1–10, 2007.

Y. Matsumoto, A. Kitauchi, T. Yamashita, Y. Hirano, H. Matsuda, K. Takaoka, and M. Asa-hara. Japanese morphological analysis system. version 2.2.1, 2002.

S. T. McCormick, M. R. Rao, and G. Rinaldi. Easy and difficult objective functions for maxcut. Mathematical Programming, Series B(94):459–466, 2003.

G. A. Miller, R. Beckwith, C. Fellbaum, D. Gross, and K. Miller. Introduction to wordnet:An on-line lexical database. International Journal of Lexicography, 3(4):235–244, 1993.

S. Morinaga, K. Yamanishi, K. Tateishi, and T. Fukushima. Mining product reputations onthe web. In Proceedings of the Eighth ACM SIGKDD Conference on Knowledge Discoveryand Data Mining (KDD), pages 341–349, Edmonton, Alberta, Canada, 2002. ACM.

M. Nishio, E. Iwabuchi, and S. Mizutani. Iwanami Japanese Dictionary. Iwanami-shoten,5th edition, 1994.

P. Over. Introduction to duc-2001: An intrinsic evaluation of generic news text summarizationsystems. In Proceedings of the Document Understanding Conferences (DUC 2001), NewOrleans, LA, USA, 2001.

A. Popescu and O. Etzioni. Extracting product features and opinions from reviews. In Pro-ceedings of the Human Language Technology Conference and the Conference on EmpiricalMethods in Natural Language Processing (HLT/EMNLP), pages 339 – 346, Vancouver,British Columbia, Canada, 2005. Association for Computational Linguistics.

55

Page 63: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

M. Sahlgren, J. Karlgren, and G. Eriksson. Sics: Valence annotation based on seeds inword space. In Proceedings of the 4th International Workshop on Semantic Evaluations(SemEval-2007), pages 296–299, Prague, Czech Republic, 2007. Association for Computa-tional Linguistics.

K. Scherer and H.G. Wallbott. The isear questionnaire and codebook, 1997.

H. Schmid. Probabilistic part-of-speech tagging using decision trees. In Conference on NewMethods in Language Processing, pages 44–49, 1994.

E. Spertus. Smokey: Automatic recognition of hostile messages. In Proceedings of the Con-ference on Innovative Applications of Artificial Intelligence, pages 1058–1065, Menlo Park,CA, 1997. AAAI Press.

P. J. Stone, D. C. Dunphy, M. S. Smith, and D. M. Ogilvie. The general inquirer: A computerapproach to content analysis. The American Journal of Sociology, 73(5):634–635, 1966.

C. Strapparava and R. Mihalcea. Semeval-2007 task 14: Affective text. In Fourth InternationalWorkshop on Semantic Evaluations (SemEval-2007), pages 70–74, Prague, Czech Republic,June 2007. Association for Computational Linguistics.

F. Su and K. Markert. From words to senses: A case study in subjectivity recognition. InProceedings of the 22nd International Conference on Computational Linguistics (Coling2008), pages 825–832, Manchester, 2008. ACL.

H. Takamura, T. Inui, and M. Okumura. Extracting emotional polarity of words using spinmodel. In Proceedings of ACL-05, 43rd Annual Meeting of the Association for Computa-tional Linguistics, pages 133–140, Ann Arbor, US, 2005. Association for ComputationalLinguistics.

J. Tatemura. Virtual reviewers for collaborative exploration of movie reviews. In ProceedingsofIntelligent User Interfaces (IUI), pages 272–275, New Orleans, LA, USA, 2000. ACM.

L. Terveen, W. Hill, B. Amento, D. McDonald, and J. Creter. Phoaks: A system for sharingrecommendations. Communications of the Association for Computing Machinery (CACM),40(3):59–62, 1997.

Thesaurus.com. Roget’s New Millennium Thesaurus, volume 1.3.1. Lexico Publishing Group,LLC, 1st edition, 2007. http://thesaurus.reference.com.

M. Thomas, B. Pang, and L. Lee. Get out the vote: Determining support or opposition fromcongressional floor-debate transcripts. In Conference on Empirical Methods on NaturalLanguage Processing (EMNLP), pages 327–335, Syndney, Australia, July 2006. Associationfor Computational Linguistics.

R. M. Tong. An operational system for detecting and tracking opinions in on-line discussions.In Working Notes of the ACM SIGIR 2001 Workshop on Operational Text Classification,pages 1–6, New York, NY, 2001. ACM.

56

Page 64: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

P. Turney. Thumbs up or thumbs down?: semantic orientation applied to unsupervisedclassification of reviews. In Proceedings of the 40th Annual Meeting on Association forComputational Linguistics, pages 417–424, Morristown, NJ, USA, 2002. Association forComputational Linguistics.

P. Turney and M. Littman. Measuring praise and criticism: Inference of semantic orientationfrom association. ACM Transactions on Information Systems, 21(4):315–346, 2003.

J. Wiebe and R. Mihalcea. Word sense and subjectivity. In Proceedings of the 21st In-ternational Conference on Computational Linguistics and the 44th annual meeting of theAssociation for Computational Linguistics, pages 1065–1072, Sydney, Australia, 2006. As-sociation for Computational Linguistics.

57

Page 65: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

Anexo I: Palabras clasificadas como negaciones en GI(VS)

incredibility

discontent

untold

don’t

invariable

unfair

innumerable

undue

not

unclear

won’t

invariably

unfavorable

unchecked

undisputed

uneven

negation

unfinished

informal

unrealistic

unemployment

unhappy

implausibility

unsteadiness

unpleasant

dislike

indecisiveness

unprecedented

dispute

non

uncontested

untrue

dissimilar

involuntary

unreal

discontinue

none

unhurried

unprepared

unimportant

cannot

infallible

unsureness

implausible

disadvantageous

unjustified

unrestricted

nor

disadvantage

anti

infrequent

sans

ceaseless

unnecessary

indisputable

noiseless

unpredictable

undone

unstable

instability

disorder

disorganized

unaware

mean

sleepless

insignificant

indecision

intangible

displeasure

counteract

irrefutable

irresistible

unlimited

unbound

disbelief

incompatible

invulnerable

unavoidable

unable

disprove

incompatibility

neither

nullification

untrustworthy

unquestioned

indecisive

unsure

unconscious

never

inseparable

undo

incalculable

untouched

discount

matchless

invisible

unimpeachable

undependable

undetermined

irregular

uneasy

inexpensive

disavow

unreliable

unknown

insufficient

can’t

incontestability

Page 66: M etodo para la determinaci on de la polaridad de las ... · A mi suegra, que aunque la tengo un poco lejos no dejo se sentir el profundo amor de madre que siente por m . A mis eternos

undid

unauthentic

unsoundness

irresponsible

inexplicable

improbable

unsound

unexpected

unspecified

unsuccessful

negate

impossible

indefinite

unusual

impatience

insecurity

unequivocal

least

unassured

unreliability

unjust

unchanged

unbroken

nonspecific

nobody

inexact

uncommon

ain’t

unequal

undoubtedly

account

uncertain

unlike

indescribable

invincible

unfailing

unwillingness

unmistakable

instable

unfit

contrary

aversion

indistinct

unconditional

unlikely

unsatisfactory

uncertainty

uncomfortable

inadequate

improbability

inaccessible

disapprove

counteraction

incontestable

unlikelihood

lull

unwise

indifferent

indirect

unforgettable

incorrect

unwavering

afraid

incredible

rather

indistinguishable

unquestionable

unlucky

unfortunate

unwilling

unbelievable

disavowal

opposite

disagreement

insecure

nullify

undaunted

discomfort

unqualified

nothing

inconceivable

unselfish

undecided

disagreeable

discourage

undependability

undefined

vice

undeniable

unmitigated

no

impossibility

incapable

unleash

inability

contradictory

undoubted

irregularity

incomplete

unsteady

59