tarea 1 del taller neges 2018: gu as de anotaci onceur-ws.org/vol-2174/paper1.pdf · se presentan...

8
Tarea 1 del Taller NEGES 2018: Gu´ ıas de Anotaci´ on NEGES 2018 Task 1: Annotation Guidelines Salud Mar´ ıa Jim´ enez-Zafra 1 , Noa P. Cruz D´ ıaz 2 , Roser Morante 3 , Mar´ ıa Teresa Mart´ ın-Valdivia 1 1 SINAI, Centro de Estudios Avanzados en TIC (CEATIC), Universidad de Ja´ en {sjzafra, maite}@ujaen.es 2 Savana M´ edica, Madrid [email protected] 3 CLTL Lab, Computational Linguistics, VU University Amsterdam [email protected] Resumen: En este trabajo se presenta la tarea 1 del taller NEGES 2018, taller de NEGaci´ on en ESpa˜ nol, celebrado como parte de la XXXIV edici´on del Congreso Internacional de la Sociedad Espa˜ nola para el Procesamiento del Lenguaje Natural. El objetivo de esta tarea es llegar a un acuerdo sobre las directrices a seguir para la anotaci´ on de la negaci´ on en textos escritos en espa˜ nol con el fin de poder desarrollar sistemas capaces de procesar este fen´ omeno. Palabras clave: Negaci´ on, directrices de anotaci´ on, NEGES 2018, SEPLN Abstract: This paper presents task 1 of NEGES 2018, Workshop on Negation in Spanish, held as part of the XXXIV edition of the International Conference of the Spanish Society for Natural Language Processing. The objective of this task is to reach an agreement on the guidelines to follow for the annotation of negation in Spanish texts in order to develop negation processing systems. Keywords: Negation, annotation guidelines, NEGES 2018, SEPLN 1 Introducci´on La negaci´ on es un elemento ling¨ ıstico cla- ve en muchas aplicaciones relacionadas con el Procesamiento del Lenguaje Natural (PLN), como el an´ alisis de sentimientos (Liu, 2012) o la recuperaci´ on de informaci´ on (B¨ uttcher, Clarke, y Cormack, 2010), ya que su presen- cia en una oraci´ on puede cambiar totalmente su significado (Horn, 1989). En un sistema de an´ alisis de opiniones, la valoraci´on de una pel´ ıcula deber´ ıa ser totalmente diferente si los espectadores dicen “La pel´ ıcula me gust´ o mu- cho” que si dicen “La pel´ ıcula no me gust´ o nada”. Un sistema de recuperaci´on de infor- maci´ on como Google deber´ ıa devolver dife- rentes resultados ante las consultas “pel´ ıcu- las que no sean de aventuras” y “pel´ ıculas que sean de aventuras”, pero no es as´ ı. Al escu- char estas frases, las personas somos capaces de diferenciar el significado de cada una de ellas porque tenemos asimilado el concepto de negaci´ on. Si queremos que un sistema sea capaz de ello, es necesario ense˜ narle c´ omo de- tectar la presencia de marcadores de negaci´ on en una oraci´ on y c´omo identificar su ´ ambito de influencia, es decir, cu´ ales son las palabras cuyo significado se est´ a viendo modificado. Hasta ahora, la mayor parte de la investi- gaci´ on sobre la negaci´ on se ha realizado sobre textos en ingl´ es. Sin embargo, la presencia de otros idiomas en Internet, entre los que se encuentra el espa˜ nol, es cada vez mayor. Por ello, este taller tiene como objetivo avanzar en el estudio de la negaci´ on en espa˜ nol, ya que es una lengua bastante compleja en la que aparte de los mecanismos habituales de negaci´ on, se utiliza tambi´ en la doble nega- ci´ on. La negaci´ on no s´ olo se emplea para de- cir NO, como podemos pensar habitualmen- te. En ocasiones utilizamos la negaci´ on para reforzar el valor positivo de algo. Por ejem- plo, en la oraci´ on “No puede ser m´ as bonito” estamos haciendo uso de la clave de negaci´on “No” para reforzar el valor positivo del adje- tivo “bonito”. En espa˜ nol, tambi´ en encontramos un uso habitual de la doble negaci´ on. El lenguaje ogico es muy claro y estricto, dos negacio- nes forman una afirmaci´ on, pero el lenguaje natural no siempre es uniforme. Podemos en- 15 Proceedings of NEGES 2018: Workshop on Negation in Spanish, pages 15-21 Seville, Spain, September, 18, 2018

Upload: others

Post on 20-Oct-2019

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tarea 1 del Taller NEGES 2018: Gu as de Anotaci onceur-ws.org/Vol-2174/paper1.pdf · se presentan los participantes de la tarea y el an alisis realizado y, por ultimo, en la Secci

Tarea 1 del Taller NEGES 2018: Guıas de Anotacion

NEGES 2018 Task 1: Annotation Guidelines

Salud Marıa Jimenez-Zafra1, Noa P. Cruz Dıaz2,Roser Morante3, Marıa Teresa Martın-Valdivia1

1SINAI, Centro de Estudios Avanzados en TIC (CEATIC), Universidad de Jaen{sjzafra, maite}@ujaen.es

2Savana Medica, [email protected]

3CLTL Lab, Computational Linguistics, VU University [email protected]

Resumen: En este trabajo se presenta la tarea 1 del taller NEGES 2018, taller deNEGacion en ESpanol, celebrado como parte de la XXXIV edicion del CongresoInternacional de la Sociedad Espanola para el Procesamiento del Lenguaje Natural.El objetivo de esta tarea es llegar a un acuerdo sobre las directrices a seguir para laanotacion de la negacion en textos escritos en espanol con el fin de poder desarrollarsistemas capaces de procesar este fenomeno.Palabras clave: Negacion, directrices de anotacion, NEGES 2018, SEPLN

Abstract: This paper presents task 1 of NEGES 2018, Workshop on Negation inSpanish, held as part of the XXXIV edition of the International Conference of theSpanish Society for Natural Language Processing. The objective of this task is toreach an agreement on the guidelines to follow for the annotation of negation inSpanish texts in order to develop negation processing systems.Keywords: Negation, annotation guidelines, NEGES 2018, SEPLN

1 Introduccion

La negacion es un elemento linguıstico cla-ve en muchas aplicaciones relacionadas con elProcesamiento del Lenguaje Natural (PLN),como el analisis de sentimientos (Liu, 2012)o la recuperacion de informacion (Buttcher,Clarke, y Cormack, 2010), ya que su presen-cia en una oracion puede cambiar totalmentesu significado (Horn, 1989). En un sistemade analisis de opiniones, la valoracion de unapelıcula deberıa ser totalmente diferente si losespectadores dicen “La pelıcula me gusto mu-cho” que si dicen “La pelıcula no me gustonada”. Un sistema de recuperacion de infor-macion como Google deberıa devolver dife-rentes resultados ante las consultas “pelıcu-las que no sean de aventuras” y “pelıculas quesean de aventuras”, pero no es ası. Al escu-char estas frases, las personas somos capacesde diferenciar el significado de cada una deellas porque tenemos asimilado el conceptode negacion. Si queremos que un sistema seacapaz de ello, es necesario ensenarle como de-tectar la presencia de marcadores de negacionen una oracion y como identificar su ambito

de influencia, es decir, cuales son las palabrascuyo significado se esta viendo modificado.

Hasta ahora, la mayor parte de la investi-gacion sobre la negacion se ha realizado sobretextos en ingles. Sin embargo, la presencia deotros idiomas en Internet, entre los que seencuentra el espanol, es cada vez mayor. Porello, este taller tiene como objetivo avanzaren el estudio de la negacion en espanol, yaque es una lengua bastante compleja en laque aparte de los mecanismos habituales denegacion, se utiliza tambien la doble nega-cion.

La negacion no solo se emplea para de-cir NO, como podemos pensar habitualmen-te. En ocasiones utilizamos la negacion parareforzar el valor positivo de algo. Por ejem-plo, en la oracion “No puede ser mas bonito”estamos haciendo uso de la clave de negacion“No” para reforzar el valor positivo del adje-tivo “bonito”.

En espanol, tambien encontramos un usohabitual de la doble negacion. El lenguajelogico es muy claro y estricto, dos negacio-nes forman una afirmacion, pero el lenguajenatural no siempre es uniforme. Podemos en-

15

Proceedings of NEGES 2018: Workshop on Negation in Spanish, pages 15-21 Seville, Spain, September, 18, 2018

Page 2: Tarea 1 del Taller NEGES 2018: Gu as de Anotaci onceur-ws.org/Vol-2174/paper1.pdf · se presentan los participantes de la tarea y el an alisis realizado y, por ultimo, en la Secci

contrar casos en los que dos negaciones tienenun sentido positivo, por ejemplo, “No es ver-dad que no me apasionen las matematicas”,o un sentido negativo, “No se nada de as-trologıa”. En el primer caso, se niega que nome apasionen las matematicas, lo cual quieredecir que me apasionan. Mientras que en elsegundo caso, “nada” esta reforzando el sen-tido negativo del enunciado.

La negacion es un elemento del lenguajebastante complejo para el que la disponibili-dad de corpus anotados es fundamental por-que nos va a permitir entrenar sistemas paraque sean capaces de procesar de forma ade-cuada este fenomeno. Sin embargo, no soloes importante que los corpus esten disponi-bles sino que tambien deben estar bien do-cumentados y tener anotaciones de calidad.Ademas, para poder entrenar un sistema deforma adecuada las anotaciones deben cubrirel mayor numero posible de casos y seguirunas directrices comunes. Por ello, en el tallerNEGES 20181 se ha propuesto como tarea 1una revision de las guıas de anotacion exis-tentes en espanol, con el objetivo de poderdefinir unas directrices comunes.

El resto del documento esta organizadocomo sigue: en la Seccion 2 se describe la ta-rea 1 del taller NEGES 2018, en la Seccion3 se presentan los corpus cuyas directrices deanotacion se han analizado, en la Seccion 4se presentan los participantes de la tarea y elanalisis realizado y, por ultimo, en la Seccion5 se presentan las conclusiones.

2 Descripcion de la tarea

La tarea 1 del taller NEGES 2018, “Guıasde anotacion”, tiene como objetivo llegar aun acuerdo sobre las directrices a seguir pa-ra anotar la negacion en textos escritos enespanol. Jimenez-Zafra et al. (2018a) realiza-ron una recopilacion de los corpus anotadoscon negacion en espanol hasta el momento,mostrando que no son compatibles por di-ferencias en el genero, en las directrices deanotacion empleadas, en los aspectos de lanegacion anotados (clave de negacion, alcan-ce, evento, foco) y en los patrones de nega-cion considerados (Martı et al., 2016). Parapoder desarrollar un sistema automatico ca-paz de procesar la negacion es fundamentaldisponer de corpus anotados con esta infor-macion, que cubran el mayor numero posible

1http://www.sepln.org/workshops/neges/index.php

de casos y que tengan un tamano considera-ble. Los corpus anotados hasta ahora perte-necen a 3 dominios (noticias, informes clıni-cos y opiniones de productos) y se basan endirectrices diferentes, por lo que no se puedenunir para entrenar un sistema de aprendizajeautomatico.

A pesar de que ya ha habido varios esfuer-zos de anotacion, la comunidad carece de unestandar para anotar la negacion, al contrariode lo que sucede con otros fenomenos, comolos roles semanticos. La tarea 1 del taller NE-GES 2018 se propuso con este fin, tratar dellegar a un acuerdo para generar un estandarpara la anotacion de la negacion en espanol.Para ello, las guıas utilizadas para la ano-tacion de los corpus existentes hasta el mo-mento se han puesto a disposicion de los par-ticipantes para que puedan analizarlas. Se haproporcionado un perıodo de analisis y unavez transcurrido el mismo, los participanteshan enviado un documento indicando con queaspectos de las guıas estan de acuerdo y concuales no, todo ello debidamente justificado.Esta informacion se ha enviado a los partici-pantes, previamente a la celebracion del ta-ller, para que en el transcurso del taller sepuedan discutir los aspectos de interes y lle-gar a un consenso.

3 Corpus analizados

En la tarea 1 se han analizado los 5 corpus enespanol anotados con negacion hasta el mo-mento, que pertenecen a 3 dominios diferen-tes: noticias, informes clınicos y opiniones deproductos. A continuacion, se describe breve-mente cada uno de ellos.

3.1 UAM Spanish Treebank

Sandoval y Salazar (2013) fueron los prime-ros investigadores que enriquecieron un cor-pus en espanol, el UAM Spanish Treebank(Moreno et al., 2003), con anotaciones sobreclaves de negacion y sus respectivos ambitos.

El corpus UAM Spanish Treebank estaformado por 1.500 oraciones extraıdas deartıculos periodısticos de El Paıs Digitaly Compra Maestra que inicialmente fueronanotadas sintacticamente por Moreno et al.(2003). Posteriormente, 10 anos mas tarde,Sandoval y Salazar (2013) enriquecieron estaversion del corpus con la anotacion de clavesde negacion sintacticas y con sus respectivosambitos, identificando que el 10.67 % de lasoraciones contenıan negacion, un total de 160

16

Page 3: Tarea 1 del Taller NEGES 2018: Gu as de Anotaci onceur-ws.org/Vol-2174/paper1.pdf · se presentan los participantes de la tarea y el an alisis realizado y, por ultimo, en la Secci

oraciones.Las anotaciones fueron realizadas por dos

expertos en linguıstica de corpus que siguie-ron unas directrices similares a las utilizadaspara la anotacion del corpus BioScope (Vin-cze et al., 2008). Las pautas empleadas pa-ra la anotacion del corpus se encuentran enlas paginas 51-55 del artıculo de descripciondel corpus (Sandoval y Salazar, 2013) y es lainformacion que fue revisada por los partici-pantes de la tarea.

3.2 IxaMed-GS

El corpus IxaMed-GS (Oronoz et al., 2015)esta formado por 75 registros electronicos desalud del Hospital Galdakao-Usansolo de Viz-caya. Fue anotado por dos expertos en far-macologıa y farmacovigilancia con entidadesrelacionadas con enfermedades y medicamen-tos, y con las relaciones entre ellas que in-dican efectos adversos. El principal objetivode la anotacion fue la identificacion de en-tidades y eventos, pero la negacion y la es-peculacion se tuvieron en cuenta en el pro-ceso de anotacion. De esta manera, se ano-taron 2.362 enfermedades, de las cuales 490(20,75 %) se etiquetaron como enfermedadesnegadas y 40 (1,69 %) como enfermedades es-peculadas. Ademas, se identificaron 404 enti-dades relacionadas con alergias, de las cuales273 (67,57 %) fueron negadas y 13 (3,22 %),especuladas.

Para la anotacion del corpus, los anotado-res definieron sus propias pautas de anota-cion teniendo en cuenta las consideracionesde Ananiadou y McNaught (2006). Estas di-rectrices son las que fueron analizadas por losparticipantes de la tarea y se encuentran enla pagina 322 del artıculo de descripcion delcorpus (Oronoz et al., 2015).

3.3 SFU ReviewSP-NEG

El corpus SFU ReviewSP-NEG2 (Jimenez-Zafra et al., 2018b) es el primer corpus en es-panol en el que se realiza la anotacion de mar-cadores de negacion discontınuos y en el quese define una tipologıa de patrones de nega-cion para llevar a cabo la anotacion (Martı etal., 2016). Ademas, es el primer corpus don-de se anota el efecto de la negacion sobre laspalabras que estan dentro de su alcance, esdecir, si la negacion provoca un cambio en la

2Fue publicado online el 22 de mayo de 2017, poreso se situa cronologicamente en tercer lugarhttps://doi.org/10.1007/s10579-017-9391-x

polaridad, un incremento o una reduccion desu valor.

Este corpus es una version enriquecida dela parte en espanol del corpus SFU de Ta-boada, Anthony, y Voll (2006). Se trata deun corpus formado por 400 comentarios ex-traıdos de la web Ciao.es que pertenecen a 8dominios diferentes: automoviles, hoteles, la-vadoras, libros, telefonos, musica, ordenado-res y pelıculas. La version inicial del corpus(Taboada, Anthony, y Voll, 2006) contiene in-formacion sobre la polaridad de los comenta-rios en base al numero de estrellas otorgadopor la persona que ha escrito el comentario3,teniendo un total de 25 comentarios positivosy 25 comentarios negativos por cada domi-nio. La version enriquecida del corpus, deno-minada SFU ReviewSP-NEG (Jimenez-Zafraet al., 2018b), ha sido anotada de forma au-tomatica a nivel de token con la categorıagramatical y el lema, y de forma manual anivel de oracion con marcadores de negacionsintacticos y sus correspondientes ambitos yeventos. En total, de las 9.455 oraciones queforman el corpus, el 31.97 % contienen al me-nos un marcador de negacion (3.022 oracio-nes). Ademas, como se ha indicado inicial-mente en la descripcion del corpus, cada es-tructura de negacion ha sido anotada con eltipo del patron de negacion empleado y conel efecto que provoca la negacion sobre laspalabras de su alcance.

Las anotaciones fueron realizadas por dosinvestigadores experimentados con ampliaexperiencia en la anotacion de corpus que su-pervisaron todo el proceso y dos anotadoresentrenados que llevaron a cabo la tarea deanotacion. Se tuvieron en cuenta las direc-trices utilizadas para la anotacion del corpusBioscope (Vincze et al., 2008), pero despuesde un analisis exhaustivo de la negacion enespanol, se definio una tipologıa de patronesde negacion en espanol (Martı et al., 2016).Las pautas utilizadas para la anotacion deeste corpus, que fueron analizadas por losparticipantes, se encuentran en las paginas538-559 del artıculo de descripcion del cor-pus (Jimenez-Zafra et al., 2018b).

3.4 UHU-HUVR

El corpus UHU-HUVR (Cruz et al., 2017) esel primer corpus en espanol en el que se rea-

31-2 estrellas = comentario negativo, 3 estrellas nose tuvieron en cuenta, y 4-5 estrellas = comentariopositivo

17

Page 4: Tarea 1 del Taller NEGES 2018: Gu as de Anotaci onceur-ws.org/Vol-2174/paper1.pdf · se presentan los participantes de la tarea y el an alisis realizado y, por ultimo, en la Secci

liza la anotacion de la negacion morfologica,tambien conocida como negacion afijal. Estacompuesto por 604 informes clınicos del Hos-pital Virgen del Rocıo de Sevilla, de los cuales276 se corresponden con informes de radio-logıa y 328 con la historia personal de infor-mes de anamnesis escritos en texto libre. Fueanotado con marcadores de negacion sintacti-cos, lexicos y morfologicos y con los eventosnegados. En total, de las 3.065 oraciones deinformes de anamnesis, el 35,20 % contienenclaves de negacion (1.079 oraciones). En losinformes de radiologıa, este porcentaje es me-nor, de 5.347 oraciones, el 22.80 % contienennegacion (1.219 oraciones).

La anotacion fue realizada por dos ano-tadores expertos en el dominio teniendo encuenta las directrices seguidas para la anota-cion del corpus Thyme (Styler IV et al., 2014)con algunas adaptaciones. Los detalles de laspautas empleadas para la anotacion del cor-pus que los participantes tenıan que revisar seencuentran en las paginas 54-57 del artıculode descripcion del corpus (Cruz et al., 2017).

3.5 IULA Spanish Clinical Record

El ultimo corpus en espanol anotado con ne-gacion del que tenemos consciencia es el IU-LA Spanish Clinical Record (Marimon et al.,2017). Se trata de un corpus formado por 300informes clınicos anonimos de varios serviciosde uno de los principales hospitales de Bar-celona. Contiene anotaciones sobre marcar-dores de negacion sintacticos y lexicos y so-bre sus respectivos ambitos. En total contiene3.194 oraciones, de las cuales el 34.22 % fue-ron anotadas con claves de negacion (1.093oraciones).

La anotacion del corpus fue realizadapor tres linguistas computacionales asesora-dos por un clınico. Los anotadores definieronsus propias pautas de anotacion teniendo encuenta las directrices de Mutalik, Deshpan-de, y Nadkarni (2001) y las empleadas parala anotacion del corpus BioScope (Szarvas etal., 2008) y del corpus ConanDoyle-neg (Mo-rante y Daelemans, 2012). Estas pautas sonlas que los participantes de la tarea 1 tenıanque analizar y se encuentras definidas en laspaginas 45-49 del artıculo de descripcion delcorpus (Marimon et al., 2017).

4 Participantes y analisis

La tarea 1 de NEGES 2018 ha tenido dos par-ticipantes: el equipo CLiC formado por M.

Antonia Martı y Mariona Taule de la Uni-versidad de Barcelona, y Lucia Donatelli dela Universidad de Georgetown.

Martı y Taule (2018) comienzan el anali-sis comparando el tipo de informacion de loscorpus. Los 3 corpus del dominio biomedi-co (IxaMed-GS, UHU-HUVR e IULA Spa-nish Clinical Record) contienen informacionsemi-estructurada, mientras que los otros doscorpus (SFU ReviewSP-NEG y UAM SpanishTreebank) contienen informacion no estruc-turada. Posteriormente se centran en analizarcinco aspectos de relevancia para la anotacionde la negacion: i) el marcador de negacion, ii)el ambito y la inclusion del sujeto en el ambi-to, iii) las estructuras coordinadas, iv) las lo-cuciones de negacion y v) la negacion lexicay afijal. A continuacion resumimos el analisisrealizado por Martı y Taule sobre cada unosde los aspectos:

1. Marcador de negacion. Las autoras des-tacan el hecho de que en todos los corpusse anota el marcador de negacion, excep-to en el corpus IxaMed-GS, e indican quese debe a que el objetivo del mismo soloes extraer que entidades estan negadasy, por lo tanto, ignoran el marcador.

2. Ambito. En relacion al ambito, todos loscorpus lo han anotado, pero divergen ensi incluyen (SFU ReviewSP-NEG y UAMSpanish Treebank) o no (UHU-HUVR eIULA Spanish Clinical Record) el sujetodentro del ambito. Indican que este he-cho puede deberse a las caracterısticasdel dominio biomedico, ya que muchasde las expresiones utilizadas no tienenestructura oracional (1), por lo que notiene sentido marcar el sujeto.

3. Estructuras coordinadas. Respecto a lanegacion en estructuras coordinadas,tambien observan diferencias. Solo setratan en los corpus SFU ReviewSP-NEG, UHU-HUVR e IULA Spanish Cli-nical Record, aunque de manera distin-ta. En el corpus SFU ReviewSP-NEG sedistingue entre las estructuras negativascoordinadas (2), donde cada marcadorde negacion es independiente y tiene supropio ambito, y las estructuras negati-vas que contienen marcadores de nega-cion discontınuos (3), donde el ambitoincluye toda la coordinacion. Sin embar-go, en el corpus IULA Spanish Clinical

18

Page 5: Tarea 1 del Taller NEGES 2018: Gu as de Anotaci onceur-ws.org/Vol-2174/paper1.pdf · se presentan los participantes de la tarea y el an alisis realizado y, por ultimo, en la Secci

Record siempre se incluye la coordina-cion dentro del ambito (4), mientras queen el corpus UHU-HUVR cualquier tipode coordinacion da lugar a dos estructu-ras distintas con sus marcadores de ne-gacion y correspondientes ambitos (5) y(6).

4. Locuciones de negacion. Con respecto alas locuciones de negacion, expresionesmultipalabra que expresan negacion (ej.en la vida), solo se tratan en el corpusSFU ReviewSP-NEG.

5. Negacion lexica y afijal. Por ultimo, encuanto a la negacion lexica y afijal, solose anota en los corpus UHU-HUVR eIULA Spanish Clinical Record, aunquede forma limitada. IULA Spanish Cli-nical Record limita la negacion lexica alos predicados ‘descartar’, ‘ausencia de’ e‘incapaz de’, y en el corpus UHU-HUVR,solo se mencionan los negadores ‘aban-dono’, ‘negativo, ‘-‘ y ‘/’, pero no se danmas detalles.

(1) No alergias medicamentosas(UHU-HUVR)

(2) No [soy muy alta] tampoco [un pitufo](SFU ReviewSP-NEG)

(3) No [es ni muy pesado ni muy ligero](SFU ReviewSP-NEG)

(4) No [masas ni megalias](IULA Spanish Clinical Record)

(5) No hemos observado [alteraciones anivel de los distintos ligamentos (. . . )], asıcomo [de las restantes partes blandas](UHU-HUVR)

(6) No [hay evidencia de modulos pulmo-nares] / [adenomegalias mediastınicas](UHU-HUVR)

En cuanto a las directrices propuestas pa-ra tratar de llegar a un consenso sobre laanotacion de la negacion en espanol, Martı yTaule (2018) proponen lo siguiente:

1. Anotar los marcadores de negacion, dis-tinguiendo entre marcadores simples (ej.no, sin) y complejos (ej. no...nadie).

2. Anotar el ambito de la negacion inclu-yendo el sujeto dentro del mismo.

3. Realizar un tratamiento de la negacioncoordinada.

4. Anotar las locuciones negativas (ej. enabsoluto), aunque no contengan marca-dores explıcitos de negacion.

5. Anotar la negacion lexica y morfologica.

6. Anotar el foco de la negacion, que no setrata en ninguna de las guıas analizadas.

Donatelli (2018) describe de forma indivi-dual cada corpus e indica los elementos queecha en falta en la anotacion de cada uno deellos y aquellos aspectos que deberıan haber-se tenido en cuenta. Considera que se puedencombinar algunos componentes de las pro-puestas de anotacion de los distintos corpuspara dar lugar a un conjunto de directriceslinguısticamente precisas y neutras en cuan-to al dominio. Indica que para representar lasemantica de la negacion se deben anotar lossiguientes elementos:

1. La clave de negacion: elemento lexicoque expresa la negacion.

2. El ambito: parte del texto que es negada.

3. El foco: parte del ambito que es negadade forma prominente o explıcita.

4. El refuerzo (en caso de que exista): ne-gacion auxiliar o elemento de polaridadnegativa, conocido como NPI (NegativePolarity Item) (Altuna, Minard, y Spe-ranza, 2017).

A continuacion podemos ver, en unejemplo proporcionado por la autora (7),los diferentes elementos explicados ante-riormente. La clave de negacion aparece ennegrita, el ambito en cursiva, el foco entrecorchetes y el refuerzo en negrita y en cursiva.

(7) Juan no come [carne] sino verduras.

Donatelli considera que el esquema pro-puesto por Jimenez-Zafra et al. (2018b) parala anotacion del corpus SFU ReviewSP-NEGes adecuado para capturar las capas de com-plejidad de la negacion y propone combinarlocon el uso de la etiqueta NegPolItem utilizadapor Marimon et al. (2017) en la anotacion delcorpus IULA Spanish Clinical Record paramarcar los ıtems de polaridad negativa (NPI)o negaciones auxiliares.

19

Page 6: Tarea 1 del Taller NEGES 2018: Gu as de Anotaci onceur-ws.org/Vol-2174/paper1.pdf · se presentan los participantes de la tarea y el an alisis realizado y, por ultimo, en la Secci

5 Conclusiones

La negacion es un fenomeno linguıstico com-plejo que se ha estudiado ampliamente des-de una perspectiva teorica. La deteccion deaserciones negativas es relevante en una am-plia gama de aplicaciones, como la extraccionde informacion, la traduccion automatica oel analisis de sentimientos, donde es crucialconocer cuando una parte del texto tiene unsignificado diferente por la presencia de la ne-gacion. La deteccion de la negacion se estaconvirtiendo en una tarea relevante para elPLN, de hecho, algunos autores lo definencomo un desafıo (Liu, 2012). Sin embargo,la mayor parte de la investigacion sobre lanegacion se ha realizado para el ingles. Porlo tanto, con este taller, se pretende avanzaren el estudio de este fenomeno en espanol, lasegunda lengua mas hablada en el mundo yla tercera mas utilizada en Internet.

El principal objetivo de la tarea 1 es reunira la comunidad cientıfica que esta trabajandoen este tema para poder llegar a un acuer-do sobre las directrices a seguir para anotarla negacion, ya que aunque ha habido variosesfuerzos de anotacion, la comunidad caredede un estandar, lo que dificulta el desarrollode sistemas automaticos para procesar estefenomeno.

El analisis realizado por los participantesse utilizara como punto de partida para queen el transcurso del taller se puedan discutirlos aspectos de interes y llegar a un consenso.Asimismo, la discusion originada marcara laslıneas de futuro de esta tarea.

Agradecimientos

Este trabajo ha sido parcialmente financia-do por el Ministerio de Educacion, Cultura yDeporte (MECD - ayuda FPU014/00983), elFondo Europeo de Desarrollo Regional (FE-DER) y el proyecto REDES (TIN2015-65136-C2-1-R) del Gobierno de Espana. Roser Mo-rante ha sido financiada por la Organiza-cion Holandesa para la Investigacion Cientıfi-ca (NWO) a traves del premio Spinoza otor-gado a Piek Vossen (SPI 30-673, 2014-2019).

Bibliografıa

Altuna, B., A.-L. Minard, y M. Speranza.2017. The Scope and Focus of Negation:A Complete Annotation Framework forItalian. En Proceedings of the WorkshopComputational Semantics Beyond Eventsand Roles, paginas 34–42.

Ananiadou, S. y J. McNaught. 2006. Textmining for biology and biomedicine. Ar-tech House London.

Buttcher, S., C. L. Clarke, y G. V. Cormack.2010. Information Retrieval: Implemen-ting and Evaluating Search Engines. MITPress.

Cruz, N., R. Morante, M. J. M. Lopez, J. M.Vazquez, y C. L. P. Calderon. 2017.Annotating negation in Spanish clinicaltexts. En Proceedings of the WorkshopComputational Semantics Beyond Eventsand Roles, paginas 53–58.

Donatelli, L. 2018. Cues, Scope, and Fo-cus: Annotating Negation in Spanish Cor-pora. En Proceedings of NEGES 2018:Workshop on Negation in Spanish, volu-men 2174, paginas 29–34.

Horn, L. R. 1989. A natural history of nega-tion. CSLI Publications.

Jimenez-Zafra, S. M., R. Morante, M. Mar-tin, y L. A. U. Lopez. 2018a. A review ofSpanish corpora annotated with negation.En Proceedings of the 27th InternationalConference on Computational Linguistics,paginas 915–924.

Jimenez-Zafra, S. M., M. Taule, M. T.Martın-Valdivia, L. A. Urena-Lopez, yM. A. Martı. 2018b. SFU ReviewSP-NEG: a Spanish corpus annotated withnegation for sentiment analysis. A typo-logy of negation patterns. Language Re-sources and Evaluation, 52(2):533–569.

Liu, B. 2012. Sentiment analysis and opi-nion mining. Synthesis lectures on humanlanguage technologies, 5(1):1–167.

Marimon, M., J. Vivaldi, N. Bel, y R. Bo-ronat. 2017. Annotation of negation inthe IULA Spanish Clinical Record Corpus.SemBEaR 2017, 5(36.41):43.

Martı, M. A. y M. Taule. 2018. AnalisisComparativo de los Sistemas de Anota-cion de la Negacion en Espanol. En Pro-ceedings of NEGES 2018: Workshop onNegation in Spanish, volumen 2174, pagi-nas 23–28.

Martı, M. A., M. Taule, M. Nofre, L. Marso,M. T. Martın-Valdivia, y S. M. Jimenez-Zafra. 2016. La negacion en espanol:analisis y tipologıa de patrones de nega-cion. Procesamiento del Lenguaje Natural,(57):41–48.

20

Page 7: Tarea 1 del Taller NEGES 2018: Gu as de Anotaci onceur-ws.org/Vol-2174/paper1.pdf · se presentan los participantes de la tarea y el an alisis realizado y, por ultimo, en la Secci

Morante, R. y W. Daelemans. 2012.ConanDoyle-neg: Annotation of negationin Conan Doyle stories. En Proceedingsof the Eighth International Conference onLanguage Resources and Evaluation, Is-tanbul. Citeseer.

Moreno, A., S. Lopez, F. Sanchez, y R. Grish-man. 2003. Developing a syntactic an-notation scheme and tools for a Spanishtreebank. En Treebanks. Springer, pagi-nas 149–163.

Mutalik, P. G., A. Deshpande, y P. M. Nad-karni. 2001. Use of general-purpose ne-gation detection to augment concept in-dexing of medical documents: a quantita-tive study using the UMLS. Journal ofthe American Medical Informatics Asso-ciation, 8(6):598–609.

Oronoz, M., K. Gojenola, A. Perez,A. D’ıaz de Ilarraza, y A. Casillas.2015. On the creation of a clinical goldstandard corpus in Spanish: Miningadverse drug reactions. Journal ofbiomedical informatics, 56:318–332.

Sandoval, A. M. y M. G. Salazar. 2013. Laanotacion de la negacion en un corpus es-crito etiquetado sintacticamente. Annota-tion of negation in a written treebank. Re-vista Iberoamericana de Linguistica, 8.

Styler IV, W. F., S. Bethard, S. Finan,M. Palmer, S. Pradhan, P. de Groen,B. Erickson, T. Miller, C. Lin, G. Savo-va, y others. 2014. Temporal annota-tion in the clinical domain. Transactionsof the Association for Computational Lin-guistics, 2:143–154.

Szarvas, G., V. Vincze, R. Farkas, y J. Csirik.2008. The BioScope corpus: annotationfor negation, uncertainty and their scopein biomedical texts. En Proceedings of theWorkshop on Current Trends in Biome-dical Natural Language Processing, pagi-nas 38–45. Association for ComputationalLinguistics.

Taboada, M., C. Anthony, y K. Voll. 2006.Methods for creating semantic orientationdictionaries. En Proceedings of the 5thConference on Language Resources andEvaluation (LREC’06), paginas 427–432.

Vincze, V., G. Szarvas, R. Farkas, G. Mora, yJ. Csirik. 2008. The BioScope corpus: bio-medical texts annotated for uncertainty,

negation and their scopes. BMC bioinfor-matics, 9(11):1.

21

Page 8: Tarea 1 del Taller NEGES 2018: Gu as de Anotaci onceur-ws.org/Vol-2174/paper1.pdf · se presentan los participantes de la tarea y el an alisis realizado y, por ultimo, en la Secci