extracción automática de referencias geoespaciales en

4
Extracci´ on autom´ atica de referencias geoespaciales en discurso libre usando t´ ecnicas de procesamiento de lenguaje natural y teor´ ıa de la accesibilidad Extraction of Geospatial References from Free Text Based on Natural Language Processing and Accessibility Theory Alejandro Molina-Villegas 1 , Oscar S. Siordia 1 , Edwin Aldana-Bobadilla 2 , esar Aguilar 3 , Olga Acosta 3 1 CONACyT – Centro de Investigaci´on en Ciencias de Informaci´ on Geoespacial, M´ exico 2 CONACyT – Centro de Investigaci´on y de Estudios Avanzados del Instituto Polit´ ecnico Nacional, M´ exico 3 Pontificia Universidad Cat´ olica de Chile, Chile [email protected] Resumen: La extracci´ on autom´ atica de informaci´on geoespacial en tiempo real, a partir de discurso libre, tendr´ a un enorme impacto en tecnolog´ ıas disruptivas, tales como los asistentes inteligentes y los motores de b´ usqueda. Generar modelos capaces de decodificar el discurso para luego transformarlo en datos estructurados aborda la soluci´ on de problemas como: la identificaci´on autom´ atica de frases que se refie- ran a alguna entidad geoespacial; el manejo de sin´onimos referidos a una misma locaci´ on (ambiguedad); la caracterizaci´ on taxon´omica de expresiones locativas; as´ ı como la automatizaci´ on de procesos complejos de interpretaci´ on del lenguaje para la determinaci´ on de coordenadas geogr´aficas en mapas y bases de datos. El proyec- to presentado tiene por objetivo la automatizaci´on de procesos de georeferencia de documentos digitales para extraer conocimiento. La propuesta metodol´ ogica incluye compilaci´ on de un corpus, caracter´ ızaci´ on ling¨ ıstica y desarrollo de algoritmos. Palabras clave: Geoparsing, Geocodificaci´ on, Reconocimiento de Entidades Nom- bradas Abstract: The automatic extraction of geospatial information in real time, from free speech, will an important impact on disruptive technologies, such as AI assistants and search engines. Models capable of decoding discourse and then transforming it into structured data addresses the solution of challenging problems such as: the auto- matic identification of phrases refering geospatial entities; the handling of synonyms referring to the same location (ambiguity); the taxonomic characterization of loca- tive expressions; as well as the automation of complex processes of natural language interpretation to determine of geographical coordinates, maps and databases. The presented project aims to automate georeferencing processes of digital documents to extract georeferenced knowledge. The methodological proposal includes compilation of a corpus, linguistic characterization and algorithms. Keywords: Geoparsing, Geocoding, Named Entity Recognition 1 Introducci´on En los ´ ultimos a˜ nos, el estudio de la expresi´ on de nociones espaciales por medio del lenguaje natural, ha cobrado una gran relevancia, par- ticularmente para la inteligencia artificial. Un buen ejemplo de esto son asistentes como Si- ri, Cortana o Alexa, por mencionar los m´ as conocidos en el mercado. Uno de los motivos que subyace en tal relevancia —aunque no es el ´ unico— es la masificaci´ on de datos georre- ferenciados, impl´ ıcita o expl´ ıcitamente. Este estudio propone la selecci´on, recolec- ci´ on y procesamiento de expresiones en la va- riante de espa˜ nol mexicano (ya sean palabras o frases), que codifiquen alg´ un concepto geo- rreferencial asociable a entidades, escenarios o eventos locativos. En concreto, nos interesa Procesamiento del Lenguaje Natural, Revista nº 63, septiembre de 2019, pp. 143-146 recibido 03-04-2019 revisado 08-05-2019 aceptado 14-05-2019 ISSN 1135-5948. DOI 10.26342/2019-63-16 © 2019 Sociedad Española para el Procesamiento del Lenguaje Natural

Upload: others

Post on 21-Dec-2021

3 views

Category:

Documents


0 download

TRANSCRIPT

Extraccion automatica de referencias geoespacialesen discurso libre usando tecnicas de procesamiento

de lenguaje natural y teorıa de la accesibilidad

Extraction of Geospatial References from Free Text Based onNatural Language Processing and Accessibility Theory

Alejandro Molina-Villegas1, Oscar S. Siordia1,Edwin Aldana-Bobadilla2, Cesar Aguilar3, Olga Acosta3

1CONACyT – Centro de Investigacion en Ciencias de Informacion Geoespacial, Mexico2CONACyT – Centro de Investigacion y de Estudios Avanzados

del Instituto Politecnico Nacional, Mexico3Pontificia Universidad Catolica de Chile, Chile

[email protected]

Resumen: La extraccion automatica de informacion geoespacial en tiempo real, apartir de discurso libre, tendra un enorme impacto en tecnologıas disruptivas, talescomo los asistentes inteligentes y los motores de busqueda. Generar modelos capacesde decodificar el discurso para luego transformarlo en datos estructurados abordala solucion de problemas como: la identificacion automatica de frases que se refie-ran a alguna entidad geoespacial; el manejo de sinonimos referidos a una mismalocacion (ambiguedad); la caracterizacion taxonomica de expresiones locativas; asıcomo la automatizacion de procesos complejos de interpretacion del lenguaje parala determinacion de coordenadas geograficas en mapas y bases de datos. El proyec-to presentado tiene por objetivo la automatizacion de procesos de georeferencia dedocumentos digitales para extraer conocimiento. La propuesta metodologica incluyecompilacion de un corpus, caracterızacion linguıstica y desarrollo de algoritmos.Palabras clave: Geoparsing, Geocodificacion, Reconocimiento de Entidades Nom-bradas

Abstract: The automatic extraction of geospatial information in real time, from freespeech, will an important impact on disruptive technologies, such as AI assistantsand search engines. Models capable of decoding discourse and then transforming itinto structured data addresses the solution of challenging problems such as: the auto-matic identification of phrases refering geospatial entities; the handling of synonymsreferring to the same location (ambiguity); the taxonomic characterization of loca-tive expressions; as well as the automation of complex processes of natural languageinterpretation to determine of geographical coordinates, maps and databases. Thepresented project aims to automate georeferencing processes of digital documents toextract georeferenced knowledge. The methodological proposal includes compilationof a corpus, linguistic characterization and algorithms.Keywords: Geoparsing, Geocoding, Named Entity Recognition

1 Introduccion

En los ultimos anos, el estudio de la expresionde nociones espaciales por medio del lenguajenatural, ha cobrado una gran relevancia, par-ticularmente para la inteligencia artificial. Unbuen ejemplo de esto son asistentes como Si-ri, Cortana o Alexa, por mencionar los masconocidos en el mercado. Uno de los motivos

que subyace en tal relevancia —aunque no esel unico— es la masificacion de datos georre-ferenciados, implıcita o explıcitamente.

Este estudio propone la seleccion, recolec-cion y procesamiento de expresiones en la va-riante de espanol mexicano (ya sean palabraso frases), que codifiquen algun concepto geo-rreferencial asociable a entidades, escenarioso eventos locativos. En concreto, nos interesa

Procesamiento del Lenguaje Natural, Revista nº 63, septiembre de 2019, pp. 143-146 recibido 03-04-2019 revisado 08-05-2019 aceptado 14-05-2019

ISSN 1135-5948. DOI 10.26342/2019-63-16 © 2019 Sociedad Española para el Procesamiento del Lenguaje Natural

resolver casos como:

1.San Andres Cholula es un municipio

proximo a la Zona Metropolitana dePuebla.

2.El choque ocurrio esta manana en

el kilometro 5 de la carretera Mexico-Puebla

3.

Los asaltantes irrumpieron en la su-cursal que se encuentra en Puebla es-quina con Monterrey, en la ColoniaRoma

En los tres casos, la entidad nominal Pue-bla tiene un claro atributo georreferencial, pe-ro de diferente ındole: mientras que (1) se re-fiere a un nucleo urbano, en (2) se alude auna vıa que recorre dos provincias diferentes,mientras que (3) se refiere a dos calles situa-das en un barrio de la Ciudad de Mexico. Sibien es cierto que la ambiguedad que se gene-ra para ubicar tal entidad en un mapa puedeser resuelta, tambien es verdad que resultanecesario delimitar el alcance de los atribu-tos locativos asociados a dicha entidad, de talsuerte que puedan resolverse preguntas co-mo: ¿cual es la salida del metro mas cercanaa Puebla?, en donde un asistente inteligentedeberıa inferir que se trata de una calle, y node una zona urbana, de la capital de una pro-vincia, o de la provincia misma. En ese sen-tido, este proyecto aborda un problema AI-Hard que entrelaza la Inteligencia Artificial,la Linguıstica y la Geomatica, ya que en else vislumbra la creacion de metodos capacesde transformar voz o texto en identificadoresgeograficos inequıvocos tales como latitud ylongitud. Ası, nuestra propuesta es multidis-ciplinaria, pues no solo se trata de caracteri-zar el fenomeno linguıstico de la georreferen-ciacion discursiva en espanol, sino que tam-bien integrarlo en algoritmos y estructuras dedatos de cara a la automatizacion completade procesos sofisticados de georreferenciacionpor medio de la voz o el analisis de docu-mentos de texto (Geoparsing). Con estas tec-nologıas lograrıamos explotar, eficientemen-te, considerables cantidades de documentosexistentes para extraer conocimiento georre-ferenciado.

2 Teorıa de la accesibilidad

Un enfoque linguıstico pertinente para iden-tificar entidades nominales con informaciongeorreferencial es el que plantea la Teorıa dela accesibilidad, desarrollada principalmente

por (2014), ası como Gernsbacher y Givon(1995). Esta teorıa explica como las unidadesnominales y pronominales ofrecen un vıncu-lo directo o indirecto a sus referentes, de-pendiendo de la cantidad de informacion quecontengan. Tal cantidad de informacion, sesitua en los niveles semantico y pragmatico ypermite que tales referentes sean reconocidoscomo elementos nuevos en el discurso (p. e.,frases nominales largas como: los vecinos dela nueva casa de enfrente), o como elemen-tos ya conocidos (p. e., el pronombre perso-nal ellos, estableciendo una relacion anaforicacon la frase anterior). El tomar en cuenta lacantidad de informacion que contengan uni-dades nominales de ındole locativa sera utilpara identificar aquellas que tengan un pesoreferencial relevante (p. e.: la carretera fede-ral Mexico-Puebla, con miras a contrastarlascon otras que puedan ser vistas o bien comosegmentos nominales con valor anaforico si-tuadas en un mismo contexto discursivo (laMexico-Puebla), o como unidades pronomi-nales que requieren mayor informacion refe-rencial para ser desambiguadas (p. e.: por ahıse llega rapido a Puebla).

3 Aportaciones del proyecto

Uno de los aportes relevantes de este proyectosera la caracterizacion linguıstica de entida-des georreferenciables. Para lo cual, nuestroenfoque metodologico considera la compila-cion del Corpus de Entidades Georreferencia-das de Mexico (CEGEOMEX), el primero desu clase, el cual tendra un anotado linguısticomanual, lo que facilitara el desarrollo de algo-ritmos de aprendizaje de maquina, ası comola generacion de meta-informacion discursi-va. Cabe destacar que la anotacion manual yaha sido ampliamente utilizada en iniciativasinternacionales tales como la CoNLL (Confe-rence on Natural Language Learning) y quepara este proyecto, resulta de especial interesla edicion CoNLL 2002 (Sang y De Meulder,2003) en donde por primera vez se consideroal espanol como una de las lenguas a proce-sar. Sin embargo, dado que en CoNLL 2002,los datos fueron recopilados por la Univer-sidad Politecnica de Catalunya y la Univer-sidad Autonoma de Barcelona, la anotacionse focalizo en documentos de Espana, dejan-do de lado cualquier otra variante dialectal,entre ellas la mexicana. El rezago de recur-sos similares en Mexico pone de manifiestola necesidad de contar con un corpus de ca-

Alejandro Molina-Villegas, Oscar S. Siordia, Edwing Aldana-Bobadilla, César Aguilar, Olga Acosta

144

lidad con estas caracterısticas. CEGEOMEXsera un corpus de lengua general que se com-pondra de documentos periodısticos, ası co-mo de segmentos de entrevistas y dialogos ex-traıdos de la radio, con el proposito de con-formar una coleccion balanceada de muestrasescritas y orales siguiendo los criterios desa-rrollados por McEnery (2001) y Gries (2006)para observar variaciones en la expresion deentidades georreferenciadas en espanol mexi-cano. CEGEOMEX permitira abordar la so-lucion de problemas como: a) la identifica-cion automatica de frases u oraciones que serefieran a alguna entidad o evento de tipo es-pacial o georreferenciado implıcitamente; b)el manejo de sinonimos referidos a una mis-ma locacion (Ciudad de Mexico/Capital dela Republica/Distrito Federal/CDMX/DF);c) la propuesta de una taxonomıa que ayu-de a clasificar expresiones locativas y enti-dades nombradas y d) la automatizacion deprocesos complejos de interpretacion del len-guaje para la determinacion de coordenadasgeograficas en mapas y bases de datos.

4 Objetivos

1. Establecer una caracterizacion linguısti-ca de las entidades georreferenciadas me-diante su definicion formal, consideran-do tanto sus atributos linguısticos, su es-tructuracion en patrones, ası como losparametros contextuales que den indi-cios de su manifestacion en un texto, seaoral o escrito.

2. Crear el primer Corpus de EntidadesGeorreferenciadas de Mexico.

3. Innovar en la generacion de algoritmosque combinando atributos linguısticos ymodelos computacionales detecten enti-dades georreferenciables para ser visua-lizadas en cartografıa digital o en image-nes satelitales.

4. Consolidar un grupo de investigacionmultidisciplinario e internacional pa-ra desarrollar proyectos relacionadoscon nuevas areas de investigacion queunifiquen computacion, linguıstica ygeomatica.

5. Formar recursos humanos especializadosen investigacion de frontera.

5 Metas

1. Crear un repositorio de archivos paraalmacenar documentos periodısticos de

Mexico que incluya, al menos cinco delos periodicos principales de coberturanacional: El Universal, La Jornada, ElFinanciero, El Sol de Mexico, La Razon,Uno Mas Uno y Reforma; ası como seisestaciones de radio: MVS noticias, Ra-dio Formula, Radio IPN, Radio UNAM,Radio Ibero, Red FM y Stereo Cien.

2. Implementar el primer Corpus de Enti-dades Georreferenciadas de Mexico (CE-GEOMEX) que servira de base para fu-turos proyectos.

3. Disenar un sistema para detectar entida-des Georreferenciadas en discurso libre(oral y escrito).

6 Metodologıa

La metodologıa propuesta cubre 3 etapas, lascuales son descritas a continuacion.

6.1 Etapa I

En aras de compilar un volumen masivo dedocumentos para caracterizar el fenomenode estudio, en sus variantes escrita y oral,se desarrollaran programas informaticos paraautomatizar procesos de descarga, almacena-miento, indexado, transcripcion y organiza-cion de noticias en los medios de comunica-cion antes mencionados, empleando tecnicasde Web Crawling. Dado que se procesarandocumentos de texto y audio, sera necesa-rio adquirir y configurar equipo especializa-do y software para ejecutar tal procesamien-to, de tal suerte que se evaluaran e incluiranmodelos de reconocimiento de voz para latranscripcion de noticias de radio en espanolmexicano. El equipo encargado del analisislinguıstico estara integrado por investigado-res de la Pontificia Universidad Catolica deChile, quienes han abordado el analisis de re-laciones espaciales reconocidas entre termi-nos medicos en espanol, tomando en cuentaun enfoque cognitivo (ver Acosta y Aguilar(2015) ). Los resultados de su analisis refuer-zan la hipotesis de que la concepcion espa-cial se extiende a muchos dominios abstrac-tos, tales como tiempo, estado, posesion, cor-poreidad u organizacion social, entre los masrelevantes. La tarea de estos investigadoressera aportar al proyecto una propuesta detaxonomıa y especificacion de rasgos espacia-les para el diseno del etiquetado de entidadesgeorreferenciadas. Estos trabajos ayudaran a

Extracción automática de referencias geoespaciales en discurso libre usando técnicas de procesamiento de lenguaje natural y teoría de la accesibilidad

145

establecer el metalenguaje (etiquetas y atri-butos) y las consideraciones para el anotadomanual del corpus.

6.2 Etapa II

En esta etapa se creara el corpus CEGEO-MEX, el cual se etiquetara manualmente. Pa-ra apoyar esta tarea, se desarrollara una pla-taforma de anotacion en el Centro de Investi-gacion en Ciencias de Informacion Geoespa-cial (Mexico). Dicha herramienta brindara laespecificacion de las etiquetas y atributos ob-tenidos de la etapa anterior. La herramientadara acceso remoto y multiusuario de mane-ra que en seis meses se llegue a la meta de,al menos, 12000 colocaciones anotadas, divi-didas en 6000 instancias orales y 6000 ins-tancias escritas. Cabe mencionar que ninguncorpus anotado cuenta actualmentelas carac-terısticas especıficas de esta investigacion.

6.3 Etapa III

Finalmente, en esta etapa se desarrollaranlos algoritmos y un software que concen-trara los resultados de la investigacion (Figu-ra 1). Aprovechando los resultados obtenidosde las exploraciones que se hagan al CEGEO-MEX, sera posible experimentar con algorit-mos hıbridos que utilizaran tanto atributossimbolicos (tales como posicion de entidadesy categorıas gramaticales), ası como variablesabstractas generadas mediante tecnicas deaprendizaje de maquina y reconocimiento depatrones. El hecho de generar variables abs-tractas sera util para vincular y representaren forma de vectores los resultados obteni-dos (p. e., candidatos a entidades georreferen-ciales codificadas en nombres o en frases no-minales). Dichos vectores, ademas de ofreceruna descripcion numerica sobre el comporta-miento de los resultados obtenidos, seran va-liosos para categorizar similitudes semanticasidentificables entre tales unidades linguısti-cas. Cabe senalar aquı que estudios previos seha demostrado la eficiencia de combinar pa-trones linguısticos con algoritmos de apren-dizaje de maquina (Sierra et al., 2009).

Agradecimientos

Proyecto FORDECyT 296737 (Consorcio enInteligencia Artificial) y a la Red Tematica enTecnologıas del Lenguaje por el financiamien-to parcial de esta investigacion. A la Mtra. enLiteratura Mariana Tello-Signoret por la re-vision de datos.

Figura 1: Proceso de extraccion de referenciasgeoespaciales en discurso libre. Los documen-tos son preprocesados y tokenizados para queun modulo de Reconocimiento de EntidadesNombradas detecte nombres de lugares queseran georreferenciados mediante recursos ex-ternos para obtener sus coordenadas

Bibliografıa

Acosta, O. y C. A. Aguilar. 2015. Extrac-ting concrete entities through spatial rela-tions. En Proceedings of the 3rd Interna-tional Workshop on Artificial Intelligen-ce and Cognition, Turin, Italy, September28-29, 2015., paginas 133–145.

Ariel, M. 2014. Accessing noun-phrase ante-cedents. Routledge.

Gernsbacher, M. A. y T. Givon. 1995. Cohe-rence in spontaneous text, volumen 31.John Benjamins Publishing.

Gries, S. T. 2006. Exploring variability wit-hin and between corpora: some methodo-logical considerations. Corpora, 1(2):109–151.

McEnery, T. 2001. Corpus linguistics/tonymcenery, andrew wilson.

Sang, E. F. y F. De Meulder. 2003. In-troduction to the conll-2003 shared task:Language-independent named entity re-cognition. arXiv preprint cs/0306050.

Sierra, G.-E., R. Alarcon, A. Molina-Villegas,y E. Aldana. 2009. Web explo-tation for definition extraction. EnIEEE Latin American Web Congress, doi10.1109/LA-WEB.2009.36, paginas 217–223.

Alejandro Molina-Villegas, Oscar S. Siordia, Edwing Aldana-Bobadilla, César Aguilar, Olga Acosta

146