-
7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico
1/25
31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co
http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 1/25
El tratamiento computacional de los niveles de anlisislingstico
El proceso de anlisis del textoNivel morfolgico
LematizacinStemmingAnlisis morfolgico
Nivel sintctico
TokenizacinSegmentacin en frasesAnlisis sintctico
Nivel semntico
Desambiguacin de sentidosInterpretacin de las relaciones semnticas
Nivel discursivo
Estructura textualSegmentacin del textoTratamiento de fenmenos relacionados con la coherencia textual
Procesamiento del lenguaje natural: trabajos generales
Procesamientodel lenguaje natural: manuales
El proceso de anlisis del texto
http://liceu.uab.cat/~joaquim/language_technology/HLT/HLT_Gen_Bib.html#textbookshttp://liceu.uab.cat/~joaquim/language_technology/HLT/HLT_Gen_Bib.html#General_references -
7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico
2/25
31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co
http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 2/25
Anlisis del texto en el procesamiento del lenguaje natural.
Mart, M. A. (2003). Introduccin. In M. A. Mart (Ed.), Tecnologas del lenguaje(pp. 9-29). Barcelona: EditorialUOC.
Nivel morfolgico
Lematizacin
Herramienta:
Lematizador.Lemmatiser.
Segmentacin de una palabra para separar la raz (lexema) de los morfemas de flexin.
Lema: forma de citacin de una palabra (p. ej., el lema de leamoses leer).
Lematizacin: asignacin, en forma de etiqueta, de lema (o forma cannica) a unapalabra tal y como la encontramos en el discurso textual (p. 285).
Mart, M. A. (Ed.). (2003). Tecnologas del lenguaje. Barcelona: Editorial UOC.
Permite relacionar con un mismo lema todas las formas flexionadas de una palabra.
http://books.google.es/books?id=-YTPHHZY0SkChttp://books.google.es/books?id=-YTPHHZY0SkChttp://liceu.uab.cat/~joaquim/language_technology/NLP/proceso_analisis.jpg -
7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico
3/25
31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co
http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 3/25
Molino de Ideas. (2012). Lematizador.MolinoLabs. Madrid: Molino de Ideas. Consultado enhttp://www.molinolabs.com/lematizador.html
La lematizacin aporta una mayor flexibilidad en las bsquedas en textos.
Bsqueda de la forma sermonear en el CORPES XXI.
Real Academia Espaol. (2013). CORPES XXI. Corpus del Espaol del Siglo XXI. Madrid: Real Academia Espaola.Consultado en http://www.rae.es/recursos/banco-de-datos/corpes-xxi
Bsqueda del lema sermonear en el CORPES XXI.
Real Academia Espaol. (2013). CORPES XXI. Corpus del Espaol del Siglo XXI. Madrid: Real Academia Espaola.Consultado en http://www.rae.es/recursos/banco-de-datos/corpes-xxi
http://www.rae.es/recursos/banco-de-datos/corpes-xxihttp://liceu.uab.cat/~joaquim/language_technology/NLP/Corpes_lema.jpghttp://www.rae.es/recursos/banco-de-datos/corpes-xxihttp://liceu.uab.cat/~joaquim/language_technology/NLP/Corpes_forma.jpghttp://www.molinolabs.com/lematizador.htmlhttp://liceu.uab.cat/~joaquim/language_technology/NLP/rematar_Molino_3.jpghttp://liceu.uab.cat/~joaquim/language_technology/NLP/rematar_Molino_2.jpghttp://liceu.uab.cat/~joaquim/language_technology/NLP/rematar_Molino_4.jpghttp://liceu.uab.cat/~joaquim/language_technology/NLP/rematar_Molino_1.jpg -
7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico
4/25
31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co
http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 4/25
Stemming
Herramienta:
Stemmer.
En el proceso conocido comostemmingse busca la raz (stem) de la palabra para utilizarla enaplicaciones relacionadas con la extraccin de informacin.
Stemming: proceso por el que se truncan las palabras de los documentos antes deindexarlos, con el objetivo de identificar palabras con la misma raz (p. 286).
Mart, M. A. (Ed.). (2003). Tecnologas del lenguaje. Barcelona: Editorial UOC.
For IR purposes, it doesnt usually matter whether the stems generated are genuinewords or not thus, computation might be stemmed to comput provided that (a)different words with the same base meaning are conflated to the same form, and (b)
words with distinct meanings are kept separate. An algorithm which attempts toconvert a word to its linguistically correct root (compute in this case) is sometimescalled a lemmatiser.
Hooper, R. y Paice, C. (2005). What is stemming? The Lancaster stemming algorithm. Lancaster: School ofComputing and Communications, Lancaster University.
Stemmingusually refers to a crude heuristic process that chops off the ends of wordsin the hope of achieving this goal correctly most of the time, and often includes the
removal of derivational affixes.Lemmatizationusually refers to doing things properlywith the use of a vocabulary and morphological analysis of words, normally aiming toremove inflectional endings only and to return the base or dictionary form of a word,which is known as the lemma. If confronted with the tokensaw, stemming mightreturn justs, whereas lemmatization would attempt to return eitherseeorsawdepending on whether the use of the token was as a verb or a noun. The two may alsodiffer in that stemming most commonly collapses derivationally related words,whereas lemmatization commonly only collapses the different inflectional forms of alemma.
Manning, C. D., Raghavan, P. y Schtze, H. (2008). Stemming and lemmatization.Introduction toinformation retrieval. Cambridge: Cambridge University Press. Consultado en http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html
http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.htmlhttp://books.google.es/books?id=-YTPHHZY0SkC -
7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico
5/25
31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co
http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 5/25
Snowball. (s.f.). Snowball - Demo.Snowball. Consultado en http://snowball.tartarus.org/demo.php
Snowball. (s.f.). Spanish stemming algorithm.Snowball . Consultado enhttp://snowball.tartarus.org/algorithms/spanish/stemmer.html
Olalla, I. (2010). A Catalan stemming algorithm.Snowball. Consultado enhttp://snowball.tartarus.org/algorithms/catalan/stemmer.html
Demostracin de varios sistemas destemming:
Perkins, J. (s. f.). Stemming and lemmatization with Python NLTK - Demo.PythonNLTK demos for Natural Language Text Processing. San Francisco, CA. Consultado enhttp://text-processing.com/demo/stem/
Anlisis morfolgico
Herramienta:
Analizador morfolgico.Etiquetador morfolgico.POS (part of speech) tagger.Tagger.
Segmentacin automtica de la palabra en sus componentes morfolgicos: anlisis
Asignacin automtica de la categora lxica (parte de la oracin) de una palabra en funcindel contexto en el que aparece: etiquetado.
Informacin sobre las categoras gramaticales expresadas por los morfemas gramaticales
http://text-processing.com/demo/stem/http://snowball.tartarus.org/algorithms/catalan/stemmer.htmlhttp://snowball.tartarus.org/algorithms/spanish/stemmer.htmlhttp://snowball.tartarus.org/demo.phphttp://liceu.uab.cat/~joaquim/language_technology/NLP/Snowball_angles.jpg -
7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico
6/25
31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co
http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 6/25
presentes en la palabra: etiquetado.
Anlisis morfolgico: proceso que da como resultado las posibles interpretacionesmorfolgicas de una palabra.
Etiquetador (morfosintctico): programa informtico, en el mbito de la lingstica decorpus, que permite la asignacin automtica de una etiqueta (tagen ingls) de su
categora gramatical a cada palabra (pp. 282-3).Mart, M. A. (Ed.). (2003). Tecnologas del lenguaje. Barcelona: Editorial UOC.
Se trata de un recurso prcticamente resuelto desde un punto de vista tanto tcnicocomo terico. Estos analizadores, desarrollados en general en entornos universitarios,cubren prcticamente la totalidad de fenmenos lingsticos y obtienen resultadosmuy buenos tanto en eficiencia pueden llegar a analizar 60 000 palabras porsegundo como en cobertura y precisin, que se sita entorno al 98 % de acierto.
Mart, M. A. y Taul, M. (2011). La Academia y la investigacin universitaria en las tecnologas de lalengua. En S. Senz y M. Alberte (Eds.),El dardo en la Academia. Esencia y vigencia de las academias de lalengua espaola(Vol. 2, pp. 1195-1242). Barcelona: Melusina. Consultado enhttps://docs.google.com/file/d/0B6N0v65RwfFSN1RBWGtWVmpLTXc/edit
Maria Antnia Mart Mariona Taul
Operaciones necesarias para el anlisis morfolgico:
el programa debe ser capaz de efectuar tres acciones, relativamente independientes: determinar qu categora (o cules categoras) puede tener cada palabra,
decidir cul de estas categoras en la adecuada en el contexto en que aparece cada
palabra, y asignar a cada palabra analizada la informacin morfolgica que le corresponde.
Estas tres acciones en que subdividimos el proceso de anlisis morfolgico se puedenrealizar gracias a tres operaciones bsicas (dos, si omitimos la tercera):
bsqueda en el lxico, desambiguacin, e
incorporacin de la informacin morfolgica (pp. 223-4).
Badia, T. (2003). Tcnicas de procesamiento del lenguaje. En M. A. Mart (Ed.), Tecnologas del lenguaje.
Barcelona: Editorial UOC.
http://books.google.es/books?id=-YTPHHZY0SkChttp://clic.ub.edu/ca/membreshttp://clic.ub.edu/ca/membreshttps://docs.google.com/file/d/0B6N0v65RwfFSN1RBWGtWVmpLTXc/edithttp://books.google.es/books?id=-YTPHHZY0SkC -
7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico
7/25
31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co
http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 7/25
Toni Badia
Bsqueda en el lxico
Se realiza sobre un diccionario con todas las formas expandidas de las palabras (diccionariode formas desplegadas) y con la informacin correspondiente a la categora lxica (parte dela oracin).
Moreno, A. y Guirao, J. M. (s.d.). Grampal. Madrid: Laboratorio de Lingstica Informtica, Universidad Autnomade Madrid. Consultado en http://www.lllf.uam.es/ESP/Grampal.html
Herramientas para la generacin automtica de las formas flexionadas correspondientes a
un lema.
Analizadores y generadores morfolgicos en lnea
Proceso de desambiguacin
Decisin sobre la categora lxica (parte de la oracin) de la palabra en funcin de sucontexto de aparicin.
Cada noche que bajo1a la calle, el msico bajo2toca el bajo3bajo4la luna.bajo1: verbobajo1: adjetivo
bajo2: nombrebajo3: preposicin
http://liceu.uab.cat/~joaquim/language_technology/HLT/HTL_NLP_recursos.html#NLP_Morphologyhttp://www.lllf.uam.es/ESP/Grampal.htmlhttp://liceu.uab.cat/~joaquim/language_technology/NLP/bajo_Grampal.jpghttp://www.upf.edu/dtcl/personal/temps_complet/bmt.html -
7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico
8/25
31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co
http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 8/25
JQ-MS: adjetivo calificativo - masculino singular.
P: preposicin.
IULA. (s.d.). Demostraci de les eines danlisi del CT sobre text lliure.Recursos - Corpus i eines. Barcelona: InstitutUniversitari de Lingstica Aplicada, Universitat Pompeu Fabra. Consultado en http://eines.iula.upf.edu/cgi-bin/hectorwww/hectormain.pl
Moreno, A. y Guirao, J. M. (s.d.). Grampal. Madrid: Laboratorio de Lingstica Informtica, Universidad Autnomade Madrid. Consultado en http://www.lllf.uam.es/ESP/Grampal.html
Informacin morfolgica
Requiere la definicin de etiquetas (tags) consistentes en categoras o en rasgos quepermitan describir los fenmenos morfolgicos propios de cada lengua.
El conjunto de etiquetas (tag set) empleado se conoce como etiquetario.
http://www.lllf.uam.es/ESP/Grampal.htmlhttp://liceu.uab.cat/~joaquim/language_technology/NLP/bajo_frase_Grampal.jpghttp://eines.iula.upf.edu/cgi-bin/hectorwww/hectormain.plhttp://liceu.uab.cat/~joaquim/language_technology/NLP/bajo_IULA.jpg -
7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico
9/25
31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co
http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 9/25
Etiquetario empleado en Grampal.
Moreno, A. y Guirao, J. M. (s.d.). Etiquetario. Grampal. Madrid: Laboratorio de Lingstica Informtica,Universidad Autnoma de Madrid. Consultado en http://cartago.lllf.uam.es/grampal/grampal.cgi?m=etiquetario
Padr, L. (s.d.). Etiquetas EAGLES para el espaol.FreeLing 3.1. An open-source suite oflanguage analyzers. Barcelona: TALP - Tecnologies i Aplicacions del Llenguatge i de laParla, Universitat Politcnica de Catalunya. Consultado enhttp://nlp.lsi.upc.edu/freeling/doc/tagsets/tagset-es.html
Padr, L. (s.d.). Etiquetes EAGLES per al catal.FreeLing 3.1. An open-source suite oflanguage analyzers. Barcelona: TALP - Tecnologies i Aplicacions del Llenguatge i de laParla, Universitat Politcnica de Catalunya. Consultado enhttp://nlp.lsi.upc.edu/freeling/doc/tagsets/tagset-ca.html
http://nlp.lsi.upc.edu/freeling/doc/tagsets/tagset-ca.htmlhttp://nlp.lsi.upc.edu/freeling/doc/tagsets/tagset-es.htmlhttp://cartago.lllf.uam.es/grampal/grampal.cgi?m=etiquetariohttp://liceu.uab.cat/~joaquim/language_technology/NLP/etiquetario_Grampal_2.jpghttp://liceu.uab.cat/~joaquim/language_technology/NLP/etiquetario_Grampal_1.jpg -
7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico
10/25
31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co
http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 10/25
Mtodos estadsticos
The rule-based methods used for the POS tagging problem began to be replaced bystochastic models in the early 1990s. The major drawback of the oldest rule-basedsystems was the need to manually compile the rules, a process that requires linguisticbackground. Moreover, these systems are not robust in the sense that they must bepartially or completely redesigned when a change in the domain or in the language
occurs. Later on a new paradigm, statistical natural language processing, has emergedand offered solutions to these problems. As the field became more mature, researchersbegan to abandon the classical strategies and developed new statistical models.
Several people today argue that statistical POS tagging is superior to rule-based POStagging. The main factor that enables us to use statistical methods is the availability ofa rich repertoire of data sources: lexicons (may include frequency data and otherstatistical data), large corpora (preferably annotated), bilingual parallel corpora, andso on. By using such resources, we can learn the usage patterns of the tag sequencesand make use of this information to tag new sentences. (p. 240).
Gngr, T. (2010). Part-of-speech tagging. En N. Indurkhya y F. J. Damerau (Eds.),Handbook of naturallanguage processing(2nd ed., pp. 205-235). Roca Baton, FL: Chapman & Hall/CRC, Taylor & Francis.
Tunga Gngr
Los sistemas de anlisis y etiquetado morfolgico basados en tcnicas estadsticas requierenun corpus de entrenamiento previamente etiquetado.
Las etiquetas en un texto nuevo se asignan en funcin de las probabilidades de aparicin enun determinado contexto en funcin de la informacin presente en el corpus deentrenamiento.
SPS00: preposicin simple.AQ0MS0: adjetivo calificativo masculino singular.
NCMS000: nombre comn masculino singular.VMIP1S0: verbo principal indicativo presente primera persona singular.
Padr, L. (s.d.). Demonstration.FreeLing 3.1. An open-source suite of language analyzers. Barcelona: TALP -Tecnologies i Aplicacions del Llenguatge i de la Parla, Universitat Politcnica de Catalunya. Consultado enhttp://nlp.lsi.upc.edu/freeling/demo/demo.php
http://nlp.lsi.upc.edu/freeling/demo/demo.phphttp://liceu.uab.cat/~joaquim/language_technology/NLP/bajo_Freeling.jpghttp://www.cmpe.boun.edu.tr/~gungort/http://books.google.es/books?id=nK-QYHZ0-_gC -
7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico
11/25
31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co
http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 11/25
Perkins, J. (s. f.). Tagging, chunking & Named Entity Recognition with NLTK - Demo.Python NLTK demos for Natural Language Text Processing. San Francisco, CA.Consultado en http://text-processing.com/demo/tag/
Analizadores y generadores morfolgicos en lnea
Nivel sintctico
Tokenizacin
Herramienta:
Tokenizador.Tokeniser.
Dos conceptos bsicos:
Tipo: clase de elementos.
Token: forma concreta que pertenece a una clase.
Las nias salen ahora y los nios saldrn maana.
6 tipos: l- (las, los), ni- (nias, nios), sal- (salen, saldrn), ahora, maana, y.
9 tokens: las, los, nias, nios, salen, saldrn, ahora, maana, y.
La tokenizacin es un proceso de segmentacin previo al anlisis sintctico.
Incluye el tratamiento de todos los elementos de un texto: signos de puntuacin,expresiones numricas, smbolos, etc.
Tokenization
The process of segmenting running text into words and sentences.Electronic text is a linear sequence of symbols (characters or words or phrases).
Naturally, before any real text processing is to be done, text needs to be segmentedinto linguistic units such as words, punctuation, numbers, alpha-numerics, etc. Thisprocess is called tokenization.
In English, words are often separated from each other by blanks (white space), but notall white space is equal. Both Los Angeles and rock n roll are individual thoughtsdespite the fact that they contain multiple words and spaces. We may also need toseparate single words like Im into separate words I and am.
Tokenization is a kind of pre-processing in a sense; an identification of basic units tobe processed.
Trim, C. (23 de enero de 2013). The art of tokenization.Language Processing. Consultado enhttps://www.ibm.com/developerworks/community/blogs/nlp/entry/tokenization?lang=en
https://www.ibm.com/developerworks/community/blogs/nlp/entry/tokenization?lang=enhttp://liceu.uab.cat/~joaquim/language_technology/HLT/HTL_NLP_recursos.html#NLP_Morphologyhttp://text-processing.com/demo/tag/ -
7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico
12/25
31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co
http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 12/25
Xerox. (2014). Tokenization.Linguistic tools, Open Xerox. Xerox Corporation. Consultado enhttp://open.xerox.com/Services/fst-nlp-tools/Consume/Tokenization-175
Perkins, J. (s. f.). Word tokenization with Python NLTK - Demo.Python NLTK demosfor Natural Language Text Processing. San Francisco, CA. Consultado en http://text-
processing.com/demo/tokenize/
Segmentacin en frases
Splitting.
http://text-processing.com/demo/tokenize/http://open.xerox.com/Services/fst-nlp-tools/Consume/Tokenization-175http://liceu.uab.cat/~joaquim/language_technology/NLP/Tokenization_Xerox_fr_2.jpghttp://liceu.uab.cat/~joaquim/language_technology/NLP/Tokenization_Xerox_fr_1.jpg -
7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico
13/25
31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co
http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 13/25
Herramienta:
Segmentador de frasesSplitter.
Divisin de un texto en frases.
Problemas planteados por los signos de puntuacin que no constituyen una frontera de
frase.
Lager, T. (s.d.). Simple Sentence Splitter. Department of Philosophy, Linguistics and Theory of Science, Universityof Gothenburg : Gteborg. Consultado en http://www.ling.gu.se/~/lager/mogul/sentence-splitter/index.html
Anlisis sintctico
Herramienta:
Analizador sintctico.Syntactic parser.Parser.
Anlisis sintctico: anlisis que intenta determinar la validez de una expresin(normalmente respecto a una gramtica) y de obtener su estructura sintctica
Proceso que da como resultado un rbol sintctico, el cual representa la estructura deconstituyentes de una frase
Parser: analizador sintctico (pp. 282, 285).
Mart, M. A. (Ed.). (2003). Tecnologas del lenguaje. Barcelona: Editorial UOC.
El desarrollo de los analizadores sintcticos tiene como objetivo establecer lasrelaciones estructurales y de dependencia entre las palabras dentro de la frase. Elanlisis consiste bsicamente en la identificacin de sintagmas o constituyentes y en laanotacin de los mismos con sus funciones correspondientes. Se trata de un recursoque, aunque obtiene resultados con un nivel de acierto respetable, todava no se
considera resuelto.
Mart, M. A. y Taul, M. (2011). La Academia y la investigacin universitaria en las tecnologas de lalengua. En S. Senz y M. Alberte (Eds.),El dardo en la Academia. Esencia y vigencia de las academias de lalengua espaola(Vol. 2, pp. 1195-1242). Barcelona: Melusina. Consultado en
https://docs.google.com/file/d/0B6N0v65RwfFSN1RBWGtWVmpLTXc/edithttp://books.google.es/books?id=-YTPHHZY0SkChttp://www.ling.gu.se/~/lager/mogul/sentence-splitter/index.htmlhttp://liceu.uab.cat/~joaquim/language_technology/NLP/splitter_Lager.jpg -
7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico
14/25
31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co
http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 14/25
https://docs.google.com/file/d/0B6N0v65RwfFSN1RBWGtWVmpLTXc/edit
Maria Antnia Mart Mariona Taul
El anlisis sintctico automtico clsico se basa en gramticas derivadas de las gramticaslibres de contexto (CFG, context free grammars) o gramticas de estructura de frase (phrase-structure grammars).
O SN SVSN (Det) N Adj
SV V SNDet el
N gato | salmnAdj negro | ahumado
V come
Padr, L. (s.d.). Demonstration.FreeLing 3.1. An open-source suite of language analyzers. Barcelona: TALP -Tecnologies i Aplicacions del Llenguatge i de la Parla, Universitat Politcnica de Catalunya. Consultado enhttp://nlp.lsi.upc.edu/freeling/demo/demo.php
http://nlp.lsi.upc.edu/freeling/demo/demo.phphttp://liceu.uab.cat/~joaquim/language_technology/NLP/gato_Freeling.jpghttp://clic.ub.edu/ca/membreshttp://clic.ub.edu/ca/membreshttps://docs.google.com/file/d/0B6N0v65RwfFSN1RBWGtWVmpLTXc/edit -
7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico
15/25
31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co
http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 15/25
Daedalus. (s.d.). Analizador morfosintctico.Stilus. Madrid: Daedalus - Data, Decisions and Language, S.A.
Consultado en http://www.mystilus.com/Analizador_morfosintactico
SFN. (s.d.). Parser.SFN, Spanish Framenet. An online lexical resource and its application to Spanish NLP. Bellaterra -Berkeley, CA: Universitat Autnoma de Barcelona - International Computer Science Institute. Consultado enhttp://spanishfn.org/tools
http://spanishfn.org/toolshttp://liceu.uab.cat/~joaquim/language_technology/NLP/gato_SFN.jpghttp://www.mystilus.com/Analizador_morfosintacticohttp://liceu.uab.cat/~joaquim/language_technology/NLP/gato_Stilus.jpg -
7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico
16/25
31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co
http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 16/25
VISL. (2014). Spanish - Machine analysis - Tree Structure. Visual Interactive Syntax Learning. Odense: Institute ofLanguage and Communication, University of Southern Denmark. Consultado enhttp://beta.visl.sdu.dk/visl/es/parsing/automatic/trees.php
Padr, L. (s.d.). Demonstration.FreeLing 3.1. An open-source suite of language analyzers. Barcelona: TALP -Tecnologies i Aplicacions del Llenguatge i de la Parla, Universitat Politcnica de Catalunya. Consultado enhttp://nlp.lsi.upc.edu/freeling/demo/demo.php
http://nlp.lsi.upc.edu/freeling/demo/demo.phphttp://liceu.uab.cat/~joaquim/language_technology/NLP/bajo_frase_Freeling.jpghttp://beta.visl.sdu.dk/visl/es/parsing/automatic/trees.phphttp://liceu.uab.cat/~joaquim/language_technology/NLP/gato_VISL.jpg -
7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico
17/25
31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co
http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 17/25
Daedalus. (s.d.). Analizador morfosintctico.Stilus. Madrid: Daedalus - Data, Decisions and Language, S.A.Consultado en http://www.mystilus.com/Analizador_morfosintactico
Anlisis sintctico superficial
Shallow parsing.Partial parsing.Chunking.
Fragmentos (chunks)
I begin with an intuition: when I read a sentence, I read it a chunk at a time. Forexample, the previous sentence breaks up something like this:
(1) [I begin] [with an intuition]: [when I read] [a sentence], [I read it] [a chunk] [at atime]
These chunks correspond in some way to prosodic patterns. It appears, for instance,that the strongest stresses in the sentence fall one to a chunk, and pauses are most
likely to fall between chunks. Chunks also represent a grammatical watershed of sorts.The typical chunk consists of a single content word surrounded by a constellation offunction words, matching a fixed template.
Abney, S. (1989). Parsing by chunks. En C. Tenny (Ed.), The MIT Parsing Volume, 1988-89. Cambridge,MA: Center for Cognitive Science, Massachusetts Institute of Technology. Consultado enhttp://www.vinartus.net/spa/89d.pdf
Steven Abney
http://www.vinartus.net/spa/http://www.vinartus.net/spa/89d.pdfhttp://www.mystilus.com/Analizador_morfosintacticohttp://liceu.uab.cat/~joaquim/language_technology/NLP/bajo_frase_Stilus.jpg -
7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico
18/25
31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co
http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 18/25
Segmentacin y etiquetado de tokensy fragmentos (chunks) (sintagmas nominales).
Bird, S., Klein, E., y Loper, E. (2009).Natural language processing with Python. Analyzing text with the NaturalLanguage Toolkit. Sebastopol, CA: OReilly Media.
Representacin en rbol de la estructura de fragmentos (chunks).
Bird, S., Klein, E., y Loper, E. (2009).Natural language processing with Python. Analyzing text with the NaturalLanguage Toolkit. Sebastopol, CA: OReilly Media.
Anlisis sintctico superficial.Padr, L. (s.d.). Demonstration.FreeLing 3.1. An open-source suite of language analyzers. Barcelona: TALP -Tecnologies i Aplicacions del Llenguatge i de la Parla, Universitat Politcnica de Catalunya. Consultado enhttp://nlp.lsi.upc.edu/freeling/demo/demo.php
Perkins, J. (s. f.). Tagging, chunking & Named Entity Recognition with NLTK - Demo.Python NLTK demos for Natural Language Text Processing. San Francisco, CA.Consultado en http://text-processing.com/demo/tag/
Anlisis sintctico profundo
Deep parsing.Full parsing.
http://text-processing.com/demo/tag/http://nlp.lsi.upc.edu/freeling/demo/demo.phphttp://liceu.uab.cat/~joaquim/language_technology/NLP/simple_parsing_FreeLing.jpghttp://books.google.es/books?id=KGIbfiiP1i4Chttp://liceu.uab.cat/~joaquim/language_technology/NLP/segmentacio_token_chunk_arbre.jpghttp://books.google.es/books?id=KGIbfiiP1i4Chttp://liceu.uab.cat/~joaquim/language_technology/NLP/segmentacio_token_chunk.jpg -
7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico
19/25
31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co
http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 19/25
Anlisis sintctico profundo.
Padr, L. (s.d.). Demonstration.FreeLing 3.1. An open-source suite of language analyzers. Barcelona: TALP -Tecnologies i Aplicacions del Llenguatge i de la Parla, Universitat Politcnica de Catalunya. Consultado enhttp://nlp.lsi.upc.edu/freeling/demo/demo.php
Anlisis de dependencias
Dependency parsing.
Anlisis de dependencias.
Padr, L. (s.d.). Demonstration.FreeLing 3.1. An open-source suite of language analyzers. Barcelona: TALP -Tecnologies i Aplicacions del Llenguatge i de la Parla, Universitat Politcnica de Catalunya. Consultado enhttp://nlp.lsi.upc.edu/freeling/demo/demo.php
Mtodos estadsticos
The application of statistical methods to parsing started in the 1980s, drawing onwork in the area of corpus linguistics, inspired by the success of statistical speechrecognition, and motivated by some of the perceived weaknesses of parsing systems
http://nlp.lsi.upc.edu/freeling/demo/demo.phphttp://liceu.uab.cat/~joaquim/language_technology/NLP/dependency_parsing_FreeLing.jpghttp://nlp.lsi.upc.edu/freeling/demo/demo.phphttp://liceu.uab.cat/~joaquim/language_technology/NLP/full_parsing_FreeLing.jpg -
7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico
20/25
31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co
http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 20/25
rooted in the generative linguistics tradition and based solely on hand-built grammarsand disambiguation heuristics. In statistical parsing, these grammars and heuristics arewholly or partially replaced by statistical models induced from corpus data. Bycapturing distributional tendencies in the data, these models can rank competinganalyses for a sentence, which facilitates disambiguation, and can therefore afford toimpose fewer constraints on the language accepted which increases robustness.Moreover, since models can be induced automatically from data, it is relatively easy to
port systems to new languages and domains, as long as representative data sets areavailable.Against this, however, it must be said that most of the models currently used instatistical parsing require data in the form of syntactically annotated sentencesatreebankwhich can turn out to be quite a severe bottleneck in itself, in some wayseven more severe than the old knowledge acquisition bottleneck associated with large-scale grammar development. Since the range of languages and domains for whichtreebanks are available is still limited, the investigation of methods for learning fromunlabeled data, particularly when adapting a system to a new domain, is therefore animportant problem on the current research agenda. Nevertheless, practically all high-
precision parsing systems currently available are dependent on learning from treebankdata, although often in combination with hand-built grammars or other independentresources (pp. 263-4).
Nivre, J. (2010). Statistical parsing. En N. Indurkhya y F. J. Damerau (Eds.),Handbook of naturallanguage processing(2nd ed., pp. 237-266). Roca Baton, FL: Chapman & Hall/CRC, Taylor & Francis.
Joakim Nivre
Analizadores sintcticos en lnea
Nivel semntico
Los procesos y recursos necesarios para el anlisis semntico se encuentran en unestado de desarrollo menos avanzado que los existentes para el anlisis sintctico y, enconsecuencia, los resultados que se obtienen son todava parciales. El tratamiento delsignificado implica, en mayor o menor medida, incluir conocimiento sobre el mundoen las aplicaciones que se han descrito. Por esta razn el tratamiento del significado sehace especialmente difcil, ya que los humanos no somos conscientes del tipo deconocimiento que est en juego en este proceso. Existen muchas teoras sobre qu es el
significado y cmo se puede representar, pero ninguna de ellas es satisfactoria nicomputacionalmente tratable de manera completa. Es por ello que en este nivel deproceso la tecnologa se limita a los aspectos ms tratables del problema.
Mart, M. A. y Taul, M. (2011). La Academia y la investigacin universitaria en las tecnologas de la
http://liceu.uab.cat/~joaquim/language_technology/HLT/HTL_NLP_recursos.html#NLP_Syntaxhttp://stp.lingfil.uu.se/~nivre/http://books.google.es/books?id=nK-QYHZ0-_gC -
7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico
21/25
31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co
http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 21/25
lengua. En S. Senz y M. Alberte (Eds.),El dardo en la Academia. Esencia y vigencia de las academias de lalengua espaola(Vol. 2, pp. 1195-1242). Barcelona: Melusina. Consultado enhttps://docs.google.com/file/d/0B6N0v65RwfFSN1RBWGtWVmpLTXc/edit
Maria Antnia Mart Mariona Taul
Desambiguacin de sentidos
WSD, Word Sense DesambiguationDSA, Desambiguacin Semntica Automtica.
Asignacin del sentido de una palabra polismica en funcin del contexto en el que seencuentra.
Proceso en el mbito de la semntica lxica.
La desambiguacin semntica automtica requiere disponer de recursos lingsticos:
lxicos computacionales;
redes lxico-semnticas;corpus desambiguados para el entrenamiento del sistema:
corpus sin desambiguar para el aprendizaje por parte del sistema.
Interpretacin de las relaciones semnticas
Proceso en el mbito de la semntica oracional.
Establecimiento de las relaciones semnticas entre predicado y argumentos: asignacin de
papeles semnticos.
Anlisis semntico mediante Boxer de The cat eats the fish.
Bos, J. (s. f.). Boxer output for sentences.Demonstration, C&C tools. Sidney. Consultado enhttp://svn.ask.it.usyd.edu.au/trac/candc/wiki/Demo
http://svn.ask.it.usyd.edu.au/trac/candc/wiki/Demohttp://liceu.uab.cat/~joaquim/language_technology/NLP/cat_Boxer.jpghttp://liceu.uab.cat/~joaquim/language_technology/HLT/tecnol_ling_recursos.html#Redes_lexico_semanticashttp://clic.ub.edu/ca/membreshttp://clic.ub.edu/ca/membreshttps://docs.google.com/file/d/0B6N0v65RwfFSN1RBWGtWVmpLTXc/edit -
7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico
22/25
31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co
http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 22/25
Anlisis semntico mediante Boxer de The fish eats the cat.
Bos, J. (s. f.). Boxer output for sentences.Demonstration, C&C tools. Sidney. Consultado enhttp://svn.ask.it.usyd.edu.au/trac/candc/wiki/Demo
Nivel discursivo
Estructura textual
Anlisis de la estructura y de la organizacin del texto.
Procesamiento automtico de textos con una estructura prototpica: resmenes de artculoscientficos, prospectos de frmacos.
Segmentacin del texto
Divisin automtica del texto en partes correspondientes a los temas y los subtemas tratadosen cada parte.
Segmentacin basadas en los cambios de elementos lxicos que corresponden a cada cambiode tema.
The approach assumes that a particular set of lexical items is in use during the courseof a given subtopic discussion and, when the subtopic changes, a significantproportion of the vocabulary changes too. The method assumes three broad categoriesof lexical items to be found within a text:
(1) words that occur frequently throughout the text, which are often indicative of itsmain topic(s);
(2) words that are less frequent but more uniform in distribution, which do notprovide much information about the divisions between discussions;
(3) groups of words that are clumped together with high density in some parts of thetext and low density in other parts. These groups of words are indicative of subtopicstructure.
The problem of subtopic segmentation is thus the problem of determining where theseclusters of words in the third category begin and end (p. 603).
Mitkov, R. (2010). Discourse processing. En A. Clark, C. Fox, y Lappin; Shalom (Eds.), The handbook ofcomputational linguistics and natural language processing(pp. 599-629). Chichester: Wiley-Blackwell.
http://books.google.es/books?id=zBmom42eWPcChttp://svn.ask.it.usyd.edu.au/trac/candc/wiki/Demohttp://liceu.uab.cat/~joaquim/language_technology/NLP/fish_Boxer.jpg -
7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico
23/25
31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co
http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 23/25
Ruslan Mitkov
(Fuente: http://lvtc.webs.uvigo.es/blog/natural-language-processing-brains-computers)
Tratamiento de fenmenos relacionados con la coherencia textual
Descripcin formalizada de las relaciones entre los elementos que forman un texto.
Teora de la Estructura Retrica (RST,Rethorical Structure Theory)
Mann, W. C. y Taboada, M. (2014). Rhetorical Structure Theory. Burnaby, BC: SimonFraser University. Consultado en http://www.sfu.ca/rst/
Ttulo y resumen del principio de un artculo deScientific American
Preparacin: texto que se presentar al lector o que lo prepara para interpretar el texto quese presentar.Fondo: texto del que se facilita la comprensin o que facilita la comprensin.Elaboracin: informacin bsica o informacin adicional.Contraste: opcin entre dos elementos.
Mann, W. C. y Taboada, M. (2014). Rhetorical Structure Theory. Burnaby, BC: Simon Fraser University. Consultadoen http://www.sfu.ca/rst/
Teora del centrado (Centering Theory)
The main idea of centering theory (Grosz et al., 1983; 1995) is that certain entitiesmentioned in an utterance are more central than others and this imposes constraintson the use of referring expressions and in particular on the use of pronouns. It isargued that the coherence of a discourse depends on the extent to which the choice of
the referring expressions conforms to the centering properties (pp. 607-8).Mitkov, R. (2010). Discourse processing. En A. Clark, C. Fox, y Lappin; Shalom (Eds.), The handbook ofcomputational linguistics and natural language processing(pp. 599-629). Chichester: Wiley-Blackwell.
http://books.google.es/books?id=zBmom42eWPcChttp://www.sfu.ca/rst/http://liceu.uab.cat/~joaquim/language_technology/NLP/RST_lactosa.gifhttp://www.sfu.ca/rst/http://lvtc.webs.uvigo.es/blog/natural-language-processing-brains-computershttp://pers-www.wlv.ac.uk/~le1825/ -
7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico
24/25
31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co
http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 24/25
Ruslan Mitkov
(Fuente: http://lvtc.webs.uvigo.es/blog/natural-language-processing-brains-computers)
(1) Esta noche, Clara estaba consultando el correo mientras Sofa hablaba por telfono;luego, ella se fue a hacer la cena.
(2) Esta noche, Sofa estaba consultando el correo mientras Clara hablaba por telfono;luego, ella se fue a hacer la cena.
Clara y Sofa son compaeras de piso y viven en un pequeo apartamento en Barcelona.
Todas las noches, Sofa se hace la remolona a la hora de hacer la cena, con lo que Clarasiempre termina preparndola. Pero a Clara no le importa, porque a ella le encantacocinar. De hecho, ha seguido varios cursos de cocina, uno de ellos especializado en cocinaindia. Adems, por las maanas Clara tiene mucho tiempo libre para poder hacer lacompra. Por eso, Clara siempre elige con cuidado los ingredientes con los que preparar lacena. Esta noche, Sofa estaba consultando el correo mientras Clara hablaba por telfono;luego, ella se fue a hacer la cena.
Clara y Sofa son compaeras de piso y viven en un pequeo apartamento en Barcelona.Todas las noches, Sofa se hace la remolona a la hora de hacer la cena, con lo que Clara
siempre termina preparndola. Pero a Clara no le importa, porque a ella le encantacocinar. De hecho, ha seguido varios cursos de cocina, uno de ellos especializado en cocinaindia. Adems, por las maanas Clara tiene mucho tiempo libre para poder hacer lacompra. Por eso, Clara siempre elige con cuidado los ingredientes con los que preparar lacena. Esta noche, Clara estaba consultando el correo mientras Sofa hablaba por telfono;luego, ella se fue a hacer la cena.
Llisterri, J. y Rello, L. (2012). La interfaz entre prosodia y discurso en la resolucin de la anfora pronominalen espaol. En T. Jimnez Juli, B. Lpez Meirama, V. Vzquez Rozas, y A. Veiga (Eds.), Cum corde et in nova
grammatica. Estudios ofrecidos a Guillermo Rojo(pp. 465-475). Santiago de Compostela: Universidade de
Santiago de Compostela. Consultado enhttp://liceu.uab.cat/~joaquim/publicacions/Llisterri_Rello_Prosodia_Anafora_12.pdf
Resolucin de la anfora
The process of determining the antecedent of an anaphor is called anaphoraresolution. In anaphora resolution the system has to determine the antecedent of theanaphor. For identity-of-reference nominal anaphora, any preceding NP which iscoreferential with the anaphor is considered as the correct antecedent . . .
The process of automatic resolution of anaphors consists of the following main stages:
(1) identification of anaphors, (2) location of the candidates for antecedents, and (3)selection of the antecedent from the set of candidates on the basis of anaphoraresolution factors (p. 614).
Mitkov, R. (2010). Discourse processing. En A. Clark, C. Fox, y Lappin; Shalom (Eds.), The handbook of
http://books.google.es/books?id=zBmom42eWPcChttp://liceu.uab.cat/~joaquim/publicacions/Llisterri_Rello_Prosodia_Anafora_12.pdfhttp://lvtc.webs.uvigo.es/blog/natural-language-processing-brains-computershttp://pers-www.wlv.ac.uk/~le1825/ -
7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico
25/25
31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti cocomputational linguistics and natural language processing(pp. 599-629). Chichester: Wiley-Blackwell.
Ruslan Mitkov(Fuente: http://lvtc.webs.uvigo.es/blog/natural-language-processing-brains-computers)
El problema de los pronombres cero.
La Constitucin EspaolaiiFue refrendada por el pueblo espaol el 6 de diciembre de 1978.
El que est obsesionado con que todo el mundo piensa mal es Javier.
Rello, L. (2010).Elliphant: a machine learning method for identifying subject ellipsis and impersonal constructionsin Spanish(Tesis de mster, University of Wolverhampton - Universitat Autnoma de Barcelona). Consultadoen http://www.luzrello.com/Projects_files/luz_rello_master_thesis_elliphant_20101201.pdf
Procesamiento del lenguaje natural: trabajos generales
Procesamiento del lenguaje natural: manuales
El tratamiento computacional de los niveles de anlisis lingsticoJoaquim Llisterri, Departament de Filologia Espanyola, Universitat Autnoma de Barcelonahttp://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html
Last updated: 10/11/15 12:07
This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.
http://creativecommons.org/licenses/by-nc-sa/3.0/http://creativecommons.org/licenses/by-nc-sa/3.0/http://liceu.uab.cat/~joaquim/home.htmlhttp://liceu.uab.cat/~joaquim/language_technology/HLT/HLT_Gen_Bib.html#textbookshttp://liceu.uab.cat/~joaquim/language_technology/HLT/HLT_Gen_Bib.html#General_referenceshttp://www.luzrello.com/Projects_files/luz_rello_master_thesis_elliphant_20101201.pdfhttp://lvtc.webs.uvigo.es/blog/natural-language-processing-brains-computershttp://pers-www.wlv.ac.uk/~le1825/http://books.google.es/books?id=zBmom42eWPcC