procesamiento automático de lenguaje natural

205
Procesamiento automático de lenguaje natural Alexander Gelbukh www.Gelbukh.com CIC, IPN, México

Upload: others

Post on 20-Jul-2022

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Procesamiento automático de lenguaje natural

Procesamiento automático de lenguaje natural

Alexander Gelbukhwww.Gelbukh.com

CIC, IPN, México

Page 2: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 2

Moscú, Rusia

Page 3: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 3

Corea Corea ..

Page 4: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 4

México

Page 5: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 5

Centro de Investigaciónen Computación (CIC)

Page 6: Procesamiento automático de lenguaje natural

Procesamiento automático de lenguaje natural

Alexander Gelbukhwww.Gelbukh.com

CIC, IPN, México

Page 7: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 7

ProcesamientoProcesamientode Lenguaje Naturalde Lenguaje Natural

Page 8: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 8

Convertir textos en estructuras

Page 9: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 9

Que es lenguaje

Linguistic

module

Sentido

This is an example of the output text of the system. This is an example of the output text of the system. This is an example of the output text of the system. This is an example of the output text of the system. This is an example of the output text of the system. This is an example of the output text of the system. This is an example of the output text of the system. This is an example of the output text of the system. This is an example of the output text of the system. This is an example of the output text of the system. This is an example of the output text of the system. This is an example of the output text of the system. This is an example of the output text of the system. This is an example of the output text of the system. This is an

Texto

Lengu- aje

Sistema experto Lingu

istic modul

Voz,OCR

Len-guaje

Page 10: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 10

La fuente de complejidad: una dimensión

This is a text that represents the meaning shown in the right part of the picture. This is a text that represents the meaning shown in the right part of the picture. This is a text that represents the meaning shown in the right part of the picture. This is a text that represents the meaning shown in the right part of the picture. This is a text that represents the meaning shown in the right part of the picture. This is a text that represents the meaning shown in the right part of the picture. This is a text that represents the meaning shown in the right part of the picture. This is a text that represents the meaning shown in the right part of the picture. This is a text that represents the meaning shown in the right part of the picture. This is a text that represents the

i h i h i h f h

Language

Text (speech)

Meaning Meaning

........Text Text.......

Brain

1 Brain 2

Page 11: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 11

ConocimientoConocimiento

Len-guaje

Len-guaje

This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of the

Texto

La fuente de complejidad: una dimensión

Page 12: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 12

Procesador lingüístico como traductor

Linguisticmodule

Meanings

This is an example of the output text ofthe system. This is an example of theoutput text of the system. This is anexample of the output text of thesystem. This is an example of the outputtext of the system. This is an example ofthe output text of the system. This is anexample of the output text of thesystem. This is an example of the outputtext of the system. This is an example ofthe output text of the system. This is anexample of the output text of thesystem. This is an example of the outputtext of the system. This is an example ofthe output text of the system. This is anexample of the output text of thesystem. This is an example of the outputtext of the system. This is an example ofthe output text of the system. This is an

Texts

Linguisticmodule

Appliedsystem

Page 13: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 13

Niveles de lenguaje

Surface level (Text)

Deep level (Meaning)

Page 14: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 14

Niveles de lenguaje

Morphologic level

Syntactic level

Text level

Semantic level

Page 15: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 15

This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of thepicture. This is a text that represents themeaning shown in the right part of the

LanguageText Meaning

Morphologicalrepresentation

Syntacticrepresentation

Morpho-logicaltrans-former

Syntac-tic

trans-former

Seman-tic

trans-former

Semanitcrepresentation

Surfacerepresentation

Niveles de lenguaje y estructura del procesador lingüístico

Page 16: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 16

Niveles de lenguaje

Morphological levels:Pre-morphologicalSurfaceDeep

Syntactic levels:Pre-syntacticSurfaceDeep

Surface level

Semantic levels:Pre-semanticSurfaceDeep

Page 17: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 17

Procesamiento por capas

Syntactic transformer

Pre-syn- tactic trans- former

Surface syntactic

trans- former

Deep Syntactic

trans- former

Language

Page 18: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 18

Representación textualEl texto es una secuencia de letras.

L a c i e n c i L a c i e n c i a e s i m p o a e s i m p o r t a n t e p a r t a n t e p a r a n u e s t r r a n u e s t r o p a o p a íí s . E s . E l G o b i e r n l G o b i e r n o l e p o n e o l e p o n e m u c h a a t e m u c h a a t e n c i n c i óó n .n .

Page 19: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 19

Procesador Lingüístico

Módulo

Morfoló-gico

Módulo

Semán-tico

Módulo

Sintác-tico

ModuloMorfológico

Modulo morfológico

Page 20: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 20

Representación morfológicaRepresentación morfológica es una secuencia de estructuras de palabras.

La LA articulo determinado, femenino

ciencia CIENCIA sustantivo feminino, singular

es SER verbo presente, 3ª persona, sing.

importante IMPORTANTE adjetivo singular

para PARA preposicion ---

nuestro NOSOTROS pronombre posesivo

pais PAIS sustantivo masculino, singular

Page 21: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 21

Procesador Lingüístico

Módulo

Morfoló-gico

Módulo

Semán-tico

Módulo

Sintác-tico

ModuloSintáctico

Modulo sintáctico

Page 22: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 22

Representación sintáctica

Representación sintáctica es una secuencia de árboles sintácticos.

SER

CIENCIA IMPORTANTE

PAIS

NOSOTROS

de

PONER

GOBIERNO ATENCION

LE MUCHA

Page 23: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 23

Procesador Lingüístico

Módulo

Morfoló-gico

Módulo

Semán-tico

Módulo

Sintác-tico

ModuloSemántico

Modulo semántico

Page 24: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 24

Representación semánticaRepresentación semántica es laestructura completa del texto.

CIENCIA

IMPORTANTE

PAIS

NOSOTROS

GOBIERNO

ATENCION

es

de

da

para

depara

Presupuesto

Organizacion

Sector

Dinero

es unForma

principal

necesita

es un

da

es un implica

Page 25: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 25

El sentido del texto““La ciencia es importante para nuestro La ciencia es importante para nuestro papaíís.s.El Gobierno le pone mucha atenciEl Gobierno le pone mucha atencióón.n.””

La LA articulo determinado, femenino

ciencia CIENCIA sustantivo feminino, singular

es SER verbo presente, 3ª persona, sing.

importante IMPORTANTE adjetivo singular

para PARA preposicion ---

nuestro NOSOTROS pronombre posesivo

pais PAIS sustantivo masculino, singular

SER

CIENCIA IMPORTANTE

PAIS

NOSOTROS

de

PONER

GOBIERNO ATENCION

LE MUCHA

Presupuesto

Organizacion

Sector

Dinero

es unForma

principal

nececita

es un

da

es un implica

CIENCIA

IMPORTANTE

PAIS

NOSOTROS

GOBIERNO

ATENCION

es

de

da

para

depara

““La ciencia es importante para nuestro La ciencia es importante para nuestro papaíís.s.El Gobierno le pone mucha atenciEl Gobierno le pone mucha atencióón.n.””

La ciencia en nuestro país tiene dinero para su desarrollo.

Page 26: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 26

?

Morphologicallevel

Syntacticlevel

Textlevel

Semanticlevel

The Meaning,yet unreachable

Language A Language B

Directa

Transferencia

Interlingua

Page 27: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 27

Ejemplo: traducción

?

Morphologicallevel

Syntacticlevel

Textlevel

Semanticlevel

The Meaning,yet unreachable

Language A Language B

Page 28: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 28

Problemas y mProblemas y méétodostodos

Page 29: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 29

Dos problemas principales

• Ambigüedad• Complejidad de conocimiento necesario

– conocimiento lingüístico (depende de lenguaje)– conocimiento extralingüístico (no depende)

Page 30: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 30

Ambigüedad• Léxica

– habla, aviso –¿verbo o sustantivo?– hablamos –¿presente o pasado?– banco –¿organización u orilla?

• Sintáctica– Veo al gato con el telescopio.– Veo al gato con cola larga.

• De referencia (anáfora, correferencia)– Juan tomó la torta de la mesa y la comió.– Juan tomó la torta de la mesa y la limpió.

Page 31: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 31

Resolución de ambigüedad

• Una tarea bien definida– un número fijo de variantes– criterios claros de evaluación– corpus con variantes ya marcadas

• Permite comparación cuantitativa de sistemas– criterio numérico: precisión (accuracy)

• Avance medible. Deporte. Reto.

Page 32: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 32

Métodos estadísticos

• Supervisados: requieren ejemplos– Un corpus grande donde la tarea ya se resolvió– El programa aprende los criterios de decisión– Corpus marcados son muy costosos… y malos.

• No supervisados: no requiere ejemplos– Se basan en corpus grandes pero no marcados– Muchísimo más barato… ¡parece magia!– Precisión usualmente mucho peor. Pero…

Page 33: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 33

Reto: métodos no supervisados• Lingüísticamente: científico

– Método supervisado es clasificación (aprendizaje automático). Nada que ver con lingüística.

– No supervisado es ¡como un niño aprende!– Descubre la naturaleza del lenguaje

• Técnicamente: mejor (en largo plazo)– Corpus no marcados cada vez más grandes, gratis– Adaptable a colecciones específicas

Page 34: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 34

Ejemplo: morfología no supervisada

• Descripción del tamaño mínimo• Cada palabra = base + terminación• Usando el número menor posible de bases y

terminaciones,• Describir todas las palabras del corpus• Gelbukh et al.: algoritmo genético

– Corpus muy pequeños. Español: Don Quijote.

Page 35: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 35

• ablándate-• abland-áis• abland-ó• abland-aba• abland-aban• abland-ado• abland-an• abland-ar• abland-ara• abland-arme• abland-aron• abland-arte

• abland-e• abobado-• abolengo-• aboll-é• abolla-da• abolla-do• abomin-ábamos• abomin-able• abomin-ado• abomin-o• abon-asen• abon-o

• aborrascadas-• aborrec-í• aborrec-ía• aborrec-e• aborrec-en• aborrec-ió• aborrec-ible• aborrec-ida• aborrec-ido• aborrec-idos

Page 36: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 36

• abject-• abject-ly• abjectness-• abjectness-es• abjurat-ion• abjurat-ions• abjur-e• abjur-ed• abjur-er• abjur-ers• abjur-es

• abjur-ing• abla-te• abla-ted• abla-tes• abla-ting• abla-tion• ablation-s• ablativ-e• ablativ-es• ablau-t• ablaut-s

• ablaze-• ab-le• ablegate-• ablegate-s• able-r• able-s• able-st• ablings-• ablins-• abloom-• abluen-t

Page 37: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 37

артиллерий+скийартиллерий+скимартиллерий+скойартиллери+стартиллери+яарти+сарти+скиарти+стартистическими+арти+стомартист+уарти+сты

• архангел+• архангел+овых• архаровец+• архитектур+ной• архитектур+ные• архитектур+ным• архитектур+ных• асбеста+• аспи+д• аспи+да• аспид+ом• ассказывайте+

• астафьев+• астафьев+а• астафьев+ские• астахов+• астраха+ни• астраха+нка• астраханск+ими• астраханск+их• астраханск+ой• астраханск+ом• астраха+нь

Page 38: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 38

hablohabita

habitaciónhacer

hablandohadahadas

haciendoharina

....

Page 39: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 39

hablohabita

habitaciónhacer

hablandohadahadas

haciendoharina

....

habl-habit-hac-had-harin-

-o-a

-er-as

-iendo

? ?

Page 40: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 40

hablohabita

habitaciónhacer

hablandohadahadas

haciendoharina

....

hablo-habita-habitación-hacer-hablando-hada-hadas-haciendo-harina-....

-∅

Page 41: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 41

hablohabita

habitaciónhacer

hablandohadahadas

haciendoharina

....

habl-habit-hac-had-harin-

-o-a

-er-as

-iendo

Page 42: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 42

hablohabita

habitaciónhacer

hablandohadahadas

haciendoharina

....

habl-habit-hac-had-harin-

-o-a

-er-as

-iendo

¿Cómo encontrar los conjuntos mínimos?

Page 43: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 43

hablohabita

habitaciónhacer

hablandohadahadas

haciendoharina

....

habl-habit-hac-had-harin-

-o-a

-er-as

-iendo

¿Cómo encontrar los conjuntos mínimos?

100,000 palabras... 2100,000 conjuntos100000000000...000000000 variantes!

30,000 ceros

Page 44: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 44

Algoritmos genéticos

Page 45: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 45

Evolución natural

• Selección

• Herencia

• VariaciónDarwin

Page 46: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 46

Codificación

• Las propiedades se codifican en una cadena:0010110011101110110101011011

• Cada elemento se refleja en una propiedad:1 = rubio, 0 = negro

• Herencia: el hijo herede la misma cadena• Variación: se cambia aleatoriamente un bit

(en la naturaleza: por rayos X cósmicos)

Page 47: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 47

• 00101100111011101101010110110101111011011110111101100001

• 00101100110111101111011000010101111011101110110101011011

Qué es el sexo

Page 48: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 48

• 00101100111011101101010110110101111011011110111101100001

• 00101100110111101111011000010101111011101110110101011011

Fuerte

Débil

Feo

GuapaFuerte Guapo

Débil Feo

Page 49: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 49

¿Por qué el sexoes bueno?

• Rápidamente encuentracombinaciones de buenascualidades

• (También combinacionesde las malas, pero éstosmueren pronto: selección)

Hay muchos tiposde los algoritmos genéticos

Page 50: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 50

Algoritmo evolutivo

0101101101101101011010101101101110111010110110111011101010100110111010101101101101110111011101101010110111010110110110101011101010101101010100010101110110001111

Page 51: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 51

Algoritmo evolutivo

0101101101101101011010101101101110111010110110111011101010100110111010101101101101110111011101101010110111010110110110101011101010101101010100010101110110001111

Page 52: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 52

Algoritmo evolutivo

0101101101101101011010101101101110111010110110111011101010100110111010101101101101110111011101101010110111010110110110101011101010101101010100010101110110001111

Page 53: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 53

Algoritmo evolutivo

0101101101101101011010101101101110111010110110111011101010100110111010101101101101110111011101101010110111010110110110101011101010101101010100010101110110001111

Page 54: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 54

Algoritmo evolutivo

0101101101101101011010101101101110111010110110111011101010100110111010101101101101110111011101101010110111010110110110101011101010101101010100010101110110001111

Page 55: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 55

Saturación del algoritmo genético

0

20

40

60

80

100

120

140

0 50 100 150 200Generation

Fitn

ess

Best in population

Worst in population

Maximum Lesk

Average Lesk

All zeroes

Random

Page 56: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 56

El algoritmo genético

• Todas las posiblessubcadenas (inicio y fin)

• Cromosoma:100,000 + 100,000 bit1 si la cadena se incluye

• Función de adecuación:1) que cubre más palabras2) que sea de menor tamaño

0 h-0 ha-1 habl-1 habit-0 hac-1 had-1 harin-1 -o1 -a0 -as1 -er1 -iendo0 -endo0 -ndo

Page 57: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 57

habl+ohabit+a

habitaciónhacer

hablandohad+ahadas

haciendoharin+a

....

0 h-0 ha-1 habl-1 habit-0 hac-1 had-1 harin-1 -o1 -a0 -as1 -er1 -iendo0 -endo0 -ndo

Page 58: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 58

habl+ohabita

habitaciónhac+er

hablandohada

had+ashac+iendo

harina....

0 h-0 ha-1 habl-1 habit-1 hac-1 had-1 harin-1 -o0 -a1 -as1 -er1 -iendo0 -endo1 -ndo

Page 59: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 59

habl+ohabit+a

habitaciónhac+er

hablandohad+ahad+as

hac+iendoharin+a

....

0 h-0 ha-1 habl-1 habit-1 hac-1 had-1 harin-1 -o1 -a1 -as1 -er1 -iendo0 -endo0 -ndo

Page 60: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 60

• ablándate-• abland-áis• abland-ó• abland-aba• abland-aban• abland-ado• abland-an• abland-ar• abland-ara• abland-arme• abland-aron• abland-arte

• abland-e• abobado-• abolengo-• aboll-é• abolla-da• abolla-do• abomin-ábamos• abomin-able• abomin-ado• abomin-o• abon-asen• abon-o

• aborrascadas-• aborrec-í• aborrec-ía• aborrec-e• aborrec-en• aborrec-ió• aborrec-ible• aborrec-ida• aborrec-ido• aborrec-idos

Page 61: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 61

• abject-• abject-ly• abjectness-• abjectness-es• abjurat-ion• abjurat-ions• abjur-e• abjur-ed• abjur-er• abjur-ers• abjur-es

• abjur-ing• abla-te• abla-ted• abla-tes• abla-ting• abla-tion• ablation-s• ablativ-e• ablativ-es• ablau-t• ablaut-s

• ablaze-• ab-le• ablegate-• ablegate-s• able-r• able-s• able-st• ablings-• ablins-• abloom-• abluen-t

Page 62: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 62

артиллерий+скийартиллерий+скимартиллерий+скойартиллери+стартиллери+яарти+сарти+скиарти+стартистическими+арти+стомартист+уарти+сты

• архангел+• архангел+овых• архаровец+• архитектур+ной• архитектур+ные• архитектур+ным• архитектур+ных• асбеста+• аспи+д• аспи+да• аспид+ом• ассказывайте+

• астафьев+• астафьев+а• астафьев+ские• астахов+• астраха+ни• астраха+нка• астраханск+ими• астраханск+их• астраханск+ой• астраханск+ом• астраха+нь

Page 63: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 63

Page 64: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 64

• ablándate-• abland-áis• abland-ó• abland-aba• abland-aban• abland-ado• abland-an• abland-ar• abland-ara• abland-arme• abland-aron• abland-arte

• abland-e• abobado-• abolengo-• aboll-é• abolla-da• abolla-do• abomin-ábamos• abomin-able• abomin-ado• abomin-o• abon-asen• abon-o

• aborrascadas-• aborrec-í• aborrec-ía• aborrec-e• aborrec-en• aborrec-ió• aborrec-ible• aborrec-ida• aborrec-ido• aborrec-idos

Page 65: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 65

Ambigüedad• Léxica

– habla, aviso –¿verbo o sustantivo?– hablamos –¿presente o pasado?– banco –¿organización u orilla?

• Sintáctica– Veo al gato con el telescopio.– Veo al gato con cola larga.

• De referencia (anáfora, correferencia)– Juan tomó la torta de la mesa y la comió.– Juan tomó la torta de la mesa y la limpió.

Page 66: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 66

Analizador morfológico

• Da todas las variantes del análisis de cada palabra– habla → habla<sust,sg,f>, hablar<verbo,sg,3>

• Basado en diccionario• Heurísticas para palabras nuevas• Nosotros tenemos uno. Otro: MACO+

Page 67: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 67

Etiquetador (tagger)

• Elige una sola categoría gramatical de cada palabra en el texto– Él / el habla; ayer / ahora hablamos– El habla → el<det sing fem> habla<sust sing…>

• Estadísticas– TnT tagger: modelos de Markov– Brill tagger: reglas, aprende errores de otro tagger– Tenemos sus versiones en español

Page 68: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 68

TnT tagger: modelos de Markov

• Probabilidad de ocurrir cada categoríadada las categorías de 1…2…3 palabras anteriores

• Diccionario: probabilidad para una palabra tener una categoría

• Las aprende automáticamente de un corpus marcado. Supervisado.

Page 69: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 69

Brill tagger: sistema experto

• Mejora el resultado de cualquier tagger• Reglas que corrigen errores:

– Si la palabra actual es art. def. sing. masc. y la siguiente es sust. fem., cambiar el género a fem.: el habla

– Pueden ser complejas• Las aprende automáticamente de un corpus

marcado. Supervisado.

Page 70: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 70

Reto

¿Se puede hacer un tagger no supervisado?

Page 71: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 71

Ambigüedad• Léxica

– habla, aviso –¿verbo o sustantivo?– hablamos –¿presente o pasado?– banco –¿organización u orilla?

• Sintáctica– Veo al gato con el telescopio.– Veo al gato con cola larga.

• De referencia (anáfora, correferencia)– Juan tomó la torta de la mesa y la comió.– Juan tomó la torta de la mesa y la limpió.

Page 72: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 72

Desambiguación de sentidos de palabras (WSD)

• Cada palabra tiene ni sentidos en el diccionario. ¿Cuál sentido se usa en un contexto dado?

• Evaluación: corpus marcados estándares– SemCor para inglés. Hay para español (pequeños)

• Una tarea bien definida y muy difícil– Buen reto para los estudiantes

• Campeonato mundial: SENSEVAL

Page 73: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 73

WSD: ideas

• Yarowsky:1. Un sentido por discurso: Juan tiene una cuenta

en el banco… bla bla bla bla … banco.2. Un sentido por colocación: depositar en banco

• Propagación• Método débilmente supervisado

Page 74: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 74

Yarowsky

• Se marcan pocos ejemplos: Juan depositó dinero en el banco<1> en la esquina.

• Éstos dan colocaciones: depositar en banco<1>• Éstos dan más ejemplos: María depositó dinero

en el banco<1> … bla bla … Banco Mundial• Esto da más colocaciones: Banco<1> Mundial• Y se repite… Pedro trabaja en el Banco Mundial

Page 75: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 75

WSD: ideas

• Lesk:1. Medida de similitud entre sentidos2. Que todos contra todos sentidos elegidos,

sean lo más similares posible• No supervisado• Enorme cantidad de cálculo

Page 76: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 76

Lesk

• Cono de pino• Cono:

– Porción de helado– Fruta de cierto tipo de árbol

• Pino:– Árbol siempre verde con hojas como agujas– pl. Residencia del presidente mexicano

01

00

Page 77: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 77

Lesk

Text: words

Sens

es

Sense relatedness Variant of

sense selection

Page 78: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 78

Lesk

• Enorme cantidad de variantes:– Si cada palabra tiene sólo 3 sentidos– Oración de 20 palabras da 10,000,000,000

• Cowie: simulated annealing• Gelbukh et al.:

– algoritmo genético– distancia de relación limitada– heurísticas para bajar el número de variantes

Arte

Page 79: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 79

Saturación del algoritmo genético

0

20

40

60

80

100

120

140

0 50 100 150 200Generation

Fitn

ess

Best in population

Worst in population

Maximum Lesk

Average Lesk

All zeroes

Random

Page 80: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 80

Tamaño de populación

020406080

100120140

0 200 400 600 800 1000Pool Size

Fitn

ess

170

220

270

320

370

Num

ber

of G

ener

atio

ns

Genetic algorithmMaximum LeskAverage LeskAll zeroesRandomConvergence

Page 81: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 81

Frecuencia de cruzamiento

020406080

100120140

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1Crossover Rate

Fitn

ess

250

300

350

400

450

500

Num

ber

of G

ener

atio

ns

Genetic algorithmMaximum LeskAverage LeskAll zeroesRandomConvergence

Page 82: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 82

Medidas de similitud entre sentidos

• Lesk:– Cada sentido tiene definición: un pequeño texto– Similitud entre textos: # de palabras en común

• Pedersen, Gelbukh & Sidorov:– Suavizar agregando vecinos en WordNet

• Hirst, Gelbukh:– Número de pasos en WordNet

• Hay mucho más variantes

Page 83: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 83

Similitud de Lesk entre textos

• Cono de pino• Cono:

– Porción de helado– Fruta de cierto tipo de árbol

• Pino:– Árbol siempre verde con hojas como agujas– pl. Residencia del presidente mexicano

01

00

Page 84: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 84

Lesk simplificado

• Mucho menos complejo: sólo n x N• Usa medida de similitud entre dos textos• Da mejores resultados (¿por qué?... valor)

dineroDonde se guarda dinero

Page 85: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 85

Similitud entre palabras

• Similitud de textos involucra comparación de palabras

• ¡Suavizar! Sinónimos… casi sinónimos…• ¡Descubrir sinonimia!

– De manera no supervisada– Para que los métodos que la usan sean no

supervisados

Page 86: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 86

Descubrir sinónimos

• Dekang Lin:– Son sinónimos si se usan en contextos iguales– Porcentaje de colocaciones en común– (Ir al / trabajar en / privado) (banco / escuela)

• Sierra & McNaugh, Murata:– Definiciones en diferentes diccionarios– Termometro es aparato / dispositivo para…

Page 87: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 87

Sentido más frecuente

• Una heurística muy poderosa• ¿Supervisada? (ejemplos para contar)• McCarthy 2004: ¡no!

– Sinónimos ponderados de Lin (banco = escuela, …)– Cada uno vota por el sentido más parecido– Medida de “parecido”: Lesk es mejor– En promedio: banco<1> (organización)

Page 88: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 88

Conocimiento oculto en diccionarios

• Lesk es muy bueno• Calvo & Gelbukh

– Si en similitud de Lesk cada palabra se cambia a *, ¡da mejor resultado!

Page 89: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 89

Similitud de Lesk entre textos

• Cono de pino• Cono:

– Porción de helado– Fruta de cierto tipo de árbol

• Pino:– Árbol siempre verde con hojas como agujas– pl. Residencia del presidente mexicano

01

00

Page 90: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 90

Similitud de Lesk entre textos

• Cono de pino• Cono:

– **** **** *****– **** **** **** **** **** ****

• Pino:– **** **** **** **** **** **** ****– pl. **** **** **** ****

46

33

Page 91: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 91

Conocimiento oculto en diccionarios

• Calvo & Gelbukh– El número de palabras en la definición

¡codifica el sentido más frecuente!– Igual, ¡el número de relaciones en WordNet!– Igual, las glosas en WordNet

• Hay más conocimiento oculto en diccionarios. Trabajamos en esto

Page 92: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 92

Conocimiento:Diccionarios y gramáticas

• Para cada nivel, sus propios diccionarios(se pueden combinar en uno grande)– Morfológico– Sintácticos de varios tipos– Semanticos– Conocimiento del mundo de varios tipos

• Los diccionarios dependen de lenguaje• Son el corazón del sistema de procesamiento

de lenguaje natural

Page 93: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 93

Ambigüedad• Léxica

– habla, aviso –¿verbo o sustantivo?– hablamos –¿presente o pasado?– banco –¿organización u orilla?

• Sintáctica– Veo al gato con el telescopio.– Veo al gato con cola larga.

• De referencia (anáfora, correferencia)– Juan tomó la torta de la mesa y la comió.– Juan tomó la torta de la mesa y la limpió.

Page 94: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 94

Page 95: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 95

Desambiguación sintáctica

• Gramáticas probabilísticas– Supervisado. Treebanks. Español: 3LB

• No supervisado– Yuret 1997: atracción léxica– Gelbukh et al. 1997: Aprendizaje no

supervisado de marcos de subcategorización– Ciertas palabras tienden que aparecer juntas

Page 96: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 96

Constituyentes vs. Dependencias• Árbol de constituyentes (Chomsky)

– [Move [the ball] [from [the floor]] [to [the box]]]– Métodos simples y muy desarrollados– Español: treebank 3LB

• Árbol de dependencias (Tesnièr, Mel’čuk)– Conecta palabras, no agrupa– Mucho más parecido a la estructura semántica– Mucho más fácil usar las propiedades léxicas– Parser: nuestro, Connexor.

Page 97: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 97

Constituyentes vs. Dependencias

[Move [the ball] [from [the floor]] [to [the box]]]• VP → V NP; NP → D N • Marcar jefe (cabeza) en cada regla

– VP → @V NP; NP → D @N– [@Move [the @ball] [@from [the @floor]] [@to

[the @box]]]

Move the ball the floor the boxMove tofrom

Page 98: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 98

Move The ball The floor The Box

to

from 1.

Move The ball The floor The Box

to

from

Move The ball The floor The Box

to

from2.

Move The ball The floor The Box

to

from

Move The ball The floor The Box

to

from3. Move The ball The floor The Box

to

from

Move The ball The floor The Box

tofrom 4. Move The ball The floor The Box

tofrom

Move The ball The floor The Box

tofrom5.

Move The ball The floor The Box

tofrom

Page 99: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 99

Source S +

(true variants)

Source S –

(noise)

Recei-ver

Features fi:Package V

Variant Vj

Page 100: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 100

( )[ ] ( )

( )

p w S

p w V S

w C p p w

i j

i j

j i i k

+

+ −

=

= − + −

= × =

∑∑

∏ ∑

,

,

, ,

1

1

λ

Page 101: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 101

Page 102: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 102

Ambigüedad• Léxica

– habla, aviso –¿verbo o sustantivo?– hablamos –¿presente o pasado?– banco –¿organización u orilla?

• Sintáctica– Veo al gato con el telescopio.– Veo al gato con cola larga.

• De referencia (anáfora, correferencia)– Juan tomó la torta de la mesa y la comió.– Juan tomó la torta de la mesa y la limpió.

Page 103: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 103

Resolución de anáfora

• Mitkov: método pobre en conocimiento– Patrones simples– Heurísticas simples: “no más que 5 palabras”– Robusto

• Gelbukh & Sidorov; Murata: anáfora indirecta– Juan compró una casa. La cocina es grande.– Juan estaba comiendo. La comida era deliciosa.– Escenarios: casa – cocina; comer – comida

Page 104: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 104

Dos problemas principales

• Ambigüedad• Complejidad de conocimiento necesario

– conocimiento lingüístico (depende de lenguaje)– conocimiento extralingüístico (no depende)

Page 105: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 105

Diccionarios

• Los que se usan• Los que hay que compilar• De preferencia automáticamente• De preferencia no supervisadamente

Page 106: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 106

Diccionario Morfológico

Ser soy, somos,eres, sois,es, sonera, éramos...

• 15 000+ verbos• 30 000++ sustantivos• Tablas de conjugación y declinación

Page 107: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 107

Diccionario de Combinaciones de Palabrasponer atención,prestar atención,pagar atención,

dar ayuda,prestar ayuda,mostrar ayuda.

En ingles En ruso

• 500 000+ combinaciones• Generación de combinaciones nuevas• Ya discutimos un método para

compilar de modo no supervisado

Page 108: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 108

Diccionario de Patrones Sintácticos

GOBIERNO deldel paísHABLAR sobresobre Maria concon PedroCASARSE concon Maria

aa Mariasobresobre Maria

En ingles

En ruso

• 10 000 verbos• Sentido de cada combinación

Page 109: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 109

Complejidaddel conocimiento lingüístico

• Diccionario morfológico• Gramática sintáctica• Diccionario del uso de preposiciones (de

valencias)• Diccionario de combinaciones de palabras

(funciones léxicas)• Cantidad enorme de palabras y combinaciones

Page 110: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 110

Conocimiento extralingüístico• Linea punteada• «Del Angel vas por Reforma dos paradas en

la dirección opuesta a la Diana, bajas en el Caballito y das vuelta a la derecha»

• Un extranjero no entiende nada– ¿qué angel? ¿reforma de qué? ¿paradas de qué?

• Las computadoras son extranjeras en nuestro mundo

• Ezfuerzo enorme para darles esta información

Page 111: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 111

Tesauro del sentido comúnpais tiene gobiernogobierno es un organizaciónorganización da presupuestosector necesita dinerodinero es un presupuestociencia es un sectorciencia parte de industria

• 10 000 000+ combinaciones• Multirelacional• Multijerárquico

Page 112: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 112

¿De dónde viene el conocimiento?

• Especificar a mano– El modo tradicional– Buena calidad– MUY caro, lento, ... – ¿Incompleto? Cambios del lenguaje, del tema...

• Aprender automáticamente– De muy, pero muy grandes volúmenes del texto

Page 113: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 113

Lingüística del corpus...

• Megas... gigas... ¡teras de textos! (Google)• Métodos estadísticos muy fuertes• Aplicación de los métodos del aprendizaje

automático al análisis de los textos• Más estable y flexible (que hacerlo a la mano)

• Mucho más barato ⇒ más recursos se crean• La tendencia prevaleciente ahora

Page 114: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 114

...Lingüística del corpus

• Aprenda diccionarios:– Qué palabras ocurren con qué: colocaciones– Con qué preposición ocurre qué palabra, ...

• Aprenda gramáticas– Miles y millones de reglas

• Aprenda estadísticas:– Qué reglas gramaticales son más probables

Page 115: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 115

Internet: ¡sabe de todo!

• En lugar de crear diccionarios... ¡haga búsquedas!

• ¿Pienso de que ... o pienso que ...? Google: – Pienso de que: 55 veces– Pienso que: 170,000 veces– ¡Sin ningún diccionario!

• gato con la cola: 31; gato con un telescopio: 2 ver con la cola: 7; ver con un telescopio: 77

Page 116: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 116

Internet: ¡sabe de todo!

• En lugar de crear diccionarios... ¡haga búsquedas!

• ¿Pienso de que ... o pienso que ...? Google: – Pienso de que: 55 veces– Pienso que: 170,000 veces– ¡Sin ningún diccionario!

• gato con la cola: 31; gato con un telescopio: 2 ver con la cola: 7; ver con un telescopio: 77

Con Internet¡se pueden hacer maravillas!

Page 117: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 117

Problemas de corpus

• Ley de Zipf– Casi todo el corpus son

repeticiones de las mismaspalabras

– Casi todas las palabrasno aparecen en el corpus

• Estadísticas insuficientes

Page 118: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 118

Inútil

Insuficiente

Page 119: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 119

Web como corpus

• Es un corpus enorme– Mucho mejores estadísticas

• Búsqueda bastante rápida• Mucha investigación en eso

Page 120: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 120

Ejemplo: concordancia

• “Comer * con tenedor”• Google da snippets

– Descripciones cortas donde se contiene la petición

• Estadísticas (de snippets)– carne, espagueti, ensalada, …

• Problema: morfología. Comer, comen, como, comimos, …

Page 121: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 121

Problemas de Web

• Lento• No se puede marcar

– No sabe de las estructuras sintácticas– Ni siquiera de morfología– ¿Generar variantes? Muchísimos– Google no da más de 1000 accesos al día

• Cambia con tiempo, no reproducible

Page 122: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 122

Otros recursos

• Otros diccionarios• Algoritmos• Programas• Investigaciones teóricas• ... y mucho

muchomás.

Page 123: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 123

Corpus colectado de web

• Más rápido• Sólo ejemplos necesarios• Se puede marcar• Reproducible, estable• 200 MB (50 ocurrencias de cada palabra)• ¿Y si tuviéramos suficiente disco?

– ¿Más vale guardar todo Google localmente?– Kilgarriff: hacer un Buscador Lingüístico

Page 124: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 124

El esquema general del método

Corpus inicial

Análisis léxico

Agenda

Módulo de control Interfaz de búsqueda

Buscador de Internet

Documentos

Analizador de respuesta

Interfaz de documentos

Analizador de documento

Filtro depalabras

Filtro decontextos

Resultado

URLsvisitados

Generador de formas

Módulo de ponderación

Analizador morfológico

I n t e r n e t

Page 125: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 125

Corpus colectado de web

• Más rápido• Sólo ejemplos necesarios• Se puede marcar• Reproducible, estable• 200 MB (50 ocurrencias de cada palabra)• ¿Y si tuviéramos suficiente disco?

– ¿Más vale guardar todo Google localmente?– Kilgarriff: hacer un Buscador Lingüístico

Page 126: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 126

Page 127: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 127

Recursos

• WordNet en español. Tenemos copia• Corpus: Nuestro; 3LB, LexEsp• Analizador morfológico. Nuestro, MACO+• Analizador sintáctico. Nuestro, Connexor• Analizador semántico… ?• Paquete estadístico: Ted Pedersen• Similitud (inglés): Dekang Lin• Paquete ARIES ?

Page 128: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 128

AplicacionesAplicaciones

Page 129: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 129

Interfaces en Lenguaje Natural

0101011101010001101010111o101001011

VS.

Las personas son más productivas cuando hablan en su propio lenguaje

Page 130: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 130

Interfaces en lenguaje natural

vs.

Es más fácil enseñar a las computadoras cómo entender a las personas que enseñar a toda la gente cómo entender a las computadoras

Page 131: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 131

Recuperación de información

vs.

Las computadoras encuentran la información de una manera mucho más rápida que la gente

Page 132: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 132

Tipos de búsqueda• Búsqueda de documentos : pensar en el futuro

– pensador, pensamiento– pensar en el futuro desarrollo– pensar siempre en el futuro

• Responder preguntas– ¿Cómo se llama la reina de España?

• Extracción de información– a partir de los periódicos, compilar una base de

datos de las compras y ventas de compañías

Page 133: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 133

Page 134: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 134

Minería de texto• A partir de cantidades de texto grandes• Descubrir, el conocimiento que no está escrito en

cualquiera de éstos• Buscar:

– tendencias, promedios, desviaciones, dependencias– En los periódicos, ¿es la opinión sobre las acciones

del gobierno en Chiapas positiva o negativa?– ¿Hay diferencias en éste en diferentes regiones?– ¿Cómo se cambió desde el mes pasado?– Los periódicos que opinan positivo, ¿sobre qué

también opinan positivo?

Page 135: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 135

Page 136: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 136

Page 137: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 137

Traducción

?

Morphologicallevel

Syntacticlevel

Textlevel

Semanticlevel

The Meaning,yet unreachable

Language A Language B

Page 138: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 138

Métodos de traducción

• Tradicional: simbólico– Morfología, sintaxis, semántica, transferencia– Funciones léxicas– UNL

• Example-based (Nagao)– Corpus paralelos– Estadísticas– Prevaleciente en práctica

Page 139: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 139

Traducción directa

(C) www.geocities.com/SiliconValley/Bay/1268

Page 140: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 140

Mejor idea: Interlingua

(C) www.geocities.com/SiliconValley/Bay/1268

Page 141: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 141

Funciones léxicas

• El tesista tomó la decisión definitiva para concluir satisfactoriamente su tesis.

• tesista → ?• tomar → take? drink?• definitiva → definite?• concluir → conclude? deduce? • satisfactoriamente → satisfactorily?

Page 142: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 142

tomar

decisióntesista

concluir

tesis

satisfactoriamente

el que hace tesis

definitiva

Page 143: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 143

tomar

decisiónS1(x)

concluir

tesis = x

satisfactoriamente

definitiva

Page 144: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 144

Oper1(y)

decisión = yS1(x)

concluir

tesis = x

satisfactoriamente

definitiva

Page 145: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 145

Oper1(y)

decisión = yS1(x)

concluir

tesis = x

satisfactoriamente

Magn(y)

Page 146: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 146

Oper1(y)

decisión = yS1(x)

Perf(x)

tesis = x

satisfactoriamente

Magn(y)

Page 147: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 147

Oper1(y)

decisión = yS1(x)

Perf(x) = z

tesis = x

Ver(z)

Magn(y)

Page 148: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 148

Oper1(y)

decisión = yS1(x)

Perf(x) = z

tesis = x

Ver(z)

Magn(y)

Page 149: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 149

S1(x)

Perf(x) = z

Ver(z)

Oper1(y)

decision = y

thesis = x

Magn(y)

• desición → desision• tesis → thesis

Page 150: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 150

Funciones léxicas en inglés

• S1(thesis) = student• Perf(thesis) = finish• Oper1(desision) = make• Magn(desision) = flat• Ver(finish) = successfully

• Magn(tea) = strong (no loaded)• Magn(voice) = loud (no high)• Magn(soup) = thick

Page 151: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 151

student

finish

successfully

make

decision

thesis

flat

Page 152: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 152

Funciones léxicas

• En casi cualquier texto constituyen mayoría de palabras

• La ambigüedad léxica en su gran parte se debe a ellas. Entonces, ayudan mucho a resolverla

• Repertorio: (casi) no depende de lenguaje• Valores: muy específicos para cada lenguaje• Problema: aprendizaje automático de textos

(¿su tesis?)

Page 153: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 153

CrossLexica• Diccionario de tipo combinado

– Propósito principal: colocaciones– Datos auxiliares:

• Relaciones semánticas• Traducción a inglés

• Relaciones principales:– Colocaciones (voz – alta, prestar – atención)– tipo WordNet (pequeño – chico, motor – carro)– Paronimicons (histérico – histórico,

sensible – sensual)

Page 154: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 154

Page 155: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 155

Page 156: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 156

Page 157: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 157

Page 158: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 158

Page 159: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 159

Page 160: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 160

Page 161: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 161

Page 162: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 162

Aplicaciones de CrossLexica:Coherencia del texto

• Enseñanza de lenguaje• Ayuda en composición de

texto• Generación y traducción

de texto• Evaluación de estilo y

cohesión

• Análisis sintáctico• Desambiguación de

sentidos de palabras• Segmentación• Detección y corrección de

errores semánticos• Paráfrasis y esteganografía

Page 163: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 163

Evaluación y corrección de estilo

• Muchas palabras relacionadas entre sí: buena coherencia = buen estilo

• Si – una palabra no se relaciona con otras en el

contexto– pero su sinónimo sí relaciona mejor¡entonces ofrecer al usuario este sinónimo!

Page 164: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 164

Desambiguación sintáctica

Participantes de la acción (I, II y III)

María toma jugo de mango recién hecho

María

toma

jugo de mango

recién hecho

I II III

Page 165: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 165

Desambiguación sintáctica

María

toma

jugo de mango

recién hecho

I II III

María toma jugo de mango recién hecho

Page 166: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 166

Desambiguación sintáctica

María

toma

jugo

de mango

recién hecho

I II

María toma jugo de mango recién hecho

Page 167: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 167

Desambiguación sintáctica

María

toma

jugo de mango

recién hecho

I II III

María

toma

jugo

de mango

recién hecho

I II

María

toma

jugo

de mango recién hecho

I II

Page 168: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 168

Desambiguación sintáctica

María

toma

jugo de mango

recién hecho

I II III

María

toma

jugo

de mango

recién hecho

I II

María

toma

jugo

de mango recién hecho

I II

María toma jugo de mango recién hecho

Un jugo de mango recién hecho toma María

Toma María un jugo recién hecho de mango

Page 169: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 169

• Las palabras se combinan bien con algunas y no con otras

– toma jugo– toma de mango– toma recién hecho– jugo de mango– jugo recién hecho– mango recién hecho

Desambiguación sintáctica

María

toma

jugo

de mango recién hecho

I II

Page 170: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 170

Desambiguación desentidos de palabras

• Sentidos de palabras: – gato1 = animal– gato2 = herramienta– Uso el gato neumático para reparar mi carro– Alimento mi gato siamés

• Combinaciones en el diccionario– alimentar al gato1 usar gato2

– gato1 siamés gato2 neumático

Page 171: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 171

Segmentación de texto en párrafos.Recuperación de fragmentos

(passage retrieval)• Función de coherencia

– Número de colocaciones que forma cada palabra con sus vecinas

– Suavizada• Buenos puntos de división

– Cambio del tema– Puntos de la coherencia pobre– Buena coherencia a la izquierda, a la derecha,

pero no a través de este punto

Page 172: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 172

Punto de cambio del tema

Page 173: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 173

Detección y corrección de errores semánticos

• Similar al cómo sugiere sinónimos• Pero en vez de sinónimos, parónimos• Parónimos: palabras

– parecidas en forma – pero diferentes en sentido– histórico / histérico

Page 174: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 174

…Detección y corrección de errores semánticos

• Detección: pérdida de coherencia– La palabra no forma colocaciones con sus

vecinas– centro histérico de la ciudad– Pero: no cualquier pérdida de coherencia– Gelbukh imparta una plática

Page 175: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 175

…Detección y corrección de errores semánticos

• Si existe un parónimo que da mucho mejor coherencia– parónimos: histérico / histórico– colocaciones: centro histórico

• Entonces señalar un posible error y sugerir esta nueva palabra– centro histórico de la ciudad

Page 176: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 176

Traducción de colocaciones

• Entrada por la traducción a inglés• Un montón de traducciones de la primera

palabra• Y un montón de la segunda• ¿Cuáles se combinan?

Page 177: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 177

Page 178: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 178

Page 179: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 179

Page 180: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 180

Generación y traducción de texto

• Selección de palabra– Una traducción de varias– Un sinónimo de variós

• (sinónimos son traducciones de la misma idea)

• En contexto– Cualquier variante es correcto– Cuál es mejor / usable en este contexto?

• Ya sea automático o manual

Page 181: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 181

Composición o traducción de texto

• Seleccionar palabras en contexto– Expresar una idea: conocimiento… ¿bueno?

¿rico? ¿grande? ¡amplio! ¡profundo!• Se puede generar cadenas completas

partiendo de una palabra conocida• También en los programas de generación y

traducción)

Page 182: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 182

Generación de texto

• Se necesita saber las reglas de gramática• ¿Qué decir primero, qué después?• Funciones léxicas

– té: cargado,– voz: alta,– borracho: como cuba,– trabajar: duro

Page 183: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 183

Ejemplo de composición o traducción

¿Cómo decir en el ruso perfecto algo como

–Deciditivamente detener las intenciones del agresor

sin siquiera saber las letras rusas?

Page 184: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 184

Page 185: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 185

Page 186: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 186

Page 187: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 187

Page 188: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 188

Page 189: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 189

Page 190: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 190

Page 191: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 191

Resultado de traducción o composición

Page 192: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 192

Métodos para ocultar la información secreta en un medio de comunicación de tal manera que no se note que hay

algo oculto allá

Esteganografía

Page 193: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 193

Tipos de esteganografía• En video, sonido

– Usando pixeles de una foto– Usando elementos de un sonido– ≈ marcas de agua

• En spam, listas de precios, ...• Esteganografía lingüística

– Usando un texto– Que no se note, que sea un texto normal– Generar pequeños cambios, conservar sentido

Page 194: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 194

Spam: spammimic.com• Dear Professional , This letter was specially selected to be sent to you

. If you no longer wish to receive our publications simply reply with a Subject: of "REMOVE" and you will immediately be removed from our mailing list . This mail is being sent in compliance with Senate bill 1621 ; Title 1 , Section 302 ! This is not a get rich scheme . Why work for somebody else when you can become rich in 39 days ! Have you ever noticed how long the line-ups are at bank machines & how many people you know are on the Internet ! Well, now is your chance to capitalize on this ! We will help you decrease perceived waiting time by 190% and deliver goods right to the customer's doorstep ! The best thing about our system is that it is absolutely risk free for you ! But don't believe us . Mrs Simpson of Maryland tried us and says "I was skeptical but it worked for me" . We assure you that we operate within all applicable laws ! We implore you - act now ! Sign up a friend and you get half off . Thanks .

Page 195: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 195

Spam: spammimic.com• Dear Business person , We know you are interested in receiving

amazing intelligence . This is a one time mailing there is no need to request removal if you won't want any more . This mail is being sent in compliance with Senate bill 2516 ; Title 3 , Section 301 ! This is not a get rich scheme ! Why work for somebody else when you can become rich as few as 98 DAYS . Have you ever noticed most everyone has a cellphone and more people than ever are surfing the web . Well, now is your chance to capitalize on this ! WE will help YOU decrease perceived waiting time by 200% and turn your business into an E-BUSINESS ! The best thing about our system is that it is absolutely risk free for you ! But don't believe us . Mr Amesof Massachusetts tried us and says "My only problem now is whereto park all my cars" ! We are licensed to operate in all states ! We beseech you - act now . Sign up a friend and your friend will be rich too ! Thank-you for your serious consideration of our offer !

Page 196: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 196

Tipos de esteganografía• En video, sonido

– Usando pixeles de una foto– Usando elementos de un sonido– ≈ marcas de agua

• En spam, listas de precios, ...•• EsteganografEsteganografííaa linglingüíüísticastica

– Usando un texto– Que no se note, que sea un texto normal– Generar pequeños cambios, conservar sentido

Page 197: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 197

Esteganografía lingüística¡Paráfrasis! Con diccionario de sinónimos.

Manuel está leyendo una obra de un escritor francés que le está gustando mucho. Sin embargo, escaso tiempo disponible tiene para consagrarse a esa tarea.

⇒ 1010010110110100101101

Manuel está leyendo un libro de un autor galoque le está agradando bastante. No obstante, poco tiempolibre dispone para dedicarse a esa faena.

⇒ 0101101001001011010010

Page 198: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 198

Compatibilidad de palabras

leer obraleer libroescritor galoescritor francéstiempo libretiempo disponiblededicarse a tareadedicarse a faenaconsagrarse a tareaconsagrarse a faena

leer laborleer productocreador galoescritor célticotiempo independientelapso librededicarse a atajocultivarse a tareabendecir a tareacoronar a tarea

OK ?

¡Que sea correcto! = coherente.

Asegurar coherencia (hay mucho más cosas aquí…)

Page 199: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 199

Conclusiones

• LC convierte a la lingüística en una ciencia• Le aporta herramientas y descubrimiento autom.• Reto: métodos estadísticos no supervisados• Reto: métodos pobres en conocimiento• Reto: combinar con el conocimiento lingüístico• Internet: el corpus más grande del mundo• Aplicaciones: traducción, búsqueda, interfaces• Estado actual: ya hay maravillas; más por hacer

Page 200: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 200

Más información• Escribimos un libro educativo.

– Los imágenes son de éste– Contactennos a [email protected]

• Tenemos maestría. ¡Bienvenidos!• Tenemos doctorado ¡Bienvenidos!• Requisitos:

– Motivación propia– Disposición a trabajo

Page 201: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 201

Page 202: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 202

Page 203: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 203

www.CICLing.org

Page 204: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 204

Centro de Investigación en Computación

Page 205: Procesamiento automático de lenguaje natural

13 nov 2006 A. Gelbukh -- MICAI-2006 205

¡Gracias!

www.GGelbukh.com