generación de resúmen automático de...
Post on 21-Aug-2018
220 Views
Preview:
TRANSCRIPT
Generación de Resúmen automático de textos
Workshop UPAO 2008
Juan-Manuel Torresjuan-manuel.torres@univ-avignon.fr
UPAO Workshop 2008 2
Plan• Introduccion
– Definitiones y resumen humano– Estructura de los resumenes
• Técnicas– Linguisticas– Extraccion vs abstraccion
• Resumen por extraccion– Procesamiento de Lenguaje Natural
• Sistema Cortex– Algoritmo– Pruebas– Nuevas tendencias
UPAO Workshop 2008 3
Un excitante desafío...Baje 1000 documentos del web, envielos al sistema
de resumen y elija los mejores leyendo losresumenes ordenados por pertinencia...
UPAO Workshop 2008 13
¿Qué es un resúmen ?
« Transformación reducida de un texto fuente hacia un resumen por compresión delcontenido por medio de una selección y/ogeneralización de lo que es importante en eltexto fuente »
Karen Sparck Jones
• Representación abreviada y precisadel contenido de un documento
UPAO Workshop 2008 14
Preguntas
• ¿ Qué tipo de resúmen buscan las personas ?
• ¿ Cuál debe ser el grado de sofisticación delos sistemas de resúmen ? – ¿ Los métodos estadísticos son suficientes ?– ¿ Necesidad de métodos simbólicos profundos para
“comprender” ?
• ¿ Cómo medir la calidad de un resúmen ?
UPAO Workshop 2008 15
Características del resúmen
• Indicativo / Informativo– Indicativo : indica la naturaleza del texto– Informativo : Intenta substituir al texto
• Extracto o Resumen– Extracto : frases extraidos del texto– Resúmen : reformula, comprime el texto
• Tamaño– Tasa de compresión = |Resumen| / |Texto|
UPAO Workshop 2008 17
¿ Quién hace resumenes ?
• Autor
• Experto– Actualizado en el dominio de los documentos a
analizar
• Profesional en resumenes– Analiza los documentos y la redacción de los
resumenes– Experto en esta disciplina
– Normas de producción de resumenes
UPAO Workshop 2008 19
Operaciones de edición utilizadas• Revisión local : contenido en una frase
• Revisión global : contenido a través de las frases
Cremmins’82-’96: operaciones de edición
drop vague or
redundant terms
reference
adjustment
wording
prescriptions
contextual
lexical choice
UPAO Workshop 2008 20
Tiempo de generación del resúmen
Cremmins recomienda entre 12-20 minpara resumir un artículo científico típico…
¡Un tiempo mucho menor del necesario para realmente comprenderlo !
Cremmins recomienda entre 12-20 minpara resumir un artículo científico típico…
¡Un tiempo mucho menor del necesario para realmente comprenderlo !
UPAO Workshop 2008 21
Endres-Niggemeyer et al. (1995, 1998)
• Los resumidores no leen jamás el documento completo
• Estructura del documento– Formato– Disposición– Esquemas
• Nivel de discurso : de qué habla el documento �
UPAO Workshop 2008 22
Resumidores profesionales• Producen buenos resumenes (savoir-faire) �• Indicaciones de agencias • Normas internacionales• Selección de la información
– Títulos/Encabezados/Leyendas– Introducción/Conclusión– Objetivo, metodología, resultados– …
• Redacción del resumen– Re-utilización de frases– Transformacion y aplicación de patrones de redacción
UPAO Workshop 2008 23
Transformaciones
• Re-expresión de conceptos• Eliminación
– Estructuras– Frases– Texto entre paréntesis
• Expansión de abreviaturas• Abreviaturas• Pegar, Separar
• Ninguna
UPAO Workshop 2008 24
Observaciones
• 70% de las frases son copiadas literalmente(Lin & Hovy 2003) �
• ¿ La gente sabe escribir correctamente ysintetizar ideas ?
• Los resúmenes del autor ¿ son pertinentes ?
• Los resúmenes profesionales ¿ son realmentepertinentes ?
UPAO Workshop 2008 27
El método del buen alumno
• Necesita conocimientos del dominio (tematica)• Necesita conocimientos de la lenguaen la cual se genera el resumen…
UPAO Workshop 2008 28
Resúmen por comprension : FRUMP
a small eartquake shook several Southern Illinois
counties Monday night, the National Earthquake
Information Service in Golden, Colo., reported.
Spokesman Don Finley said the quake measured 3.2 on
the Richter scale, “probably not enough to do any
damage or cause any injuries.” The quake occurred
iabout 7:48 p.m. CST and was centered about 30 miles
east of Mount Vernon, Finlay said. It was felt in
Richland, Clay, Jasper, Effington, and Marion
Counties.
There was an earthquake in Illinois
with a 3.2 richter scale. (RESUME)�
UPAO Workshop 2008 29
FRUMP
• Estructura de base : sketchy-scripts
adaptación de scripts de Shank & Abelson(1977) �
• Scripts contienen información importante de un evento
• 50 sketchy-scripts producidos manualmente Interpretación de un texto : lectura rapida(skimming) �
FRUMP : los contras …
- 50 scripts son muy pocos para interpretar el mundo
- Conocimientos codificados manualmente
- ¿ Cómo aprender scripts de nuevos temas ?
Ciudad del Vaticano. La noticia de la muertedel Papa sacude el mundo. Murió el martes pasado de forma misteriosa… (TEXTO) �
Sismo en el Vaticano : un muerto. (RESUMEN) �
UPAO Workshop 2008 31
El método del alumno flojo
Identificar frases importantes:• Por su posicion• Por su frecuencia de palabras• Por sus conectores retoricos• Por su similitud con otras frases• …
UPAO Workshop 2008 32
Resúmen por extracción defrases
+ Simple a programar+ Robusto+ Rápido
- ¿ Cómo descubrir qué tipo de información lingüistica/semántica es relevante para elcontenido ?
- ¿ Coherencia ?- ¿ Cohesión ?
UPAO Workshop 2008 33
Enfoque de la RI (Luhn’58-59) �
• Extracto = frases significativas
• Una frase significativa contiene palabras significativas (palabras-claves) �
• Palabras significativas entre A y B
Frecuenciade palabras
Expresividad delas palabras
(Luhn, 59) �
A B
UPAO Workshop 2008 34
Tabla de frecuenciastheater 3.0 4.0
pretenderlo 1.0 1.0
codazzi 2.0 4.0
preteto 1.0 1.0
tierreno 1.0 1.0
azliun 1.0 1.0
cviles 1.0 1.0
contemporaneas 1.0 1.0
prosirio 9.0 9.0
política 1.0 1.0
civiltá 1.0 1.0
linfoma 3.0 4.0
...
el 52447 533557
No. DE FRASES = 60644idf (el) = log(60644/52447) = 0.063idf (prosirio) = log(60644/9) = 3.82
UPAO Workshop 2008 35
Problemas : cohesión• Extractos de frase por frase pueden ser
incoherentes y difíciles a leer
– Solución: adicionar frases necesarias para producir un pasaje adecuado
• ¿ existen partes sobre-representadas ?• ¿ hay partes que se olvidaron ?
Me gustan losmangos.
Pero están muy verdes.
Anáfora Conector Anáfora
UPAO Workshop 2008 36
Problemas : cohesión
La cadena de supermercados Metro anunció que los negocios van muy bien. El mes pasado las ventas aumentaron 10% y se estudia la creacion de nuevos puestos. Por otro lado, la compania de supermercados Carrefour anuncióperdidas de 30% al ultimo trimestre. El directorio se reunio hoy para decidir la posibilidad de reducir su personal.(CORPUS) �� ��
La cadena de supermercados Metro anunció que los negocios van muy bien. El directorio se reunio hoy para decidir la posibilidad de reducir su personal.
(EXTRACT) �� ��
ROUGE(Lin, ROUGE DUC-NIST, 2004)�
Resumeneshumanos
Resumenautomático
Referencias
Intersecciónde palabras
ROUGE-2 : Interseccion de bigramasROUGE-SU4 : Interseccion de bigramas separados por un hueco de hasta 4 palabras
ROUGE-2 : Universidad Privada, Privada Antenor,Antenor Orrego
ROUGE-SU4 : Universidad Privada, Universidad Antenor, Universidad Orrego, Privada Antenor, Privada Orrego, Antenor Orrego
Universidad Privada Antenor Orrego
UPAO Workshop 2008 41
CORTEX es Otro Resumidor deTEXtos
Juan-Manuel Torres-Morenojuan-manuel.torres@univ-avignon.fr
LIA/Université d’Avignon
UPAO Workshop 2008 42
Sistema CORTEXTres niveles : (Torres, Meunier, Velazquez, 2002-2004)�
1. Módulos de transformación : Segmentacion, Filtrado,lematización, sinónimos, anáforas, ...
2. Módulos de extracción : Métricas, algoritmo de
decisión, resumen personalizado …
3. Módulos de generación de resumenes: Identificaciónde conceptos, generación por templates, …
UPAO Workshop 2008 43
Funciones detransformación
Funciones deextracción
Una cadena de funciones
LATAO : Lecture et Analyse de Textes Assistés par Ordinateur (Lectura yAnalisis de Textos Asistido por Computadora) �
UPAO Workshop 2008 44
Unidades de información« La plumme de ma tante »
{la_, a_p, _pl, plu, lum, umm, mme, me_, e_d,
_de ,de_, e_m, ma_, a_t, _ta, tan, ant, nte}
3-gramas3-gramas PalabrasPalabras
{la, plumme, de, ma, tante}
UPAO Workshop 2008 46
La vectorización de untexto (1)�
UNIFS(Terminos) Unidades de
informacion :
Palabras, N-gramas
SEGMENTOSPáginas, frases
UPAO Workshop 2008 47
La vectorización de untexto (2)�
UNIFS(Palabras) �
SEGMENTOS
MATRIZ Término-Segmento
1 2 3 ... N-1 N
1
2
3 ...
i
j
P
UPAO Workshop 2008 48
MATRIZ Término-Segmento
1
1 2 3 ... N-1 N
1
2
3 ...
1 1
1 1
1
1 1
1
1 1
i
j
P
0
0
0
0 0
00
0 0 0 0
0
0
0
0
0
0 0
0SEGMENTOS
UNIFS(Palabras) �
La vectorización de untexto (3)�
UPAO Workshop 2008 49
MATRZ Término-Segmento
tf
1 2 3 .... N-1 N
1
2
3 ....
tf tf
tf tf
tf
tf tf
tf
tf tf
i
j
P
0
0
0
0 0
00
0 0 0 0
0
0
0
0
0
0 0
0SEGMENTOS
UNIFS(Palabras) �
La vectorización de untexto (4)�
UPAO Workshop 2008 51
« Huella digital » de un texto
• ¿ Cómo utilizar la información que contienen las matrices del texto?
• ¿ Se pueden visualizar las características propias de un texto ?
UPAO Workshop 2008 52
0 20 40 60 80 100 120 140
0
500
1000
1500
2000
2500
3000 Mots
Discours de la Méthode139 Segments 2922 Termes
Ter
mes
Segment
presencia de la palabra
i en la frase j
Matriz Termino-Segmento
UPAO Workshop 2008 53
0 100 200 300 400 500 6000,0
0,2
0,4
0,6
0,8
1,0
Descartes Coran INRA
Ter
me
(nor
mal
isé)
Segment
¿ Identificación de estilos ?
Riqueza
del léxico
UPAO Workshop 2008 55
Modelo vectorialTérmino 1
Término 2
Término N
Frase 1
Frase 2
α
Frase P Frase 3
UPAO Workshop 2008 56
Ejemplo
• Texto « Puces»– Invasión de “puces” (pulgas) y de “poux”
(piojos) : Puces Bio
• Pequeño comunicado en Internet
UPAO Workshop 2008 58
El regimiento de la compania IV de la escuelade infanteria y de transmision 213 de Avenches, fue invadido por pulgas y piojos. Unaseccion de higiene de la escuela del hospital 268 de Moudon, va a désinfectar los cuarteles
El regimiento de la compania IV de la escuelade infanteria y de transmision 213 de Avenches, fue invadido por pulgas y piojos. Unaseccion de higiene de la escuela del hospital 268 de Moudon, va a désinfectar los cuarteles
Resumen autor
Resumen autor
Resumen Cortex
Resumen Cortex
UPAO Workshop 2008 59
Pre -procesamientoPre -procesamiento
Texte
original
Textos
P
N
MétricasMétricas
ADAD
Resumen
Post-procesadoPost-procesado
Segmentación
Limpieza
Filtrado
Lematizacion
Conden-
sation
Conden-
sado
CORTEX: una maquina de resumenes
Matrices Término-segmento
γγγγ y ξξξξ
UPAO Workshop 2008 60
Cortex : Otro Resumidor deTEXtos
Pré-traitement
Segmentation
Filtrage
Normalisation
Racinisation
Vectorisation
Métriques
Entropie
Fréquentielles
Position
Hamming
Interaction
. . .
Algorithmede décision
Texte
Concaténation dephrases selon la
compression voulue
Liste triée dephrases
pertinentes
Résumé
Texte
UPAO Workshop 2008 61
CORTEXCORTEX
Multilengua
Français
English
Español
Cortex : tecnologia
LidentLident
Deutsh
…
UPAO Workshop 2008 62
Pre-tratamientoPre-tratamiento
Texte
original
MétricasMétricas
ADAD
Generador
superficieGenerador
superficie
Cortex : tecnología
XML
texto
XML
HTML
texto
crunch numberparalelismoregexp
regexp
UPAO Workshop 2008 63
Pre-procesamiento �� ��
• Segmentación• Filtrado• Lematización• Generación de matrices
Medio simple de acercarse a lasemántica
UPAO Workshop 2008 64
Segmentación
– Por frases
– Marcadores . : ? !
– Por párrafos• n frases
• Identificación del párrafo
UPAO Workshop 2008 65
Filtrado
• Texto entre paréntesis ( bla blabla bla, bla ) �
• Números / cifras
• Palabras funcionales– Artículos, conjunciones, pronombres...
• Verbos funcionales– SER, ESTAR TENER, DEBER,…
• Expresiones– Es decir, entonces, a lo mejor, ...
UPAO Workshop 2008 66
Filtrar palabras funcionales
Palabras muertas del vocabulario• ¿Cuáles ?
– Palabras muy frecuentes (artículos, coordinación, pronombres…) : de, la, l’, le, à, les, et, des, d’, en, un , du, une, …
• ¿ Las palabras-funcionales son realmente inútiles ?– Utiles : clasificar textos– Utiles : reconocimiento de la palabra– Inútiles : indexación de documentos– Inútiles : resumen por extracción
UPAO Workshop 2008 67
Lematizacion
• Cantar, cantemos, canten, cantaban, cantantes, cantó, cantarian, cantador, cancion, cancionero,…
⇒⇒⇒⇒ CANTAR
• Reducir el espacio vectorial
• Diccionarios~ 200 000 formas en francés~ 500 000 formas en español�
Juan-Manuel Torres / LIA
Las casas azules de mis tias.
Una de mis tias se llama Lulu.
Me gusta mucho su casa.
El azul es mi color !
Yo tengo unos zapatos azules nuevos.
zapa
to
casa
azul
tia
llam
ar
lulu
gust
ar
nuev
o
TF TF TF 0 0 0 0 0 0
0 0 TF TF TF 0 0 0 0
TF 0 0 0 0 TF 0 0 0
0 TF 0 0 0 0 0 0 TF
0 TF 0 0 0 0 TF TF 0
colo
r
Modelo vectorial (bag-of-words)Palabras filtradas, normalizadasy lematizadas
Vectorizacion
UPAO Workshop 2008 69
Métricas• Frecuenciales
– Frecuencia– Probabilidades– TF*IDF
• Informacionales– Entropía– Interacción
• Hamming– Peso, longitud, distancia
• Títulos– Títulos, sub-títulos…
• Posición• Otras
UPAO Workshop 2008 70
FrecuenciaFrecuencia
SI - NO para escoger un segmento µµµµ,con una probabilidad p
SI - NO para escoger un segmento µµµµ,con una probabilidad p
EntropíaEntropía
Distancia de
HammingDistancia de
HammingPeso de
HammingPeso de
Hamming…
Algoritmo de decisión
basado en el votoAlgoritmo de decisión
basado en el voto
1
Nµ µ
ii
F f=
=∑ 2
1
logN
i
µE
µ µx xi i=
= −∑=+1i
iH1;
0;
jsi
si no
µ µιξ ξ=
1
( 0)N
i
i
µ µφ ξ=
= ≠∑
CORTEX : estructura
UPAO Workshop 2008 71
Ejemplo
2101µ=3
01101µ=2
0011µ=1
i=4i=3i=2i=1
PalabrasF
rase
s
Matriz
frecuencias
1101µ=3
0111µ=2
0011µ=1
i=4i=3i=2i=1
Matriz
binaria
a b c d a b c d
UPAO Workshop 2008 72
Matrices huecas
BIBLE.TXT : 99.27% está vacío (CORAN tambien!)
• 801920 palabras en total / 50019 frases
• 8195 palabras diferentes / 49993 frases
• 5777 palabras (f >2) / 45250 frases
• Tiempos en G5 Mac OSX– Segmentación en 8 segundos
– Resumen en 5 minutos
UPAO Workshop 2008 74
Frecuencia de las palabras
• Palabras pertinentes de la frase• Más palabras importantes tiene la frase →
más posibilidades de retenerla• Más larga es la frase → más palabras
pertinentes → más posibilidades de retenerla
• Resumenes constituidos generalmente de frases largas
UPAO Workshop 2008 75
Cálculo de la Frecuencia F
211µ=3
1101µ=2
11µ=1
i=4i=3i=2i=1
Palabras
Fra
ses
4
12
2
F
Σ = T = 182/182/1811/183/18p
UPAO Workshop 2008 76
Interacción de frases I
• Cortex es un sistema que crea redes depalabras
– Palabras de la misma familia
– Presencia de estas palabras en otras frases del texto
UPAO Workshop 2008 78
Cálculo de Interacciones
111µ=3
111µ=2
11µ=1
i=4i=3i=2i=1
Palabras
Fra
ses
3
4
3
Interacc.
Iµ = I 1 + I 2 + I 3 = 2 + 1 + 1 = 4
UPAO Workshop 2008 79
Frecuencias y rareza
• La frase X contiene la misma palabra 10 veces
• Esa palabra no está en ninguna otra frase• La frase X puede ser seleccionada por su
alta frecuencia (F = 10 )• Esto es grave: esta palabra podria no ser
importante
UPAO Workshop 2008 80
Frecuencias y rareza
• Sea otra palabra que aparece solo 1 vez en la frase X, pero que está en otras frases (una vezen cada frase)
• Ademas esta palabra se encuentra en el título (tema principal)
• Consecuencia : la métrica F escogerá la frase X en lugar de otras frases que contienen por lo menos una palabra del título
UPAO Workshop 2008 81
Frecuencias y rareza
Tener una frecuencia F=10 es positivo, pero¿ realmente la frase X merece tener una alta ponderaciόn ?
¿ Qué hacer ?• Re-ponderar la frecuencia de las palabras
por su rareza
UPAO Workshop 2008 82
Calculo Frecuencia x rareza
Rareza palabra 1 = 3; Rareza palabra 2 = 1;
Rareza palabra 3 =1; Rareza palabra 4=1
115µ=3
101µ=2
1µ=1
i=4i=3i=2i=1
Fra
ses
5x3 + 1x1 + 1x1 = 17
1x3 + 10x1 = 13
1 x 3 = 3
F x Rareza
3 1 1 1
5 + 1 + 1 = 7
1 + 10 = 11
1
F
Rareza
UPAO Workshop 2008 83
Entropía
• Entropía : medida que depende de la probabilidad pi de una palabra
• Derivada de la teoría de la información
• Entre mas elevada sea pi de las palabras seran mas favorizadas las frases que las contienen
UPAO Workshop 2008 84
111µ=3
111µ=2
11µ=1
i=4i=3i=2i=1
Palabras
Fra
ses
E = - [ p(1) log p(1) + p(2) log p(2) + p(3) log p(3) ]
= 0.129 + 0.30 + 0.244 = 0.67
0.67
F
2/182/1811/183/18p
Cálculo de Entropía
UPAO Workshop 2008 85
Matriz de Hamming ΗΗΗΗ
Un autor varia el vocabulario: utiliza sinónimos
Idea : Bonificar la frase donde solo una de 2 palabras está presente
La matriz de Hamming trata de evaluar hasta quépunto 2 palabras son utilizadas individualmente: – Localizar los sinónimos pertinentes
UPAO Workshop 2008 86
Cálculo : Matriz de Hamming
1
1Xi=3
32Xi=2
21Xi=1
i=4i=3i=2i=1
Palabras
Palab
ras
ΗPalabra 3 = 0 1 1
Palabra 2 = 1 1 0H(2,3) = 2
11013
01112
00111
4i=3i=21
H
UPAO Workshop 2008 87
Título
• Los textos tienen un título
• Bonificar frases que hablen del tema en el título
• Comparar palabra a palabra frase y título
• Producto escalar: la frase y el título son vectores de dimension N
( )
⋅
><=
Titre
Titre, cos
γ
γα
( ))cos( arccos αµ =Θ
UPAO Workshop 2008 88
Título : calculo de angulosPalabra 1
Palabra 2
Palabra N
Frase 1
Titulo
αααα
Frase 2
ββββ
α < βα < βα < βα < β
UPAO Workshop 2008 89
Cálculo de angulo del Título
211µ=3
1101µ=2
11µ=1
i=4i=3i=2i=1
Palabras
Fra
ses
Título µ = Título(1) γ(3,1) + Título(2) γ(3,2) +
Título(3) γ(3,2) + Título(4) γ(3,4)
= 0 + 0 + 0 + 2/sqr(6) = 0.81
0.81
0
0
cos Θ
1000
TítuloAngulo
UPAO Workshop 2008 90
Posición de la frase
• Modeliza contenido semántico según su posición
• Modelo de artículos periodísticos
X = f(i) = (x – P % 2)m ; m = 2,4,6…
i=Número de frase1 PP % 2
Max
min
UPAO Workshop 2008 91
Otras métricas (plug in)• Longitud de frases• Diferencia de entropía condicional entre frases
• Entidades nombradas• N-gramas• Otras medidas de distancia
segmento
Dif
. de
entr
op
ía
UPAO Workshop 2008 92
Normalización de las métricas�
• Desviaciones importantes entre las métricas
• Normalizacion entre [0,1]
UPAO Workshop 2008 93
Algoritmo de decisión
• Compilar las métricas para dar una nota final a cada frase
• Idea : calcular una media sofisticada– Tendencia positiva λ > 0,5 – Tendencia negativa λ < 0,5 – λ = 0,5 es ignorado
�Convergencia
�Amplificacion
UPAO Workshop 2008 94
Generación del resumen �� ��
Post-procesamiento superficial
• A partir de la selección de frases pertinentes
• Tamaño definido por el usuario (%) �• Presentación
– XML
– Texto
UPAO Workshop 2008 95
� 14 Personas (nivel universitario) : escoger los segmentos que les parecieran pertinentes
� CORTEX
� Autoresumen MS-Word
� Summarizer Minds New Mexico State Universitymessene.nmsu.edu/minds
� Pertinence www.pertinence.net
� Copernic www.copernic.com
Pruebas
UPAO Workshop 2008 96
� Artificialmente ambiguo
� Dos temas : « puces INFO » + « puces BIO »
� N = 279 palabras
� P = 30 frases
� Frases segmentadas por « : », « . », « ? », « ! »
� Extracto
�25% del tamano = 8 segmentos
Análisis del texto « PUCES »
UPAO Workshop 2008 99
PUCES
Et si l'ordinateur pouvait fonctionner un jour, sans électricité ou presque? La
démarche de chercheurs américains de l'université de Notre Dame, dans l'Indiana,
montre que l'on peut manipuler des électrons pour construire des circuits élémentaires
avec des quantités d'énergie infimes. Leurs expériences, relatées dans l'édition du 9
avril du magazine Science, ouvrent la voie à des composants capables de fonctionner à
des fréquences 10 à 100 fois plus élevées que celles des puces actuelles qui sont
bridées par des problèmes de dissipation de chaleur. Les travaux de l'équipe dirigée
par Greg Snider portent sur le puits quantique, un piège infinitésimal dans lequel un
électron peut être enfermé. Les scientifiques ont créé ...
Les cantonnements de la compagnie IV de l'école de recrues d'infanterie d'exploration et de
transmission 213, stationnée à Avenches, sont envahis par les puces et les poux. Des piqûres
de puces ont été relevées sur plus d'un tiers des militaires. On a aussi retrouvé des cadavres
de poux sur 3 militaires. Des mesures d'urgence ont été prises en conséquence. Des piqûres de
puces ont été diagnostiquées sur plus d'un tiers des 155 hommes de la compagnie IV de
l'école de recrues d'infanterie d'exploration et de transmission 213. Des cadavres de poux, mais
aucun oeuf, ont également été décelés sur 3 militaires. Ces insectes sont transmis par contact
personnel. La cause de cette invasion n'est pas claire; ces insectes semblent toutefois avoir
essaimé à partir du local de garde. Le médecin de troupe a donné...
UPAO Workshop 2008 100
0 100 200 300 400 500 600
0
25
50
75
100
125
150
175
200
225
250
275
300Segmentation fixe (2 termes x seg)
Ter
me
Segment
INFORMATQUE ET PUCES
«IN
FO »
«BIO
»
UPAO Workshop 2008 105
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 300,0
0,2
0,4
0,6
0,8
1,0
Segment
Déc
isio
n
Segmentos muy
importantes
Seleccion de los segmentos por las personas
Puces INFO
Puces BIO
UPAO Workshop 2008 106
Varios segmentos importantes
escogidos Bio-puces
Puces INFO
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 300,0
0,2
0,4
0,6
0,8
1,0
Déc
isio
n
Nb. Segment
Seleccion de segmentos pertinentes por CORTEX
Puces BIO
UPAO Workshop 2008 107
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 300,0
0,2
0,4
0,6
0,8
1,0
Segment
Déc
isio
n
Seleccion de segmentos
por Minds
Segmentos 5 y 15 no
seleccionados
PUCES
UPAO Workshop 2008 108
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 300,0
0,2
0,4
0,6
0,8
1,0
Segment
Déc
isio
n
Info-puces
Segmentos importantes
no seleccionados
Selección desequilibradade segmentos por Word Puces BIO
Resultados : resúmen genérico
Rappel moyen Rouge (Lin, 04)�
0,24 0,28 0,32 0,36 0,40 0,44 0,48 0,52 0,56
0,24
0,28
0,32
0,36
0,40
0,44
0,48
0,52
0,56
0,60
Pertinence
Enertex
Word
Baseline
MEAD Copernic
Cortex
<
SU
4>
<ROUGE-2>
Inglés, francés y español
Textoscompuestos
UPAO Workshop 2008 110
Evaluation multi-documentosNIST – DUC 2005-06
45 temas / 25 grupos de documentos en inglésGenerar resumenes de 250 palabras que responden a
las preguntas del tema
Dos estrategias adicionales:
Éliminacion de la redundancia
Diversificar el contenido
UPAO Workshop 2008 111
0,045 0,050 0,055 0,060 0,065 0,070
0,095
0,100
0,105
0,110
0,115
0,120
0,125
0,130
Ene
rtex
RO
UG
E-2
Enertex SU4
DUC 2005
SU
4
ROUGE-2
0,055 0,060 0,065 0,070 0,075 0,080 0,085 0,090 0,0950,105
0,110
0,115
0,120
0,125
0,130
0,135
0,140
0,145
0,150
0,155
Ene
rtex
RO
UG
E-2
Enertex SU4
DUC 2006
SU
4
ROUGE-2
Resultados : resúmen guiado por tema
UPAO Workshop 2008 112
• Algoritmo poderoso de resumen de textos• Métricas independientes, modulares (plug in)• Algoritmo de decision • Independiente del tamaño del texto• Independiente del tema• Multilingüe �• Extractos equilibrados• Extractos genéricos o personalizados• Rapido
Conclusión
UPAO Workshop 2008 113
Pre-tratamiento fino– Modulo lingüístico
Post-tratamiento fino– Modulo lingüístico– Generación de texto
Mejora de los condensados :– Aprendizaje supervisado– Redes de neuronas – Cálculo del erreur– Compresion de frases
Perspectivas
Compresion automatica de frases
Texto• Trujillo, la bella capital de Libertad, goza, segun veo, de un
clima verdaderamente excepcional.• Por ese hecho, los inteligentes estudiantes de la UPAO, son
recompensados en sus enormes efuerzos.• Esperemos entonces que les ha gustado este curso tan
interesante !
Resumen por compresion• Trujillo capital de Libertad goza de un clima excepcional
• Los estudiantes de la UPAO son recompensados en sus efuerzos
• Esperemos que les ha gustado este curso!
Tasa de compresion palabras : 26/40 = 66 %
UPAO Workshop 2008 115
LecturasAmerican National Standards for Writing Abstracts. ANSI Inc., USA.Balpe J., Lelu A., Papy F., and Saleh I. (1996). Techniques avancées pour l'hypertexte. Éditions Hermès,
Paris.Deerwester S., Dumais D., Furnas T., Launder G., and Harshman T. (1990). Indexing by latent semantic
analysis. Journal of the Amer. Soc for Infor. Science, 6(41):391-407.Huot F. (2000). Copernic summarizer ou la tentation de l'impossible. Québec Micro, 6.12(12):61-64.Leloup C. (1997). Moteurs d'indexation et de Recherche. Eyrolles.Meunier J.-G. and Nault G. (1997). Approche connexioniste au problème de l'extraction de connaissances
terminologiques à partir de textes. In Les Techniques d'intelligence artificielle appliquées aux Technologies de l'Information, pages 62--76. Les Cahiers scientifiques ACFAS 90.
Morris A., Kasper G., and Adams D. (1999). The effects and limitations of automated text condensing on reading comprehension performance. In Advances in automatic text summarization, pp 305-323. TheMIT Press, U.S.A.
Saggion H. and Lapalme G. (2000). Concept identification and presentation in the context of technical text summarization. In Automatic Summarization Workshop, pages 1--10, Seattle. ANLP/NAACL.
Salton G. (1971). The SMART Retrieval System - Experiments un Automatic Document Processing. Englewood Cliffs.
Salton G. and McGill M. (1983). Introduction to Modern Information Retrieval. McGraw-Hill.Seffah A. and Meunier J.-G. (1996). Aladin: an integrated object-oriented environment for computer assited
text analisys. Cahiers de recherche 96.1, LANCI-UQAM.Torres-Moreno, J.M, Velázquez-Morales, P. et Meunier, J.G., Condensés de textes par des méthodes
numériques. JADT 2002, Vol. (2):723-734, A. Morin & P. Sébillot éditeurs, IRISA/INRIA, France 2002. Torres-Moreno, J.M, Velázquez-Morales, P. et Meunier, J.G., Cortex : un algorithme pour la condensation
automatique des textes. ARCo 2001, Lyon, pp 365 + vol 2. ISC-Lyon, pp 65-5, Décembre 2001. Torres-Moreno J.-M., Velazquez-Morales P., and Meunier J. (9-11 Mars 2000). Classphères : un réseau
incrémental pour l'apprentissage non supervisé appliqué à la classification de textes. In JADT 2000, pages 365--372, Lausanne. EPFL M. Rajman & J.-C. Chappelier éditeurs.
top related