extractores de información de kushmerick. Índice introducción reglas de extracción generación...

Post on 22-Jan-2016

223 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Extractores de Información de Kushmerick

Índice

• Introducción• Reglas de Extracción• Generación de reglas de extracción• Extrayendo Información• Evaluación• Conclusiones

Índice

• Introducción• Reglas de Extracción• Generación de reglas de extracción• Extrayendo Información• Evaluación• Conclusiones

Introducción

Nicholas Kushmerick, Daniel S. Weld, Robert B. Doorenbos: Wrapper Induction for Information Extraction.

IJCAI (1) 1997: 729-737

How IE works

Information extractor

Document

Extraction rules

Attributes

The Da Vinci Code

Dan Brown

15.95 €

2006

Robert Langdon…

Doubleday

Templates

Message ID: MUC-0001Message Template: Court resolutionDate of Event: April, 30 2007Charge: Terrorist attackPerpetrator: Salahuddin AminPerpetrator: Anthony GarciaPerpetrator: Waheed MahmoodPerpetrator: Omar Khyam…

The Da Vinci Code

Dan Brown

15.95 €

2006

P1

Robert Langdon…

Doubleday

A1

B1

Ontology instances

Templating/ Ontologisation rules

Índice

• Introducción• Reglas de Extracción• Generación de reglas de extracción• Extrayendo Información• Evaluación• Conclusiones

Ejemplo 1

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓ <B>Congo</B> <I>242</I><BR>↓<B>Egypt</B> <I>20</I><BR>↓<B>Belize</B> <I>501</I><BR>↓<B>Spain</B> <I>34</I><BR>↓</BODY></HTML>

Ejemplo 2

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓<B>Some Country Codes</B><P>↓<B>Congo</B> <I>242</I><BR>↓<B>Egypt</B> <I>20</I><BR>↓<B>Belize</B> <I>501</I><BR>↓<B>Spain</B> <I>34</I><BR>↓<HR><B>End</B></BODY></HTML>↓

Ejemplo 3

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓<B>Some Country Codes</B><P><UL>↓<LI><B>Congo</B> <I>242</I><BR>↓<LI><B>Egypt</B> <I>20</I><BR>↓<LI><B>Belize</B> <I>501</I><BR>↓<LI><B>Spain</B> <I>34</I><BR>↓</UL><HR><B>End</B></BODY></HTML>

Ejemplo 4

name: John↓address: 12 Main St↓

name: Jane↓

name: Sally↓address: 10 Oak Ave↓address: 20 Walnut Rd↓

Reglas LR

• Caracterización LR (Left – Right)

LRLR

CountryName = “<B> * </B>”

CountryCode = “<I> * </I>”

CountryName = “<B> * </B>”

CountryCode = “<I> * </I>”

Reglas HLRT

• Caracterización HLRT (Head – Left – Right – Tail)

HLRTHLRT

Head = “* <P>”

Tail = “<HR> *”

CountryName = “<B> * </B>”

CountryCode = “<I> * </I>”

Head = “* <P>”

Tail = “<HR> *”

CountryName = “<B> * </B>”

CountryCode = “<I> * </I>”

Reglas OCLR

• Caracterización OCLR (Open – Close – Left – Right)

OCLROCLR

Open = “* <LI>”

Close = “<BR>”

CountryName = “<B> * </B>”

CountryCode = “<I> * </I>”

Open = “* <LI>”

Close = “<BR>”

CountryName = “<B> * </B>”

CountryCode = “<I> * </I>”

Índice

• Introducción• Reglas de Extracción• Generación de reglas de extracción• Extrayendo Información• Evaluación• Conclusiones

Conceptos Preliminares

• Tokenización

• Conjunto de entrenamiento

<B>Congo</B> <I>242</I><BR>↓

Algoritmos de Inducción

LRHLRTOCLRN-LR

LR – Delimitadores Left

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓

</BODY></HTML>

Congo<B> </B> <I>242 </I><BR>↓<B><B><B>

EgyptBelizeSpain

</B> <I></B> <I>

</B> <I>

20501

34

</I><BR>↓</I><BR>↓

</I><BR>↓

</I><BR>↓</I><BR>↓

</I><BR>↓<B><B><B>

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓ <B>

</I><BR>↓<B>

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓

<B>

</I><BR>↓<B>

</I><BR>↓<B>

CADENA SEMILLA

LR – Delimitadores Left

CANDIDATOS

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓

</BODY></HTML>

Congo<B> </B> <I>242 </I><BR>↓<B><B><B>

EgyptBelizeSpain

</B> <I></B> <I>

</B> <I>

20501

34

</I><BR>↓</I><BR>↓

</I><BR>↓

</I><BR>↓<B> /I><BR>↓<B> I><BR>↓<B> ><BR>↓<B> <BR>↓<B>

R>↓<B> BR>↓<B>

>↓<B> ↓<B> <B> B> >

Condiciones de validez para candidatos L:

1) Sufijo apropiado2) No formar parte de la cola

de la página si se trata del primer atributo

LR – Delimitadores Right

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓

</BODY></HTML>

Congo<B> </B> <I>242 </I><BR>↓<B><B><B>

EgyptBelizeSpain

</B> <I></B> <I>

</B> <I>

20501

34

</I><BR>↓</I><BR>↓

</I><BR>↓

</B> <I></B> <I></B> <I>

</B> <I>

</B> <I>

</B> <I>

</B> <I>

</B> <I>

CADENA SEMILLA

LR – Delimitadores Right

CANDIDATOS

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓

</BODY></HTML>

Congo<B> </B> <I>242 </I><BR>↓<B><B><B>

EgyptBelizeSpain

</B> <I></B> <I>

</B> <I>

20501

34

</I><BR>↓</I><BR>↓

</I><BR>↓

Condiciones de validez para candidatos R:1) No formar parte de algún

atributo2) Prefijo del texto que

ocurre inmediatamente después

</B> <I></B> <I</B> <</B> </B></B</<

LR – Delimitadores Left

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓

</BODY></HTML>

Congo<B> </B> <I>242 </I><BR>↓<B><B><B>

EgyptBelizeSpain

</B> <I></B> <I>

</B> <I>

20501

34

</I><BR>↓</I><BR>↓

</I><BR>↓

</B> <I></B> <I></B> <I>

</B> <I>

</B> <I>

</B> <I>

</B> <I>

</B> <I>

CANDIDATOS

</B> <I> /B> <I> B> <I> > <I> <I> <I> I> >

CADENA SEMILLA

LR – Delimitadores Right

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓

</BODY></HTML>

Congo<B> </B> <I>242 </I><BR>↓<B><B><B>

EgyptBelizeSpain

</B> <I></B> <I>

</B> <I>

20501

34

</I><BR>↓</I><BR>↓

</I><BR>↓

</I><BR>↓</I><BR>↓

</I><BR>↓<B><B><B>

</I><BR>↓<B>

</I><BR>↓<B>

</I><BR>↓<B>

</I><BR>↓</BODY></HTML>

</I><BR>↓</BODY></HTML>

CANDIDATOS

</I><BR>↓<B></I><BR>↓<B</I><BR>↓<</I><BR>↓</I><BR>

</I><B</I><BR

</I><</I></I</<

CADENA SEMILLA

Inductive algorithms

LRHLRTOCLRN-LR

HLRT

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓ <B>Some Country Codes</B><P>↓

<B> <I> <I> <I>

<I>

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓

</BODY></HTML>

Congo<B> 242<B><B><B>

EgyptBelizeSpain

20501

34

<B>Some Country Codes</B><P>↓

<HR><B>End</B>

<I><I><I>

<I>

</B></B></B>

</B>

</B></B></B>

</B>

</I><BR>↓</I><BR>↓

</I><BR>↓</I><BR>↓

</I></I>

</I></I>

</BODY></HTML><HR><B>End</B><BR>↓

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓ <B>Some Country Codes</B><P>↓<B>

CADENA SEMILLA PARA H Y l1

</BODY></HTML><BR>↓<HR><B>End</B>

CADENA SEMILLA PARA T

CANDIDATOS PARA H

HLRT<HTML><TITLE>Some Country Codes</TITLE><BODY>↓<B>Some Country Codes</B><P>↓<B>Congo</B> <I>242</I><BR>↓<B>Egypt</B> <I>20</I><BR>↓<B>Belize</B> <I>501</I><BR>↓<B>Spain</B> <I>34</I><BR>↓<HR><B>End</B></BODY></HTML>

</TITLE><BODY>↓<B>/TITLE><BODY>↓<B>S…>↓<B>↓<B>S…<BB>>S …

CANDIDATOS PARA T CANDIDATOS PARA l1…<P>↓<B> P>↓<B> >↓<B> … B> >

↓<HR><B><HR><B>E …<HR><HR><B…HRR>><…

HLRT

Condiciones de validez para validar la tripleta h, t, l1:1) H debe pertenecer a todas las

cabeceras de las páginas2) l1 sufijo apropiado cabecera3) T no debe ocurrir entre H y l1

4) T substring de las colas de las páginas

5) l1 no debe ocurrir antes de t6) l1 sufijo apropiado del texto

entre tuplas7) T no debe ocurrir antes que l1

TRIPLETA VÁLIDA

H:<P>T: <HR>L1:<B>H = “*<P>” T = “<HR>*”CountryName = “<B> * </B>”

TRIPLETA NO VÁLIDA

H:<HTML>T: <HR>L1:<B>

TRIPLETA NO VÁLIDA

H:<P>T: </HTML>L1:<B>

Inductive algorithms

LRHLRTOCLRN-LR

OCLR

<I> <I> <I>

<I>

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓

</BODY></HTML>

Congo<B> 242<B><B><B>

EgyptBelizeSpain

20501

34

<B>Some Country Codes</B><P><UL>↓

</UL><HR><B>End</B>

</B></B></B>

</B>

</I></I><BR>↓

</I><BR>↓</I><BR>↓

<LI><LI><LI><LI>

</B></B></B>

</B>

<I> <I>

<I> <I>

</I></I>

</I></I>

CADENA SEMILLA PARA O Y C

CADENA SEMILLA PARA l1

</I><B><LI> </I><BR>↓<B><LI> </I><BR>↓<B><LI>

</I><BR>↓<LI><B>

<BR>↓<BR>↓

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓ <B>Some Country Codes</B><P><UL>↓<LI><B>

<HTML><TITLE>Some Country Codes</TITLE><BODY>↓ <B>Some Country Codes</B><P><UL>↓

<B><LI>

O:<C : >L1:<B>

OCLRCondiciones de validez para validar la tripleta:1) O substring de las cabeceras2) l1 sufijo apropiado después de

O.3) C substring de la cola4) O no debe ocurrir después de C5) O substring del texto entre

tuplas6) C substring del texto entre

tuplas de cada página.7) l1 sufijo apropiado

TRIPLETA VÁLIDA

O:<LI>C : <BR>L1:<B>H = “*<LI>” T = “<BR>*”CountryName = “<B> * </B>”

TRIPLETA NO VÁLIDA

TRIPLETA NO VÁLIDA

O:<BC : >L1:<B>

Algoritmos de Inducción

LRHLRTOCLRN-LR

N-LR

name: ame: me: e: :

Candidatos l1

John 12 Main St

Jane

Sally 10 Oak Ave 20 Walnut Rd

name:

name:

name:

address: address:

address: address:

address: address:

↓↓

Candidatos r1

John 12 Main St

Jane

Sally 10 Oak Ave 20 Walnut Rd

N-LR

name:

name:

name:

Candidatos l2

address: address:

address: address:

address: address:

↓↓

↓ address: address:

address: ddress: dress: …

s: :

Candidatos r2

↓↓

N-LR

CONJUNTO DE DELIMITADORES VÁLIDOS

l1:name: r1:l2:address: r2: Name = “name: * ↓” Address = “address: * ↓”

Condiciones de validez para un conjunto de candidatos l y r:

1) Selección de conjunto de candidatos y validación mediante ejecución del extractor N-LR

Índice

• Introducción• Reglas de Extracción• Generación de reglas de extracción• Extrayendo Información• Evaluación• Conclusiones

LRLRLR

CountryName = “<B> * </B>”

CountryCode = “<I> * </I>”

CountryName = “<B> * </B>”

CountryCode = “<I> * </I>”

AtributosAtributos

Congo 242Egypt 20Belize 501Spain 34

</BODY></HTML>

Congo<B> </B> <I>242 </I><BR>↓<B><B><B>

EgyptBelizeSpain

</B> <I></B> <I>

</B> <I>

20501

34

</I><BR>↓</I><BR>↓

</I><BR>↓

<B>Congo</B> <I>242 </I>

HLRTHLRTHLRT

Head = “* <P>”

Tail = “<HR> *”

CountryName = “<B> * </B>”

CountryCode = “<I> * </I>”

Head = “* <P>”

Tail = “<HR> *”

CountryName = “<B> * </B>”

CountryCode = “<I> * </I>”

AtributosAtributos

Congo 242Egypt 20Belize 501Spain 34

Congo<B> </B> <I>242 </I><BR>↓<B><B><B>

EgyptBelizeSpain

</B> <I></B> <I>

</B> <I>

20501

34

</I><BR>↓</I><BR>↓

</I><BR>↓

<B>Congo</B> <I>242 </I><B>Some Country Codes</B><P>↓

…<P>

<HR><B>End</B></BODY></HTML>↓<HR>

OCLROCLROCLR

Open = “* <LI>”

Close = “<BR>”

CountryName = “<B> * </B>”

CountryCode = “<I> * </I>”

Open = “* <LI>”

Close = “<BR>”

CountryName = “<B> * </B>”

CountryCode = “<I> * </I>”

AtributosAtributos

Congo 242Egypt 20Belize 501Spain 34

…<B>Some Country Codes</B><P><UL>↓<LI><B>Congo</B> <I>242</I><BR>↓<LI><B>Egypt</B> <I>20</I><BR>↓<LI><B>Belize</B> <I>501</I><BR>↓<LI><B>Spain</B> <I>34</I><BR>↓</UL><HR><B>End</B></BODY></HTML>

<LI><B>Congo </B> <I>242</I><BR>

N-LR

name: John↓address: 12 Main St↓

name: Jane↓

name: Sally↓address: 10 Oak Ave↓address: 20 Walnut Rd↓

N-LRN-LR

Name = “name: * ↓”

Address = “address * ↓”

Name = “name: * ↓”

Address = “address * ↓”

AtributosAtributos

John

12 Main St

Jane

Sally

20 Walnut Rd10 Oak Ave

address:

address:address:

Índice

• Introducción• Reglas de Extracción• Generación de reglas de extracción• Extrayendo Información• Evaluación• Conclusiones

Evaluación

• 70% de los casos aprende un tipo de extractor de información

• Sólo se necesitan un par de ejemplos

Índice

• Introducción• Reglas de Extracción• Generación de reglas de extracción• Extrayendo Información• Evaluación• Conclusiones

Conclusions

• LR, HLRT, OCLR, N-LR• Variantes: HOCLRT, N-HLRT• Problemáticos en la web actual

¡Gracias por asistir!

Información de contactoPatricia.jimenez@dti.uhu.es

top related