pln-pmt conditional random fields sergi fernandez ai master. upc 06

24
PLN-PMT Conditional Random Fields Sergi Fernandez AI Master. UPC 06

Upload: priscila-mathias

Post on 22-Jan-2016

222 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: PLN-PMT Conditional Random Fields Sergi Fernandez AI Master. UPC 06

PLN-PMT Conditional Random Fields

Sergi Fernandez

AI Master. UPC 06

Page 2: PLN-PMT Conditional Random Fields Sergi Fernandez AI Master. UPC 06

Conditional Random Fields. Introducción

• Relational Learning

– Dependencias entre entidades– Atributos que ayudan para la clasificación

• Ejemplo. Clasificación de documentos Web– Contenido – Relaciones con otros documentos (links)

Page 3: PLN-PMT Conditional Random Fields Sergi Fernandez AI Master. UPC 06

Conditional Random Fields. Introducción. Modelos Gráficos

• Uso de modelos gráficos para explotar la estructura de dependencias entre entidades

• Son una familia de distribuciones de probabilidad que factorizan de acuerdo a un grafo subyacente

• Representa una distribución sobre un gran numero de variables aleatorias a través del producto de funciones locales que dependen de un subconjunto reducido de variables

Page 4: PLN-PMT Conditional Random Fields Sergi Fernandez AI Master. UPC 06

Conditional Random Fields. Introducción. Modelos Gráficos

• Modelo gráfico dirigido (Bayesian Network)

– Basado en un grafo dirigifo

– Representa una familia de

distribuciones

Vv

vvpyxp ))(|(),(

),( EVG

Page 5: PLN-PMT Conditional Random Fields Sergi Fernandez AI Master. UPC 06

Conditional Random Fields. Introducción. Modelos Gráficos

• Modelo gráfico no dirigido (Factor Graph)

– Basado en un grafo bipartito

– Factoriza siguiendo la formula

),,( EFVG

),(1

),( yaxaZ

yxpA

A

Page 6: PLN-PMT Conditional Random Fields Sergi Fernandez AI Master. UPC 06

Conditional Random Fields. Introducción. Modelos Gráficos

),(1

),( yaxaZ

yxpA

A

Factor de normalización

Funciones locales

Page 7: PLN-PMT Conditional Random Fields Sergi Fernandez AI Master. UPC 06

Conditional Random Fields. Introducción. Classificación

• Predecir una clase Y dado un vector de atributos X=x1..xk– Si asumimos que dada la etiqueta de la clase los

atributos son independientes podemos usar classificador naive Bayes.

Vv

vvpyxp ))(|(),(

Page 8: PLN-PMT Conditional Random Fields Sergi Fernandez AI Master. UPC 06

Conditional Random Fields. Introducción. Classificación

• Classificador de maxima entropia o regresión logística. Distribucion condicional

Page 9: PLN-PMT Conditional Random Fields Sergi Fernandez AI Master. UPC 06

Conditional Random Fields. Introducción.Modelos de Secuencia

• Problema: Name Entity Recognition – Solución

• Clasificar cada palabra independientemente, asumiendo que dado un input, las etiquetas de las entidades son independientes

• Si estudiamos los datos vemos que existen dependencias entre entidades!! New York = LOC, pero NY Times, NY Journal, NYPD,... son ORGs

Page 10: PLN-PMT Conditional Random Fields Sergi Fernandez AI Master. UPC 06

Conditional Random Fields. Introducción.Modelos de Sequencia

• Relajamos la presunción de independencia colocando las salidas en una cadena – Observaciones X = x1..xT– Estados Y=y1..yT

• HMM hace dos asunciones de independencia– Un estado solo depende de su antecesor– Cada observacion xt depende de el estado actual yt

Page 11: PLN-PMT Conditional Random Fields Sergi Fernandez AI Master. UPC 06

Conditional Random Fields. Introducción.Modelos de Sequencia

• Podemos especificar un HMM usando tres distribuciones de probabilidad:

• p( y1 ), distribución sobre estados iniciales• p( yt | yt-1), distribución de las transiciones• p( xt | yt ), distribución de las observaciones

• La probabilidad de una secuencia y de estados y una secuencia x de observaciones factoriza como:

Page 12: PLN-PMT Conditional Random Fields Sergi Fernandez AI Master. UPC 06

Conditional Random Fields. Introducción.Modelos Generativos vs. Discriminativos• Modelos generativos:

– Modelo gráfico dirigido donde los outputs siempre preceden a los inputs topológicamente.

– Aprenden un modelo de la probabilidad de la union p(x,y)de los inputs x y de la etiqueta y

– Obtienen las predicciones usando Bayes para calcular p(y|x) y escogen la y mas probable.

• Modelos discriminativos:– Modelan la probabilidad p(y|x) directamente o aprenden un

mapping directo de inputs a etiqueta de la classe• Razon por la que usar modelos discriminativos:

– “Se debe resolver un problema [de clasificación] directamente, y nunca resolver un problema mas general como paso intermedio [por ejemplcomo modelar p(x|y)]”

Page 13: PLN-PMT Conditional Random Fields Sergi Fernandez AI Master. UPC 06

Conditional Random Fields. De HMM a CRF

Page 14: PLN-PMT Conditional Random Fields Sergi Fernandez AI Master. UPC 06

Conditional Random Fields. De HMM a CRF

Aplicando Bayes

Page 15: PLN-PMT Conditional Random Fields Sergi Fernandez AI Master. UPC 06

Conditional Random Fields. • Lafferty et al. Definen la probabilidad de una sequencia

de etiquetas y dada una secuencia de observaciones x como un producto normalizado de funciones potenciales, cada una con la forma:

• Para definir feature functions, creamos funciones que expresan alguna caracteristica de la información

• Transition feature function

Page 16: PLN-PMT Conditional Random Fields Sergi Fernandez AI Master. UPC 06

Conditional Random Fields. Estimación de parametros

• La estimacion de parametros consiste en encontrar un vector que maximice la conditional log likelihood del conjunto de training

Page 17: PLN-PMT Conditional Random Fields Sergi Fernandez AI Master. UPC 06

Conditional Random Fields. Estimación de parametros

– Iterative methods• Iterative scaling• Gradient decent• Gradient tree boosting

– Newton’s method– Quasi-Newton methods

• BFGS• Limited memory BFGS

– Conjugate gradient

Page 18: PLN-PMT Conditional Random Fields Sergi Fernandez AI Master. UPC 06

Conditional Random Fields. Aplicaciones. POS tagging Lafferty, McCallum, Pereira 2002

Page 19: PLN-PMT Conditional Random Fields Sergi Fernandez AI Master. UPC 06

Conditional Random Fields. Aplicaciones. POS tagging

Add a small set of orthographic features: whether a spelling begins with a number or upper case letter, whether it contains a hyphen, and if it contains one of the following suffixes: -ing, -ogy, -ed, -s, -ly, -ion, -tion, -ity, -iesoov = out-of-vocabulary (not observed in the training set)

Page 20: PLN-PMT Conditional Random Fields Sergi Fernandez AI Master. UPC 06

Conditional Random Fields. Aplicaciones. Shallow Parsing

• Sha and Pereira 2003

Page 21: PLN-PMT Conditional Random Fields Sergi Fernandez AI Master. UPC 06

Conditional Random Fields. Aplicaciones. Semantic Role Labeling

• Roth and Yith 05• Descubrir la estructura de los argumentos del

verbo• Los argumentos no son superpuestos ->

sequence labeling problem

Page 22: PLN-PMT Conditional Random Fields Sergi Fernandez AI Master. UPC 06

Conditional Random Fields. Aplicaciones. Semantic Role Labeling

• Data: Secuencias de chunks, con un POS tag y una palabra, correspondientes al nucleo del chunk

• Features:– State f: Word, pos, chunk type, verb’s pos, verb’s

lemma, verb’s voice (activa pasiva),position, chunk path, verb class, named entity,...

– Transition: word, pos, chunk type (+2,-2), edge (current and previous label ), start, end

Page 23: PLN-PMT Conditional Random Fields Sergi Fernandez AI Master. UPC 06

Conditional Random Fields. Aplicaciones. Semantic Role Labeling

Page 24: PLN-PMT Conditional Random Fields Sergi Fernandez AI Master. UPC 06

Referencias• Integer Linear Programming Inference for Conditional

Random Fields. Dan Roth, Wen-tau Yih. ICML’05

• Shallow Parsing with conditional Randomn Fields. Sha, Pereira. 2003

• Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. Lafferty, McCallum, Pereira. 2002

• Conditional Random Fields: An Introduction. Wallach 2004

• An Introduction to Conditional Random Fields for Relational Learning. Sutton, McCallum

• On Discriminative vs. Generative classifiers: A comparison of logistic regression and naive Bayes. 2001