inteligencia artificial parte 5 aprendizaje. inteligencia artificial 5.1 aprendizaje a partir de la...

Inteligencia ArtificialInteligencia Artificial

Parte 5Parte 5

AprendizajeAprendizaje

Inteligencia ArtificialInteligencia Artificial

5.1 Aprendizaje a partir de la 5.1 Aprendizaje a partir de la observaciónobservación

ObjetivoObjetivo

Describir agentes capaces de mejorar Describir agentes capaces de mejorar su comportamiento mediante el estudio su comportamiento mediante el estudio de sus propias experiencias.de sus propias experiencias.

IntroducciónIntroducción

La idea fundamental del aprendizaje es que La idea fundamental del aprendizaje es que las percepciones deben servir no sólo para las percepciones deben servir no sólo para actuar, sino también para mejorar la actuar, sino también para mejorar la capacidad del agente en el futuro.capacidad del agente en el futuro.

El aprendizaje se produce como resultado de El aprendizaje se produce como resultado de la interacción entre el agente y el mundo y de la interacción entre el agente y el mundo y de la observación por parte del agente de sus la observación por parte del agente de sus propios procesos de toma de decisiones.propios procesos de toma de decisiones.

IntroducciónIntroducción

El aprendizaje puede ir desde la trivial El aprendizaje puede ir desde la trivial memorización de experiencias hasta la memorización de experiencias hasta la creación de teorías científicas.creación de teorías científicas.

Un modelo general de agentes Un modelo general de agentes con capacidad de aprendercon capacidad de aprender

Am

bienteA

mbiente

Crítico

AgenteAgente

Elemento de aprendizaje

Generador de problemas

Elemento de desempeño

Retro-Retro-alimentaciónalimentación

Metas de Metas de aprendizajeaprendizaje

SensoresSensores

EfectoresEfectores

ModificacionesModificaciones

ConocimientoConocimiento

Desempeño estándarDesempeño estándar

Un modelo general de agentes Un modelo general de agentes con capacidad de aprendercon capacidad de aprender Los agentes con capacidad para Los agentes con capacidad para

aprender pueden ser divididos en aprender pueden ser divididos en cuatro componentes conceptuales.cuatro componentes conceptuales.

La diferencia más importante reside en La diferencia más importante reside en el el elemento de aprendizajeelemento de aprendizaje, que tiene , que tiene a su cargo realizar las mejoras, y a su cargo realizar las mejoras, y el el elemento de desempeñoelemento de desempeño, quien debe , quien debe escoger las acciones externas.escoger las acciones externas.

Un modelo general de agentes Un modelo general de agentes con capacidad de aprendercon capacidad de aprender La función del La función del crítico crítico consiste en informar al consiste en informar al

elemento de aprendizaje su evaluación del elemento de aprendizaje su evaluación del desempeño del agente. Utiliza un estándar desempeño del agente. Utiliza un estándar fijo para juzgar tal desempeño.fijo para juzgar tal desempeño.

El El generador de problemasgenerador de problemas tiene a su cargo tiene a su cargo proponer acciones que permitan obtener proponer acciones que permitan obtener experiencias nuevas y que aporten experiencias nuevas y que aporten información.información.

Un modelo general de agentes Un modelo general de agentes con capacidad de aprendercon capacidad de aprender Otra función del elemento de Otra función del elemento de

aprendizaje es la mejorar la aprendizaje es la mejorar la eficienciaeficiencia del elemento de ejecución.del elemento de ejecución.

A lo anterior se le llama A lo anterior se le llama aprendizaje aprendizaje aceleradoacelerado..

Un modelo general de agentes Un modelo general de agentes con capacidad de aprendercon capacidad de aprender El diseño del elemento de aprendizaje El diseño del elemento de aprendizaje

se ve influido por cuatro factores se ve influido por cuatro factores principales:principales:– El tipo de El tipo de componentescomponentes del elemento de del elemento de

ejecución que van a ser mejorados.ejecución que van a ser mejorados.– El tipo de El tipo de representación representación que será utilizado que será utilizado

para esos componentes.para esos componentes.– El tipo de El tipo de retroalimentación retroalimentación disponibledisponible..– El tipo de El tipo de información previa información previa disponible.disponible.

Un modelo general de agentes Un modelo general de agentes con capacidad de aprendercon capacidad de aprender Componentes del elemento de desempeñoComponentes del elemento de desempeño

– Una correlación directa entre condiciones del estado vigente Una correlación directa entre condiciones del estado vigente y acciones.y acciones.

– Un procedimiento para inferir características importantes del Un procedimiento para inferir características importantes del mundo a partir de la secuencia de percepciones.mundo a partir de la secuencia de percepciones.

– Información acerca de cómo evoluciona el mundo.Información acerca de cómo evoluciona el mundo.– Información sobre los resultados de las posibles acciones Información sobre los resultados de las posibles acciones

que aprenda el agente.que aprenda el agente.– Información pertinente que indique qué tan deseables son Información pertinente que indique qué tan deseables son

determinados estados del mundo.determinados estados del mundo.– Información acción-valor para indicar la deseabilidad de Información acción-valor para indicar la deseabilidad de

acciones particulares en estados particulares.acciones particulares en estados particulares.– Metas que describan clases de estado cuyo logro permita Metas que describan clases de estado cuyo logro permita

maximizar la utilidad del agente.maximizar la utilidad del agente.

Un modelo general de agentes Un modelo general de agentes con capacidad de aprendercon capacidad de aprender Representación de los componentesRepresentación de los componentes

– Descripciones deterministas Descripciones deterministas • Polinomios ponderados lineales usados en programas Polinomios ponderados lineales usados en programas

de juegos.de juegos.

– Oraciones propositivas y oraciones lógicas de Oraciones propositivas y oraciones lógicas de primer ordenprimer orden

• Usadas en los agentes lógicos.Usadas en los agentes lógicos.

– Descripciones probabilistasDescripciones probabilistas• Redes bayesianas usadas en los componentes Redes bayesianas usadas en los componentes

inferenciales de un agente teórico de decisión.inferenciales de un agente teórico de decisión.

Un modelo general de agentes Un modelo general de agentes con capacidad de aprendercon capacidad de aprender Retroalimentación disponibleRetroalimentación disponible

– En algunos casos, la retroalimentación disponible En algunos casos, la retroalimentación disponible le dice al agente cuál es el resultado correcto. A le dice al agente cuál es el resultado correcto. A esto se denomina esto se denomina aprendizaje supervisadoaprendizaje supervisado..

– Cuando el agente recibe una evaluación de sus Cuando el agente recibe una evaluación de sus acciones, sin informarle cual seria la acción acciones, sin informarle cual seria la acción correcta se le llama correcta se le llama aprendizaje por refuerzoaprendizaje por refuerzo..

– El aprendizaje que se efectúa sin ninguna El aprendizaje que se efectúa sin ninguna indicación sobre cuáles son las salidas correctas indicación sobre cuáles son las salidas correctas se le conoce como se le conoce como aprendizaje no supervisadoaprendizaje no supervisado..

Un modelo general de agentes Un modelo general de agentes con capacidad de aprendercon capacidad de aprender Conocimiento previoConocimiento previo

– ¿Es necesario?¿Es necesario?– Buena parte del aprendizaje humano se Buena parte del aprendizaje humano se

lleva a cabo contando con una buena lleva a cabo contando con una buena cantidad de conocimiento previo.cantidad de conocimiento previo.

– Independientemente de la validez de esta Independientemente de la validez de esta aseveración, no hay duda de que el aseveración, no hay duda de que el conocimiento previo es de gran ayuda en conocimiento previo es de gran ayuda en el aprendizaje. el aprendizaje.

Un modelo general de agentes Un modelo general de agentes con capacidad de aprendercon capacidad de aprender Integración de un todoIntegración de un todo

– Cada uno de los siete componentes del Cada uno de los siete componentes del elemento de desempeño puede elemento de desempeño puede representarse matemáticamente cono una representarse matemáticamente cono una funciónfunción..

– El aprendizaje en general puede El aprendizaje en general puede considerarse como el aprendizaje de la considerarse como el aprendizaje de la representación de una funciónrepresentación de una función..

Aprendizaje InductivoAprendizaje Inductivo

Un Un ejemploejemplo es un par ( es un par (xx,,ff((xx)), en donde )), en donde xx es es la entrada y la entrada y ff((xx) es la salida de la función que ) es la salida de la función que se se aplicó a se se aplicó a x.x.

El cometido de una El cometido de una inferencia puramente inferencia puramente inductivainductiva (o (o induccióninducción) es: dado un grupo de ) es: dado un grupo de ejemplificaciones de ejemplificaciones de ff, producir una función , producir una función hh que aproxime que aproxime ff. A la función . A la función hh se le conoce se le conoce como como hipótesis.hipótesis.


Un Un ejemploejemplo es un par ( es un par (xx, , ff((xx)), en donde )), en donde xx es es la entrada y la entrada y ff((xx) es la salida de la función que ) es la salida de la función que se aplicó a se aplicó a x.x.

El cometido de una El cometido de una inferencia puramente inferencia puramente inductivainductiva (o (o induccióninducción) es: dado un grupo de ) es: dado un grupo de ejemplificaciones de ejemplificaciones de ff, producir una función , producir una función hh que aproxime que aproxime ff. A la función . A la función hh se le conoce se le conoce como como hipótesis.hipótesis.


(a)(a) (b)(b) (c)(c) (d)(d)

En (a) se muestran ejemplos de pares (entrada,salida). En (b), (c) y (d) hay En (a) se muestran ejemplos de pares (entrada,salida). En (b), (c) y (d) hay tres hipótesis de funciones desde las cuales podrían haberse obtenido de tres hipótesis de funciones desde las cuales podrían haberse obtenido de estos ejemplos.estos ejemplos.


Cualquier preferencia por una hipótesis, mas Cualquier preferencia por una hipótesis, mas allá de la mera consistencia con los ejemplos allá de la mera consistencia con los ejemplos es conocida como es conocida como predisposiciónpredisposición..

Como casi siempre existe una gran cantidad Como casi siempre existe una gran cantidad de posibles hipótesis congruentes, en todos de posibles hipótesis congruentes, en todos los algoritmos siempre está presente algún los algoritmos siempre está presente algún tipo de preferencia.tipo de preferencia.


Existen variantes del algoritmo de Existen variantes del algoritmo de aprendizaje. Por el ejemplo, el agente aprendizaje. Por el ejemplo, el agente puede realizar puede realizar aprendizaje gradualaprendizaje gradual: se : se concentra en actualizar sus antiguas concentra en actualizar sus antiguas hipótesis cada vez que surge un nuevo hipótesis cada vez que surge un nuevo ejemplo.ejemplo.


El saber escoger la El saber escoger la representaciónrepresentación de la de la función deseada es posiblemente el función deseada es posiblemente el problema más importante que debe resolver problema más importante que debe resolver un diseñador de un agente de aprendizaje. un diseñador de un agente de aprendizaje.

Al igual que con el razonamiento, en el Al igual que con el razonamiento, en el aprendizaje existe un compromiso aprendizaje existe un compromiso fundamental entre la fundamental entre la expresividadexpresividad y la y la eficienciaeficiencia..

Aprendizaje con árboles de Aprendizaje con árboles de decisióndecisión Esta es una de las modalidades más Esta es una de las modalidades más

sencillas y mejores del algoritmo de sencillas y mejores del algoritmo de aprendizaje.aprendizaje.

Constituye un adecuado medio para el Constituye un adecuado medio para el área de aprendizaje inductivo y su área de aprendizaje inductivo y su implantación es fácil.implantación es fácil.

Aprendizaje con árboles de Aprendizaje con árboles de decisióndecisión Los árboles de decisión como elementos de Los árboles de decisión como elementos de

desempeñodesempeño– Un Un árbol de decisiónárbol de decisión toma como entradas objetos o toma como entradas objetos o

situaciones caracterizados mediante un conjunto de situaciones caracterizados mediante un conjunto de propiedades; el árbol entrega a la salida una “decisión” sí o propiedades; el árbol entrega a la salida una “decisión” sí o no.no.

– Los nodos internos del árbol corresponden a una prueba de Los nodos internos del árbol corresponden a una prueba de valor de una de las propiedades y las ramas del árbol son valor de una de las propiedades y las ramas del árbol son identificadas mediante los posibles valores de la prueba.identificadas mediante los posibles valores de la prueba.

– En los nodos hoja del árbol se especifica el valor booleano En los nodos hoja del árbol se especifica el valor booleano que hay que producir en caso de llegar a una hoja que hay que producir en caso de llegar a una hoja determinada.determinada.

Ejemplo: El problema es decidir si se está dispuesto a esperar a que se Ejemplo: El problema es decidir si se está dispuesto a esperar a que se le asigne una mesa en un restaurante. El objetivo es aprender una le asigne una mesa en un restaurante. El objetivo es aprender una definición del definición del predicado de la metapredicado de la meta EsperaráEsperará: sí/no. Los otros : sí/no. Los otros atributos son:atributos son:

– Alternativa: sí/noAlternativa: sí/no• Si algún restaurante cercano ofrece una alternativa adecuadaSi algún restaurante cercano ofrece una alternativa adecuada

– Bar: sí/noBar: sí/no• Si el restaurante tiene un área de bar donde esperar la asignación de la mesa.Si el restaurante tiene un área de bar donde esperar la asignación de la mesa.

– Vie/Sáb: sí/noVie/Sáb: sí/no• Si es viernes o sábadoSi es viernes o sábado

– Hambre: sí/noHambre: sí/no• Si tenemos hambreSi tenemos hambre

– Clientes: Ninguno, Algunos, LlenoClientes: Ninguno, Algunos, Lleno• Cuántas personas están en el restauranteCuántas personas están en el restaurante

Aprendizaje con árboles de Aprendizaje con árboles de decisióndecisión


– Precio: $, $$, $$$Precio: $, $$, $$$• Rango de precios en el restauranteRango de precios en el restaurante

– Lluvia: sí/noLluvia: sí/no• Si está lloviendo afueraSi está lloviendo afuera

– Reservación: si/noReservación: si/no• Si se hizo una reservaciónSi se hizo una reservación

– Tipo: china, italiana, mexicana, hamburguesasTipo: china, italiana, mexicana, hamburguesas• El tipo de restauranteEl tipo de restaurante

– TiempoEsperaEstimado: 0-10, 10-30, 30-60, >60 minutosTiempoEsperaEstimado: 0-10, 10-30, 30-60, >60 minutos• El tiempo de espera estimado por el anfitrión.El tiempo de espera estimado por el anfitrión.

¿Clientes?

¿Esp. Est.?

¿Alternativa? ¿Hambre?

¿Reservación? ¿Vie/Sab? ¿Alternativa?

¿Lluvia?

No Si

No Si

Si

Si

No Si

¿Bar? Si No Si

No Si

NingunoAlgunos

Lleno

>60 30-60 10-30 0-10

No Sí No Sí

No Sí No Sí No Sí

No Sí No Sí


¿Precio?

¿Tipo?

(Irrelevantes)(Irrelevantes)

r Clientes(r,Lleno) r Clientes(r,Lleno) TiempoEsperaEstimado(r,0-10) TiempoEsperaEstimado(r,0-10) TenerHambre(r,N) TenerHambre(r,N) Esperar(r) Esperar(r)

Aprendizaje con árboles de Aprendizaje con árboles de decisióndecisión Expresividad de los árboles de decisiónExpresividad de los árboles de decisión

– El lenguaje del árbol de decisión es en esencia El lenguaje del árbol de decisión es en esencia propositivo, y en él toda prueba de atributo es una propositivo, y en él toda prueba de atributo es una proposición.proposición.

– No es posible utilizar árboles de decisión para No es posible utilizar árboles de decisión para representar pruebas que se refieren a dos o más representar pruebas que se refieren a dos o más objetos distintos, como:objetos distintos, como: rr22 Cercano(r Cercano(r22,r) ,r) Precio(r,p) Precio(r,p) Precio (r Precio (r22,p,p22) ) MasBarato MasBarato

(p(p22,p),p)

“ “Hay un restaurante más barato cerca”Hay un restaurante más barato cerca”

Aprendizaje con árboles de Aprendizaje con árboles de decisióndecisión Expresividad de los árboles de decisiónExpresividad de los árboles de decisión

– Los árboles de decisión resultan totalmente expresivos en la Los árboles de decisión resultan totalmente expresivos en la clase de lenguajes propositivos, es decir, clase de lenguajes propositivos, es decir, cualquier función cualquier función booleana puede representarse como árbol de decisiónbooleana puede representarse como árbol de decisión..

– Sin embargo, algunos tipos de funciones representan un Sin embargo, algunos tipos de funciones representan un difícil problema, como la difícil problema, como la función de paridadfunción de paridad (responde 1 si (responde 1 si y sólo si un número par de entradas son 1) y la y sólo si un número par de entradas son 1) y la función de función de mayoríamayoría (produce 1 si más de la mitad de las entradas son (produce 1 si más de la mitad de las entradas son 1).1).

– Los árboles de decisión son buenos para algunos tipos de Los árboles de decisión son buenos para algunos tipos de funciones y malos para otras.funciones y malos para otras.

Aprendizaje con árboles de Aprendizaje con árboles de decisióndecisión Cómo inducir árboles de decisión a partir de Cómo inducir árboles de decisión a partir de

ejemplosejemplos– Los Los ejemplosejemplos se caracterizan mediante los se caracterizan mediante los

valores de los atributos y el valor del predicado valores de los atributos y el valor del predicado meta.meta.

– Al valor del predicado meta se le denomina Al valor del predicado meta se le denomina clasificaciónclasificación del ejemplo. del ejemplo.

– Si el predicado de meta es válido para cierto Si el predicado de meta es válido para cierto ejemplo, se dice que es un ejemplo ejemplo, se dice que es un ejemplo positivopositivo, en , en caso contrario, se dice que es un ejemplo caso contrario, se dice que es un ejemplo negativo.negativo.

Atributos MetaRegistro Alt Bar Vie Ham Ctes Pre Lluv Res Tipo Est Esperar?

R 1 si no no si alg $$$ no si chi 0-10 siR 2 si no no si lleno $ no no mex 30-60 noR 3 no si no no alg $ no no hamb 0-10 siR 4 si no yes si lleno $ no no mex 10-30. siR 5 si no yes no lleno $$$ no si chi >60 noR 6 no si no si alg $$ si si italian 0-10 siR 7 no si no no vacío $ si no burger 0-10 noR 8 no no no si alg $$ si si mex 0-10 siR 9 no si yes no lleno $ si no hamb >60 noR 10 si si yes si lleno $$$ no si italian 10-30. noR 11 no no no no vacío $ no no mex 0-10 noR 12 si si yes si lleno $ no no hamb 30-60 si

Aprendizaje con árboles de Aprendizaje con árboles de decisióndecisiónEjemplos tomados del dominio del restauranteEjemplos tomados del dominio del restaurante

Co

nju

nto

de

entr

enam

ien

toC

on

jun

to d

e en

tren

amie

nto


ejemplosejemplos– La desventaja de hacer un árbol trivial que se ajuste La desventaja de hacer un árbol trivial que se ajuste

perfectamente a los ejemplos es que no es capaz de perfectamente a los ejemplos es que no es capaz de deducir un patrón a partir de ellos, por lo que no se espera deducir un patrón a partir de ellos, por lo que no se espera una capacidad de extrapolar en el caso de ejemplos no una capacidad de extrapolar en el caso de ejemplos no vistos anteriormente.vistos anteriormente.

– No se trata de enfocarse a encontrar un árbol de decisión No se trata de enfocarse a encontrar un árbol de decisión que corresponda a los ejemplos, sino también de encontrar que corresponda a los ejemplos, sino también de encontrar un árbol conciso. El anterior es un ejemplo del principio un árbol conciso. El anterior es un ejemplo del principio general de aprendizaje inductivo llamado general de aprendizaje inductivo llamado Navaja de Navaja de Ockham (Okcham Razor): Ockham (Okcham Razor): La hipótesis más probable es La hipótesis más probable es aquella que además de ser la más sencilla es congruente aquella que además de ser la más sencilla es congruente con todas las observaciones.con todas las observaciones.


ejemplosejemplos– Desafortunadamente, aunque el problema de encontrar el Desafortunadamente, aunque el problema de encontrar el

más pequeño más pequeño de los árboles de decisión es inmanejable, de los árboles de decisión es inmanejable, con ayuda de una heurística sencilla se pueden obtener con ayuda de una heurística sencilla se pueden obtener buenos resultados.buenos resultados.

– La idea básica del algoritmo del árbol de decisión es La idea básica del algoritmo del árbol de decisión es someter a prueba el atributo más importante.someter a prueba el atributo más importante.

– El atributo “más importante” es aquél que implique la mayor El atributo “más importante” es aquél que implique la mayor diferenciación en la clasificación de un ejemplo, por lo que diferenciación en la clasificación de un ejemplo, por lo que se espera que se obtenga la clasificación correcta mediante se espera que se obtenga la clasificación correcta mediante una cantidad mínima de pruebas, y todas las rutas del árbol una cantidad mínima de pruebas, y todas las rutas del árbol sean reducidas y el árbol en conjunto resulte pequeño.sean reducidas y el árbol en conjunto resulte pequeño.

R1, R3, R4, R6, R8, R12R1, R3, R4, R6, R8, R12

R2, R5, R7, R9, R10, R11R2, R5, R7, R9, R10, R11

++

--

¿Clientes?¿Clientes?

R1, R3, R6, R8R1, R3, R6, R8 R4, R12R4, R12R7, R11R7, R11 R2, R5, R9, R10R2, R5, R9, R10

++--

++ ++-- --

ningunoningunoalgunosalgunos llenolleno


Distribución de ejemplos mediante la prueba de los atributos: Distribución de ejemplos mediante la prueba de los atributos: Clientes Clientes es una buena opción de atributo para someterlo a prueba primero.es una buena opción de atributo para someterlo a prueba primero.

¿Tipo?¿Tipo?

R6R6 R4, R8R4, R8 R3, R12R3, R12R10R10 R2, R11R2, R11 R7, R9R7, R9

++--

++ ++-- --

R1R1R5R5

++--

R1, R3, R4, R6, R8, R12R1, R3, R4, R6, R8, R12

R2, R5, R7, R9, R10, R11R2, R5, R7, R9, R10, R11

++

--

ChinaItaliana Mexicana

Hamburguesas


Distribución de ejemplos mediante la prueba de los atributos: Distribución de ejemplos mediante la prueba de los atributos: Tipo Tipo no no es una buena opción.es una buena opción.

Aprendizaje con árboles de Aprendizaje con árboles de decisióndecisión Cómo inducir árboles de decisión a Cómo inducir árboles de decisión a

partir de ejemplospartir de ejemplos– Supongamos que el atributo más Supongamos que el atributo más

importante es importante es ClientesClientes..– Una vez divididos los ejemplos después de Una vez divididos los ejemplos después de

la prueba del primer atributo, cada la prueba del primer atributo, cada resultado constituye un nuevo problema de resultado constituye un nuevo problema de aprendizaje de árboles de decisión, con aprendizaje de árboles de decisión, con menos ejemplos y un atributo menos.menos ejemplos y un atributo menos.


R1, R3, R6, R8R1, R3, R6, R8 R4, R12R4, R12R7, R11R7, R11 R2, R5, R9, R10R2, R5, R9, R10

++--

++ ++-- --

NingunoNingunoAlgunosAlgunos LlenoLleno

NoNo SíSí ¿Hambre?¿Hambre?

R4, R12R4, R12R2, R10R2, R10 R5, R9R5, R9

++-- --

++

SíSí NoNo

R1, R3, R4, R6, R8, R12R1, R3, R4, R6, R8, R12

R2, R5, R7, R9, R10, R11R2, R5, R7, R9, R10, R11

++

--


Distribución de ejemplos mediante la prueba de los atributos: Distribución de ejemplos mediante la prueba de los atributos: TenerHambre TenerHambre es una es una segunda prueba bastante buena, suponiendo que segunda prueba bastante buena, suponiendo que ClientesClientes es la primera prueba. es la primera prueba.


ejemplosejemplos– En estos problemas repetitivos hay cuatro casos:En estos problemas repetitivos hay cuatro casos:

• Si hay ejemplos positivos y negativos, para separarlos escoja Si hay ejemplos positivos y negativos, para separarlos escoja el mejor atributo.el mejor atributo.

• Si los ejemplos restantes son positivos (o todos negativos) no Si los ejemplos restantes son positivos (o todos negativos) no hay problema, podemos responder Sí o No.hay problema, podemos responder Sí o No.

• Si no quedan ejemplos, significa que no se observó un ejemplo Si no quedan ejemplos, significa que no se observó un ejemplo tal, por lo que regresamos al valor predefinido calculado a partir tal, por lo que regresamos al valor predefinido calculado a partir de la clasificación de mayoría en el padre del nodo.de la clasificación de mayoría en el padre del nodo.

• Si no quedan atributos, pero sí tanto ejemplos positivos y Si no quedan atributos, pero sí tanto ejemplos positivos y negativos entonces hay problemas. La descripción de estos negativos entonces hay problemas. La descripción de estos ejemplos es la misma, pero su clasificación es diferente. Hay ejemplos es la misma, pero su clasificación es diferente. Hay ruido ruido en los datos.en los datos.


¿Hambre?¿Hambre?

¿Vie/Sab?¿Vie/Sab?

NoNo YesYes

NoNo

SíSí

NoNo SíSí

NoNoSíSí

NingunoNingunoAlgunosAlgunos

LlenoLleno

NoNo SíSí

¿Tipo?¿Tipo?

ChinaChinaItalianaItaliana MexicanaMexicana

HamburguesasHamburguesas

NoNo SíSí


El árbol de decisión inducido a partir del conjunto de entrenamiento del dominio del El árbol de decisión inducido a partir del conjunto de entrenamiento del dominio del restaurant, mucho más compacto.restaurant, mucho más compacto.

Ejemplo de Información Ejemplo de Información nueva descubierta a partir nueva descubierta a partir de los ejemplosde los ejemplos: “Los : “Los clientes sin hambre que van a clientes sin hambre que van a restaurantes mexicanos llenos restaurantes mexicanos llenos en fin de semana, están en fin de semana, están dispuestos a esperar hasta dispuestos a esperar hasta que se les asigne una mesa”que se les asigne una mesa”

Aprendizaje con árboles de Aprendizaje con árboles de decisióndecisión Evaluación de la eficiencia de un Evaluación de la eficiencia de un

algoritmo de aprendizajealgoritmo de aprendizaje– Se considera que un algoritmo de Se considera que un algoritmo de

aprendizaje es bueno si produce hipótesis aprendizaje es bueno si produce hipótesis que permitan predecir satisfactoriamente que permitan predecir satisfactoriamente las clasificaciones de ejemplos no vistos las clasificaciones de ejemplos no vistos anteriormente.anteriormente.

Aprendizaje con árboles de Aprendizaje con árboles de decisióndecisión Evaluación de la eficiencia de un algoritmo de Evaluación de la eficiencia de un algoritmo de

aprendizajeaprendizaje– Es preferible adoptar la siguiente metodologíaEs preferible adoptar la siguiente metodología

• Reunir una gran cantidad de ejemplosReunir una gran cantidad de ejemplos• Dividirla en dos: Dividirla en dos: el conjunto de capacitaciónel conjunto de capacitación y y el conjunto el conjunto

de pruebade prueba..• Emplear un algoritmo de aprendizaje con el conjunto de Emplear un algoritmo de aprendizaje con el conjunto de

capacitación como ejemplo de base para producir una hipótesis capacitación como ejemplo de base para producir una hipótesis HH..

• Medir el porcentaje de ejemplos del conjunto de prueba Medir el porcentaje de ejemplos del conjunto de prueba clasificados como clasificados como H.H.

• Repetir los pasos 1 a 4 en conjuntos de capacitaciRepetir los pasos 1 a 4 en conjuntos de capacitación de ón de tamaño diverso y conjuntos de capacitación por cada tamaño tamaño diverso y conjuntos de capacitación por cada tamaño escogidos aleatoriamente.escogidos aleatoriamente.

Aprendizaje con árboles de Aprendizaje con árboles de decisióndecisión Evaluación de la eficiencia de un Evaluación de la eficiencia de un

algoritmo de aprendizajealgoritmo de aprendizaje– Como resultado, se obtiene un conjunto de Como resultado, se obtiene un conjunto de

datos que nos dan la calidad de predicción datos que nos dan la calidad de predicción promedio en función del tamaño del promedio en función del tamaño del conjunto de capacitación, lo que se llama conjunto de capacitación, lo que se llama la la curva de aprendizajecurva de aprendizaje..


% c

orre

cto

en e

l co

njun

to d

e pr

ueba

% c

orre

cto

en e

l co

njun

to d

e pr

ueba

4040

100100

00 100100

Tamaño del conjunto de entrenamientoTamaño del conjunto de entrenamiento

Curva de aprendizaje del algoritmo del árbol de decisión sobre 100 ejemplos producidos Curva de aprendizaje del algoritmo del árbol de decisión sobre 100 ejemplos producidos aleatoriamente en el dominio del restaurante.aleatoriamente en el dominio del restaurante.

Aprendizaje con árboles de Aprendizaje con árboles de decisióndecisión Aplicaciones prácticas del aprendizaje Aplicaciones prácticas del aprendizaje

por árbol de decisiónpor árbol de decisión– Diseño de equipo de plataformas Diseño de equipo de plataformas

petroleraspetroleras• BP (Sistema experto GASOIL, 1986: de 10 BP (Sistema experto GASOIL, 1986: de 10

años a 100 días)años a 100 días)

– Para aprender a volarPara aprender a volar• Simulador de Vuelo (Sammut el al, 1992): 3 Simulador de Vuelo (Sammut el al, 1992): 3

pilotos, 30 vuelos c/u, 90,000 ejemplos, 20 pilotos, 30 vuelos c/u, 90,000 ejemplos, 20 variables de estado.variables de estado.

Empleo de la teoría de la Empleo de la teoría de la informacióninformación Se utiliza un modelo matemático para Se utiliza un modelo matemático para

escoger el mejor de los atributos. escoger el mejor de los atributos. Lo importante es tomar el atributo que Lo importante es tomar el atributo que

favorezca al máximo la exacta clasificación favorezca al máximo la exacta clasificación de los ejemplos, con lo que a fin de cuentas de los ejemplos, con lo que a fin de cuentas se reduce a un mínimo la profundidad del se reduce a un mínimo la profundidad del árbol final.árbol final.

Un atributo perfecto divide los ejemplos en Un atributo perfecto divide los ejemplos en conjuntos que son totalmente positivos o conjuntos que son totalmente positivos o negativos. negativos. ClientesClientes no es perfecto, pero sí no es perfecto, pero sí bastante bueno. bastante bueno. TipoTipo es realmente inútil. es realmente inútil.

Empleo de la teoría de la Empleo de la teoría de la informacióninformación Una medida adecuada es la cantidad Una medida adecuada es la cantidad

esperada de esperada de informacióninformación que que proporciona el atributo.proporciona el atributo.

En la teoría de la información se mide el En la teoría de la información se mide el contenido de la información en bits. Un contenido de la información en bits. Un bit de información basta para responder bit de información basta para responder una pregunta de sí o no, de la cual no una pregunta de sí o no, de la cual no se conoce cuál sera la respuesta.se conoce cuál sera la respuesta.

En general, si las posibles respuestas En general, si las posibles respuestas vvii tienen tienen probabilidades P(probabilidades P(vvii) entonces el contenido de ) entonces el contenido de información I de la respuesta es:información I de la respuesta es:

Empleo de la teoría de la Empleo de la teoría de la informacióninformación

i

vvvv iinPPPPI 2log),...,(

1

Esto es la cantidad de información promedio de los diversos eventos Esto es la cantidad de información promedio de los diversos eventos ponderados mediante las probabilidades de los eventos. ponderados mediante las probabilidades de los eventos.

Ejemplo: lanzamiento de una moneda:Ejemplo: lanzamiento de una moneda:

Se requeriría un solo bit, pero si la moneda está Se requeriría un solo bit, pero si la moneda está cargada:cargada:


15.05.0)1)(5.0()1)(5.0(21

log21

21

log21

21

,21

22

I

0803.001386.006644.0

)014.0)(99.0()644.6)(01.0(10099

log10099

1001

log100

110099

,100

122

I

Nota: logNota: log22(x) = log(x) = log1010(x) / log(x) / log1010(2) (2)

Supongamos que en el conjunto de entrenamiento hay p Supongamos que en el conjunto de entrenamiento hay p ejemplos positivos y n ejemplos negativos. El estimado de ejemplos positivos y n ejemplos negativos. El estimado de la información contenida en la respuesta es:la información contenida en la respuesta es:

para el caso del restaurant, p=n=6, por lo tanto para el caso del restaurant, p=n=6, por lo tanto necesitamos un bit de información. Para el caso del necesitamos un bit de información. Para el caso del restaurante, p = n = 6, por lo que se requiere un bit de restaurante, p = n = 6, por lo que se requiere un bit de información.información.


npn

npn

npp

npp

npn

npp

I

22 loglog,

Para medir que tanta información nos da un tributo, basta Para medir que tanta información nos da un tributo, basta con determinar que tanta información necesitamos con determinar que tanta información necesitamos después de la prueba de atributos.después de la prueba de atributos.

Un atributo A divide el conjunto de entrenamiento E en los Un atributo A divide el conjunto de entrenamiento E en los subconjuntos Esubconjuntos E11, ..., E, ..., Evv, donde A tiene , donde A tiene vv valores valores diferentes.diferentes.

Cada ECada Eii tiene p tiene pii ejemplos positivos y n ejemplos positivos y nii ejemplos negativos ejemplos negativos por lo que si recorremos esa rama tanto necesitaremospor lo que si recorremos esa rama tanto necesitaremos

bits adicionales para responder la pregunta.bits adicionales para responder la pregunta.


ii

i

ii

i

npn

npp

I ,

En promedio, después de probar el atributo A En promedio, después de probar el atributo A necesitaremos:necesitaremos:

bits de información para clasificar el ejemplo (donde bits de información para clasificar el ejemplo (donde p p y y n n son la cantidad de ejemplos de una y otra clase, y son la cantidad de ejemplos de una y otra clase, y ppii y y nnii

son la cantidad de ejemplos de cada clase donde el son la cantidad de ejemplos de cada clase donde el atributo A toma el valor atributo A toma el valor i, vi, v es la cantidad de valores es la cantidad de valores diferentes que puede tomar el atributo A.diferentes que puede tomar el atributo A.


v

i ii

i

ii

iii

npn

npp

Inpnp

A1

,)Restante(

Empleo de la teoría de la Empleo de la teoría de la informacióninformación La La ganancia de informaciónganancia de información de un atributo de un atributo

se define como la diferencia entre el se define como la diferencia entre el requerimiento original de información y el requerimiento original de información y el nuevo requerimientonuevo requerimiento

Y la heurística es siempre elegir el atributo Y la heurística es siempre elegir el atributo que tiene la ganancia mas grande.que tiene la ganancia mas grande.

)Restante(A,)Ganancia(

np

nnp

pIA

Atributos MetaRegistro Alt Bar Vie Ham Ctes Pre Lluv Res Tipo Est Esperar?

R 1 si no no si alg $$$ no si chi 0-10 siR 2 si no no si lleno $ no no mex 30-60 noR 3 no si no no alg $ no no hamb 0-10 siR 4 si no yes si lleno $ no no mex 10-30. siR 5 si no yes no lleno $$$ no si chi >60 noR 6 no si no si alg $$ si si italian 0-10 siR 7 no si no no vacío $ si no burger 0-10 noR 8 no no no si alg $$ si si mex 0-10 siR 9 no si yes no lleno $ si no hamb >60 noR 10 si si yes si lleno $$$ no si italian 10-30. noR 11 no no no no vacío $ no no mex 0-10 noR 12 si si yes si lleno $ no no hamb 30-60 si

Empleo de la teoría de la Empleo de la teoría de la informacióninformaciónEjemplos tomados del dominio del restauranteEjemplos tomados del dominio del restaurante

Co

nju

nto

de

entr

enam

ien

toC

on

jun

to d

e en

tren

amie

nto

Para el caso del restaurante:Para el caso del restaurante:

Como puede verse, el atributo Clientes proporciona más información Como puede verse, el atributo Clientes proporciona más información (tiene más entropía) que el atributo Tipo de Restaurante, que no aporta (tiene más entropía) que el atributo Tipo de Restaurante, que no aporta absolutamente nada de información para clasificar o predecir si el cliente absolutamente nada de información para clasificar o predecir si el cliente se quedará o se irá del restaurant. Por lo tanto, el algoritmo de se quedará o se irá del restaurant. Por lo tanto, el algoritmo de aprendizaje del árbol de decisión lo escoge como raíz.aprendizaje del árbol de decisión lo escoge como raíz.


bits 541.064

,62

126

)0,1(124

)1,0(122

1)Ganancia(

IIIClientes

bits 042

,42

124

42

,42

124

21

,21

122

21

,21

122

1)Ganancia(

IIIITipo

Empleo de la teoría de la Empleo de la teoría de la informacióninformación Ruido y sobreadaptaciónRuido y sobreadaptación

Cuando dos ó más ejemplos tienen los mismos Cuando dos ó más ejemplos tienen los mismos valores de atributos pero diferente clasificación, el valores de atributos pero diferente clasificación, el algoritmo no podrá encontrar un árbol que sea algoritmo no podrá encontrar un árbol que sea consistente con todos los ejemplosconsistente con todos los ejemplos

Soluciones: función mayoría (agente lógico) ó una Soluciones: función mayoría (agente lógico) ó una probabilidad estimada en base a las frecuencias probabilidad estimada en base a las frecuencias (Arbol probabilístico)(Arbol probabilístico)

Empleo de la teoría de la Empleo de la teoría de la informacióninformación Ruido y sobreadaptaciónRuido y sobreadaptación

La sobreadaptación es cuando se usan atributos La sobreadaptación es cuando se usan atributos irrelevantes para inducir un árbol consistenteirrelevantes para inducir un árbol consistente

ejemplo: lanzar un dadoejemplo: lanzar un dado día: Lu, Ma, Mi, Judía: Lu, Ma, Mi, Ju mes: Ene ó Febmes: Ene ó Feb Color; rojo ó azulColor; rojo ó azul

Mientras no haya dos ejemplos con la misma Mientras no haya dos ejemplos con la misma descripción el algoritmo encontrará una hipótesis descripción el algoritmo encontrará una hipótesis consistenteconsistente

Evitar probar atributos que no son relevantesEvitar probar atributos que no son relevantes cómo encontramos un atributo no relevante?cómo encontramos un atributo no relevante? Aquellos que tengan baja ganancia de informaciónAquellos que tengan baja ganancia de información qué tan grande debe ser la ganancia de información de un qué tan grande debe ser la ganancia de información de un

atributo para efectuar la prueba? atributo para efectuar la prueba? Realizar una prueba de hipótesis estadísticaRealizar una prueba de hipótesis estadística hipótesis nula: no hay patrón en los datos, hipótesis hipótesis nula: no hay patrón en los datos, hipótesis

alterna: sí hay patrón en los datosalterna: sí hay patrón en los datos poda xi-cuadradapoda xi-cuadrada

Poda de árbolesPoda de árboles

Empleo de la teoría de la Empleo de la teoría de la informacióninformación Ampliación de los usos de los árboles Ampliación de los usos de los árboles

de decisiónde decisión– Datos faltantesDatos faltantes– Atributos multivaluadosAtributos multivaluados

• Nombre del restauranteNombre del restaurante

– Atributos que adquieren valores Atributos que adquieren valores continuamentecontinuamente• Altura y pesoAltura y peso

–Clasificación: manejo de variables Clasificación: manejo de variables continuascontinuas

–Discretizar variablesDiscretizar variables

–Riesgo de perder informaciónRiesgo de perder información

Variables ContinuasVariables Continuas

–Número de valores que tomNúmero de valores que toma a una variable una variable

discretadiscreta

–Arboles demasiado ramificadosArboles demasiado ramificados

–Arboles demasiado profundosArboles demasiado profundos

Variables discretasVariables discretas

• Indice de diversidad de una poblaciónIndice de diversidad de una población

• Probabilidad de que dos elementos deProbabilidad de que dos elementos de

de la población escogidos al azar conde la población escogidos al azar con

reemplazo pertenezcan a diferentesreemplazo pertenezcan a diferentes

clasesclases

Regla GiniRegla Gini

• ppii probabilidad de cada clase probabilidad de cada clase ii

• ppii 2 2 probabilidad de que una clase seaprobabilidad de que una clase sea escogida dos vecesescogida dos veces

• Indice de diversidadIndice de diversidad


21

iipGINI

• Supongamos que hay dSupongamos que hay dos clasesos clases:: 1 y 2 con 1 y 2 con probabilidades probabilidades pp11 y y pp22

• pp11++pp22 = 1 = 1

• El índice de diversidad GINI se puede reducir a:El índice de diversidad GINI se puede reducir a:


)1(2

22)21(1

])1([1

)(111

11

211

211

21

21

21

22

21

22

21

2

ppGINI

pppppGINI

ppGINI

pppppGINIi

i


NOTANOTA– La reducción anterior sólo se puede usar La reducción anterior sólo se puede usar

cuando la variable de predicción tiene sólo cuando la variable de predicción tiene sólo dos valores, es decir, se tienen sólo dos dos valores, es decir, se tienen sólo dos clases. Cuando hay tres o más clases, se clases. Cuando hay tres o más clases, se debe usar la fórmula original, sin reducir:debe usar la fórmula original, sin reducir:

21

iipGINI

–Cuando se desee cCuando se desee clasificalasificaciónción de de registrosregistros

–Cuando se desee estimar el valor de una Cuando se desee estimar el valor de una variablevariable

–Cuando sCuando se requiere requieraan reglas entendibles n reglas entendibles por personaspor personas

¿Cuándo usar árboles de ¿Cuándo usar árboles de decisión?decisión?

inteligencia artificial parte 5 aprendizaje. inteligencia artificial 5.1 aprendizaje a partir de la...

Documents