sistemas expertos -...

59
1 CAPITULO 1 SISTEMAS EXPERTOS 1.1 INTRODUCCION Los sistemas expertos son programas que reproducen el proceso intelectual de un experto humano en un campo particular, pudiendo mejorar su Productividad, ahorrar tiempo y dinero, conservar sus valiosos conocimientos y difundirlos más fácilmente. Antes de la aparición del ordenador, el hombre ya se preguntaba si se le arrebataría el privilegio de razonar y pensar. En la actualidad existe un campo dentro de la inteligencia artificial al que se le atribuye esa facultad: el de los sistemas expertos. Estos sistemas permiten la creación de máquinas que razonan como el hombre, restringiéndose a un espacio de conocimientos limitado. En teoría pueden razonar siguiendo los pasos que seguiría un experto humano (médico, analista, empresario, etc.) para resolver un problema concreto. Este tipo de modelos de conocimiento por ordenador ofrece un extenso campo de posibilidades en resolución de problemas y en aprendizaje. Su uso se extenderá ampliamente en el futuro, debido a su importante impacto sobre los negocios y la industria. El objetivo de este artículo es enseñar de forma práctica el funcionamiento de un sistema experto ¿QUE ES UN SISTEMA EXPERTO? No resulta fácil dar una definición de Sistema Experto, entre otras cosas, porque el concepto de Sistema Experto va evolucionando, ya que, a medida que se va progresando, sus funciones se van ampliando y resulta un concepto cambiante. Hace ya bastantes años, Edward Feigenbaum, de la Universidad de Stanford definió, en el Congreso Mundial de IA, un Sistema Experto como: "Un programa de computador inteligente que usa el conocimiento y procedimientos de inferencia para resolver problemas que son lo suficientemente difíciles como para requerir la intervención de un experto humano para su resolución". Hoy, con los avances conseguidos, resultaría más correcto definir un Sistema Experto como: "Un sistema informático que simula el proceso de aprendizaje, de memorización, de razonamiento, de comunicación y de acción de un experto humano en una determinada rama de la ciencia, suministrando, de esta forma, un consultor que puede sustituirle con unas ci ertas garantías de éxito". Estas características le permiten almacenar datos y conocimiento, sacar conclusiones lógicas, tomar decisiones, aprender de la experiencia y los datos existentes, comunicarse con expertos humanos o Sistemas Expertos, explicar el porqué de las decisiones tomadas y realizar acciones como consecuencia de todo lo anterior. Los sistemas expertos se pueden considerar como el primer producto verdaderamente operacional de la inteligencia artificial.

Upload: lamtram

Post on 30-Sep-2018

222 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

1

CAPITULO 1SISTEMAS EXPERTOS

1.1 INTRODUCCION

Los sistemas expertos son programas que reproducen el proceso intelectual de unexperto humano en un campo particular, pudiendo mejorar su Productividad, ahorrartiempo y dinero, conservar sus valiosos conocimientos y difundirlos más fácilmente.

Antes de la aparición del ordenador, el hombre ya se preguntaba si se le arrebataría elprivilegio de razonar y pensar. En la actualidad existe un campo dentro de lainteligencia artificial al que se le atribuye esa facultad: el de los sistemas expertos. Estossistemas permiten la creación de máquinas que razonan como el hombre,restringiéndose a un espacio de conocimientos limitado. En teoría pueden razonarsiguiendo los pasos que seguiría un experto humano (médico, analista, empresario, etc.)para resolver un problema concreto. Este tipo de modelos de conocimiento porordenador ofrece un extenso campo de posibilidades en resolución de problemas y enaprendizaje. Su uso se extenderá ampliamente en el futuro, debido a su importanteimpacto sobre los negocios y la industria.

El objetivo de este artículo es enseñar de forma práctica el funcionamiento de unsistema experto

¿QUE ES UN SISTEMA EXPERTO?

No resulta fácil dar una definición de Sistema Experto, entre otras cosas, porque elconcepto de Sistema Experto va evolucionando, ya que, a medida que se vaprogresando, sus funciones se van ampliando y resulta un concepto cambiante. Hace yabastantes años, Edward Feigenbaum, de la Universidad de Stanford definió, en elCongreso Mundial de IA, un Sistema Experto como:

"Un programa de computador inteligente que usa el conocimiento y procedimientos deinferencia para resolver problemas que son lo suficientemente difíciles como pararequerir la intervención de un experto humano para su resolución".Hoy, con los avances conseguidos, resultaría más correcto definir un Sistema Expertocomo:

"Un sistema informático que simula el proceso de aprendizaje, de memorización, derazonamiento, de comunicación y de acción de un experto humano en una determinadarama de la ciencia, suministrando, de esta forma, un consultor que puede sustituirle conunas ci ertas garantías de éxito".

Estas características le permiten almacenar datos y conocimiento, sacar conclusioneslógicas, tomar decisiones, aprender de la experiencia y los datos existentes, comunicarsecon expertos humanos o Sistemas Expertos, explicar el porqué de las decisionestomadas y realizar acciones como consecuencia de todo lo anterior.

Los sistemas expertos se pueden considerar como el primer producto verdaderamenteoperacional de la inteligencia artificial.

Page 2: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

2

Son programas de ordenador diseñados para actuar como un especialista humano en undominio particular o área de conocimiento. En este sentido, pueden considerarse comointermediarios entre el experto humano, que transmite su conocimiento al sistema, y elusuario que lo utiliza para resolver un problema con la eficacia del especialista. Elsistema experto utilizará para ello el conocimiento que tenga almacenado y algunosmétodos de inferencia.

A la vez, el usuario puede aprender observando el comportamiento del sistema. Esdecir, los sistemas expertos se pueden considerar simultáneamente como un medio deejecución y transmisión del conocimiento.

Lo que se intenta, de esta manera, es representar los mecanismos heurísticos queintervienen en un proceso de descubrimiento. Éstos mecanismos forman eseconocimiento difícil de expresar que permite que los expertos humanos sean eficacescalculando lo menos posible. Los sistemas expertos contienen ese "saber hacer".

1.2 INTELIGENCIA ARTIFICIAL

La inteligencia artificial es una de las áreas más fascinantes y con más retos de lasciencias de la Computación ya que ha tomado a la inteligencia como la característicauniversalmente aceptada para diferenciar a los humanos de otras criaturas ya sean vivaso inanimadas, para construir programas o computadoras inteligentes. Hay preguntasprofundas que surgen al hacer esta comparación, y la posibilidad de construir unainteligencia maquinista genera y estimula reacciones fuertes. En particular porque nohay una definición unánime de inteligencia para todas las áreas del conocimiento ytodas las corrientes de pensamiento, y como establece McFarland, la inteligencia sólo lapodemos medir por el resultado, es decir, podemos apreciar y diferenciar si uncomportamiento es o no inteligente.

La investigación en inteligencia artificial se ha disparado buscando solución alproblema si las máquinas pueden pensar.

Alan M. Turing propuso una prueba denominada el Juego de la Imitación, queactualmente se conoce como la prueba de Turing, la pretensión de la prueba es tener unaherramienta objetiva no ambigua de lo que significa que una máquina pueda pensar enun lenguaje operativo.

Tradicionalmente, en computación la robótica se ha visto como un área de aplicacióndel conocimiento en la que se integran diversos conceptos de la I.A. Según Firebaugh,la IA es el área tecnológica que necesita ser desarrollada y dominada (conocida a fondo)para acelerar la evolución de los robots. Esta visión se deriva de los aspectos en los quela I.A. ha contribuido con técnicas para la comprensión de la robótica y son:Los sistemas expertos proceden inicialmente de la inteligencia artificial a mediados delos años sesenta. En ese período se creía que bastaban unas pocas leyes de razonamientojunto con potentes ordenadores para producir resultados brillantes. Un intento en esesentido fue el llevado a cabo por los investigadores Alan Newell y Herbert Simon quedesarrollaron un programa denominado GPS (General Problema Solver; solucionadorgeneral de problemas. Podía trabajar con criptoaritmética, con las torres de Hanoi y con

Page 3: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

3

otros problemas similares. Lo que no podía hacer el GPS era resolver problemas delmundo real, tales como un diagnóstico médico.

1.3 CARACTERÍSTICAS DE UN SISTEMA EXPERTO

La característica fundamental de un sistema experto es que separa los conocimientosalmacenados (base de conocimiento) del programa que los controla (motor deinferencia. Los datos propios de un determinado problema se almacenan en una base dedatos aparte (base de hechos.

Una característica adicional deseable, y a veces fundamental, es que el sistema seacapaz de justificar su propia línea de razonamiento de forma inteligible por el usuario.

Los sistemas expertos siguen una filosofía diferente a los programas clásicos. Estoqueda reflejado en la tabla 1, que resume las diferencias entre ambos tipos deprocesamiento. Seria satisfactorio que se pudiera empezar con una definición exacta que sirviera comopunto de partida, sin embargo la inteligencia tan novedosa no tiene siglos de antigüedadsino tan solo algunos decenios – y los sistemas expertos son una aplicación tan recientesde esta disciplina, esto que no ha habido tiempo suficiente para que cristalice suterminología. Los conceptos de este campo todavía están en proceso de cambio y suslimites son difusos, por lo que cualquier intento para obtener definiciones estrictas yexactas esta condenado al fracaso.Afortunadamente no se necesita definiciones estrictas y exactas solamente unconocimiento suficiente para manejar cómodamente los conceptos. Los que se busca escomprensión no-rigor académico. El propósito de este caso no es mas bien caracterizarlos sistemas expertos con el detalle suficiente para poder reconocer los ejemplosverdaderos y rechazar los falsos.La búsqueda de dicha comprensión se aprenderá en tres pasos. Los sistemas expertospresentan características esenciales y deseables; las esenciales, sin las cuales no podríandenominarse sistemas expertos y las deseables sin las cuales en casi todos los casos nose podrían utilizar. En las siguientes secciones se describen estas características,mientras que en otras se clasifican los sistemas expertos.

Características esenciales, antes de proceder con esta tarea primero se resolverá algoque para algunas personas es una constante fuente irritación. El nombre de sistemasexpertos .como sucede con muchos sistemas de computación y otros campos, estesurgió por casualidad y no por diseño. Podría no ser un buen termino, pero es el queutiliza la gente y tiene que aceptarse hasta que se proponga uno mejor.

Como ya se menciono, la inteligencia artificial ofrece dos productos inteligentes:modelos del conocimiento humano y artefactos inteligentes. Los sistemas inteligentespertenecen a estos últimos. Fueron creados no tanto para modelar la manera en que losexpertos resuelven sus problemas y por consiguiente para entender el funcionamientodel cerebro de un experto, sino en el objetivo practico de cosechar los beneficios queaporta el pensamiento de los expertos integrados a un sistema de computación.Naturalmente, las dos áreas interactúan con efectos colaterales y efectos. Laconstrucción de sistemas expertos equivale en cierto sentido, a crear un modelo del

Page 4: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

4

pensamiento de los expertos, y esto permite producir mejores modelos de conocimientotales modelos mejorados obtenido talvez de un campo diferente, permiten construir asus ves un campo de sistemas expertos, pero todo eso es, por así decirlo, la fase final delproceso.Los artefactos inteligentes se producen primordialmente para resolver problemas y esaes la razón más importante para construir sistemas expertos de los dos métodosprincipales para resolver problemas que utilizan los artefactos inteligentes, ósea losgenerales o independientes del campo de actividad y los específicos del campo deactividad los sistemas expertos pertenecen a la segunda categoría, la de los específicosdel campo de actividad. Una numerosa parte de estos específicos del campo deactividad se apoya en el conocimiento de seres humanos expertos; Tales métodos seconocen como sistemas basados en él conociendo o incluso como sistemas inteligentesbasados en el conocimiento (sus siglas correspondientes son KBS e IKBS. Los sistemasexpertos forman una subclase de los sistemas basados en el conocimiento, subclasescentradas en una área que se reduce a un solo campo del conocimiento especializadoSi el sistema no esta basado en el conocimiento, no debe denominarse sistema experto.Principal dificultad con este precepto es como diferenciar los sistemas basados en elconocimiento de los demás sistemas.Lamentablemente el conocimiento es un concepto escurridizo; los filósofos han tratadoen vano definirlo durante miles de años.Para evitar las dificultades filosóficas a cerca de que exactamente el conocimiento, losprofesionales consideran conocimiento a todas las reglas, los hechos, las verdades, lasrazones, y los datos heurísticas recopilados por expertos, que han resultado útiles en laresolución de problemas.En el campo de actividad en el que opera un sistema es un campo particular. Lossistemas expertos individuales se emplean para diagnosticar enfermedades de la sangrepara mantener bajo vigilancia a los pacientes en el pulmón de acero y para asesorar a losprospectotes de minerales; Estas arrean están definidas y diferenciadas deconocimientos especializados. El MYCIN y el PROSPECTOR no guardan ningunarelación de áreas de competencia de tal sistema.Los campos de actividad son conocimientos especializados en contraste con el sentidocomún. Estos sistemas expertos poseen muy poco sentido común. El DART1 tiene unprograma de diagnostico de maquinas, no indicara suspensión sí el equipo no-esquema.No obstante los sistemas resuelven satisfactoriamente problemas difíciles como para serútiles aun sin sentido común.Si el área de conocimiento es estrecha, igual lo es su ámbito, estos sistemas se ocupande un problema a la vez y a partir de los datos llegan a alguna clase de conclusión. Unsistema experto es una enorme transformación en las plantillas en las que esta expresadosu conocimiento es solamente reglas de transformación; un sistema experto radicaprincipalmente en estas reglas, el procesamiento simbólico que los hechos, lasobservaciones, la hipótesis se representan mediante símbolos y se manipulan como tal.El sistema experto no sabe de ninguna manera de lo que significan los símbolos ni loque representan, pero estas reglas son capaces de convertir sus datos de entrada enalguna conclusión. Esta técnica por lo general lo lleva a cabo una computadora,efectivamente en seminarios sobre el tema es posible demostrar el funcionamiento de unsistema experto pidiendo que se lleven a cabo sus funciones; Sencillamente es másrápido preciso y conveniente implementar un programa.Un sistema experto es un sistema basado en el conocimiento que emula el pensamientode los expertos para resolver problemas significativos en un campo especifico deconocimientos especializados.

Page 5: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

5

1.4 PRIMER EJEMPLO DE UN SISTEMA EXPERTO

SISTEMA CLÁSICO SISTEMA EXPERTO

Conocimiento y procesamiento combinados en un programaBase de conocimiento separado del mecanismo de procesamiento

No contiene erroresPuede contener errores

No da explicaciones, los datos sólo se usan o escribenUna parte del sistema experto la forma el módulo de explicación

Los cambios son tediososLos cambios en las reglas son fáciles

El sistema sólo opera completoEl sistema puede funcionar con pocas reglas

Se ejecuta paso a pasoLa ejecución usa heurísticas y lógica

Necesita información completa para operarPuede operar con información incompleta

Representa y usa datosRepresenta y usa conocimiento

Comparación entre un sistema clásico de procesamiento y un sistema experto

EJEMPLOS

Se sabe que actualmente existen mas de cincuenta sistemas expertos en funcionamientoy su numero aumenta rápidamente por ello no es difícil encontrar ejemplos, pero haycuatro sistemas que merecen especial atención. Por así decirlo los grandes sistemasoriginales DEDTRAL, MYCIN, PROSPECTOR, R1

DENTRAL

Se menciono que el trabajo para desarrollar comenzó en el año 1964 en la universidadde STANFORD su objetivo es formular hipótesis a cerca de la estructura molecular deun compuesto cuando el químico se enfrenta con un compuesto desconocido, su primeratarea consiste en establecer cual son los átomos que constituyen el compuesto y en queproporciones relativas se encuentran. Para efectuarla realiza pruebas analíticas yexperimentos, un instrumento que se usa con frecuencia es espectrómetro de masas sufuncionamiento especifico no es de gran interés pero planteado en términos muysencillos grafica la frecuencia relativa de diferentes átomos y fragmentos molecularesen el compuesto a partir de esta información el químico tiene que determinar cual sonlos átomos que constituyen el compuesto y cual su disposición él la molécula su tareaase recordar uno de esos acertijos en los que es necesario encontrar las edades de o

Page 6: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

6

miembros de una familia a partir de sus edades combinadas y relativas pero porsupuesto la tarea de un químico es mucho mas compleja la familia es grande, todos losátomos conocidos y su posibles relaciones llenarían volúmenes sin embargo el hechomas importante de recordar, es que no existe un algoritmo científico que permiteDeterminar la estructura molecular a partir de los espectros de masa el DENDRAL sediseño originalmente para enumerar todas las configuraciones posibles de un conjuntode átomos, acatando las reglas de l valencia química.esta enumeración podría servirleentonces al químico como lista de verificación de posibilidades. En sentido estricto elDENDRAL hoy en DIA no es un solo programa sino una familia de programas. Noobstante el algoritmo original esta en él entro de esa familia. Los otros programasampliaron significativamente su poder. La ampliación más importante fue la que tomoel conjunto generado de casos posibles y lo redujo a un conjunto de casos posibles y loredujo a un conjunto de casos probables para lograrlo.para lograrlo tuvo que almacenary utilizar conocimientos heuristicos o reglas basadas en hechos químicos, en las leyesde la química y en el criterio y la experiencia de los expertos.El DENDRAL ES UNA HISTORIA DE TRIUNFO. Los resultados derivados de suuso se mencionan en mas de 50 articulos científicos, lo que demuestra no-solo suutilidad sino tambien sus fundamentos científicos.se emplea de manera regular yrutinaria, Su numero de usuarios ha crecido con tanta rapidez que en 1983 séestablecio una compañía independiente para su distribución y mejoramiento.

XCON

XCON es un Sistema Experto para configuraciones desarrollado por la DigitalEquipment Corporation.Según los deseos individuales del cliente se configuran redes de ordenadores VAX. Yaque el abanico de productos que se ofrecen en el mercado es muy amplio, laconfiguración completa y correcta de un sistema de estas características es un problemade gran complejidad.Las funciones de este Sistema Experto son las siguientes:1- ¿Pueden conjugarse los componentes solicitados por el cliente de forma convenientey razonable?2- ¿Los componentes de sistema especificados son compatibles y completos?Las respuestas a estas preguntas son muy detalladas.XCON es capaz de comprobar ycompletar los pedidos entrantes mucho más rápido y mejor que las personas encargadashasta ahora de esa labor.

MYCIN

Uno de los tipos más comunes de enfermedad que sufre el ser humano son lasinfecciones bacterianas. Gracias a los avances en la medicina, ahora se cuenta con unagran cantidad de agentes antimicrobianos, y con su mejor conocido subconjunto deantibióticos para combatir tales infecciones sin embargo, una variedad tan ampliarepresenta para él medico no solo una mayor libertad de elección sino también unmayor problema de selección.si hubiera un solo agente antimicrobiano eficaz contratodas las bacterias infecciosas, no existiría el problema de la selección.Desgraciadamente no existiría un medicamento tan maravilloso. Mas aun undeterminado medicamento puede ser sumamente eficaz contra un tipo de bacteriaspero no contra otros.en consecuencia él medica debe ser cuidadoso en su elección.Además, la eficacia solamente es uno de los criterios: También tiene que tomar en

Page 7: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

7

cuenta las alergias del paciente, los medicamentos, que ingieren en ese momento y otrascontraindicaciones parecidas. El MYCIN fue diseñado para ayudar al medico con esteproblema.Si se examina detalladamente la tarea del medico, es posible observar que tiene cuatrodecisiones por tomar: si el paciente sufre de una infección bacteriana, que organismo esel causante, que fármacos debería de ser adecuados y cual de ellos administrar.elMYCIN fue diseñado para ayudar a tomar estas cuatro decisiones.la forma en que ayudaes la siguiente: con base en los datos del paciente y en los resultados del paciente y enlos resultados del análisis, llega a una conclusión para cada una de las cuatro preguntas,exhibe estas conclusiones y su correspondiente grado de certeza, a continuación podríaexhibir si se le solicita, la línea de razonamiento que siguió para llegar a esasconclusiones, la regla que utilizo durante el proseso las opciones que rechazo e inclusolas referencias apropiadas a articulos y otras publicaciones que sirben para respaldartales reglas. Provisto de esta información él medico estará en una excelente posiciónpara formar su propia opinión.El trabajo para desarrollar el mising se inicia en el año 1972 en la universidad deestanford su nombre proviene del subfilo que se encuentra comúnmente en losnombres de muchos agentes antimicrobianos (como en “estreptomicina”. Las reglas queutiliza se obtuvieron de especialistas en el campo de las infecciones bacterianas. En unaserie de pruebas seleccionadas entre diversos casos de la infección de la sangre, secompararon las conclusiones del misina con las de merdicos especialistas y generales.elmising tubo un desempeño excelente en dichas pruebas, almenos también como el delos expertos y significativamente mejor quo el de los generales.A pesar de sus buenos antecendentes, el mising no se utiliza clínicamente. La razónprincipal de Sto. es que los médicos no acostumbras a utilizar computadoras en tareasque según creen pueden llevar a cabo ellos mismos. También existen otras razones: elproblema exige una maquina grande (LA IMPLEMENTACION GENERAL SEREALIZO EN UNA PD-10 CON 256 K DE MEMORIA); require de 20 a 30 minutospor consulta y no tiene aceso a los expedientes clinicos de tal forma que todos los datosdel paciente deben introducirse mediante la consuklta su uso principal es como mediode enseñanza: gracias a sus excelentes recursos explicativos puede servir tanto a la senseñanzas como para la representación más actuales que debe usarse durante el tema.

EL PROSPECTOR

El prospector es un sistema es un sistema computarizado de consulta que se diseño parallegar a los geólogos en la busca de depósitos minerales y la evolución del potencialmineralógico de grandes zonas geográficas. A sido desarrollado en estanford recearchinstitute desde 1978 hasta la fecha. Al igual que el MYCIN se trata de un sistemaconversacional basado en reglas obtenidas de especialistas. El prospector no es realidadun solo sistema sino, ya que contiene varios modelos geológicos diferentes, se tieneinforme sobre tres diferentes modelos de depósitos de arenisca uranífera y sobremodelos de cobre propílico y de molibdeno propílico.La tarea del geólogo al evaluar una zona se dificulta por el hecho que los indiciosreveladores de un determinado yacimiento son raras vez inequívoca y no siempre seencuentran todos presentes. Por consiguiente debe colocarse en una balanza los signos afavor y en contra sopesar su importancia relativa e emitir un juicio de probabilidad. Porlo general es grande él numero de factores que debe considerar y la importancia de ellosresulta relativa. Estos factores hicieron que la adquisición de reglas fuera por igualproblemática y difícil, sin embargo cuando se pusieron a prueba los modelos

Page 8: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

8

cotejándolos con las zonas conocidas de prospección y con la opinión de los expertos sedescubrió que PROSPECTOR concordaba con un margen.

R1

Tal vez el r1 (también conocido como xcon) es él más exitoso de los sistemas expertosque se utiliza actualmente.fuede sarrollado po jhon McDermott y sus colegas en launiversidad carnegie-mellon (CMU) ,a petición de digital equipment corporation(DEC). Cuando lanzo una serie de computadoras VAX, centro su estrategia demercadotecnia en el concepto de libre elección. Deseaba conceder al cliente todalibertad posible para decidir que piezas de equipo conformarían su conformaciónparticular. Esta libertad crea n problema difícil para la empresa: las necesidades sonapenas un bosquejo de lo que constituye una configuración cono en consecuencia losclientes deben transformarse.En configuraciones completas y coherentes, es necesarioagregar algunos componentes como fuentes de alimentación, gabinetes y cables. Otrosse pueden especificar con mas detalle como traducir los lugares de almacenamiento endiscos a unidades de disco y controladores, se debe planear la distribución del equipo aligual que especificar las longitudes de los cables y sus puntos de destino.En resumen es necesario poner atención a muchos de sus detálleselo cual requiereconocer la gama del equipo conocido y el equipo que debe acatar-El personal de DEC se dio cuenta de inmediato que si no mecanizaba este proceso granparte de ellos tendría que dictarse al y para el colmo no muy bien. Al principio trataronde utilizar métodos tradicionales pero después de admitir que no estaban llegando aninguna parte recurrieron a la CMU en busca de ayuda, el resultado de esta operación esel R1: un sistema para la configuración de equipos de VAX basado en el conocimiento.Las polémicas acerca del R1 se iniciaron alrededor de 1978 y el problema entro enacción en el mes de enero de 1980 en ese tiempo tenia 400 reglas y desde entonces aaumentado a mas de 4000 reglas.El DEC se calculaba que para 1984 habrían necesitado mas de 81 empleados, mas sin elR1 y están convencidos de que el programa efectúa el trabajo mucho mas mejor de loque podría hacer la gente. No-efecto está tan convencido del poder de la técnica quepretenden utilizarla en todo sentido. Por un lado para ayudar al personal de ventas y alcliente en la selección de configuraciones coherentes que se ajusten de la mejor manea alas necesidades y por otro lado para ayudar a la preparación de lugar de trabajo, paraprogramar la producción entrega de las configuraciones ordenadas, para ayudar aorganizar las actividades de la fabrica, en el control de materiales y almacene y en otrastareas.

1.5 PARTES DE UN SISTEMA EXPERTO

El subsistema de control de coherencia, Este es un componente importante de losSistemas Expertos. Su función es la de prevenir la entrada de información incoherenteen la base de conocimiento. Se trata de un componente esencial, pese a ser unaincorporación reciente a este campo.

El subsistema de adquisición de conocimiento, controla el flujo de nuevo conocimientoa la base de datos. Este subsistema determina si la nueva información es redundante, esdecir, si está contenida ya en la base de conocimiento. Aquella información noredundante es transmitida a la base de conocimiento para que sea almacenada.

Page 9: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

9

El motor de inferencia es el corazón de todo Sistema Experto. La misión principal deeste componente es la obtención de conclusiones mediante la aplicación delconocimiento abstracto al conocimiento concreto. En el transcurso de este proceso, si elconocimiento inicial es muy limitado, y el sistema no puede obtener ningunaconclusión, se utilizará el subsistema de demanda de información. Subsistema dedemanda de información este componente sirve para completar el conocimientonecesario y reanudar el proceso de inferencia hasta obtener alguna conclusión válida. Enalgunos casos, el usuario puede indicar la información necesaria ayudado de unainterfase de usuario. La interfase de usuario es una componente importante, pues facilitala comunicación entre el Sistema Experto y el usuario.

El subsistema de incertidumbre es el componente de un Sistema Experto responsable dealmacenar la información de tipo incierto y de propagar la incertidumbre asociada a estainformación.

El subsistema de ejecución de tareas es el componente que permite realizar acciones alSistema Experto. Estas acciones se basan en las conclusiones obtenidas por el motor deinferencia.

El subsistema de explicación es otro de los componentes de los Sistemas Expertos querequieren una interfase de usuario. El usuario puede solicitar una explicación de lasconclusiones obtenidas o de las acciones ejecutadas por el Sistema Experto.

Una de las principales facetas de un Sistema Experto es la habilidad de aprender. En unSistema Experto pueden considerarse dos tipos distintos de aprendizaje: estructural yparametrito; el aprendizaje estructural se refiere a algunos aspectos relacionados con laestructura del conocimiento (reglas, espacios probabilísticos, etc. El aprendizajeparametrito se refiere a los cambios de los parámetros de la base de datos. Otra faceta deun Sistema Experto es su habilidad para ganar experiencia a través de los datosdisponibles.

1.6 USOS DE UN SISTEMA EXPERTO

Un sistema experto es muy eficaz cuando tiene que analizar una gran cantidad deinformación, interpretándola y proporcionando una recomendación a partir de la misma.Un ejemplo es el análisis financiero, donde se estudian las oportunidades de inversión,dependiendo de los datos financieros de un cliente y de sus propósitos.

Para detectar y reparar fallos en equipos electrónicos, se utilizan los sistemas expertosde diagnóstico y depuración, que formulan listas de preguntas con las que obtienen losdatos necesarios para llegar a una conclusión. Entonces recomiendan las accionesadecuadas para corregir los problemas descubiertos. Este tipo de sistemas se utilizatambién en medicina (Ej. MYCIN y PUFF), y para localizar problemas en sistemasinformáticos grandes y complejos.

Los sistemas expertos son buenos para predecir resultados futuros a partir delconocimiento que tienen. Los sistemas meteorológicos y de inversión en bolsa sonejemplos de utilización en este sentido. El sistema PROSPECTOR es de este tipo.

Page 10: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

10

La planificación es la secuencia de acciones necesaria para lograr una meta. Conseguiruna buena planificación a largo plazo es muy difícil. Por ello, se usan sistemas expertospara gestionar proyectos de desarrollo, planes de producción de fábricas, estrategiamilitar y configuración de complejos sistemas informáticos, entre otros.

Cuando se necesita controlar un proceso tomando decisiones como respuesta a su estadoy no existe una solución algorítmica adecuada, es necesario usar un sistema experto.Este campo comprende el supervisar fábricas automatizadas, factorías químicas ocentrales nucleares. Estos sistemas son extraordinariamente críticos porquenormalmente tienen que trabajar a tiempo real.

El diseño requiere una enorme cantidad de conocimientos debido a que hay que tener encuenta muchas especificaciones y restricciones. En este caso, el sistema experto ayudaal diseñador a completar el diseño de forma competente y dentro de los límites de costesy de tiempo. Se diseñan circuitos electrónicos, circuitos integrados, tarjetas de circuitoimpreso, estructuras arquitectónicas, coches, piezas mecánicas, etc.

Por último, un sistema experto puede evaluar el nivel de conocimientos y comprensiónde un estudiante, y ajustar el proceso de aprendizaje de acuerdo con sus necesidades.

En la tabla se muestran los modelos funcionales de los sistemas expertos, junto al tipode problema que intentan resolver y algunos de los usos concretos a que se destinan.

1.7 APLICACIONES DE LOS SISTEMAS EXPERTOS

InterpretaciónDeducir situaciones a partir de datos observadosAnálisis de imágenes, reconocimiento del habla, inversiones financieras

Predicción

Inferir posibles consecuencias a partir de una situaciónPredicción meteorológica, previsión del tráfico, evolución de la Bolsa

Diagnóstico

Deducir fallos a partir de sus efectosDiagnóstico médico, detección de fallos en electrónica

Diseño

Configurar objetos bajo ciertas especificacionesDiseño de circuitos, automóviles, edificios, etc.

Planificación

Desarrollar planes para llegar a unas metasProgramación de proyectos e inversiones. Planificación militar

Page 11: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

11

Monitorización o supervisión

Controlar situaciones donde hay planes vulnerablesControl de centrales nucleares y factorías químicas

Depuración

Prescribir remedios para funcionamientos erróneos Desarrollo de software y circuitos electrónicos

Reparación

Efectuar lo necesario para hacer una correcciónReparar sistemas informáticos, automóviles, etc

Instrucción

Diagnóstico, depuración y corrección de una conductaCorrección de errores, enseñanza

Control

Mantener un sistema por un camino previamente trazado. Interpreta, predice y supervisasu conducta. Estrategia militar, control de tráfico aéreo

Enseñanza

Recoger el conocimiento y mostrarloAprendizaje de experiencia

CAPITULO 2

REDES NEURONALES

2.1 Introducción

LLaass RReeddeess NNeeuurroonnaalleess AArrttiiffiicciiaalleess ((AANNNN)) ssoonn ssiisstteemmaass ppaarraalleellooss ppaarraa eell pprroocceessaammiieennttooddee llaa iinnffoorrmmaacciióónn,, iinnssppiirraaddooss eenn eell mmooddoo eenn eell qquuee llaass rreeddeess ddee nneeuurroonnaass bbiioollóóggiiccaass ddeellcceerreebbrroo pprroocceessaann eessttaa.. EEss ddeecciirr qquuee ssee hhaann iinntteennttaaddoo ppllaassmmaarr llooss aassppeeccttooss eesseenncciiaalleess ddeeuunnaa nneeuurroonnaa rreeaall aa llaa hhoorraa ddee ddiisseeññaarr uunnaa nneeuurroonnaa ““aarrttiiffiicciiaall””.. EEssttooss mmooddeellooss rreeaalliizzaannuunnaa ssiimmpplliiffiiccaacciióónn,, aavveerriigguuaannddoo ccuuaalleess ssoonn llooss eelleemmeennttooss rreelleevvaanntteess ddeell ssiisstteemmaa,, bbiieennppoorrqquuee llaa ccaannttiiddaadd ddee iinnffoorrmmaacciióónn ddee qquuee ddiissppoonnee eess eexxcceessiivvaa oo bbiieenn ppoorrqquuee eessrreedduunnddaannttee.. UUnnaa eelleecccciióónn aaddeeccuuaaddaa ddee ssuuss ccaarraacctteerrííssttiiccaass,, mmááss uunnaa eessttrruuccttuurraaccoonnvveenniieennttee,, eess eell pprroocceeddiimmiieennttoo ccoonnvveenncciioonnaall uuttiilliizzaaddoo ppaarraa ccoonnssttrruuiirr rreeddeess ccaappaacceess ddeerreeaalliizzaarr uunnaa ddeetteerrmmiinnaaddaa ttaarreeaa..

EEss ddee pprreevveerr qquuee ddiicchhaass AANNNN tteennggaann ccaarraacctteerrííssttiiccaass ssiimmiillaarreess aa llaass ddeell cceerreebbrroo::

·· SSeeaann rroobbuussttaass yy ttoolleerraanntteess aa ffaallllooss

Page 12: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

12

·· SSeeaann fflleexxiibblleess.. EEll cceerreebbrroo ssee aaddaappttaa aa nnuueevvaass cciirrccuunnssttaanncciiaass mmeeddiiaannttee eell aapprreennddiizzaajjee..·· PPuueeddaann ttrraabbaajjaarr ccoonn iinnffoorrmmaacciióónn bboorrrroossaa,, iinnccoommpplleettaa,, pprroobbaabbiillííssttiiccaa,, ccoonn rruuiiddoo ooiinnccoonnssiisstteennttee..·· SSeeaann aallttaammeennttee ppaarraalleellaass.. EEll cceerreebbrroo eessttáá ffoorrmmaaddoo ppoorr mmuucchhaass nneeuurroonnaassiinntteerrccoonneeccttaaddaass eennttrree ssii yy eess,, pprreecciissaammeennttee eell ccoommppoorrttaammiieennttoo ccoolleeccttiivvoo ddee ttooddaass eellllaass,,lloo qquuee ccaarraacctteerriizzaa ssuu ffoorrmmaa ddee pprroocceessaarr llaa iinnffoorrmmaacciióónn..

EEll ppuunnttoo ccllaavvee ddee llaass AANNNNss eess llaa nnuueevvaa eessttrruuccttuurraacciióónn ddee eessttooss ssiisstteemmaass ppaarraa eellpprroocceessaammiieennttoo ddee llaa iinnffoorrmmaacciióónn.. AA ppaarrttiirr ddee eessttaa iinnffoorrmmaacciióónn ccoommoo eejjeemmpplloo,, llaass AANNNNaapprreennddeenn.. AApprreennddeerr eenn ssiisstteemmaass bbiioollóóggiiccooss iinnvvoolluuccrraa llaa mmooddiiffiiccaacciióónn ddee llaaiinntteerrccoonneeccttiivviiddaadd eennttrree llaass nneeuurroonnaass;; eessttee ccoonncceeppttoo ttaammbbiiéénn eess cciieerrttoo ppaarraa llaass AANNNNss..

LLooss ccaammppooss ddee aapplliiccaacciióónn ddee llaass AANNNNss ccrreecceenn ppoorr mmoommeennttooss,, ppoorr eejjeemmpplloo,,rreeccoonnoocciimmiieennttoo ddee ppaattrroonneess,, ccllaassiiffiiccaacciióónn ddee ddaattooss,, pprreeddiicccciioonneess,,...... SSuu vveennttaajjaa mmáássddeessttaaccaaddaa eess llaa ddee ssoolluucciioonnaarr pprroobblleemmaass qquuee ccoonn llaass ttééccnniiccaass ccoonnvveenncciioonnaalleess sseerrííaannddeemmaassiiaaddoo ccoommpplleejjooss..

LLaass rreeddeess nneeuurroonnaalleess,, eenn ssuu iinniicciioo eerraann uunnaa ssiimmuullaacciióónn ddee llooss ssiisstteemmaass nneerrvviioossoossbbiioollóóggiiccooss.. DDee eessttee mmooddoo uunnaa pprriimmeerraa ccllaassiiffiiccaacciióónn ddee llooss mmooddeellooss ddee AANNNNss ppuueeddee sseerrbbaassáánnddoonnooss eenn ssuu ssiimmiilliittuudd ccoonn llaa rreeaalliiddaadd bbiioollóóggiiccaa:: mmooddeellooss ddee ttiippoo bbiioollóóggiiccoo yyaaqquueellllooss ddiirriiggiiddooss aa aapplliiccaacciioonneess..

2.1.1 Redes Neuronales de tipo Biológico

EEll cceerreebbrroo hhuummaannoo ccoonnttiieennee aapprrooxxiimmaaddaammeennttee 1122 bbiilllloonneess ddee ccéélluullaass nneerrvviioossaass oonneeuurroonnaass.. CCaaddaa nneeuurroonnaa ttiieennee ddee 55660000 aa 6600000000 ccoonneexxiioonneess ddeennddrrííttiiccaass pprroovveenniieenntteess ddeeoottrraass nneeuurroonnaass mmiieennttrraass qquuee eenn eell ssiisstteemmaa nneerrvviioossoo hhaayy 11001144 ssiinnaappssiiss;; tteenniieennddoo ccaaddaanneeuurroonnaa mmááss ddee 11000000 aa llaa eennttrraaddaa yy aa llaa ssaalliiddaa.. EEss iimmppoorrttaannttee ddeessttaaccaarr qquuee aauunnqquuee eellttiieemmppoo ddee ccoonnmmuuttaacciióónn ddee llaa nneeuurroonnaa eess ccaassii uunn mmiillllóónn ddee vveecceess mmeennoorr qquuee llaassccoommppuuttaaddoorraass aaccttuuaalleess,, eellllaass ttiieenneenn uunnaa ccoonneeccttiivviiddaadd mmiilleess ddee vveecceess ssuuppeerriioorr qquuee llaassaaccttuuaalleess ssuuppeerrccoommppuuttaaddoorraass..

LLaa pprriinncciippaall aapplliiccaacciióónn ddee eessttaass rreeddeess,, eess eell ddeessaarrrroolllloo ddee eelleemmeennttooss ssiinnttééttiiccooss ppaarraavveerriiffiiccaarr llaass hhiippóótteessiiss qquuee ccoonncciieerrnneenn aa llooss ssiisstteemmaass bbiioollóóggiiccooss..

LLaass nneeuurroonnaass yy llaass ccoonneexxiioonneess eennttrree eellllaa,, llllaammaaddaass ssiinnaappssiiss,, ssoonn llaa ccllaavvee ppaarraa eellpprroocceessaaddoo ddee llaa iinnffoorrmmaacciióónn.. OObbsseerrvvaarr llaa iimmaaggeenn 22..11::

IImmaaggeenn 22..11 NNeeuurroonnaa BBiioollóóggiiccaa

Page 13: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

13

LLaa mmaayyoorrííaa ddee nneeuurroonnaass ttiieenneenn uunnaa eessttrruuccttuurraa ppaarreecciiddaa aa llaa ddee uunn áárrbbooll llllaammaaddaassddeennddrriittaass qquuee rreecciibbeenn llaass sseeññaalleess ddee eennttrraaddaa qquuee vviieenneenn ddee oottrraass nneeuurroonnaass aa ttrraavvééss ddee llaassssiinnaappssiiss..

UUnnaa nneeuurroonnaa ccoonnssttaa ddee ttrreess ppaarrtteess::

11.. EEll ccuueerrppoo ddee llaa nneeuurroonnaa22.. RRaammaass ddee eexxtteennssiióónn ((ddeennddrriittaass)) ppaarraa rreecciibbiirr llaass eennttrraaddaass33.. UUnn aaxxóónn qquuee lllleevvaa llaa ssaalliiddaa ddee uunnaa nneeuurroonnaa aa llaass ddeennddrriittaass ddee oottrraass nneeuurroonnaass

IImmaaggeenn 22..22 RReedd ddee NNeeuurroonnaass

LLaa iinntteerraacccciióónn eennttrree ddooss nneeuurroonnaass nnoo eess ddeell ttooddoo ccoonnoocciiddaa ppeerroo eell pprroocceessoo ddeell ttrraassppaassooddee iinnffoorrmmaacciióónn eess mmooddeellaaddoo ccoommoo uunnaa rreeggllaa ddee pprrooppaaggaacciióónn rreepprreesseennttaaddaa ppoorr llaa rreedduu((..)).. MMiieennttrraass qquuee llaa nneeuurroonnaa ppuueeddee sseerr mmooddeellaaddaa ccoommoo uunnaa ssiimmppllee ffuunncciióónn eessccaallóónn ff((..))..

2.1.2 La Neurona Artificial

SSii ssee ttiieenneenn NN nneeuurroonnaass,, ppooddeemmooss oorrddeennaarrllaass aarrbbiittrraarriiaammeennttee yy ddeessiiggnnaarrllaass ccoommoouunniiddaaddeess.. SSuu ttrraabbaajjoo eess ssiimmppllee yy úúnniiccoo,, yy ccoonnssiissttee eenn rreecciibbiirr llaass eennttrraaddaass ddee llaass ccéélluullaassvveecciinnaass yy ccaallccuullaarr uunn vvaalloorr ddee ssaalliiddaa,, eell ccuuaall eess eennvviiaaddoo aa ttooddaass llaass ccéélluullaass rreessttaanntteess..

IImmaaggeenn 22..33 NNeeuurroonnaa AArrttiiffiicciiaall

SSee ccoonnooccee ccoommoo ccaappaa oo nniivveell aa uunn ccoonnjjuunnttoo ddee nneeuurroonnaass ccuuyyaass eennttrraaddaass pprroovviieenneenn ddee llaammiissmmaa ffuueennttee ((qquuee ppuueeddee sseerr oottrraa ccaappaa ddee nneeuurroonnaass)) yy ccuuyyaass ssaalliiddaass ssee ddiirriiggeenn aall mmiissmmooddeessttiinnoo ((qquuee ppuueeddee sseerr oottrraa ccaappaa ddee nneeuurroonnaass)).. DDee eessttaa mmaanneerraa ppooddeemmooss ddeessttaaccaarr ttrreessttiippooss ddee uunniiddaaddeess::

Page 14: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

14

LLaass uunniiddaaddeess ddee eennttrraaddaa rreecciibbeenn sseeññaalleess ddeessddee eell eennttoorrnnoo ((ssoonn sseeññaalleess qquuee pprroocceeddeenn ddeesseennssoorreess oo ddee oottrrooss sseeccttoorreess ddeell ssiisstteemmaa))..

LLaass uunniiddaaddeess ddee ssaalliiddaa eennvvííaann llaa sseeññaall ffuueerraa ddeell ssiisstteemmaa ((ssoonn sseeññaalleess qquuee ppuueeddeennccoonnttrroollaarr ddiirreeccttaammeennttee ppootteenncciiaass uu oottrrooss ssiisstteemmaass)).. LLaass nneeuurroonnaass ddee llaass ccaappaass ooccuullttaassppuueeddeenn eessttaarr iinntteerrccoonneeccttaaddaass ddee ddiissttiinnttaa mmaanneerraa,, lloo qquuee ddeennoommiinnaa,, lloo qquuee ddeetteerrmmiinnaa ccoonnssuu nnúúmmeerroo,, llaass ddiissttiinnttaass ttiippoollooggííaass ddee rreeddeess nneeuurroonnaalleess..

LLaass uunniiddaaddeess ooccuullttaass ssoonn aaqquueellllaass ccuuyyaass eennttrraaddaass yy ssaalliiddaass ssee eennccuueennttrraann ddeennttrroo ddeellssiisstteemmaa ((ssoonn sseeññaalleess qquuee nnoo ttiieenneenn ccoonnttaaccttoo ccoonn eell eexxtteerriioorr))..

IImmaaggeenn 22..44 CCaarraacctteerriizzaacciióónn ddee uunn ggrruuppoo ddee NNeeuurroonnaass

2.1.3 Conexiones Entre Neuronas

LLaass ccoonneexxiioonneess qquuee uunneenn aa llaass nneeuurroonnaass qquuee ffoorrmmaann uunnaa rreedd nneeuurroonnaall aarrttiiffiicciiaall,, ttiieenneennaassoocciiaaddoo uunn ppeessoo,, qquuee eess eell qquuee hhaaccee qquuee llaa rreedd aaddqquuiieerraa ccoonnoocciimmiieennttoo..CCoonnssiiddeerreemmooss yyii ccoommoo eell vvaalloorr ddee ssaalliiddaa ddee uunnaa nneeuurroonnaa ii eenn uunn iinnssttaannttee ddaaddoo.. UUnnaanneeuurroonnaa rreecciibbee uunn ccoonnjjuunnttoo ddee sseeññaalleess qquuee llee ddaann iinnffoorrmmaacciióónn ddeell eessttaaddoo ddee aaccttiivvaacciióónnddee ttooddaass llaass nneeuurroonnaass ccoonn llaass qquuee ssee eennccuueennttrraa ccoonneeccttaaddaa.. CCaaddaa ccoonneexxiióónn ((ssiinnaappssiiss))eennttrree llaa nneeuurroonnaa ii yy llaa nneeuurroonnaa jj eessttáá ppoonnddeerraaddaa ppoorr uunn ppeessoo wwjjee.. NNoorrmmaallmmeennttee,, ddeeffoorrmmaa ssiimmpplliiffiiccaaddaa,, ssee ccoonnssiiddeerraa qquuee eell eeffeeccttoo ddee ccaaddaa sseeññaall eess aaddiittiivvoo,, ddee ttaall ffoorrmmaa qquueellaa eennttrraaddaa nneettaa qquuee rreecciibbee uunnaa nneeuurroonnaa ((ppootteenncciiaall ppoossttssiinnááppttiiccoo)) nneettjj eess llaa ssuummaa ddeellpprroodduuccttoo iinnddiivviidduuaall ppoorr eell vvaalloorr ddee llaa ssiinnaappssiiss qquuee ccoonneeccttaa aammbbaass nneeuurroonnaass::

∑ ⋅=N

iijij ywnet

EEssttaa rreeggllaa mmuueessttrraa eell pprroocceeddiimmiieennttoo aa sseegguuiirr ppaarraa ccoommbbiinnaarr llooss vvaalloorreess ddee eennttrraaddaa aa uunnaauunniiddaadd ccoonn llooss ppeessooss ddee llaass ccoonneexxiioonneess qquuee lllleeggaann aa eessaa uunniiddaadd yy eess ccoonnoocciiddaa ccoommoorreeggllaa ddee pprrooppaaggaacciióónn..

2.1.4 Regla de Aprendizaje

AAll iigguuaall qquuee eell ffuunncciioonnaammiieennttoo ddee uunnaa rreedd ddeeppeennddee ddeell nnuummeerroo ddee nneeuurroonneess ddee llaass qquueeddiissppoonnggaa yy ddee ccoommoo eessttéénn ccoonneeccttaaddaass eennttrree ssii,, ccaaddaa mmooddeelloo ddiissppoonnee ddee ssuuss pprrooppiiaassttééccnniiccaass ddee aapprreennddiizzaajjee.. EEnn eell ccaassoo ddee llaass rreeddeess nneeuurroonnaalleess aarrttiiffiicciiaalleess,, ssee ppuueeddeeccoonnssiiddeerraarr qquuee eell ccoonnoocciimmiieennttoo ssee eennccuueennttrraa eenn llooss ppeessooss ddee llaass ccoonneexxiioonneess eennttrree

Page 15: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

15

nneeuurroonnaass.. TTooddoo pprroocceessoo ddee aapprreennddiizzaajjee iimmpplliiccaa cciieerrttoo nnúúmmeerroo ddee ccaammbbiiooss eenn eessttaassccoonneexxiioonneess.. EEnn rreeaalliiddaadd ppuueeddee ddeecciirrssee qquuee ssee aapprreennddee mmooddiiffiiccaannddoo llooss vvaalloorreess ddee lloossppeessooss ddee llaa rreedd..

2.1.5 Redes Neuronales para aplicaciones concretas

DDeebbiiddoo aa qquuee eell ccoonnoocciimmiieennttoo ssoobbrree eell ssiisstteemmaa nneerrvviioossoo eenn ggeenneerraall nnoo eess ccoommpplleettoo sseehhaann ddee ddeeffiinniirr oottrraass eessttrruuccttuurraass yy ffuunncciioonnaalliiddaaddeess ddiissttiinnttaass aa llaass vviissttaass eenn llaass ddee ttiippoobbiioollóóggiiccoo.. EEssttaass ssoonn ssuuss pprriinncciippaalleess ccaarraacctteerrííssttiiccaass::

·· AAuuttoo--oorrggaanniizzaacciióónn yy AAddaappttaattiivviiddaadd.. OOffrreecceenn pprroocceessooss rroobbuussttooss yy aaddaappttaattiivvooss yyaa qquueeuuttiilliizzaann aallggoorriittmmooss ddee aauuttooaapprreennddiizzaajjee yy aauuttoooorrggaanniizzaacciióónn..

·· PPrroocceessaaddoo nnoo lliinneeaall.. PPrrooppoorrcciioonnaa uunnaa ggrraann ccaappaacciiddaadd ddee aapprrooxxiimmaarr,, ccllaassiiffiiccaarr yyiinnmmuunniiddaadd ffrreennttee aall rruuiiddoo..

·· PPrroocceessaaddoorr ppaarraalleelloo.. SSee uussaann uunn ggrraann nnúúmmeerroo ddee ccéélluullaass ccoonn uunn aallttoo nniivveell ddeeiinntteerrccoonneeccttiivviiddaadd..

LLooss ccaammppooss ddee aapplliiccaacciióónn ssoonn eell pprroocceessaaddoo ddee sseeññaall yy eell ddee iimmaaggeenn..

2.2 Fases en la aplicación de Redes Neuronales

LLaass aapplliiccaacciioonneess ddeell mmuunnddoo rreeaall ddeebbeenn ccuummpplliirr ddooss ttiippooss ddiiffeerreenntteess ddee rreeqquuiissiittooss eenn eellpprroocceessaaddoo,, ppoorr eessoo,, ppooddeemmooss ddiissttiinngguuiirr ddooss ffaasseess:: ffaassee llaa ddee aapprreennddiizzaajjee oo eennttrreennaammiieennttooyy llaa ffaassee ddee pprruueebbaa..

EEnn llaa ffaassee ddee eennttrreennaammiieennttoo ssee ttrraattaa ddee ddeetteerrmmiinnaarr llooss ppeessooss uussaannddoo uunn ccoonnjjuunnttoo ddeeddaattooss ppaarraa ddeeffiinniirr eell mmooddeelloo nneeuurroonnaall.. UUnnaa vveezz eennttrreennaaddoo eessttee mmooddeelloo eenn llaa ffaassee ddeepprruueebbaa,, ssee pprroocceessaarráánn llooss ppaattrroonneess qquuee ccoonnssttiittuuyyeenn llaa eennttrraaddaa hhaabbiittuuaall ddee llaa rreedd,,aannaalliizzaannddoo aassíí llaass pprreessttaacciioonneess ffiinnaalleess ddee llaa rreedd..

·· FFaassee ddee pprruueebbaa.. LLooss ppaarráámmeettrrooss ddee ddiisseeññoo ddee llaa rreedd nneeuurroonnaall ssee hhaann oobbtteenniiddoo uunnoossppaattrroonneess rreepprreesseennttaattiivvooss ddee llaass eennttrraaddaass,, aa llooss qquuee ddeennoommiinnaammooss ppaattrroonneess ddeeeennttrreennaammiieennttoo..SSeeggúúnn eell ttiippoo ddee rreedd,, yy eenn ffuunncciióónn ddee llaass eeccuuaacciioonneess ddiinnáámmiiccaass ddee pprruueebbaa,, llooss rreessuullttaaddoossppuueeddeenn sseerr ccaallccuullaaddooss ddee uunnaa vveezz oo aaddaappttaaddooss iitteerraattiivvaammeennttee.. PPaarraa vvaalliiddaarr eell ddiisseeññoo,, uunnaavveezz ccaallccuullaaddooss llooss ppeessooss,, ssee ccoommppaarraann llooss vvaalloorreess ddee llaass nneeuurroonnaass ddee llaa úúllttiimmaa ccaappaa ccoonnllaa ssaalliiddaa ddeesseeaaddaa..

·· FFaassee ddee aapprreennddiizzaajjee.. UUnnaa ccaarraacctteerrííssttiiccaa bbáássiiccaa ddee llaass AANNNNss eess ssuu ccaappaacciiddaadd ddeeaapprreennddeerr.. AApprreennddeenn ppoorr ssuu aaccttuuaalliizzaacciióónn oo ccaammbbiioo ddee llooss ppeessooss ssiinnááppttiiccooss qquueeccaarraacctteerriizzaann aa llaass ccoonneexxiioonneess.. LLooss ppeessooss ssee aaddaappttaann ddee aaccuueerrddoo aa llaa iinnffoorrmmaacciióónn eexxttrraaííddaaddee llooss ppaattrroonneess ddee eennttrreennaammiieennttoo nnuueevvooss qquuee ssee vvaann pprreesseennttaannddoo..

SSeeggúúnn eell ttiippoo ddee eennttrreennaammiieennttoo,, uunnaa ppoossiibbllee ccllaassiiffiiccaacciióónn ddee llaass AANNNNss eess::

Page 16: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

16

Redes NeuronalesFIJO NO SUPERVISADO SUPERVISADORed de Hamming PerceptrónRed de Hopfield Mapa de Características Basadas en Decisión

AprendizajeCompetitivo

ADALINE (LMS)

Perceptrón MulticapaModelos TemporalesDinámicosModelos Ocultos deMarkov

2.3 Estructura de las Redes Neuronales Artificiales

Los aspectos más característicos de las estructuras de redes son: la estructura deconexión, el tamaño de la red y la elección entre ACON y OCON.

2.3.1 Estructuras de conexión

Una red neuronal se determina por la neurona y la matriz de pesos. El comportamientode la red depende en gran medida del comportamiento de la matriz de pesos. Existentres tipos de capas de neuronas: la de entrada, la de salida y las ocultas. Entre dos capasde neuronas existe una red de pesos de conexión, que puede ser de los siguientes tipos:

- Conexión hacia delante: es la de red de Conexión en la cual, los datos de las neuronasde una capa inferior son propagados hacia las neuronas de la capa superior.- Conexión hacia atrás: esta Conexión realiza la operación inversa a la Conexión haciadelante, es decir, los datos de las neuronas de una capa superior son llevados a otra decapa inferior.- Conexión lateral: un ejemplo típico de este tipo de Conexión es “el ganador tomatodo”, que cumple un papel importante en la elección del ganador.- Conexión de retardo: es la conexión en la cual se le incorporan unos elementos deretardo para implementar modelos dinámicos y temporales, es decir, modelos queprecisa memoria.

Puede darse el caso que las redes sean de una capa, y su modelo de pesos sea hacia atráso bien multicapa hacia delante. Como también es posible, conectar varias redes de unasola capa para dar lugar a redes más grandes.

2.4 Tamaño de las redes

El tamaño de las redes depende del número de capas y del número de neurona ocultaspor capas.Para conocer el número de capas de neuronas, a menudo se cuenta a partir del númerode capas de pesos, debido a que en una red multicapa existen una o más capas deneuronas ocultas.

Page 17: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

17

El número de neuronas ocultas está directamente relacionado con las capacidades de lared, debido a que un comportamiento correcto de la red viene determinado por elnúmero de neuronas de la capa oculta.

Elección entre ACON y OCON

Típicamente, cada nodo de salida se usa para representar una clase.La elección entre una arquitectura “All-Class-in-One-Network” (ACON) o “One-Class-in-One-Network” (OCON), depende de las necesidades de nuestra aplicación, debido aque cada arquitectura posee diferentes características. La aproximación ACON secaracteriza por tener todas las clases reconocidas dentro de una super red, en cambio, laaproximación OCON se caracteriza por tener una subred para cada salida. En algunoscasos es ventajoso descomponer la super red de ACON en varias subredes máspequeñas. Por ejemplo, una red de 36 salidas se puede descomponer en 12 subredes,cada una responsable de tres salidas.Las dos estructuras difieren claramente en tamaño y rapidez. Aunque el número desubredes en la estructura OCON es relativamente largo, cada subred individual tiene untamaño menor que la red ACON. Esto se puede explicar con las figuras 3.1 y 3.2 de lapágina siguiente:

Imagen 3.1 e Imagen 3.2 Redes Supervisadas i No Supervisadas

La conclusión a la que se llega, es que la estructura OCON parece ser que aventaja a laACON en la rapidez de reconocimiento y entrenamiento, cuando el número de clases esgrande.

Page 18: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

18

2.5 Tipos de modelos de Redes Neuronales

2.5.1 Métodos de aprendizaje. Clasificación generalLa clasificación general sería la siguiente:

Aprendizaje Supervisado.Basadas en la decisión.De Aproximación/Optimización.

Aprendizaje No Supervisado.Entrenamiento Competitivo.Redes asociativas de pesos fijos.

Todos estos métodos de aprendizaje, necesitan unas reglas de entrenamiento específicaspara cada uno de ellos. Ahora pasaremos a comentar los diferentes tipos deentrenamiento.

2.5.2 Aprendizaje supervisado

En el aprendizaje supervisado (aprender con un maestro), la adaptación sucede cuandoel sistema compara directamente la salida que proporciona la red con la salida que sedesearía obtener de dicha red.Existen tres tipos básicos: por corrección de error, por refuerzo y estocástico.En el aprendizaje por corrección de error el entrenamiento consiste en presentar alsistema un conjunto de pares de datos, representando la entrada y la salida deseada paradicha entrada (este conjunto recibe el nombre de conjunto de entrenamiento). Elobjetivo es minimizar el error entre la salida deseada y la salida que se obtiene.

El aprendizaje por refuerzo es más lento que el anterior. No se dispone de un ejemplocompleto del comportamiento deseado pues no se conoce la salida deseada exacta paracada entrada sino que se conoce el comportamiento de manera general para diferentesentradas. La relación entrada-salida se realiza a través de un proceso de éxito o fracaso,produciendo este una señal de refuerzo que mide el buen funcionamiento del sistema.La función del supervisor es más la de un crítico que la de un maestro.

El aprendizaje estocástico consiste básicamente en realizar cambios aleatorios de losvalores de los pesos y evaluar su efecto a partir del objetivo deseado.

2.5.3 Reglas de entrenamiento Supervisado

Las redes de entrenamiento supervisado han sido los modelos de redes másdesarrolladas desde inicios de los diseños de redes. Los datos para el entrenamientoestán constituidos por varios pares de patrones de entrenamiento de entrada y de salida.El hecho de conocer la salida implica que el entrenamiento se beneficia de lasupervisión de un maestro. Dado un nuevo patrón de entrenamiento, por ejemplo,(m+1)- ésimo, los pesos serán adaptados de la siguiente forma:

)()()1( mij

mij

mij www ∆+=+

Page 19: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

19

Se puede ver un diagrama esquemático de un sistema de entrenamiento Supervisado enla siguiente figura:

Imagen 4.1 Entrenamiento Supervisado

2.5.4 Aprendizaje supervisado basado en la DecisiónEn la regla de entrenamiento basada en la decisión, se actualizan los pesos sólo cuandose produce un error en la clasificación. Esta regla de entrenamiento es localizada ydistributiva, además comprende el aprendizaje reforzado y la subred correspondiente ala clase correcta y el entrenamiento antirreforzado en la subred ganadora.

Puesto que el límite de decisión depende de la función discriminante ( )wx,φ , es naturalajustar el límite de decisión ajustando el vector de los pesos w tanto en la dirección delgradiente de la función discriminante (es decir, entrenamiento reforzado) o en ladirección contraria (entrenamiento antirreforzado), más adelante definiremos estos tiposde entrenamiento.

( )wxw ,φη∇±=∆

donde η es una tasa de entrenamiento positiva.

El vector gradiente de la función φ con respecto a w se denota:

( ) ( ) T

Nwwwwxwx

∂∂

∂∂=

∂∂=∇ φφφφ ,...,,,

1

2.5.4.1 Regla de entrenamiento basada en la decisión

Supongamos que )()1( ,..., MxxS = es un conjunto de patrones de entrenamiento, cadauno corresponde a una de las L clases Lii ,...,1, =Ω . Cada clase se modela por unasubred con función discriminante, digamos, ( ) Liiwx ,...,1, =φ . Supongamos que el patrón de

entrenamiento m-ésimo )(mx se sabe que pertenece a la clase iΩ y

( ) ( ) jlwxwx ml

mmj

m ≠∀> ,,, )()()()( φφ

Esto es, la clase ganadora para el patrón es la clase (subred) j-ésima.

Page 20: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

20

Cuando j=1, entonces el patrón )(mx es clasificado correctamente y no se necesitaninguna actualización.Cuando ij ≠ , esto es, )(mx es mal clasificado, entonces se realiza lo siguiente:

Entrenamiento reforzado: ( )imi

mi wxww ,)1( φη∇+=+

Entrenamiento antirreforzado: ( )jmj

mj wxww ,)1( φη∇−=+

En la regla de entrenamiento reforzado, el vector de pesos w se mueve a lo largo de ladirección positiva del gradiente, así que la función del valor discriminante aumentará,aumentando la posibilidad de la selección del futuro patrón. El entrenamientoantirreforzado mueve w a lo largo de la dirección negativa del gradiente, así que el valorde la función discriminante disminuirá, disminuyendo así la posibilidad de su futuraelección.

( ) lT

l wzwx =,φ

Entonces el gradiente en la fórmula de actualización, es simplemente

zw

=∂∂φ

Que nos lleva a la regla del perceptrón lineal.

Función de base lineal. Una función discriminante RBF es una función de radio entre elpatrón y el centroide, lwx − :

( )2

,2

ll

wxwx

−−=φ

Se usa para cada subred l. Así que el centroide ( )lw más cercano al patrón actual es elganador. Al aplicar la fórmula del entrenamiento basado en la decisión a la últimaecuación y notando que ( ) wxwx −=∇ ,φ , las siguiente reglas de entrenamiento sepueden derivar:

Entrenamiento reforzado: ( ))()()1( mj

mi

mi wxww −−=+ η

Entrenamiento antirreforzado: ( ))()()1( mj

mj

mj wxww −−=+ η

Función de Base Elíptica. La versión básica de RBF de las DBNN (Redes NeuralesBasadas en la Decisión) discutidas anteriormente se basa en asumir que el espacio decaracterísticas es uniformemente normalizado en todas direcciones. En la práctica, detodas formas, distintas características pueden tener distintos grados de importanciadependiendo en el modo que sean medidos. Esto lleva a la adopción de funcionesdiscriminantes elípticas más versátiles. En la práctica y para la mayoría de lasaplicaciones, la función discriminante EBF se convierte en:

Page 21: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

21

( ) ( )∑=

+−=N

kiikklkl wxwx

1

2, θαφ

2.5.4.2 Estructura jerárquica DBNN.

Si una subred se modela como una red de una sola capa, esta red será inadecuada engeneral para tratar con límites de decisión complejos. Para obtener una flexibilidadmáxima para tratar con límites de decisión no lineales, se utiliza una estructurajerárquica DBNN. La DBNN se caracteriza por su función de base, así como por laestructura jerárquica. La DBNN combina la regla de aprendizaje del perceptrón y laestructura jerárquica.

La función de base. Para dar consciencia al esquema de índices de la estructurajerárquica, etiquetamos el nivel de subred por el índice l y la etiqueta del nivel desubnodo por el índice lk . De una forma más elaborada, la función discriminante para lasubred l se denota por ),( lwxφ . Para el nivel más bajo, la función discriminante para elsubnodo l se denota por ( )kli wx,ψ donde el entero ll kk ,...,1∈ , y lk denota el númerode subnodos de la subred l.

Las funciones de base más comunes, para los subnodos incluyen unas funciones de baselineales LBF’s (Linear Basis Functions), funciones de base radiales RBF (Radial BasisFunctions), y funciones de base elípticas EBF (Elliptic Basis Function).

Hay diferentes estructuras como son:

- Nodo Oculto DBNNsUna aproximación sencilla es la estructura de nodo oculto dibujada en la figura. En laestructura de nodo oculto, la función discriminante no lineal se modela por una sumade varios nodos ocultos. Por ejemplo, un modelo de dos capas se puede representarcada subred. En este caso, una subred consiste en múltiples nodos ocultos, cada unorepresentado por una función ( )kli wx,ψ . La función discriminante de la subred es unacombinación lineal de los valores de los subnodos. La función discriminante de estetipo, con la apropiada función de base, puede aproximar cualquier función. Estopermite que la estructura adquiera una potencia de aproximación universal paraacomodar casi cualquier límite de decisión complejo.

-Subcluster DBNNs.Constituyen una alternativa a usar la suma escalada de los pesos de los nodos en laestructura de los nodos ocultos. Esta nueva alternativa usa la aproximación de “elganador se lleva todo” (winner-take-all). Esto es, sólo el peso superior másrepresentativo tiene un peso de l y todos los demás tienen peso cero.

Para la estructura jerárquica del subcluster, introducimos las nociones del ganador localy ganador absoluto. El ganador local es el ganador de entre los subnodos dentro de lamisma subred. El ganador local de la subred l está indexada por ls , esto es

( )lll wxmaxs ,arg ψ=

Page 22: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

22

Un patrón se clasifica dentro de la clase j-ésima si la subred j-ésima es la ganadoraabsoluta.-Algoritmo:Supongamos que varios subclasificadores se usan para representar una clase con ji ss , ,

etc, representando los ganadores locales. Supongamos que el patron )(mx debepertenecer a la clase iΩ , pero la subred j-ésima se selecciona como la ganadoraabsoluta. Cuando iΩ , esto es )(mx se clasifica mal, entonces se actualiza lo siguiente:

Aprendizaje reforzado: ( )sim

sim

si wxww ,)()1( ψη∇+=+

Aprendizaje no reforzado: ( )sjm

sjm

sj wxww ,)()1( ψη∇−=+

En otras palabras, el aprendizaje antirreforzado se aplica al subclasificado que ganalocalmente dentro de la subred que gana de manera absoluta; y el aprendizaje reforzadose aplica al ganador local dentro de la clase ganadora. Esto es, estas estructurasjerárquicas se pueden acomodar para clasificar límites de decisión complejos,

actualizándose únicamente los sublasificadores seleccionados en las subredes.Imagen 4.2 Subcluster DBNNs

2.5.4.3 Redes Neuronales de Aproximación/Optimización

La formulación basadas en la aproximación se pueden ver como unaaproximación/regresión para el conjunto de datos entrenados. Los datos para elentrenamiento se dan en pares de entrada/maestro, que denotaremos por[ ] [ ] [ ] tmxmtxTX ,,...,1,1, = , donde M es el número de patrones de entrenamiento. Losvalores deseados en los nodos de salida correspondientes a los patrones de entrada )(mxlos llamaremos maestros. El objetivo del entrenamiento de la red es encontrar los pesosóptimos para minimizar el error entre los valores del maestro y las salidas de respuestaactual. Un criterio popular es minimizar los errores cuadráticos medios entre el maestroy la salida actual. Para adquirir una capacidad de aproximación no lineal, se usanfrecuentemente las redes multicapa, junto con el algoritmo de Backpropagation.

La función que representa el modelo es función de las entradas y de los pesos:( )wxy ,φ= , si asumimos que hay una única salida. En la formulación básica del modelo

Page 23: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

23

de aproximación, el procedimiento implica el encontrar los pesos que minimizan elerror cuadrático medio (least-squares-error) LMS como función de energía:

( ) ( )[ ]2,, wxtwxE φ−= . El vector de pesos w se puede adaptar para ir minimizando lafunción de energía a lo largo de la dirección de descenso del gradiente:

( ) ( )( ) ( )w

wxwxtw

wxEw∂

∂−=∂

∂−∆ ,,, φφα

En la fase de prueba, la célula que gana a la salida es la célula que da la máximarespuesta al patrón de entrada.

2.5.5 Modelos No Supervisados

La capacidad de clasificación de la red neuronal depende del valor de los pesossinápticos, que pueden ser preestablecidos o entrenados adaptativamente mediantemecanismos de aprendizaje.Una clase de modelos de entrenamiento no supervisado son las redes de pesos fijos. Unejemplo son las redes de Memoria Asociativa, que se usan para obtener patronesoriginales libres de ruido a partir de señales incompletas o distorsionadas. La principalcaracterística de las redes asociativas de pesos fijos es que sus pesos sonpreestablecidos y precalculados.

Los modelos de pesos fijos tienen aplicaciones limitadas ya que no se pueden adaptar a“ambientes cambiantes”. Hay otra variedad de redes no supervisadas, llamadas Redes deAprendizaje Competitivo, cuyos pesos se adaptan de acuerdo con reglas de aprendizajeno supervisadas. Estas redes, pueden aprender en ausencia de un maestro, como yahemos mencionado anteriormente. En otras palabras, el entrenamiento se basaúnicamente en la información de los patrones de entrada, no necesitan la supervisión deun maestro a la salida. La clase de las redes de aprendizaje competitivo se compone, porejemplo, de Red de autoorganización.

2.5.5.1 Reglas de entrenamiento No SupervisadoPara los modelos de entrenamiento No Supervisado, el conjunto de datos deentrenamiento consiste sólo en los patrones de entrada. Por lo tanto, la red es entrenadasin el beneficio de un maestro. La red aprende a adaptarse basada en las experienciasrecogidas de los patrones de entrenamiento anteriores. Este es un esquema típico de unsistema No Supervisado:

Imagen 4.3 Entrenamiento no Supervisado

Page 24: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

24

Ejemplos típicos son La Regla de Aprendizaje de Hebb, y la Regla de AprendizajeCompetitiva.

2.6 Aprendizaje competitivo

Una red básica de aprendizaje competitivo tiene una capa de neuronas de entrada y unacapa de neuronas de salida. Un patrón de entrada x es un simple punto en el espacio realo binario de vectores n-dimensional. Los valores binarios (0 o 1) de representación localson más usados en los nodos de salida. Esto es, hay tantas neuronas de salida comonúmeros de clases y cada nodo de salida representa una categoría de patrones.

Una red de aprendizaje competitivo está formada por una(s) red(es) excitadora haciadelante y la(s) red(es) inhibidora(s) lateral(es). La red hacia delante normalmenteimplementa una regla de excitación de aprendizaje de Hebb. Esta regla consiste en quecuando una neurona participa constantemente en activar una neurona de salida, lainfluencia de la neurona de entrada es aumentada. La red lateral es inhibidora pornaturaleza. Esta red realiza la misión de seleccionar el ganador, normalmente por mediode un método de aprendizaje competitivo, de entre los que podemos reseñar el esquemade winner-take-all. En un circuito “winner-take-all”, la neurona de salida que da el valormás alto se le asigna el valor total (por ejemplo 1), mientras que a las demás se le da unvalor de 0. El circuito de “winner-take-all” se implementa por una red (digital oanalógica). Otro ejemplo de una red lateral son los mapas de Kohonen. Se deja que lasneuronas de salida interactuen por medio de la red lateral, con lo que el modelo sepuede entrenar para guardar cierto orden topológico.

Los procedimientos de clasificación no supervisados se basan a menudo en algunastécnicas de clasificación, que forman grupos de patrones parecidos. Esta técnica declasificación es muy útil para la clasificación. Además, juega un papel muy importanteen las redes de aprendizaje competitivo. Para un procedimiento de clasificación, esnecesario definir una distancia o medida de similaridad, para evaluar el grado desemejanza de los patrones. Algunas de estas distancias están en la siguiente lista, y entreellas la más común es la distancia euclidea.

Producto interno:

( )jijijTiji xxxxxxxx ,cos, ≡>≡<

Distancia Euclidea con Pesos:

( ) ( ) ( )[ ]2, ∑ −≡k

jiji kxkxxxd

Redes de aprendizaje competitivo básicas.

Sin la supervisión de ningún maestro, las redes no supervisadas adaptan los pesos yverifican los resultados únicamente a partir de los patrones de entrada. Un esquema quese usa mucho para la adaptación de los pesos es la regla de aprendizaje competitivo, quehace que las células compitan por el derecho a responder por ellas mismas por undeterminado tipo de entrada. Esto se puede ver como un sistema muy sofisticado de

Page 25: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

25

clasificación, cuyo objetivo es dividir un conjunto de patrones de entrada en un númerode clases, tal que los patrones de entrada en un número de clases tal que los patrones dela misma clase exhiben un cierto grado de similaridad. Las reglas de entrenamientosuelen ser la regla de Hebb para la red de propagación y la regla de “winner-take-all”(WTA) para la red lateral.

Modelo básico de Aprendizaje.

Un sistema de este tipo consiste en redes laterales y de propagación hacia delante conun número fijo de nodos de salida, esto es, un número fijo de clases. Los nodos deentrada y salida tienen valores binarios únicamente. Cuando y sólo cuando los dos, laentrada ith y la salida jth están activadas 1=ijC ; de otra forma ( ) 1=kxi . Dado el valorde los pesos sinápticos i con la salida j, wij, y el estímulo k-th, una posible regla deaprendizaje es:

( )

=

=∆casos otros 0

1 si soloy si ijijk

i

ij

Cwn

kxgw

donde g es una pequeña constante, kn es el número de unidades de entradas activas delpatrón k, ( ) 1=kxi si la señal de entrada i es alta para el patrón k-th y en otro caso

( ) 0=kxi .

Reglas de entrenamiento basadas en pesos normalizados.

Con el fin de asegurar un ambiente de competición equitativo, las sumas de todos lospesos que van a dar las neuronas de salida deben estar normalizados. Si los pesosconectados a un nodo de salida j son ( ) 1=kxi , entonces ∑ =

iijw 1

( )

=∆k estimulo el sobre pierde j si 0

k estímulo el sobre gana si jwn

kxgw ij

k

i

ij

Entonces, si una unidad gana la competición, cada una de sus líneas de entrada cede unaproporción g de su peso, y la l distribuye igualmente entre las líneas de entrada activas.

Una característica importante de esta regla de entrenamiento es que la normalización esincorporada en el momento de la actualización, de forma que la suma de los pesossinápticos a cualquier salida es 1.

Reglas de aprendizaje para “Leaky Learning” (aprendizaje débil).

Con el fin de preveer la existencia de neuronas que no aprenden en totalidad, se usa elaprendizaje débil. Puesto que una neurona sólo aprende si gana en algún momento, esposible que una célula nunca gane, y por lo tanto nunca aprenda. Una forma desolucionar este problema es que todos los pesos de la red intervengan en el

Page 26: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

26

entrenamiento con distintos niveles de aprendizaje. Esto se practica en la siguiente reglade aprendizaje débil:

( )

( )

=∆k estímulo el sobre pierde j si

k estimulo el sobre gana j si

ijk

iw

ijk

il

ij

wn

kxg

wn

kxgw

En esta regla el parámetro lg es unas órdenes de magnitud más pequeño que ( ) 0=kxi .Por lo tanto, las neuronas que pierden en la competición sufren un aprendizaje menorque las neuronas ganadoras. Este cambio tiene la propiedad de que las neuronasperdedoras se van desplazando hacia la región donde yace el estímulo actual, dondeempiezan a capturar algunas unidades, superando a las técnicas dinámicasconvencionales.

2.7 Modelos de Redes Neuronales

2.7.1 Modelos supervisados

2.7.1.1 Perceptron

Un Perceptrón unicapa no es más que un conjunto de neuronas no unidas entre sí, demanera que cada una de las entradas del sistema se conectan a cada neurona,produciendo cada una de ellas su salida individual: Un Perceptrón unicapa no es másque un conjunto de neuronas no unidas entre sí, de manera que cada una de las entradasdel sistema se conectan a cada neurona, produciendo cada una de ellas su salidaindividual:

Imagen 5.1 Modelo de Perceptron

Como ya hemos dicho, un conjunto de neuronas no sirve para nada si previamente no leenseñamos qué debe hacer. en el Perceptrón podemos utilizar los metodos queconocemos: Supervisado, Por Refuerzo y No Supervisado.

En el Aprendizaje Supervisado se presentan al Perceptrón unas entradas con lascorrespondientes salidas que queremos que aprenda. De esta manera la redprimeramente calcula la salida que da ella para esas entradas y luego, conociendo el

Page 27: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

27

error que está cometiendo, ajusta sus pesos proporcionalmente al error que ha cometido(si la diferencia entre salida calculada y salida deseada es nula, no se varían los pesos).En el Aprendizaje No Supervisado, solo se presentan al Perceptrón las entradas y, paraesas entradas, la red debe dar una salida parecida.En el Aprendizaje Por Refuerzo se combinan los dos anteriores, y de cuando encuando se presenta a la red una valoración global de como lo está haciendo.

2.7.1.2 El Perceptrón multicapa

Esta estructura nació con la intención de dar solución a las limitaciones del Perceptrónclásico o unicapa, y supuso el resurgimiento del movimiento conexionista. Como sunombre indica, se trata de un unos cuantos (dos o tres) perceptrones unicapa conectadosen cascada, como en la imagen 5.2.El problema de este tipo de Perceptrón está en su entrenamiento, ya que es difícilmodificar correctamente los pesos de la capa oculta (la capa 1 en el ejemplo anterior).Para poder hacer aprender cosas a un Perceptrón de este tipo, se implementó elalgoritmo de BackPropagation, que tal como su nombre indica tiene la función de irpropagando los errores producidos en la capa de salida hacia atrás.

Imagen 5.2 Modelo de Perceptrón Multicapa

Capacidad representacional

Redes con alimentación hacia delante (no recurrentes) y sin capas ocultas (Rosenblatt)Cada unidad de salida es independiente de las otras ya que cada peso afecta sólo a unasalida. Se puede construir cualquier multi-perceptron a partir de perceptrones de unasalida Pueden representar funciones booleanas complejas. Ej: una función que detecta simás de la mitad de sus n entradas están a 1, se representan con un perceptron contodos los pesos a 1 y Sólo pueden representar funciones linealmente separables .

Un ejemplo práctico de un Perceptrón multicapa podría ser su uso en visión artificial.Dada su capacidad para generalizar, las redes neuronales ya han demostrado suimportáncia en este campo. El unico problema és la lentitud que tiene para aprender.

2.7.1.3 Adaline y Madaline

Este es otro de los modelos pioneros de las ANNs i el massimple a la hora de aproximar. se basa en el criterio del errorcuadràtico médio line i fué introducido por Widrow.ADALINE sigue siendo de una sola capa como el perceptron,con la unica diferència de la función de transferencia lineal(imagen 5.3)

Page 28: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

28

El método de entrenamiento que adopta este modelo és el de adaaptación a los datos i sebasa en el algoritmo de descenso del gradiente.

Imagen 5.3 Función de transferéncia lineal

2.7.1.4 Backpropagation

El aprendizaje con redes de neuronas se realiza actualmente siguiendo el enfoque de laRetropropagación de Gradiente Backpropagation y el de los algoritmos constructivos.El primero necesita introducir a priori el número y conexiones de las unidades ocultas,y determinar los pesos por minimización de un costo. La red así obtenida eseventualmente simplificada eliminando unidades y/o conexiones que parecen inútiles.

El principal defecto de este enfoque consiste en la búsqueda de la mejor arquitectura através de prueba y error. Por otra parte, con un enfoque constructivo se aprende almismo tiempo el número de unidades y pesos, en el marco de una arquitectura quecomienza generalmente con un perceptron. La característica de estos algoritmos es queconstruyen una RN adaptada a cada problema particular, usando la informacióncontenida en el conjunto de aprendizaje y evitando rediseñar la arquitectura. El primeralgoritmo constructivo fue el algoritmo Tiling, de ahí surgieron Cascade Correlation, elalgoritmo Upstart, Offset y GAL entre otros. Monoplan y NetLines son dos algoritmosrecientemente introducidos por el autor. De aquí en adelante, nuestra discusión serábasada únicamente en los métodos constructivos.

Una vez construida la red, ésta debe ser capaz de predecir la clase de datos nuevos queno estén presentes en el conjunto de aprendizaje. La calidad del algoritmo deaprendizaje se traduce en la capacidad de predicción de la RN. Esta calidad se mide através del error de generalización, que es la proporción de clasificaciones correctasrealizadas por la red sobre nuevos datos. Esta cantidad se mide empíricamente sobre unaserie de problemas estándar (benchmarks) que sirven de prueba.

2.7.1.5 Otros Modelos

Dentro de los supervisados encontramos diversos modelos como los descritosbrevemente a continuación:

Time Delay NN: Red multicapa feddforward donde las salidas de cada capa estanretenidas durante un tiempo, conectandose todas a la vez a la siguiente capa. Laaplicación donde más se encuentran estas redes es en las tascas de reconociemetooptico.Probabilistic NN: Red de tres capas, que en su forma standar no entrena. El aprendizajese realiza similar a la red de Hamming. Su mayor ventaja és que no necesitaentrenamiento i la mayor desventaja que sus matrices son muy largas.Generalized Regresion NN: Red que por lo general no necesita un entrenamientoiterativo , se utiliza en problemas de clasificación o estimación de variables continuas.

Page 29: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

29

2.7.2 Modelo No Supervisado

2.7.2.1 Redes de Hopfield

El modelo Hopfiel consiste de una red monocapa con N neuronas cuyos valores desalida son binarios 0/1 ó -1/+1. En la versión original del modelo Discrete Hopfield, lasfunciones de activación de las neuronas eran del tipo escalón. Se trataba, por lo tanto, deuna red discreta con entradas y salidas binarias; sin embargo, posteriormente Hopfielddesarrolló una versión continua con entradas y salidas analógicas utilizando neurnas deactivación tipo sigmiodal.

Una de las características del modelo de Hopfield, es que se trata de una red auto-asociativa. Así como, varios patrones diferentes pueden ser almacenados en la red,como si se tratase de una memoria, durante la etapa de aprendizaje. Posteriormente, sise presenta a la entrada alguna de las informaciones almacenadas, la red evolucionahasta estabilizarse, ofreciendo entonces en la salida la información almacenada, quecoincide con la presentada en la entrada. Si , por el contrario, la información de entradano coincide con ninguna de las almacenadas, por estar distorsionada o incompleta, lared evoluciona generando como salida la mas parecida.

El funcionamiento de la red Hopfield se puede expresar en dos pasos:En el instante inicial se aplica la información de entrada, la salida de las neuronascoincide con la información aplicada a la entrada.

La red realiza iteraciones hasta alcanzar la convergencia (hasta que Si(t+1) sea igual aSi(t)). Si(t+1)=f ( ? Wji Sj(t) - ?i ) 1 < i < nDonde f es la función de transferencia (activación) de las neuronas de la red. En el casodel modelo continuo existen dos funciones de activación de tipo sigmoidal. Si se trabajacon valores entre -1 y +1, la función que se utiliza es la tangente hiperbólica.

f (x-?i ) = tgh ( ? ( x-?i ) )

Si el rango es entre 0 y 1, se utiliza la misma función que para la red Backpropagation. f (x-?i ) = 1/(1+ e-?(x-?i))

En ambos casos, ?es un parámetro que determina la pendiente de la función sigmoidal.

El proceso se repite hasta que las salidas de las neuronas permanecen si cambios durantealgunas iteraciones. En ese instante, la salida representa la información almacenada porla red que mas se parece a la información presentada en la red.

La red Hopfield continua ofrece mas posibilidades que la discreta, ya que permitealmacenar patrones formados por valores reales (por ejemplo, imágenes en color o enblanco y negro con diferentes tonalidades de gris) y además facilita la resolución dedeterminados problemas generales de optimización.Por ejemplo, el problema del vendedor viajero, la bipartición de grafos, el problema delemparejamiento ponderado, en todos los casos se reduce el tiempo de resolución.

Page 30: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

30

En el caso de un reconocimiento de imágenes en una red Hopfield discreta seria masdifícil trabajar con imágenes con tonos de grises o a colores, siendo que para una redHopfield continua es mas sencillo.

2.7.2.2 Los mapas de Kohonen

Dentro de las RNA se pueden crear dos grandes grupos en función del tipo desupervisión de su aprendizaje. Si la red recibe información sobre si su funcionamientoes correcto o incorrecto, basándose en alguna medida de error entre la salida de la red yla salida deseada, entonces estamos hablando de sistemas supervisados. Si por elcontrario la red no recibe ningún tipo de información entonces hablamos de sistemas nosupervisados. En este último grupo los modelos buscan a partir de unos datos extraerpropiedades, características, relaciones, regularidades, correlaciones o categoríasexistentes en ellos. Los mapas de Kohonen que se utilizarán en este trabajo son un tipode red no supervisada. Una propiedad del cerebro es que las neuronas están ordenadassignificativamente. Esto implica que estructuras idénticas en el cerebro funcionan deforma diferente debido a su diferente topología cerebral.Otra propiedad básica es la inhibición lateral. Cuando una neurona se activa, éstaproduce un estado excitatorio en las células más cercanas y un efecto inhibitorio en lasmás lejanas. La función que recoge este proceso de excitación-inhibicion en las célulastiene la forma de un sombrero mexicano.

Imagen 5.5 Función de Excitación-Inhibición

En 1982 Kohonen (Kohonen 1982, 1995) propuso el "kohonen's Feature Map", modeloque pretendía integrar las características de los modelos biológicos. Este nuevo modeloconsiste en una Red Neuronal de dos capas, la primera de las cuales es una capa deentrada y la segunda es una "capa de competición". Las células de ambas capas estánconectadas entre sí, de tal forma que una célula de la capa de entrada conecta con las dela capa de competición. Estas conexiones son ponderadas, es decir, el estímulo excita lacapa de entrada, teniendo ambos la misma dimensión.

Page 31: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

31

Imagen 5.6 Mapa de Kohonen

Representaremos el estímulo mediante el vector e1, e2,..., en, siendo t1, t2,..., tn elvector que representa la salida de la capa de competición, representando igualmente lasconexiones entre la primera capa y la segunda mediante m1, m2,..., mn. De tal formapodríamos definir la salida mediante la siguiente ecuación:

De tal forma que cada conjunto ordenado m1, m2,..., mn sea una imagen quecomparamos con e1, e2,..., en. Por tanto, la Red deberá adaptar sus parámetros paraque cada unidad esté especialmente sensibilizada a un dominio de la señal de entrada enorden regular. Para hacer esta comparación podemos utilizar diversas medidas dedistancia, como por ejemplo la anteriormente utilizada en la que se utilizó el productoescalar de dos vectores, y también podríamos utilizar la distancia euclídea entrevectores, de tal forma si tenemos

entonces calcularemos

siendo la medida de distancia utilizada.Por tanto, se trata de presentar un estímulo, el cual se propaga por la Red dependiendode la función de distancia utilizada, y finalmente consideraremos como mejor célula(célula ganadora) a aquella que produzca menor señal en la capa de competición.Llegados a este punto es necesario generalizar este proceso a estímulos similares para locual empleamos una regla de aprendizaje tipo Hebb, reforzando más aquellas unidadesque hayan respondido en mayor grado al estímulo, proporcionalmente al valor delmismo. Todo lo cual puede expresarse mediante:

donde a(t) es una función de "olvido" que decrece con respecto al tiempo, y una funciónde umbral de salida G(x). Esta función es inversamente proporcional a la respuesta delas células, ya que ésta será máxima para células con una respuesta mínima y a lainversa, mínima para células con respuesta máxima. Por tanto, aplicamos la función G ala salida de las células de la capa de competición para así poder obtener una respuestamayor a estímulos que se aproximen más a los almacenados en las conexiones yviceversa.

Page 32: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

32

Podemos discretizar la ecuación anterior, para ello utilizaremos un "vecindario" Nc(Si)de la célula c, el cual se define como el conjunto de aquellas células que estén a menosde una distancia Si de c; dicha distancia es discreta, por lo que debemos definir paracada célula una serie de conjuntos Nc(S1), Nc(S2), Nc(S3) ....

Mediante este vecindario podemos definir la ordenación topológica de las células delsistema, lo cual equivaldría a las conexiones laterales del modelo de interacción lateral.Los vecindarios nos permiten definir las reglas de modificación sináptica, lo cualconfiere a este modelo cierta similitud con el córtex cerebral.

Del mismo modo el vecindario nos permitiría definir la función a de olvido, tanto deforma continua como discreta, cuyo valor disminuiría con la distancia a la célula i, parala que calcularemos los nuevos pesos.

Además la función G(ti) se puede hacer igual a ti cuando i pertenezca a Nc e igual a ceroen caso contrario, quedando la ecuación anterior

para i Î Nc

para i Ï Nc

Podremos, por tanto, definir un espacio alrededor de la célula ganadora, en el cual seincrementarán las eficacias sinápticas de las células. Dicho incremento sería igual paratodas las células del vecindario y no existirá dicho incremento en las células externas adicho vecindario.

Para evitar que los estímulos que se presenten en primer lugar tengan mayor relevanciaque los últimos presentados, el valor a irá disminuyendo a lo largo del tiempo, y debecumplir las siguientes inecuaciones:

Esto mismo se aplica al vecindario, es decir, en un principio elegimos un vecindariogrande y vamos decrementándolo hasta llegar a la unidad.

Si utilizamos la distancia euclídea como medida de similaridad entre vectores laecuación sería la siguiente:

Y la actualización de los pesos:

para i Î Ncsiendo en caso contrario

2.7.2.3 Redes basadas en la teoría de la resonancia adaptativa

Page 33: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

33

En los esquemas de aprendizaje competitivo no existe garantía explicita sobre laestabilidad de los grupos de patrones de entrada durante el proceso de decrecimiento delfactor de aprendizaje en las sucesivas iteraciones. Las redes basadas en la teoría de laresonancia adaptativa vienen a solucionar este problema.En este tipo de redes, los vectores de pesos del elemento de procesado seleccionadocomo ganador sólo se actualizan con los patrones de entrada se "resuenan" con estos, esdecir, si son "suficiente similares". Si no son "suficientemente similares" se genera unnuevo elemento de procesado cuyos pesos son precisanmente los del patrón de entradautilizado. Evidentemente se hace necesario definir el concepto de "suficientesimilaridad" que usualemente involucra un parametro de vigilancioa que lo controla.

2.7.2.4 Mapas autoorganizados de propiedades

Estos Mapas Autoorganizados son redes con entrenamiento no supervisado quetransforman patrones de entrada p-dimensionales a mapas discretos q-dimensionales(usualmente q=1 o 2) con topología ordenada, es decir, mapas en los cuales patrones deentrada próximos corresponden a puntos del mapa discreto próximos. Cada celda delmapa de salida está representado por un elemento de procesado que lleva asociado unvector de pesos p-dimensional que se modifica durante el proceso de entrenamiento.

En el proceso de entrenamiento se localiza el mejor vector de pesos (usualmente entérminos de distancia mínima) para cada una de las entradas y se modifica para ajustarloa dicha entrada (usualmente este ajuste se expande para incluir los vecinos topológicosdel mejor elemento de procesado en el mapa de salida). Cuando sólo se considera elajuste del mejor vector de pesos, sin incluir sus vecinos topológicos, se habla de redesde Cuantización del Vector de Aprendizaje, que constituyen un caso particular de losMapas Autoorganizados.

Los Mapas autoorganizados se han usado para generar mapas semánticos, realizarprocesos de "clustering", particionar grafos, etc. Las redes de Cuatización del Vector deAprendizaje se utilizan exclusivamente en procesos de "clustering" y compresión deimágenes,dado que no conservan la tipología de las entradas.

El tipo de esquema de aprendizaje utilizado en el cual los elementos de procesadocompiten entre ellos para ganarse la actualización se denomina aprendizaje competitivo.

2.7.3 No supervisados Competitivos

2.7.3.1 Redes basadas en la teoría de la resonancia adaptativa

En los esquemas de aprendizaje competitivo no existe garantía explicita sobre laestabilidad de los grupos de patrones de entrada durante el proceso de decrecimiento delfactor de aprendizaje en las sucesivas iteraciones. Las redes basadas en la teoría de laresonancia adaptativa vienen a solucionar este problema.En este tipo de redes, los vectores de pesos del elemento de procesado seleccionadocomo ganador sólo se actualizan con los patrones de entrada se "resuenan" con estos, esdecir, si son "suficiente similares". Si no son "suficientemente similares" se genera unnuevo elemento de procesado cuyos pesos son precisanmente los del patrón de entrada

Page 34: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

34

utilizado. Evidentemente se hace necesario definir el concepto de "suficientesimilaridad" que usualemente involucra un parametro de vigilancioa que lo controla.

2.8 Aplicaciones

2.8.1 Redes vs. Metodos clásicos

En muchas areas donde existen problemas de predicción, clasificación, etc, existensoluciones que no estan basadas en redes neuronales pero que dan buenos resultados, ocomo mínimo mejores que el no hacer nada.

Frente a este tipo de problemas, donde ya existe dicha solución “clásica”, las redespueden aportar su alta no linealidad y su gran facilidad en aportar datos adicionales,tanto numéricos, como borrosos y/o subjetivos, que en técnicas convencionales omedelos “clásicos” no son tenidos en consideración. Por lo tanto, se llega a laconclusión que la utilización de redes neuronales aporta soluciones más eficientes yseguras que las convencionales. El único dilema existente frente a este tipo deproblemas con una solución clásica, es la elección entre dos modos distintos de utilizarlas redes, es decir la utilización tipo a) o la tipo b).

Tipo a) Se basa en construir un red donde ya este incorporado el modelo“clásico”,añadir las nuevas variables que consideremos de interés y efectuar elaprendizaje de la red de tal modo que esta solo tenga que mejorar el resultado clásicocon respecto al resultado deseado. De este modo nos aseguramos que el resultado de lared siepre sea mejor que el resultado clásico. Solo será igual a la resultado clásico, en elcaso que las variables adicionales no aporten nada nuevo y no se necesario no utilizar lano linealidad de la red, dos condiciones que difícilmente se cumplen simultáneamente.

Tipo b) Se basa en construir una red sin incorporar el el modelo “clásico” peroañadiendo todas las variables adicionales que sean de interés. Esto no garantiza qu elresultado sea superior al “clásico” pero la experiencia acumulada hasta el momentodemuestra que siempre es superior debido a que se utiliza la no linealidad de la red y/olas nuevas variables. Si en algún problema esto no fuera cierto, siempre podemosrecurrir a la incorporación del modelo clásico en la red (tipo a).

2.8.2 Campos de aplicación

LLaass AANNNNss hhaann ssiiddoo aapplliiccaaddaass aa uunn ccrreecciieennttee nnuummeerroo ddee pprroobblleemmaass ccoonn uunnaa ccoommpplleejjiiddaaddccoonnssiiddeerraabbllee,, ccoommoo ppuueeddee sseerr eell rreeccoonnoocciimmiieennttoo ddee ppaattrroonneess,, ccllaassiiffiiccaacciióónn ddee ddaattooss,,pprreeddiicccciioonneess,, eettcc.... SSuu vveennttaajjaa mmááss iimmppoorrttaannttee eessttáá eenn ssoolluucciioonnaarr pprroobblleemmaass qquuee ssoonnddeemmaassiiaaddoo ccoommpplleejjooss ppaattaa llaass ttééccnniiccaass ccoonnvveenncciioonnaalleess,, ccoommoo ssee hhaa eexxpplliiccaaddoo eenn eellppuunnttoo 22..11..

LLaass aapplliiccaacciioonneess ddee llaass AANNNNss aabbaarrccaann ddiivveerrssaass aaccttiivviiddaaddeess ddee mmuuyy ddiiffeerreenntteess ccaammppooss..EEssttooss ssoonn::

··FFiinnaannzzaass

·· PPrreeddiicccciióónn ddee íínnddiicceess

Page 35: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

35

·· DDeetteecccciióónn ddee ffrraauuddeess·· RRiieessggoo ccrreeddiittiicciioo,, ccllaassiiffiiccaacciióónn·· PPrreeddiicccciióónn ddee llaa rreennttaabbiilliiddaadd ddee aacccciioonneess

NNeeggoocciiooss

·· MMaarrkkeettiinngg·· VVeennttaa ccrruuzzaaddaa·· CCaammppaannaass ddee vveennttaa

TTrraattaammiieennttooss ddee tteexxttoo yy pprroocceessoo ddee ffoorrmmaass

·· RReeccoonnoocciimmiieennttoo ddee ccaarraacctteerreess iimmpprreessooss mmeeccáánniiccaammeennttee..·· RReeccoonnoocciimmiieennttoo ddee ggrrááffiiccooss·· RReeccoonnoocciimmiieennttoo ddee ccaarraacctteerreess eessccrriittooss aa mmaannoo..·· RReeccoonnoocciimmiieennttoo ddee eessccrriittuurraa mmaannuuaall ccuurrssiivvaa..

AAlliimmeennttaacciióónn

·· AAnnáálliissiiss ddee oolloorr ii aarroommaa·· PPeerrffiillaammiieennttoo ddee cclliieenntteess eenn ffuunncciióónn ddee llaa ccoommpprraa·· DDeessaarrrroolllloo ddee pprroodduuccttooss·· CCoonnttrrooll ddee ccaalliiddaadd

EEnneerrggííaa

·· PPrreeddiicccciióónn ddeell ccoonnssuummoo eellééccttrriiccoo·· DDiissttrriibbuucciióónn rreeccuurrssooss hhiiddrrááuulliiccooss ppaarraa llaa pprroodduucccciióónn eellééccttrriiccaa·· PPrreeddiicccciióónn ccoonnssuummoo ddee ggaass cciiuuddaadd

IInndduussttrriiaa mmaannuuffaaccttuurreerraa

·· CCoonnttrrooll ddee pprroocceessooss·· CCoonnttrrooll ddee ccaalliiddaadd·· CCoonnttrrooll ddee rroobboottss

MMeeddiicciinnaa yy ssaalluudd

·· AAyyuuddaa aall ddiiaaggnnóóssttiiccoo·· AAnnáálliissiiss ddee iimmáággeenneess·· DDeessaarrrroolllloo ddee mmeeddiiccaammeennttooss·· DDiissttrriibbuucciióónn ddee rreeccuurrssooss

CCiieenncciiaa ee IInnggeenniieerrííaa

·· AAnnáálliissiiss ddee ddaattooss ii ccllaassiiffiiccaacciióónn·· IInnggeenniieerrííaa QQuuíímmiiccaa·· IInnggeenniieerrííaa EEllééccttrriiccaa·· CClliimmaattoollooggííaa

Page 36: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

36

TTrraannssppoorrtteess yy ccoommuunniiccaacciioonneess

·· OOppttiimmiizzaacciióónn ddee rruuttaass·· OOppttiimmiizzaacciióónn eenn llaa ddiissttrriibbuucciióónn ddee rreeccuurrssooss

CCAAPPIITTUULLOO 33

AALLGGOORRIITTMMOOSS GGEENNEETTIICCOOSS

3.1 INTRODUCCION

El diseño, programación y gestión de redes de transporte y distribución de pasajeros ymercancías requiere, en general, considerar simultáneamente un gran número derestricciones, condicionantes y factores que afectan a la eficiencia y calidad del servicioprestado. La gran variedad de objetivos, recursos y restricciones que suelen tener losproblemas reales de transporte y distribución hacen muy difícil su tratamiento conmétodos de optimización exactos. En general son problemas cuyo espacio de solucionescrece factorialmente con el número de puntos de destino haciendo inviable la búsquedadeterminista de solución con métodos exactos; por otro lado, existen una ampliavariedad de métodos heurísticos y probabilísticos que no garantizan encontrar lasolución óptima exacta pero que permiten rastrear razonablemente el espacio desoluciones aprovechando las particularidades de cada problema específico que sepretende resolver. En este contexto, los sistemas inteligentes son técnicas metaheurísticas (ver Díaz y otros, 1996) que pueden proporcionar herramientas robustas muyeficaces para el diseño y programación cuasi-óptimas de redes de transporte ydistribución.

Entre los problemas tipo asociados a las redes de transporte y distribución podemosdestacar: (1)TSP (clásico "Travelling Salesman Problem"), (2)VRP (clásico "VehicleRouting Problem"), (3)SVRP ("Stochastic Vehicle Routing Problem", ver Laporte et al.,1992), (4)CVRP ("Capacitance Vehicle Routing Problem", ver Campos y Mota, 1996) y(5)VRPTW ("Vehicle Routing Problem with Time Windows", ver Thangiah, 1995). Eneste artículo de describe una forma de utilizar un programa evolutivo general,originalmente preparado para resolver el TSP, en la resolución cómoda de problemasVRP, CVRP, SVRP y SCVRP. La facilidad con la que se adapta a los condicionantes dediferentes problemas sugiere la posibilidad de utilizarlo en la solución de tipos muyvariados de problemas de redes de distribución.

Entre los sistemas inteligentes que están siendo utilizados con éxito en la solución deproblemas de optimización no lineales complejos, los programas evolutivos en general,y los algoritmos genéticos (GA) en particular, presentan excelentes características deflexibilidad, robustez y adaptabilidad (ver Goonatilake & Treleaven, 1995) muyadecuados para atacar los complejos problemas combinatorios asociados a laoptimización de sistemas y redes de transporte reales.

Entre otros, Whitley et al.(1996) ha demostrado que su operador genético "Edge MapedRecombination Operator" (EMRO) puede resolver con gran fiabilidad el TSP hasta 130ciudades, mientras que Blanton & Wainwright(1993) han comparado diferentesalgoritmos genéticos en la solución de un problema real de distribución de mercancías

Page 37: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

37

del tipo VRPTW.

El método de solución de VRPs con algoritmos genéticos que se presenta en esteartículo está basado en dos operadores de cruzamiento y siete de mutación conasignación dinámica de probabilidades de operar dependiendo de las mejoras obtenidasen las últimas generaciones.

De los dos operadores de cruzamiento, uno está basado en la ordenación de ciudades yel otro en el de rutas (tipo EMRO) utilizando dos o más soluciones en el cruzamiento.El método se muestra eficiente y robusto en problemas generales no estructurados, si elnúmero de clientes o ciudades no supera el centenar. Sin embargo, la principal ventajadel método propuesto es la flexibilidad para imponer condiciones o restricciones nuevasa la solución deseada y adaptarse así a los requerimientos dinámicos que suelen plantearlos problemas de transporte reales.Para ilustrar el funcionamiento del método que se propone en la optimización de redesde distribución, se realiza una aplicación al supuesto de reparto de correo aéreo ypaquetería entre 37 aeropuertos españoles. TSP se corresponde con minimizar lalongitud de un único recorrido entre aeropuertos; VRP con minimizar la distancia totalrecorrida por las k (flota) aeronaves; CVRP con minimizar la distancia total de las kaeronaves sin que la carga máxima de ninguna sea excedida en ningún punto delrecorrido y siendo diferentes la descarga y carga a realizar en cada aeropuerto, ySCVRP resuelve el CVRP considerando que las cargas/descargas y los tiempos deescala y velocidad de crucero son variables aleatorias.

3.2 CONCEPTOS BASICOS

Los algoritmos genéticos se encuadran dentro de la clase de algoritmos que presentanciertas analogías con los procesos biológicos de la naturaleza. Están incluidos, por tanto,en el marco de la Bioinformática, área de especialización encargada de estudiar modelosy técnicas basándose en patrones biológicos y aprovechando las metodologías y técnicasinformáticas. La bioinformática, trata de dar solución a una gran variedad de problemasde un amplio domino científico.Dentro de este campo, nos encontramos con la Computación Evolutiva, que es unenfoque alternativo para abordar problemas complejos de búsqueda y aprendizaje através de modelos computacionales de procesos evolutivos. Las implementacionesconcretas de tales modelos se conocen como algoritmos evolutivos.

El propósito genérico de los algoritmos evolutivos consiste en guiar una búsquedaestocástica haciendo evolucionar a un conjunto de estructuras y seleccionando de modoiterativo las más adecuadas.

La computación evolutiva parte de un hecho observado en la naturaleza: los organismosvivos poseen una destreza consumada en la resolución de los problemas que se lespresentan, y obtienen sus habilidades, casi sin proponérselo, a través del mecanismo dela evolución natural. La evolución se produce, en casi todos los organismos, comoconsecuencia de dos procesos primarios: la selección natural y la reproducción sexual.La primera determina qué miembros de la población sobrevivirán hasta reproducirse (esun proceso sencillo: cuando un organismo falla una prueba de idoneidad, muere). La

Page 38: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

38

reproducción sexual garantiza la mezcla y recombinación de genes en la descendenciade un organismo.

Las condiciones que determinan un proceso evolutivo en la naturaleza son:• Existe una población de entidades o individuos con capacidad para reproducirse• Existe alguna diferencia o variedad entre estos individuos• Esta variedad está relacionada con algunas diferencias en la habilidad para sobrevivir

Después de enumerar estas características podríamos definir los algoritmos genéticos,de forma general, como "métodos estocásticos de búsqueda ciega de soluciones cuasi-óptimas. En ellos se mantiene una población que representa un conjunto de posiblessoluciones, la cual es sometida a ciertas transformaciones con las que se trata de obtenernuevos candidatos, y un proceso de selección sesgado en favor de los mejorescandidatos".

Decimos que la búsqueda es ciega porque no se dispone de ningún conocimientoespecífico del problema, de manera que la búsqueda se basa exclusivamente en losvalores de la función objetivo. Es también una búsqueda codificada, ya que no se trabajadirectamente sobre el dominio del problema, sino con representaciones de suselementos; múltiple, porque busca simultáneamente entre un conjunto de candidatos; yestocástica, referida tanto a las fases de selección como a las de transformación, con loque se obtiene control sobre el factor de penetración de la búsqueda.

Todo esto hace que los algoritmos genéticos proporcionen una mayor robustez a labúsqueda, esto es, más eficiencia sin perder generalidad.Goldberg justifica estaafirmación del siguiente modo:"Los algoritmos genéticos manejan variables de decisión o de control representadascomo cadenas con el fin de explotar similitudes entre cadenas de altas prestaciones.Otros métodos tratan habitualmente con las funciones y sus variables de controldirectamente. Dado que los algoritmos genéticos operan en el nivel de códigos, sondifíciles de engañar aun cuando la función sea difícil para los enfoques tradicionales.

Los algoritmos genéticos trabajan con una población; muchos otros métodos trabajancon un único punto. De este modo, los algoritmos genéticos encuentran seguridad en lacantidad. Al mantener una población de puntos bien adaptados se reduce la probabilidadde alcanzar un falso óptimo.

Los algoritmos genéticos consiguen gran parte de su amplitud ignorando la informaciónque sea la del objetivo. Otros métodos se basan fuertemente en tal información, y enproblemas donde la información no está disponible o es difícil de conseguir, estos otrosmétodos fallan. Los algoritmos genéticos son generales porque explotan la informacióndisponible en cualquier problema de búsqueda. Los algoritmos genéticos procesansimilitudes en el código subyacente junto con información proveniente de la ordenaciónde las estructuras de acuerdo con sus capacidades de supervivencia en el entorno actual.Al explotar una información tan fácilmente disponible, los algoritmos genéticos sepueden aplicar en prácticamente cualquier problema.

Las reglas de transición de los algoritmos genéticos son estocásticas; otros muchosmétodos tienen reglas de transición deterministas. Hay una diferencia, no obstante, entrelos operadores estocásticos de los algoritmos genéticos y otros métodos que no son más

Page 39: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

39

que paseos aleatorios. Los algoritmos genéticos usan el azar para guiar una búsquedafuertemente explotadora. Esto puede parecer inusual, usar el azar para conseguirresultados concretos (los mejores puntos), pero hay gran cantidad de precedentes en lanaturaleza."

3.3 ALGORITMOS GENETICO SIMPLE

Un algoritmo genético simple, se denomina canónico, para este algoritmo se necesitauna codificación o representación del problema, que resulte adecuado al mismo.Además se requiere una función de ajuste o de adaptación al problema, lo cual asigna unnumero real a cada posible solución codificada. Durante la ejecución del algoritmo lospadres deben ser seleccionados aleatoriamente para la reproducción, a continuacióndichos padres seleccionados se cruzan generando dos hijos, sobre cada uno de los cualesactuara un operador de mutación. El resultado de confinación de los anteriores será unconjunto de individuos (posibles soluciones al problema), los cuales en la evolución delalgoritmo genético formara parte de la siguiente población.

BEGIN /*Algoritmo Genético simple/Genera una población inicialComputar la función de evaluación de cada individuoWHILE NOT Terminando DOBEGIN /* Producir, nueva generaciones/FOR Tamaño poblacion/2 DOBEGIN /* Ciclo reproductorio*/Seleccionar dos individuos de la anterior generaciónPara el cruce(probabilidad de selección proporcionalA la función de evaluación del individuo).Cruzar con cierta probabilidad los dos individuos obteniendo dos descendientesMutar los dos dependientes con cierta probabilidadConmutar la función de evaluación de los dos descendientes mutadosInsertar los dos descendientes mutados en la nueva generaciónENDIF La probabilidad ha convergido THENTerminado TRUEENDEND

3.3.1 CODIFICACION.

Se supone que los individuos (posibles soluciones del problema), pueden representarsecomo un conjunto de parámetros (que denominaremos penes), los cuales agrupadosforman una ristra de valores (referida como cromosomas). En términos biológicos, elconjunto de parámetros representando a un cromosoma particular se denominagenotipo. El fenotipo contiene la información requerida para construir un organismo, elcual se refiere como genotipo. Los mismos términos se utilizan en el campo de losAlgoritmos Genéticos.

La adaptación al problema de un individuo depende de evaluado del genotipo. Estaultima puede inferirse a partir del fenotipo, es decir puede ser conmutada a partir del

Page 40: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

40

cromosoma, usando la función de evaluación. La función de adaptación debe serdiseñada para cada problema de manera especifica. Dado u cromosoma particular, lafunción de adaptación le asigna un numero real, que se supone refleja el nivel deadaptación al problema del individuo representando por el cromosoma.

Durante la fase reproductora se selecciona los individuos de la población para cruzarsey producir descendientes, que constituirán, una vez mutados, la siguiente generación deindividuos. La selección de los padres se lo hace al azar usando o un procedimiento quefavorezca a los individuos mejor adaptados, ya que cada individuo se le asigna unaprobabilidad de ser seleccionados que es proporcional a su función de adaptación.

Este procedimiento se dice que esta basado en la ruleta resgada. En donde losindividuos bien adaptados se escogerán probablemente varias veces por generación,mientras que los pobremente adaptados al problema, no se escogerán mas que debes encuando.

Una vez seleccionados dos padres, sus cromosomas se combinan, utilizandohabitualmente los operadores de cruce y mutacion. Las formas básicas de dichosoperadores se describen a continuación.

El operador de cruce, coge dos padres seleccionados y corta sus ristras de cromosomasen una posición escogida al azar, para producir dos subristas iniciales y dos subristasfinales, produciendo dos nuevos cromosomas completos Fig. 2. Ambos descendientesheredan genes de cada padre. Este operador se conoce como operador de cruce basadoen un punto.. Habitualmente el operador de cruce no se utiliza en todos los pares de individuos quehan sido seleccionados para emparejarse, sino que se aplica de mal manera aleatoria,normalmente con una probabilidad comprendida entre 0.5 y 1.0.

El operador de mutación se aplica a cada hijo de manera individual, y consiste en laalteración aleatoria (normalmente con probabilidad pequeña) de cada gen componentedel cromosoma Fig. 3 muestra la mutación del quinto gen del cromosoma. Si bien puedeen principio puede pensarse que el operador de cruce es más importante el operador demutacion, ya que proporciona una exploración rápida del espacio de búsqueda 0 de serexaminado, y es de capital importancia para asegurar la convergencia de los AlgoritmosGenéticos.

Gen mutado

Descendiente 1 0 10 0 1 0 0 1 0Descendiente mutado 1 0 1 0 1 1 0 0 1 0

Operación de mutado Fig. 3

3.3.2 EXTENCIONES Y MODIFICACIONES DEL ALGORITMO GENETICOSIMPLE

En este campo se comienza a dar pseudocodigo para un Algoritmo Genético Abstracto(AGA).

BEGIN AGA

Page 41: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

41

Obtener la población inicial a l azarWHILE NOT stop DOBEGINSeleccionar padres de la poblaciónProducir hijos a partir de los padres seleccionadosMutar los individuos hijosExtenser la población añadiendo los hilosReducir la población reducida.ENDEND AGA

Pseudocodigo de AGA Fig.4

3.3.3 POBLACIONTAMAÑO DE LA POBLACIONUna cuestión que no puede plantearse al relacionada con el tamaño idóneo de lapoblación parece intuitiva que las poblaciones pequeñas corren el riesgo de no cubriradecuadamente el espacio de búsqueda, mienta s que el trabajar con poblaciones de grantamaño puede acarrear problemas relacionados con el excesivo costo computacional.Este resultado traería como consecuencia que la aplicabilidad de los AlgoritmosGenéticos en problemas reales seria muy limitada, ya que resultan no competitivos conotros métodos de optimización combinatoria.

POBLACION INICIAL

Habitualmente la población inicial se escoge generando ristras al azar, pudiendocontener cada gen uno de los posibles baleros del alfabeto con probabilidad uniforme.No podríamos que es lo que sucedería si los individuos de la población inicial seestuviesen como resultado de alguna técnica heurística o de optimización local.

3.3.4 FUNCION OBJETIVO

Dos aspectos que parecen cruciales es el comportamiento de los Algoritmos Genéticosson la determinación de una adecuada función de adaptación o función objetivo, asícomo la codificación utilizada.

Al construir una función objetiva con ciertas regularidades, es decir funciones objetivasque verifiquen que para dos individuos que se encuentren cercanos en el espacio debúsqueda, sus respectivos valores en las funciones objetivas sean similares. Por otraparte una dificultad en el comportamiento del Algoritmo Genético puede ser laexistencia de gran cantidad de óptimos locales, así como el hecho de que él optimaglobal se encuentre muy aislado.

La regla para construir una buena función objetiva es que esta debe reflejar el valor delindividuo de una manera real pero en muchos problemas de optimización combinatoria,donde existen gran cantidad de restricciones, buena parte de los puntos del espacio debúsqueda representan individuos no validos.

Page 42: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

42

Para este planteamiento en el que los individuos están sometidos a restricciones, se hanplanteado varias soluciones. La primera se denominaría absoluta, en la que aquellosindividuos que no verifican las restricciones, no son considerados como tales y sesiguen efectuando cruces y n mutaciones hasta obtener individuos validos, o bien adichos individuos se les asigna una función objetiva igual a cero.

Otra posibilidad es de reconstruir a aquellos individuos que no verifican restriccionesdicha reconstrucción suele llevarse a cabo por medio de un nuevo operador que seacostumbra a denominar reparador.

3.3.5 SELECCIÓN

La función de selección de padres mas utilizada, es la denominada función de selecciónproporcional a la función objetivo, en la cual cada individuo tiene una, probabilidad deser seleccionado como padre que es proporcional al valor de su función objetivo.Denotando por (p super prop sub j,t) la probabilidad de que el individuo (I super j sub t)sé seleccionado como padre, se tiene que:

Esta función de selección es invariante ante un cambio de escala, pero no ante unatraslación una de las maneras de superar el problema realcionado con la rápidaconvergencia proveniente de lo super individuos, que surge al aplicar la anterior funciónde selección, es el de efectuar la selección proporcional al rango del individuo, con locual se produce una retracción más uniforme de la probabilidad de selección, tal y comose ilustra en la Fig. 5 si denotamos por rango (g(I super j sub t)) el rango de la funciónobjetivo del individuo (I super j sub t ) cuando los individuos de la población han sidoordenados de menor a mayor, y se (p super rango sub j,t) la probabilidad de que elindividuo (I super j sub t) sea seleccionado como padre cuando la selección se efectúaproporcionalmente al rango del individuo, se tiene que:

3.3.6 CRUCE

El Algoritmo Genético Canónico descrito anteriormente utiliza el cruce basado en unpunto, en el cual los individuos seleccionados para jugar el papel de padres, sonrecambiados por medio de la selección de un punto de corte, para posteriormenteintercambiar las secciones que se encuentran a la derecha de dicho punto.Se han inventado otros operadores de cruce. Habitualmente teniendo en cuenta mas deun punto de cruce. De Jong [13] investigo el comportamiento del operador de crucebasado en múltiples puntos, concluyendo que el cruce basado en dos puntos,representaba una mejora mientras que añadir mas puntos de cruce no beneficiaba elcomportamiento del algoritmo. La ventaja de tener un punto mas de cruce radica en queel espacio de búsqueda puede ser explorado mas fácilmente siendo la principaldesventaja el hecho de aumentar la probabilidad de ruptura de buenos esquemas.

El denominada operador de cruce uniforme cada gen, en la descendencia se creacopiando el correspondiente gen de uno de los padres, escogido de acuerdo a unamascar de cruce generada aleatoriamente. Cuando existe un 1 en la "mascara de cruce",el gen es copiado del primer padre, mientras que es cuando exista un 0 en la"mascara decruce", el gen se copia del segundo padre, tal y como en la Fig. 7.

Page 43: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

43

Mascara de cruce 1 0 0 1 0 0 1

Padre1 1 1 0 1 1 0 1Descendiente 1 0 0 1 1 1 1Padre2 0 0 0 1 1 1 0

Operador de cruce uniforme Fig7

3.3.7 MUTACION

La mutacion se considera un operador básico, que proporciona un pequeño elemto dealeatoriedad en la vecindad (entorno) de los individuos de la población. Si bien seadmite que el operador de cruce es el responsable de efectuar la búsqueda a lo largo delespacio de posibles soluciones, también parece desprenderse de los experimentosefectuados por varios investigadores que el operador de mutación va ganado enimportancia a medida que la población de individuos va convergiendo.

Si bien la mayoría de las implementaciones de Algoritmos Genéticos se asume quetanto la probabilidad de cruce como la mutación permanecen constantes, algunosautores han obtenido mejores resultados experimentales modificando la probabilidad demutación a medida que aumenta él numero de iteraciones.

3.3.8 REDUCCION

Obtenido los individuos descendientes de una determinada población en el tiempo t, elproceso de reducción al tamaño original, consiste en escoger lambda individuos de entrelos lambda individuos que forman parte de la población en el tiempo t, y los lambdaindividuos descendientes de los mismos. Dicho proceso se suele hacer fundamentos dedos formas distintas.

3.4 CARACTERISTICAS

Los elementos básicos en los que se puede descomponer la construcción de unalgoritmo genético para resolver un problema de optimización son:

A. Arquitectura genética.- Debe existir una relación explícita o implícita (que sepueda decodificar) entre una cadena de genes (individuo con un genotipo) y unasolución del problema. Una codificación debe tener una solución asociada, perouna solución puede corresponderse a varias codificaciones diferentes. Además,deben fijarse los alelos (rango de variación) posibles para cada gen quecondicionan el tamaño del espacio de soluciones.

• En este artículo, la codificación elegida es la cadena de números que secorresponden con las ciudades (aeropuertos) a visitar, existiendo tantas llegadasal depósito (aeropuerto hub) como vehículos (aeronaves) tiene la flota; laprimera ruta con salida y llegada al depósito (hub) corresponde al primervehículo, la segunda al segundo, etc. En el caso TSP, VRP y CVRP existe unmedio ambiente estable, genotipo y fenotipo coinciden y la evaluación de cadacodificación es fija; en el caso SVRP, el medio ambiente es variable, el fenotipo

Page 44: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

44

difiere del genotipo (los tiempos son variables aleatorias) y la evaluación no esdeterminista.

• B) Poblaciones y su tamaño.- Los algoritmos genéticos pueden trabajar con unapoblación única o varias poblaciones separadas (islas) y un sistema demigración, y pueden utilizar poblaciones de mayor o menor tamaño. En general,la diversidad aumenta con el número de islas y número total de individuos en lapoblación, mientras que el coste computacional aumenta también con esos dosfactores.

En este artículo que se aplica un programa preparado para ordenadores personales, no seobtiene ventaja alguna de utilizar varios procesadores en paralelo; por consiguiente, seha optado por una única población y se ha observado una buena eficienciacomputacional para un tamaño de población del orden de cinco a diez veces el númerode ciudades y vehículos utilizado (ejemplo: si tenemos 37 ciudades y 4 vehículos,tamaño de población de 200 a 400). El programa permite emular en parte la evoluciónen paralelo al ser posible realizar la optimización en dos fases, primero con variasevoluciones independientes y después formando una población inicial última compuestapor una muestra de cada una de las poblaciones finales de la primera fase.

C) Población inicial.- El resultado final del proceso de optimización con algoritmosgenéticos no es muy sensible a la calidad de las soluciones en la población inicial.Puede optarse por tomar soluciones aleatorias, aunque si se utiliza algún métodoheurístico para construir las soluciones iniciales se suele reducir el tiempo deconvergencia hacia la solución óptima. El este artículo se presenta un programadesarrollado en Visual BASIC, se pueden introducir manualmente solucionesespecíficas y el programa completa la población inicial con soluciones construidasutilizando ordenación radial desde el depósito (hub) y soluciones con el criterio demínima distancia a la siguiente ciudad dentro de cada ruta y sin repetir ciudades.

D) Evaluación.- La selección natural opera bajo el principio de eliminar determinísticao probabilísticamente a los individuos menos eficaces. Así pues, la evaluación es elelemento crítico de todo programa evolutivo que pretenda solucionar un problema deoptimización complejo; para cada solución se debe poder calcular un coste asociado lamisma. En el caso TSP basta con definir el coste como la distancia total recorridaasociada a cada gen (lista de ciudades = solución). En el caso del VRP se trata deminimizar la distancia total recorrida por todos los vehículos de la flota, normalmentelimitando el tiempo máximo empleado por cada vehículo en su recorrido. En el CVRPse le añade un sobrecoste considerable si en algún punto del recorrido la carga delvehículo sobrepasa la carga máxima permitida para emular la rotura del servicio.Finalmente, cabe señalar que en el SCVRP las distancias, tiempos de escala, velocidadde crucero y cargas y descargas son consideradas variables aleatorias y esto afecta alproceso de evaluación que resulta probabilistaE) Selección.- Emulando la selección natural, los mejores individuos en cada generación(soluciones con menor coste) deben tener más probabilidades de sobrevivir paraproducir la siguiente generación. Se pueden eliminar los peores, utilizar unaprobabilidad de supervivencia inversamente proporcional al coste, etc. El algoritmoutilizado en este trabajo considera una probabilidad de sobrevivir inversamenteproporcional al número de orden del individuo en la generación, siendo el 1º el demenor coste (el 2º tiene la mitad de probabilidad de sobrevivir que el 1º, el 3º la tercera

Page 45: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

45

parte, etc.). Con este criterio, los individuos supervivientes se eligen aleatoriamente deuna generación para producir la siguiente.

El algoritmo utilizado es en parte elitista, asignándose una pequeña probabilidad deseleccionar adicionalmente el campeón absoluto (la solución de menor coste encontradahasta el momento) aunque no pertenezca a la generación.

F) Cruzamiento.- Es el que transfiere las características deseables de las solucionesencontradas de una generación a la siguiente. Los operadores de cruzamiento sonaquellos que producen individuos viables de padres distintos viables; los hijos debenmantener alguna de las características de los padres y no degenerar en exceso en elproceso de cruzamiento. En el estudio que se presenta, se han utilizado dos operadoresde cruzamiento: (1)cruzamiento simple ("one point crossover") basado en tomar al azardos padres supervivientes, elegir al azar un punto de la cadena genética del primero ycrear el hijo tomando la primera parte de la cadena genética del primero y la segundadel segundo rellenando al azar las repeticiones con las ciudades restantes para garantizarla viabilidad del descendiente, y (2)cruzamiento de rutas generalizado basado ensuperponer las rutas de tres padres tomados al azar entre los supervivientes y formar elhijo con las rutas que coincidan en dos o tres de los tres padres, conectando las rutasrestantes con el criterio de mínima distancia. Este segundo operador de cruzamiento sebasa en el concepto general "edge maped recombination" de Whitley et al.(1996) conuna generalización a más de dos padres y la inclusión de distancias cortas para generarsoluciones hijo viables.

3.5 RESOLUCIÓN DEL TSP, VRP, CVRP Y SCVRP

Los problemas básicos de optimización de rutas tienen una gran diversidad y múltiplesaplicaciones a la solución de problemas reales de transporte y distribución (verDesrochers et al., 1990). Específicamente, el problema del viajero (TSP) es un clásicode los transportes y la optimización de problemas combinatorios especialmente difíciles;es un problema del tipo NP-completo, al que pertenecen la mayoría de problemas dedistribución reales. Dadas n ciudades por sus coordenadas en un espacio definido, sebusca encontrar la ruta más corta que incluya todas las ciudades; el número desoluciones posibles es (n-1)!/2. En el ejemplo de referencia de los 37 aeropuertosespañoles usados en este artículo, el problema de minimizar la distancia recorrida paraunir con un único avión correo todos los aeropuertos tiene 36!/2 = 1.86x1041; es másfácil encontrar una mota de polvo de una micra en la atmósfera de la Tierra (100 km. deespesor y 500 millones de km2) que la solución óptima al TSP de 37 ciudades. Con uncentenar de ciudades, existen más soluciones posibles al TSP que motas de polvo de unamicra caben en el Universo (esfera de 15.000 millones de años luz de radio).

El TSP es un caso particular del VRP. En el VRP clásico se trata de minimizar ladistancia total recorrida por los k vehículos de una flota que tienen su punto de partida yllegada en una ciudad concreta (depósito) y tienen que visitar el resto de las n-1ciudades objetivo. El número de soluciones posibles es superior al TSP de n ciudades.En el ejemplo de referencia, un VRP se correspondería con el problema del reparto decorreo internacional desde un aeropuerto hub hacia los restantes 36 aeropuertosespañoles; en este caso, una flota de vehículos realiza el reparto sin limitación de cargay lo que se pretende resolver es la ubicación óptima del aeropuerto hub (depósito), el

Page 46: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

46

tamaño de flota y su relación con los tiempos de trabajo y distancia recorrida por lasaeronaves.

El cuadrado rayado hace referencia a la selección, la cual se realiza en dos etapas con laidea de emular las dos vertientes del Principio de Selección Natural: selección decriadores o selección a secas, y selección de supervivientes para la próxima generacióno reemplazo. El proceso descrito, puede ser expresado de forma algorítmica delsiguiente modo:

t = 0Inicializar Población(t)Evaluar Población(t)Mientras (nos se verifique la condición de parada) hacert = t +1Seleccionar Población(t) a partir de Población(t-1)Recombinar Población(t)Evaluar Población(t)FinMientras

Terminología:

Generalmente cada individuo de la población se representa por medio de una cadenabinaria de longitud fija, que suele denominarse 'ejemplar', 'muestra', 'punto' o'cromosoma', la cual codifica los valores de las variables que intervienen en elproblema. Representaremos un individuo por medio de x.

El tamaño de la población permanece fijo entre generación y generación, siendo lapoblación inicial totalmente aleatoria.

Durante la iteración t, representamos por Población(t) el conjunto de posibles solucionesque mantiene el sistema. Cada solución será de la siguiente forma, xt

i. Así:Población (t) = xt

1, . . . , xtn

siendo n el tamaño de la población.

En el proceso de evaluación, lo que se hace es evaluar cada solución mediante unafunción f que nos da una medida de la adecuación o fitness de la misma. Así f(xti) esuna medida de la bondad de la solución xi en la iteración t.

Cada individuo contribuye al proceso de reproducción en proporción a sucorrespondiente fitness. De esta forma, individuos bien adaptados, contribuyen conmúltiples copias e individuos mal adaptados contribuyen con pocas o incluso ningunacopia.

Definimos como genotipo, a las estructuras que representan los individuos. Loscaracteres o rasgos por los que están formados los individuos, se les denomina genes.Cada una de las posiciones de la cadena, es lo que se llama loci. Cada carácter o genpuede manifestarse de forma diferente, es decir, puede tomar distintos valores que sondenominados alelos. Una estructura decodificada es un fenotipo.

Page 47: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

47

Mecanismos de muestreo de poblaciones

Un mecanismo auxiliar pero fundamental para los algoritmos genéticos es le muestreode poblaciones, esto es, la elección según unos criterios de un subconjunto de kindividuos de una población especificada. Los mecanismos de muestreo son muyvariados, distinguiéndose tres grupos fundamentales según el grado de intervención delazar en el proceso:1. Muestreo directo: se toma un subconjunto de individuos de las población siguiendoun criterio fijo, del estilo "los k mejores", "los k peores", "a dedo", etc...2. Muestreo aleatorio simple o equiprobable: se asignan a todos los elementos de lapoblación base las mismas probabilidades de formar parte de la muestra y se constituyeésta mediante ensayos de Bernoulli simples.3. Muestreos estocásticos: se asignan probabilidades de selección o puntuaciones a loselementos de la población base en función (directa o indirecta) de su aptitud. Pordefecto, la puntuación pi, asociada al individuo xi de la población P=x1,...,xn, secalcula como la aptitud relativa de dicho individuo: esto es, siendo u1, . . ., un lasrespectivas aptitudes se tiene queuiPi = -----------------u1+u2+...+unExisten muchos mecanismos de muestreo estocástico según para lo que se apliquen. Enconcreto, al implementar algoritmos genéticos se usan fundamentalmente cuatro tiposde muestreo estocástico:a. Por sorteo: se consideran las puntuaciones estrictamente como probabilidades deelección para formar la muestra, y se constituye ésta realizando k ensayos de unavariable aleatoria con dicha distribución de probabilidadesb. Por restos: A cada individuo xi, se le asignan directamente pi·k puestos en la muestra.Seguidamente los individuos se reparten los puestos vacantes en función de suspuntuaciones. El reparto suele ser por sorteo.c. Universal o por ruleta: es análogo al muestreo por sorteo sólo que ahora se genera unúnico número aleatorio simple r y con él se asignan todas las muestras de modoparecido a como se haría girar una ruleta.d. Por torneos: cada elemento de la muestra se toma eligiendo el mejor de los individuosde un conjunto de z elementos tomados al azar de la población base; esto se repite kveces hasta completar la muestra. El parámetro z suele ser un entero pequeñocomparado con el tamaño de la población base, normalmente 2 o 3. Nótese que en estecaso no es necesario hacer la asignación de puntuaciones.A su vez, todos estos mecanismos admiten algunas variantes no necesariamenteexcluyentes; las más empleadas al trabajar con algoritmos genéticos son estas tres:1. Muestreo diferenciado: cada elemento de la población base se puede tomar paraformar la muestra a lo sumo una sola vez2. Muestreo conservador: todos los elementos de la población base tienen algunaoportunidad (probabilidad no nula) de ser elegidos. También se conoce como "muestreoduro".3. Muestreo excluyente: se excluyen a priori algunos individuos del proceso demuestreo. También se llama "muestreo extintivo"

Page 48: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

48

De esta manera se habla, por ejemplo, de que el proceso de selección de criadores decierto algoritmo genético se ha implementado a través de un "muestreo estocástico portorneos de tamaño 2 en la variedad conservadora".

3.6 EJEMPLO DE APLICACIÓN

Para ilustrar las aplicaciones de los algoritmos genéticos a la resolución de problemasde transporte y distribución, se describe en este apartado el problema de referenciaempleado en este artículo que tiene como objetivo la distribución de correo aéreo ypaquetería entre 37 aeropuertos españoles. Este programa permite analizar la eficienciadel algoritmo genético en la solución de problemas como la selección del aeropuerto oaeropuertos hub en la red de distribución, del tamaño de flota y de las rutas adecuadas acada nivel de demanda. Un problema real de esta índole incluiría optimizarsimultáneamente el transporte aéreo y por carretera hasta puntos de destino de unterritorio, que no tienen porqué coincidir con los aeropuertos; sin embargo, en esteartículo vamos a suponer que sólo interviene en la distribución el modo aéreo y sólo sonpuntos de origen y destino de paquetes y correo los 37 aeropuertos españoles. Seplantearán una serie de problemas de transporte de dificultad creciente para señalarcómo el método con algoritmos genéticos puede adaptarse a un problema práctico decomplejidad creciente; en cada problema se describe las características del mismo y lamodificación que se introduce en el programa genético para poderlo resolversatisfactoriamente.

TSP: El TSP es el problema fundamental que se puede resolver con el algoritmogenético Dada la dificultad de conocer la solución óptima general de este tipo deproblemas, resulta conveniente contrastar el método propio con los de la máximacalidad posible para estimar la fiabilidad y robustez del método propuesto.

CCAAPPIITTUULLOO 44

LLOOGGIICCAA DDIIFFUUSSAA

4.1 INTRODUCCION

La lógica difusa se ha convertido en una de las tecnologías más exitosas para eldesarrollo de Sistemas de Control sofisticados. La lógica difusa es muy "humana" coninfinitos matices entre lo verdadero y lo falso entre un SI y un NO pues nuestro lenguajees justamente vago, difuso y eminentemente subjetivo.La lógica borrosa es una rama de la inteligencia artificial que se funda en el concepto"Todo es cuestión de grado", lo cual permite manejar información vaga o de difícilespecificación si quisiéramos hacer cambiar con esta información el funcionamiento oel estado de un sistema especifico. Es entonces posible con la lógica borrosa gobernarun sistema por medio de reglas de 'sentido común' las cuales se refieren a cantidadesindefinidas.Las reglas involucradas en un sistema borroso, pueden ser aprendidas con un sistemaadaptativo que aprenden al ' observar ' como operan las personas los dispositivos reales,o estas reglas pueden también ser formuladas por un experto humano. En general lalógica borrosa se aplica tanto a sistemas de control como para modelar cualquiersistema continuo de ingeniería, física, biología o economía.

Page 49: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

49

La lógica borrosa es entonces definida como un sistema matemático que modelafunciones no lineales, que convierte unas entradas en salidas acordes con losplanteamientos lógicos que usan el razonamiento aproximado.

Se fundamenta en los denominados conjuntos borrosos y un sistema de inferenciaborroso basado en reglas de la forma " SI....... ENTONCES...... ", donde los valoreslingüísticos de la premisa y el consecuente están definidos por conjuntos borrosos, es asícomo las reglas siempre convierten un conjunto borroso en otro.

4.2 QUE ES LA LOGICA DIFUSA

Un tipo de lógica que reconoce más que simples valores verdaderos y falsos. Con lógicadifusa, las proposiciones pueden ser representadas con grados de veracidad o falsedad.Por ejemplo, la sentencia "hoy es un día soleado", puede ser 100% verdad si no haynubes, 80% verdad si hay pocas nubes, 50% verdad si existe neblina y 0% si llueve todoel día.La Lógica Difusa ha sido probada para ser particularmente útil en sistemas expertos yotras aplicaciones de inteligencia artificial. Es también utilizada en algunos correctoresde voz para sugerir una lista de probables palabras a reemplazar en una mal dicha. LaLógica Difusa, que hoy en día se encuentra en constante evolución, nació en los años 60como la lógica del razonamiento aproximado, y en ese sentido podía considerarse unaextensión de la Lógica Multivaluada. La Lógica Difusa actualmente está relacionada yfundamentada en la teoría de los Conjuntos Difusos.Según esta teoría, el grado depertenencia de un elemento a un conjunto va a venir determinado por una función depertenencia, que puede tomar todos los valores reales comprendidos en el intervalo[0,1]. La representación de la función de pertenencia de un elemento a un ConjuntoDifuso se representa según la figura 1.Ejemplo de una función de pertenencia a un Conjunto Difuso.La Lógica Difusa (llamada también Lógica Borrosa por otros autores) o Fuzzy Logic esbásicamente una lógica con múltiples valores, que permite definir valores en las áreasoscuras entre las evaluaciones convencionales de la lógica precisa: Si / No, Cierto /Falso, Blanco / Negro, etc. Se considera un súper conjunto de la Lógica Booleana. Conla Lógica Difusa, las proposiciones pueden ser representadas con grados de certeza ofalsedad. La lógica tradicional de las computadoras opera con ecuaciones muy precisasy dos respuestas: Si o no, uno o cero. Ahora, para aplicaciones de computadores muymal definidas o sistemas vagos se emplea la Lógica Difusa.Por medio de la Lógica Difusa pueden formularse matemáticamente nociones como unpoco caliente o muy frío, para que sean procesadas por computadoras y cuantificarexpresiones humanas vagas, tales como "Muy alto" o "luz brillante". De esa forma, esun intento de aplicar la forma de pensar humana a la programación de loscomputadores. Permite también cuantificar aquellas descripciones imprecisas que seusan en el lenguaje y las transiciones graduales en electrodomésticos como ir de aguasucia a agua limpia en una lavadora, lo que permite ajustar los ciclos de lavado a travésde sensores. La habilidad de la Lógica Difusa para procesar valores parciales de verdadha sido de gran ayuda para la ingeniería. En general, se ha aplicado a:Sistemas expertos.Verificadores de ortografía, los cuales sugieren una lista de Palabras probables parareemplazar una palabra mal escrita.

Page 50: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

50

Control de sistemas de trenes subterráneos.Los operadores lógicos que se utilizarán en Lógica Difusa (AND, OR, etc.) se definentambién usando tablas de verdad, pero mediante un "principio de extensión" por el cualgran parte del aparato matemático clásico existente puede ser adaptado a lamanipulación de los Conjuntos Difusos y, por tanto, a la de las variables lingüísticasLa operación más importante para el desarrollo y creación de Reglas Lógicas es laimplicación, simbolizada por " ® " que representa el "Entonces" de las reglasheurísticas: Si (...) Entonces ( ® ) (...).Así, en la Lógica Difusa hay muchas maneras de definir la implicación. Se puede elegiruna "función (matemática) de implicación" distinta en cada caso para representar a laimplicación.La última característica de los sistemas lógicos es el procedimiento de razonamiento,que permite inferir resultados lógicos a partir de una serie de antecedentes.Generalmente, el razonamiento lógico se basa en silogismos, en los que los antecedentesson por un lado las proposiciones condicionales (nuestras reglas), y las observacionespresentes por otro (serán las premisas de cada regla).Los esquemas de razonamiento utilizados son "esquemas de razonamiento aproximado",que intentan reproducir los esquemas mentales del cerebro humano en el proceso derazonamiento. Estos esquemas consistirán en una generalización de los esquemasbásicos de inferencia en Lógica Binaria (silogismo clásico).Tan importante será la selección de un esquema de razonamiento como surepresentación material, ya que el objetivo final es poder desarrollar un procedimientoanalítico concreto para el diseño de controladores difusos y la toma de decisiones engeneral. Una vez que dispongamos de representaciones analíticas de cada uno de loselementos lógicos que acabamos de enumerar, estaremos en disposición de desarrollarformalmente un controlador "heurístico" que nos permita inferir el control adecuado deun determinado proceso en función de un conjunto de reglas "lingüísticas", definidas deantemano tras la observación de la salida y normas de funcionamiento de éste.

4.3 CONCEPTOS BASICOS DE LOGICA DIFUSA

Conjuntos difusos.

La mayoría de los fenómenos que encontramos cada día son imprecisos, es decir, tienenimplícito un cierto grado de difusidad en la descripción de su naturaleza. Estaimprecisión puede estar asociada con su forma, posición, momento, color, textura, oincluso en la semántica que describe lo que son. En muchos casos el mismo conceptopuede tener diferentes grados de imprecisión en diferentes contextos o tiempo. Un díacálido en invierno no es exactamente lo mismo que un día cálido en primavera. Ladefinición exacta de cuando la temperatura va de templada a caliente es imprecisa -nopodemos identificar un punto simple de templado, así que emigramos a un simplegrado, la temperatura es ahora considerada caliente. Este tipo de imprecisión o difusidadasociado continuamente a los fenómenos es común en todos los campos de estudio:sociología, física, biología, finanzas, ingeniería, oceanografía, psicología, etc.

Conceptos imprecisos.

Aceptamos la imprecisión como una consecuencia natural de ''la forma de las cosas enel mundo''. La dicotomía entre el rigor y la precisión del modelado matemático en todo

Page 51: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

51

los campos y la intrínseca incertidumbre de ''el mundo real'' no es generalmenteaceptada por los científicos, filósofos y analistas de negocios. Nosotros simplementeaproximamos estos eventos a funciones numéricas y escogemos un resultado en lugar dehacer un análisis del conocimiento empírico. Sin embargo procesamos y entendemos demanera implícita la imprecisión de la información fácilmente. Estamos capacitados paraformular planes, tomar decisiones y reconocer conceptos compatibles con altos nivelesde vaguedad y ambigüedad. considere las siguientes sentencias:

. La temperatura está caliente

. La inflación actual aumenta rápidamente

. Los grandes proyectos generalmente tardan mucho

. Nuestros precios están por abajo de los precios de la competencia

. IBM es una compañía grande y agresiva

. Alejandro es alto pero Ana no es bajita

Estas proposiciones forman el núcleo de nuestras relaciones con ''la forma de las cosasen el mundo''. Sin embargo, son incompatibles con el modelado tradicional y el diseñode sistemas de información. Si podemos incorporar estos conceptos logramos que lossistemas sean potentes y se aproximen más a la realidad.Pero, es la imprecisión un concepto artificial utilizado para aumentar o disminuir en unoo más las propiedades de los fenómenos? o es una parte intrínseca del fenómeno en símismo?.

Esta es una pregunta importante ya que es la parte fundamental de las medidas de lateoría difusa. Como veremos la fusificación es independiente de cualquier capacidadpara medir, ya que un conjunto difuso es un conjunto que no tiene límites biendefinidos. Un conjunto difuso tiene muchas propiedades intrínsecas que afectan laforma del conjunto, su uso y como participa en un modelo. Las propiedades másimportantes de un conjunto difuso son las concernientes a las dimensiones verticales delconjunto difuso (altura y normalización) y las dimensiones horizontales (conjuntosoporte y cortes "alpha").La altura de un conjunto difuso es como máximo un grado de pertenencia y es una cotacercana al concepto de normalización. La superficie de la región de un conjunto difusoes el universo de valores. Todos estos conceptos se tratarán más adelante. Es decir unconjunto difuso A se considera como un conjunto de pares ordenados, en los que elprimer componente es un número en el rango [0,1] que denota el grado de pertenenciade un elemento u de U en A, y el segundo componente especifica precisamente quién esése elemento de u. En general los grados de pertenencia son subjetivos en el sentido deque su especificación es una cuestión objetiva. Se debe aclarar que aunque puedeinterpretarse como el grado de verdad de que la expresión ''u A'' sea cierta, es másnatural considerarlo simplemente como un grado de pertenencia.Puede notarse además que:a) Mientras más próximo está (u) a el valor 1, se dice que u pertenece más a A (de modoque 0 y 1 denotan la no pertenencia y la pertenencia completa, respectivamente).b) Un conjunto en el sentido usual es también difuso pues su función característica u estambién una función u [0,1]; o sea que los conjuntos difusos son una generalización delos conjuntos usuales.Ejemplo: Sea U =11, 2, 3, 4, 5, 6, 7, 8, 9, entonces los conjuntos definidos acontinuación son difusos:POCOS = (.4/1, .8/2, 1/3, .4/4)

Page 52: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

52

VARIOS = (.5/3, .8/4, 1/5, 1/6, .8/7, .5,8)MUCHOS =(.4/6, .6/7, .8/8, .9/9,1/10)Note que el elemento 4 pertenece en grado .4 al conjunto POCOS, en grado .8 alconjunto VARIOS y en grado .0 a MUCHOS. Zadeh ha hecho algunas extensiones a losconceptos de conjuntos difusos ordinarios que se han explicado; por ejemplo losconjuntos difusos de nivel-m y los conjuntos difusos tipo-n. Para un conjunto difuso denivel-m se considera como su universo de discusión al conjunto de conjuntos difusos denivel-(m-1), sobreentendiendo que los conjuntos difusos de nivel-1 son conjuntosdifusos ordinarios. Para los conjuntos difusos tipo-n, los valores de las funciones depertenencia son conjuntos difusos de tipo-(n-1) del intervalo [0,1] (en lugar de serpuntos de [0,1]). También los conjuntos difusos tipo-1 son equivalentes a los conjuntosdifusos ordinarios.Operaciones.En la lógica Booleana tradicional, los conjuntos son considerados como sistemasbivalentes con sus estados alternando entre inclusión y exclusión. La característica de lafunción discriminante refleja este espacio bivaluado.Esto indica que la función de pertenencia para el conjunto A es cero si x no es unelemento en A y la función de pertenencia es si x es un elemento en A. Dado queexisten solamente dos estados, la transición entre estos dos estados es siempreinmediata. La pertenencia de estos conjuntos está siempre totalmente categorizada y noexiste ambigüedad o dicotomía acerca de la pertenencia. Existen 4 operaciones básicasde conjuntos en esta lógica: unión, intersección, complemento y unión exclusiva. Aligual que en los conjuntos convencionales, existen definiciones específicas paracombinar y especificar nuevos conjuntos difusos. Este conjunto de funciones teóricasprovee las herramientas fundamentales de la lógica. En el caso usual, con lasoperaciones comunes de intersección, unión y complemento, el conjunto de conjuntosde U forman un álgebra booleana, es decir se cumplen las condiciones de asociatividad,conmutatividad, elementos neutros, ídem potencia, absorción, distributividad,complemento y las leyes de Morgan.

Las tres operaciones mencionadas se pueden extender de varias formas a conjuntosdifusos, de modo que al restringirlas a los conjuntos usuales, coincidan con lascomunes. Estas extensiones resultantes satisfacen en forma general sólo a algunas de lascondiciones listadas anteriormente, y para mantener la vigencia de alguna, seráobligatorio sacrificar a otras. En el sistema se optó por extender las operaciones en elsentido clásico, es decir, dados dos conjuntos difusos A y B, se definen las operacionesextendidas de la siguiente formaDado que los conjuntos difusos no se particionan en el mismo sentido que los conjuntosBooleanos, estas operaciones son aplicadas al nivel de pertenencia, como unaconsecuencia de los conjuntos difusos. Decidir si un valor es o no es miembro decualquier conjunto difuso en particular, requiere algunas nociones de cómo estaconstruido el conjunto, del universo y de los límites de éste.Las etiquetas lingüísticas y operadores.El centro de las técnicas de modelado difuso es la idea de variable lingüística. Desde suraíz, una variable lingüística es el nombre de un conjunto difuso. Si tenemos unconjunto difuso llamado ''largo'' éste es una simple variable lingüística y puede serempleada como una regla-base en un sistema basado en la longitud de un proyecto enparticular Si duración-proyecto es largo entonces la-terminación-de-tareas esDECRECIENTE; Una variable lingüística encapsula las propiedades de aproximación oconceptos de imprecisión en un sistema y da una forma de computar adecuada. Esto

Page 53: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

53

reduce la aparente complejidad de describir un sistema que debe concordar con susemántica. Una variable lingüística siempre representa un espacio difuso.

Lo importante del concepto de variable lingüística es su estimación de variable de altoorden más que una variable difusa. En el sentido de que una variable lingüística tomavariables difusas como sus valores. En el campo de la semántica difusa cuantitativa alsignificado de un término "x" se le representa como un conjunto difuso M(x) deluniverso de discusión. Desde este punto de vista, uno de los problemas básicos ensemántica es que se desea calcular el significado de un término compuesto.La idea básica sugerida por Zadeh es que una etiqueta lingüística tal como ''muy'', ''máso menos'', ''ligeramente'', etc... puede considerarse como un operador que actúa sobre unconjunto difuso asociado al significado de su operando. Por ejemplo en el caso de untérmino compuesto ''muy alto'', el operador ''muy'' actúa en el conjunto difuso asociadoal significado del operando ''alto''. Una representación aproximada para una etiquetalingüística se puede lograr en términos de combinaciones o composiciones de lasoperaciones básicas explicadas en la sección anterior. Es importante aclarar que se harámayor énfasis en que estas representaciones se proponen principalmente para ilustrar elenfoque, más que para proporcionar una definición exacta de las etiquetas lingüísticas.Zadeh también considera que las etiquetas lingüísticas pueden clasificarse en doscategorías que informalmente se definen como sigue:Tipo I: las que pueden representarse como operadores que actúan en un conjunto difuso:''muy'', ''más o menos'', ''mucho'', ''ligeramente'', ''altamente'', ''bastante'', etc. y,Tipo II: las que requieren una descripción de cómo actúan en los componentes delconjunto difuso (operando): ''esencialmente'', ''técnicamente'', ''estrictamente'',''prácticamente'', ''virtualmente'', etc...En otras palabras, las etiquetas lingüísticas pueden ser caracterizadas cómo operadoresmás que construcciones complicadas sobre las operaciones primitivas de conjuntosdifusos.Ejemplos de etiquetas tipo I.De acuerdo a éste punto de vista y sabiendo que el lenguaje natural es muy rico ycomplejo, tomamos el operador ''muy'' que podemos caracterizar con un significado deque aún cuando no tenga validez universal sea sólo una aproximación. Asumimos que siel significado de un término x es un conjunto difuso A, entonces el significado de muyX.Más y menosSe pueden definir etiquetas lingüísticas artificiales, por ejemplo: más, menos, que soninstancias de lo que puede llamarse acentuador y desacentuador respectivamente, cuyafunción es proporcionar ligeras variantes de la concentración y la dilatación.Los exponentes se eligen de modo que se de la igualdad aproximada: mas mas x =menos muy x, y que, además, se pueden utilizar para definir etiquetas lingüísticas cuyosignificado difiere ligeramente de otras, ejemplo:Mas o menosOtra etiqueta lingüística interesante es ''más o menos'' que en sus usos más comunescomo ''más o menos inteligente'', ''más o menos rectangular'' etc, juega el papel dedifusificador.LigeramenteSu efecto es dependiente de la definición de proximidad u ordenamientos en el dominiodel operando. Existen casos, sin embargo, en los que su significado puede definirse entérminos de etiquetas lingüísticas tipo I, bajo la suposición de que el dominio deloperando es un conjunto ordenado linealmente.

Page 54: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

54

Clase deEs una etiqueta lingüística que tiene el efecto de reducir el grado de pertenencia de loselementos que están en el ''centro'' (grados de pertenencia grandes) de una clase x eincrementa el de aquellos que están en su periferia (grados de pertenencia pequeños).RegularEs una etiqueta que tiene el efecto de reducir el grado de pertenencia de aquelloselementos que tienen tanto un alto grado de pertenencia al conjunto como de aquellosque lo tienen pequeño, y sólo aumenta el grado de pertenencia de aquellos elementosque tienen un grado de pertenencia cercano.Etiquetas tipo II.Su caracterización envuelve una descripción de forma que afectan a los componentesdel operando, y por lo tanto es más compleja que las del tipo I. En general, la definiciónde una etiqueta de este tipo debe formularse como un algoritmo difuso que envuelveetiquetas tipo I. Su efecto puede describirse aproximadamente como una modificaciónde los coeficientes de ponderación de una combinación convexa. Como la magnitud delas ponderaciones es una medida del atributo asociado, intuitivamente una etiqueta deeste tipo tiene el efecto de aumentar las ponderaciones de los atributos importantes ydisminuir los que relativamente no lo son.

4.4 CONJUNTOS DIFUSOS

Predicados Vagos y Conjuntos Difusos.

Los conjuntos clásicos se definen mediante un predicado que da lugar a una claradivisión del Universo de Discurso X en los valores "Verdadero" y "Falso". Sin embargo,el razonamiento humano utiliza frecuentemente predicados que no se pueden reducir aeste tipo de división: son los denominados predicados vagos.Por ejemplo, tomando el Universo de Discurso formado por todas las posiblestemperaturas ambientales en la ciudad de Huelva, se puede definir en dicho universo elconjunto A como aquél formado por las temperaturas "cálidas". Por supuesto, esimposible dar a A una definición clásica, ya que su correspondiente predicado no divideel universo X en dos partes claramente diferenciadas. No podemos afirmar conrotundidad que una temperatura es "cálida" o no lo es. El problema podría resolverse enparte considerando que una temperatura es "cálida" cuando su valor supera ciertoumbral fijado de antemano. Se dice que el problema tan sólo se resuelve en parte, y demanera no muy convincente, por dos motivos: de una parte el umbral mencionado seestablece de una manera arbitraria, y por otro lado podría darse el caso de que dostemperaturas con valores muy diferentes fuesen consideradas ambas como "cálidas".Evidentemente, el concepto "calor" así definido nos daría una información muy pobresobre la temperatura ambiental.La manera más apropiada de dar solución a este problema es considerar que lapertenencia o no pertenencia de un elemento x al conjunto A no es absoluta sinogradual. En definitiva, definiremos A como un Conjunto Difuso. Su función depertenencia ya no adoptará valores en el conjunto discreto 0,1 (lógica booleana), sinoen el intervalo cerrado [0,1]. En conclusión podemos observar que los ConjuntosDifusos son una generalización de los conjuntos clásicos.Mediante notación matemática se define un Conjunto Difuso B como:B = ( x , mB( x ) ) / x å X mB: X® [0,1]

Page 55: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

55

La función de pertenencia se establece de una manera arbitraria, lo cual es uno de losaspectos más flexibles de los Conjuntos Difusos. Por ejemplo, se puede convenir que elgrado de pertenencia de una temperatura de "45ºC" al conjunto A es 1, el de "25ºC" es0.4 , el de "6ºC" es 0, etc.: cuanto mayor es el valor de una temperatura, mayor es sugrado de pertenencia al conjunto B. Para operar en la práctica con los ConjuntosDifusos se suelen emplear funciones de pertenencia del tipo representado en la figura 2:Tipos de funciones de pertenencia.En la figura se pueden observar dos tipos de funciones de pertenencia de todos losposibles: el tipo triangular, que puede ser un caso concreto del trapezoidal en el que losdos valores centrales son iguales, y el de forma de campana gaussiana. Tómese ahora elUniverso de Discurso de la edad. El Conjunto Difuso "Joven" representa el grado depertenencia respecto al parámetro juventud que tendrían los individuos de cada edad. Esdecir, el conjunto expresa la posibilidad de que un individuo sea considerado joven. UnConjunto Difuso podría ser considerado como una distribución de posibilidad, que esdiferente a una distribución de probabilidad.Se puede observar que los Conjuntos Difusos de la figura 3 se superponen, por lo queun individuo xl podría tener distintos grados de pertenencia en dos conjuntos al mismotiempo: "Joven" y "Maduro". Esto indica que posee cualidades asociadas con ambosconjuntos. El grado de pertenencia de x en A, como ya se ha señalado anteriormente, serepresenta por m A(x). El Conjunto Difuso A es la unión de los grados de pertenenciapara todos los puntos en el Universo de Discurso X, que también puede expresarsecomo:Bajo la notación de los Conjuntos Difusos, µA(x)/x es un elemento del conjunto A. Laoperación òx representa la unión de los elementos difusos µA(x)/x. Los Universos deDiscurso con elementos discretos utilizan los símbolos "+" y "S " para representar laoperación unión.Veamos un ejemplo:Ejemplo de Conjuntos Difusos en el universo de la edad.Tómese un individuo x cuya edad sea de 20 años. Como se puede observar en la figura,pertenece al Conjunto Difuso "Joven" y al Conjunto Difuso "Maduro". Se puedeobservar que posee un grado de pertenencia µA(x) de 0.6 para el Conjunto Difuso"Joven" y un grado de 0.4 para el Conjunto Difuso "Maduro"; también posee un gradode 0 para "Viejo". De este ejemplo se puede deducir que un elemento puede pertenecera varios Conjuntos Difusos a la vez aunque con distinto grado. Así, nuestro individuo xtiene un grado de pertenencia mayor al conjunto "Joven " que al conjunto "Maduro"(0.6> 0.4), pero no se puede decir, tratándose de Conjuntos Difusos, que x es joven o que xes maduro de manera rotunda.

4.5 OPERACIONES ENTRE CONJUNTOS DIFUSOS

Los Conjuntos Difusos se pueden operar entre sí del mismo modo que los conjuntosclásicos. Puesto que los primeros son una generalización de los segundos, es posibledefinir las operaciones de intersección, unión y complemento haciendo uso de lasmismas funciones de pertenencia:

µAÇ B (x) = minµA(x), µB(x) )µAÈ B (x) = max ( µA(x), µB(x) )µØ A (x) = 1 - µA(x)

Page 56: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

56

En realidad, estas expresiones son bastante arbitrarias y podrían haberse definido demuchas otras maneras. Esto obliga a considerar otras definiciones más generales paralas operaciones entre los Conjuntos Difusos. En la actualidad se considera correctodefinir el operador intersección mediante cualquier aplicación t-norma y el operadorunión mediante cualquier aplicación s-norma.

Variables LingüísticasLa Teoría de Conjuntos Difusos puede utilizarse para representar expresioneslingüísticas que se utilizan para describir conjuntos o algoritmos. Los ConjuntosDifusos son capaces de captar por sí mismos la vaguedad lingüística de palabras y frasescomúnmente aceptadas, como "gato pardo" o "ligero cambio". La habilidad humana decomunicarse mediante definiciones vagas o inciertas es un atributo importante de lainteligencia.Una Variable Lingüística es aquella variable cuyos valores son palabras o sentenciasque van a enmarcarse en un lenguaje predeterminado. Para estas variables lingüísticasse utilizará un nombre y un valor lingüístico sobre un Universo de Discurso. Además,podrán dar lugar a sentencias generadas por reglas sintácticas, a las que se les podrá darun significado mediante distintas reglas semánticas.Los Conjuntos Difusos pueden utilizarse para representar expresiones talescomo:<O:P</O:PX es PEQUEÑO.La velocidad es RÁPIDA.El ganso es CLARO.Las expresiones anteriores pueden dar lugar a expresiones lingüísticas más complejascomo:X no es PEQUEÑO.La velocidad es RÁPIDA pero no muy RÁPIDA.El ganso es CLARO y muy ALEGRE.Así, se pueden ir complicando las expresiones. Por ejemplo, la expresión "x no esPEQUEÑO" puede calcularse a partir de la original calculando el complemento de lasiguiente forma:µ_no_PEQUEÑA (x) = 1- µ_PEQUEÑO (x)Tratando de esta forma los distintos modificadores lingüísticos (muy, poco, rápido,lento...) pueden ir calculándose todas las expresiones anteriores.

4.6 APLICACIONES

Controlador Difuso Adaptativo

Quizás la aplicación en que la Lógica Difusa ha conseguido un éxito mayor, y por endeun mayor número de seguidores, se encuentra en el Control Industrial. Aún cuandoexisten numerosas versiones de controladores que emplean lógica difusa, sueleasignarse el término Controlador Difuso a un sistema de control cuya estructura internacorresponde a la de la figura 1

Una de las ventajas que suelen mencionarse de los Controladores Difusos, frente a otrotipo de controladores, es que pueden diseñarse aunque no se tenga un modelomatemático exacto de la Planta a controlar, gracias a que están basados en reglas.

Page 57: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

57

Esta situación, sin embargo, no es del todo sencilla: el no tener un modelo matemáticode la Planta implica no poder realizar simulaciones sobre la misma, de tal manera quelos ajustes del controlador deben realizarse en línea. Este hecho a promovido laaparición de controladores auto ajustable, que cuentan con algún algoritmo que lespermite evaluar su desempeño, y de acuerdo con cierto criterio ajustar su diseño. Estosalgoritmos de auto ajuste (también conocidos como algoritmos de auto sintonía) sonmuy útiles también en situaciones en las que la Planta a controlar varía en el tiempo, loque implica que el controlador deba ajustarse a dichos cambios.Cuando un Controlador Difuso cuenta con un algoritmo de auto ajuste, se dice que es unControlador Difuso Adaptativo. Sin embargo, existen Controladores con otrosalgoritmos que no son exactamente de auto ajuste, y que podríamos llamar deentrenamiento, que algunos autores denominan también Controladores DifusosAdaptativos.Los algoritmos de entrenamiento permiten ajustar el diseño del Controlador para quetenga un comportamiento deseado, pero fuera de línea. En general estos algoritmos nopermiten la adaptación del controlador a cambios de la planta, pero son muy útiles paradiseñar controladores en los que se combina información numérica con informaciónlingüística.A continuación se presenta un Controlador Difuso Adaptativo desarrollado por Wang &Mendel [20] que cuenta con un algoritmo de entrenamiento. Se ha seleccionado estecontrolador, porque el algoritmo empleado es uno de los más sencillosconceptualmente, y de mayor simplicidad algorítmica, tal como se presenta en elnumeral siguiente.

EJEMPLOSDado el problema del identificador de Imágenes Aéreas anteriormente presentado, sedesea saber cómo debe plantearse el problema para emplear el agrupamiento fuzzy c-means, si cada una de las tres imágenes tiene 32*32=1024 pixels.Los tres grupos de 1024 pixels pueden organizarse en 1024 3-uplas así:X = [x 1 x 2 x 3 ... x 1023 x 1024 ]x 1 =[x 1,1 x 2,1 x 3,1 ]x 2 =[x 1,2 x 2,2 x 3,3 ]...x 1024 =[x 1,1024 x 2,1024 x 3,1024 ]x i,k = luminancia del píxel k en la imagen iUna vez determinado X se selecciona c=4 como el número de conjuntos que se deseanobtener, debido a que se desean obtener cuatro zonas distintas en las imágenes, y seemplea el algoritmo fuzzy c-means.Trivedi [15] emplea los centros de los conjuntos obtenidos con este procedimiento paracaracterizar cada una de las cuatro zonas. Posteriormente, para decidir a que zonapertenece cada píxel, observa a cual de los cuatro conjuntos difusos hallados perteneceen mayor medida, con lo que se completa el proceso de identificación de la imagen.

Base de Datos DifusaLa Lógica Difusa busca desarrollar un conjunto de procedimientos para manejar lainformación precisa y/o vaga. Ahora bien, los Sistemas de Bases de Datos tienen porpropósito, hablando en términos muy generales, la organización de la información; porlo tanto no es de sorprender que se haya intentado incorporar las técnicas de LógicaDifusa en el diseño de Bases de Datos.Miyamoto & Umano distinguen dos tipos de técnicas difusas en las Bases de Datos:

Page 58: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

58

- Bases de Datos Difusas.- Técnicas Difusas para la recuperación de la información.En la primera de estas técnicas el concepto de Conjunto Difuso se incorpora en laestructura misma de la Base de Datos, mientras que en la segunda se emplea en lasestrategias de recuperación de la información.A continuación se presenta una de las técnicas del primer tipo, como en los anterioresejemplos de este artículo, se ha seleccionado buscando un ejemplo conceptualmentesencillo. La técnica en cuestión se denomina Búsqueda Difusa, y fue propuestainicialmente pot Tahani.En esta técnica la Base de Datos tiene dos componentes 4 : por una parte se tiene unaBase de Datos tradicional, como la representada en la Tabla 2, y por otra parte se tieneuna definición Difusa de las variables cuantificables de dicha Tabla

Base de Datos tradicional del EjemploAnte una consulta a la Base de Datos de la forma:"Cuáles son los nombres de las personas jóvenes o recientemente empleadas pero consueldo alto"Tahani propone evaluar la función de pertenecía de cada registro a cada uno de losvalores lingüísticos involucrados en la consulta, y entregar como resultado de labúsqueda un conjunto difuso con funciones de pertenencia obtenidas mediante lautilización de operadores AND, OR y NOT difusos []; los operadores empleados porTahani son el mínimo para el AND, el máximo para el OR y el complemento para elNOT.Con esta metodología la consulta anterior podría representarse por la operación

En donde x es la edad, y el año de ingreso, z el salario, u joven (x) es la función depertenecia al conjunto Joven definido sobre la variable edad, u reciente (y) es la funciónde pertenecia al conjunto Reciente definido sobre la variable Año de Ingreso, u alto (z)es la función de pertenecia al conjunto Alto definido sobre la variable salario, y ubúsqueda (x,y,z) es la función de pertenecia al conjunto resultante de la búsqueda.Empleando la información se puede construir los resultados de la búsqueda para cadaregistro.Resultados de la búsqueda del ejemplo en cada registroEl resultado final del ejemplo sería el conjunto:Búsqueda =0.5/Anderson, 1.0/Long, 0.8/SmithPsicología Cognoscitiva: Reconocimiento de PalabrasEl ejemplo que se presenta a continuación difiere de los anteriores sensiblemente.Este caso no emplea los algoritmos asociados a la lógica difusa, sino el concepto mismode los Conjuntos Difusos, y ha sido seleccionado para resaltar que la importancia de laLógica Difusa radica en la noción de Conjuntos con fronteras no exactas, lo que implicagradualidad en los cambios.Este ejemplo consiste en la definición de un experimento cuyo autor es Rueckl para elreconocimiento de palabras, que es uno de los temas abordados por la PsicologíaCognoscitiva.La pregunta que se desea contestar es :Qué efectos tiene el contexto de una frase en el reconocimiento de palabras?A esta pregunta existen dos respuestas opuestas, sustentadas cada una por dos teoríasdiferentes:- La teoría del modelo Interactivo sostiene que el contexto si influye en elReconocimiento de palabras.

Page 59: SISTEMAS EXPERTOS - virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/web/contenido/dossier/22012/1750.pdf · inteligencia artificial al que se le atribuye esa facultad: el de los

59

- La teoría del modelo Autónomo sostiene que el contexto no influye.Ambos modelos se apoyan en experimentos cuyos resultados son consistentes yrobustos, con explicaciones consistentes con las respectivas teorías. Los experimentosson de la siguiente forma:- Se selecciona una palabra objetivo, por ejemplo desk 5 .- Se plantean frases con la palabra objetivo, unas en las que el contexto es congruente, yotras en las que el contexto es incongruente, por ejemplo:Contexto congruente: Mary's book were pilled up on her ______Contexto incongruente: Last night Mary read a good ______· Se mide que tan fácilmente reconoce un individuo (un grupo de individuos) la palabraobjetivo en los dos tipos de frases, para sacar conclusiones.Hasta este punto las dos teorías coinciden, pero cuando las frases de contextoincongruente se remplazan por frases de contexto neutral, los experimentos danresultados distintos, cada uno reforzando una teoría, dependiendo de lo que se entiendapor "contexto neutral". Se han utilizado frases como las siguientes:They said it was the ______The the the _____It was the _____Secuencias aleatorias de palabras.La propuesta de Rueckl consiste en responder a la pregunta Qué es un contexto neutraldiciendo que hay congruencias difusas, es decir, diciendo que entre los contextoscongruentes e incongruentes no hay un único tipo de contexto neutral, sino que lacongruencia puede manejarse gradualmente.El experimento de Rueckl utilizó dos palabras objetivo: pair pain . Estas palabras seinsertaron en las siguientes frases:The cardplayer had a ______ in his handThe shoemaker had a ______ in his handThe piano player had a ______ in his handThe arthritic had a _____ in his handClaramente, el contexto varía para ambas palabras objetivo. Adicionalmente, en elexperimento se manipulo la forma de la letra r - n que diferencia las dos palabrasobjetivo, en la forma que muestra. Ante este experimento, las dos teorías predicenresultados distintos. Los resultados obtenidos concuerdan más con la teoría Interactiva.

Variaciones de la letra r - n

Conclusiones de Aplicación

Se han presentado cuatro aplicaciones diferentes de la Lógica Difusa; las tres primerasrecogen ejemplos sencillos de algunas de las más comunes aplicaciones en ingeniería,excluyendo otras igualmente comunes, como las relativas a la Investigación deOperaciones y toma de Decisiones, Filtraje de Señales, Diagnóstico de fallas, etc. Lacuarta aplicación presentada cae en el área de la psicología, y se ha incluido aquí con elpropósito de resaltar la importancia conceptual de los Conjuntos Difusos, ya que laexistencia de fronteras no exactas. Puede emplearse en otros campos distintos a los de laingeniería.