aproximación al aprendizaje humano basado en la teoría de
Post on 02-May-2022
3 Views
Preview:
TRANSCRIPT
Aproximación al aprendizaje humano basado en la teoría de redes neuronales artificiales
Presentado por: Julián Eduardo Arana M.
Proyecto de Grado
Asesor: Ing. Mauricio Duque PhD.
Universidad de los Andes Facultad de Ingeniería
Departamento de Ingeniería Eléctrica y Electrónica Junio de 2006
2
TABLA DE CONTENIDOS
I. INTRODUCCIÓN ............................................................................................................................................ 4
II. CONTENIDO .................................................................................................................................................. 7
A. ELEMENTOS DE PSICOLOGÍA DEL APRENDIZAJE......................................................................................... 7 Aprendizaje funcional................................................................................................................................. 7 Memoria ....................................................................................................................................................... 9
Memoria sensorial ................................................................................................................................................. 10 Memoria operante ................................................................................................................................................. 10 Memoria a largo plazo .......................................................................................................................................... 11 Memoria a mediano plazo .................................................................................................................................... 12 Relación entre los tres tipos de memoria .......................................................................................................... 13
B. ELEMENTOS INTRODUCTORIOS A LA NEUROCIENCIA................................................................................ 13 Sistemas Funcionales: El encéfalo ........................................................................................................ 14 Partes internas del Cerebro .................................................................................................................... 17 Organización de la corteza ..................................................................................................................... 19 Mapas en la corteza................................................................................................................................. 20
Propiedad de Formación Topológica (Topological mapping property) ......................................................... 21 Propiedad de Amplificación (Amplification property) ....................................................................................... 21 Propiedad de categorización (Categoring property) ........................................................................................ 22
La neurona ................................................................................................................................................ 22 Sinapsis ..................................................................................................................................................... 25 Función del Soma .................................................................................................................................... 27 Dinámica del cerebro ............................................................................................................................... 27 Aprendizaje a nivel Neuronal .................................................................................................................. 29
C. ELEMENTOS INTRODUCTORIOS A LA TEORÍA DE REDES NEURONALES ARTIFICIALES. ............................ 31 El Perceptrón ............................................................................................................................................ 31 Perceptrón multinivel ............................................................................................................................... 32 Aprendizaje ............................................................................................................................................... 35 Entrenamiento Supervisado del Perceptrón......................................................................................... 36 Entrenamiento supervisado del perceptrón multinivel ........................................................................ 37 Función XOR ............................................................................................................................................ 40 Algoritmos de poda .................................................................................................................................. 40 Arquitectura dual de redes Multicapa .................................................................................................... 41 Redes de Hopfield.................................................................................................................................... 43
Funciones de Energía........................................................................................................................................... 45 Redes de Hopfield Estocásticas ......................................................................................................................... 47 Redes de Hopfield continuas............................................................................................................................... 48
Máquinas de Boltzman ............................................................................................................................ 49 Técnicas de Aprendizaje no supervisado ............................................................................................. 50 Mapas de Kohonen .................................................................................................................................. 52 Campos neuronales auto-organizativos................................................................................................ 54
D. COMPARACIÓN ENTRE EL MODELO ARTIFICIAL Y LOS MODELOS BIOLÓGICOS. ....................................... 58 Debates entre la psicología y la ciencia computacional ..................................................................... 59 Tercer nivel: El Hardware........................................................................................................................ 60
Serial vs. paralelo .................................................................................................................................................. 60 Unidades de procesamiento ................................................................................................................................ 61 Constante de aprendizaje y recorte de neuronas ............................................................................................ 62 Arquitecturas .......................................................................................................................................................... 63 Modelo de condicionamiento clásico.................................................................................................................. 64 Modelo de la memoria .......................................................................................................................................... 66 ¿Un modelo de la arquitectura del proceso de aprendizaje? ......................................................................... 70 Modelo del hipocampo.......................................................................................................................................... 72
Segundo nivel: algoritmos y representación......................................................................................... 74
3
Aprendizaje............................................................................................................................................................. 74 Elección de la red y tareas de alto nivel ............................................................................................................ 76 Representación...................................................................................................................................................... 77
Primer Nivel............................................................................................................................................... 78
III. CONCLUSIONES Y COMENTARIOS FINALES .................................................................................. 80
IV. REFERENCIAS .......................................................................................................................................... 83
VI. TABLA DE ACRÓNIMOS Y SÍMBOLOS............................................................................................... 86
VI. ANEXOS...................................................................................................................................................... 88
ARTÍCULO........................................................................................................................................................ 88 I. INTRODUCCIÓN.................................................................................................................................... 88 II. CONTENIDO ......................................................................................................................................... 88 III. ANEXOS ARTICULO............................................................................................................................ 95
4
I. INTRODUCCIÓN
Desde el periodo antiguo (Grecia antigua) se ha intentado dar una explicación
sobre la localización del centro nervioso de los animales, sobre como piensan,
como sienten y como aprenden. Sin embargo, en los siglos XIX, XX se hecho
bastantes estudios y se han logrado establecer teorías y puntos de partida que dan
lugar a más teorías. (Gersenowies, 2000) No obstante, los estudios realizados no
pueden considerarse pertenecientes a una sola rama de la ciencia, llámese
psicología, filosofía, neurología, biología, química, etc., sino a un compendio de
todas las ramas que se sostienen con teorías formuladas por ramas “hermanas” y
que sirven para encontrar nuevos caminos y crear nuevos modelos que
proporcionen una visión más amplia del funcionamiento del cerebro y su relación
con los pensamientos, el aprendizaje, etc.
Gersenowies (2000) hace un recuento de los estudios más importantes que se han
hecho con la intención de entender el funcionamiento de la corteza cerebral.
Dentro de los estudios más importantes menciona a Santiago Ramón y Cajal quien
en 1906 recibió el premio Nobel por haber propuesto que el funcionamiento del
Sistema Nervioso estaba basado en células que unos años se denominarían
Neuronas. A partir de ésta observación se intenta modelar una célula mediante un
lenguaje matemático. Especialmente importantes fueron los modelos planteados
por Churchland, Rosenblant y Widrow en los primeros años de la década de los
60’s1. En investigaciones posteriores se crean redes de varias de las neuronas
modeladas anteriormente y surgen, así mismo, mecanismos que permiten enseñar
a las redes determinadas tareas bajo aprendizaje supervisado y no supervisado.
Surgen arquitecturas de redes neuronales y algoritmos que permiten simular el
aprendizaje y el comportamiento de las redes de neuronas. El problema ahora no
parece hacer parte de las ciencias “convencionales” que estudian el
comportamiento humano y animal, sino de ciencias computacionales. Se da el
nombre de Redes Neuronales al estudio de los procesos computacionales que
1 Bishop (1995) menciona, en una forma introductoria, las contribuciones de éstos investigadores en el modelo
neuronal
5
realizan la tareas anteriormente descritas, y se enmarca dentro de un rama de la
computación denominada Machine Learning A partir de los modelos, algoritmos,
simulaciones, etc., surgen aplicaciones en varios otros campos como pronósticos
financieros, automatización de procesos, reconocimiento de patrones, ayuda en el
descubrimiento de enfermedades, entre otros. No obstante, también está en
camino de contribuir a la investigación del aprendizaje humano y animal,
complementando un poco las teorías psicológicas2 y complementando las
investigaciones en neurología.
Existe una nueva ciencia denominada ciencia cognitiva que integra todas las
disciplinas mencionadas anteriormente (psicología, filosofía, neurología, biología,
ciencia computacional, entre otras) y cuya función es la investigación del proceso
de aprendizaje humano sustentándose en las asignaturas mencionadas, pero
especialmente, en lo que comúnmente se conoce como inteligencia artificial. En
Diller (2006) se evidencia la dificultad existente para definir la ciencia cognitiva,
existen diferentes puntos de vista que incluyen o no algunas disciplinas. De hecho
Diller, a pesar de mencionar varias definiciones, prefiere arriesgarse a decir que lo
importante de la nueva disciplina no es tanto definirla como multidisciplinaria o
como disciplina, sino como la intención que tiene: entender como funciona la
mente humana.
Éste documento pretende: 1) dar a conocer algunas teorías de aprendizaje desde
el punto de vista psicológico; 2) conocer los sistemas funcionales del sistema
nervioso central, su organización, sus métodos de intercambio de información,
algunos modelos con los que se cuenta para su estudio desde el campo de la
neurociencia; 3) recopilar brevemente la teoría de redes neuronales artificiales, dar
a conocer algunas arquitecturas y algunos algoritmos y 4) hacer una comparación
entre todas las disciplinas con la teoría computacional.
La distribución del texto se hace en el orden mencionado en el párrafo anterior.
Existen tres secciones principales: introducción, contenido, y bibliografía. En la
2 Como mencionan Hardy & Jackson (1998)
6
segunda se desarrolla todo el tema en cuatro capítulos: En el primero se hace un
breve recorrido por las teorías del aprendizaje desde el punto de vista de la
psicología, en el segundo se describe la anatomía cerebral, en el tercero se
describen los algoritmos y las arquitecturas desde el punto de vista de machine
learning, y en el último se hace entre todas las disciplinas con la del aprendizaje
artificial tratando de encontrar intersecciones y contradicciones.
7
II. CONTENIDO
A. Elementos de psicología del aprendizaje
Aprendizaje funcional
Los psicólogos distinguen dos categorías básicas de aprendizaje: no asociativo y
asociativo. La diferencia básica entre los dos tipos de aprendizaje es el número de
estímulos involucrados en el proceso de aprendizaje. En el aprendizaje no
asociativo se involucra únicamente un estímulo, mientras que en el asociativo
pueden existir dos o más estímulos. El aprendizaje no asociativo es la forma más
simple de aprendizaje.
Como se describe en Rosenzweig et al (1996, pp. 620-621), la categoría de
aprendizaje no asociativo se divide en tres sub-clases denominadas:
1) Habituación: La respuesta al estímulo se va perdiendo debido a la repetición
continua del estímulo y un estímulo del mismo tipo pero más intenso puede
dar origen a la respuesta esperada después de la habituación. Usualmente la
habituación tiene una duración bastante moderada. El individuo se habitúa al
estímulo mientras éste este presente, pero si deja de presentarse durante un
periodo de tiempo considerable, la habituación se pierde y el individuo vuelve
a responder al estímulo como lo hacía antes de la habituación (ocurre lo que
se denomina deshabituación).
2) Deshabituación: La magnitud de la respuesta a un estímulo crece debido a un
estímulo fuerte. Se remueve la habituación que ha alcanzado el individuo.
3) Sensibilización: Es una deshabituación en la que nunca existió habituación,
es decir, antes de la sensibilización la respuesta al estímulo era la respuesta
que el individuo siempre tendría debido al estimulo. Después de la
habituación dicha respuesta será mayor en magnitud.
8
En el aprendizaje asociativo se distinguen dos clases de aprendizaje que se
describen muy bien en Hardy y Jackson (1998, pp. 17-48), así como en Clayton
(2004, Capítulo 4). A continuación se describen las principales características del
condicionamiento clásico y el condicionamiento operante, las dos subcategorías
que conforman el aprendizaje asociativo:
1) Condicionamiento Clásico o Pavloviano: Se tiene un estímulo Incondicionado
(EI) que produce una respuesta natural denominada Respuesta Incondicionada
(RI). Mediante un emparejamiento con el EI se logra obtener una respuesta
casi idéntica a RI con otro estímulo denominado Estímulo Condicionado (EC).
De ésta manera es posible que un individuo asocie un estímulo que no
produciría una RI, con un EI, respondiendo a EC de la misma forma que lo
haría a EI. Un ejemplo de éste tipo de aprendizaje se da, como en el conocido
caso de Pavlov, cuando un perro reacciona al sonido de una campana (EC)
salivando (RC), pues asocia la comida (EI) con el sonido producido por la
campana, debido a un entrenamiento anterior en donde se tocaba la campana
y después de un muy corto periodo de tiempo se proporcionaba el alimento al
animal. En el condicionamiento interviene el cerebelo (que, como veremos, se
encarga de la respuesta involuntaria), sin embargo, para condicionamientos
elaborados, tiene lugar el hipocampo (al que, como veremos, se le adjudica la
función de memoria de corto plazo).
2) Condicionamiento Operante o Instrumental: En este tipo de condicionamiento
se crea una asociación entre un comportamiento y una consecuencia. De ésta
manera si un individuo tiene cierto comportamiento puede recibir un castigo o
una recompensa. Después de algunos castigos o recompensas el individuo
empieza a asociar su comportamiento con la consecuencia que éste trae. Éste
tipo de condicionamiento es el utilizado en el entrenamiento de animales:
inmediatamente después de realizar una acción correctamente, que ha sido
propuesta por el entrenador, éste lo premia con comida o con caricias. El
animal empieza entonces a asociar el comportamiento con el premio que
recibe.
9
Existen otras teorías (teoría Gestalt) que involucran tanto los estímulos recibidos,
como las experiencias que ha tenido el individuo, de éste manera no se aprende
únicamente recibiendo estímulos sino recibiendo los estímulos analizándolos,
comparándolos con situaciones vividas anteriormente y produciendo una respuesta
y un aprendizaje nuevo con base a toda esa información (véase Clark, 1999). Éste
tipo de aprendizaje involucra el conocimiento de conceptos aprendidos en un
tiempo anterior y guardados en la memoria, mediante las conexiones de las
neuronas del cerebro (más adelante se profundizará sobre la memorización
neuronal). A continuación se describe un poco cuales son las teorías que explican
el funcionamiento de la memoria.
Memoria
Un elemento importante que debe tenerse cuando se intenta descifrar lo complejo
del aprendizaje y el contenido del procesamiento de la información es la memoria.
La capacidad de mantener recuerdos de ciertas experiencias y de recuperarlos en
un momento dado puede ser vital para la supervivencia de cualquier animal.
(Rozensweig et. al, 1996)
En el estudio psicológico suelen nombrarse tres o cuatro clases de memoria:
memoria sensorial, memoria operante o de corto plazo, memoria a mediano plazo
y memoria a largo plazo.3 Cada una de ellas tiene diferentes funciones y se localiza
en diferentes regiones del cerebro como se verá más adelante.
La siguiente explicación de cada una de las clases mencionadas se basa en los
apuntes hechos por Hardy & Jackson (1998). En éste documento no se pretende
entrar a discutir si existen o no las diferentes clases de memoria, sencillamente se
aceptan como un modelo válido para alcanzar el objetivo propuesto, basados en la
3 Hay un excelente documento de Gardner sobre las múltiples memorias. “multiples intelligences” que deduce
de la observación de personas con problemas mentales, la existencia de al menos 7 tipos de memoria. Es un trabajo muy controvertido. Comentario proporcionado por Mauricio Duque PhD.
10
experiencia alcanzada por algunos psicólogos en experimentos realizados (ver
Hardy & Jackson, 1998).
Memoria sensorial
Se piensa que es un almacén de material totalmente desorganizado de la
información que se recibe sensorialmente. Se podría pensar que es una copia
“exacta” de la realidad en el sentido en que guarda la información más reciente
que los elementos sensoriales han recibido. La información almacenada puede
ser olvidada o retenida para el posterior procesamiento en la memoria operante.
El tiempo que suele almacenar la información depende de los sentidos que
reciban la información. Para la visión se retiene, en promedio 0.75s y para la
audición 3.5s.
Para que un trozo de información específica sea lo suficientemente importante
como para ser procesada por la memoria operante, es necesario prestar especial
atención a ella. A partir de aquí parte un estudio psicológico conocido como
atención y otro conocido como reconocimiento de patrones Hardy y Jakcson
(1996, 117-132).
La memoria sensorial se llevaría a cabo por estructuras neuronales en las áreas
sensoriales del cerebro, como se indica más adelante.
Memoria operante
Éste tipo de memoria contiene información sobre la que se está pensando
actualmente, ésta información se guarda el tiempo suficiente como para poder
realizar acciones o tomar decisiones basados en ella.
El tiempo que dura la información es en promedio de 20s, lo que parece ser una
ventaja pues, según comenta Hardy & Jackson (1998) libera la mente de
abarrotamiento de información innecesaria. Si la información demanda un tiempo
11
mayor en memoria, se recurre a un buffer de repaso que es capaz de refrescar la
memoria el tiempo que la información sea requerida.
La memoria operativa puede tomar información para procesarla desde la
memoria sensorial y guardarla en la memoria o desde la memoria a largo plazo
analizarla y guardar la nueva información en la memoria a largo plazo.
Memoria a largo plazo
La memoria a largo plazo es quizá el tipo de memoria más estudiado en el campo
de la psicología. Con base en ella se desarrolla toda una teoría que incluye la
codificación de la información en la memoria, el uso de ella como memoria
implícita (en la que no somos conscientes de la información que procesamos) y
memoria explícita (en la cual somos conscientes de la información que estamos
procesando y por ende es necesario enviarla primero a la memoria operativa).
Dentro de las formas de codificación de la memoria se han planteado varios
modelos que explicarían como la información se encuentra almacenada. El
primero modelo que surgió sugería la existencia de jerarquías dentro de la
memoria, en donde existían nodos superiores y subordinados. Éstos últimos
heredaban las características más generales de un nivel superior y,
adicionalmente, contaban con características propias que distinguían y
diferenciaban nodos del mismo nivel. En la Fig. 1 se muestra un ejemplo de éste
modelo. Existe una categoría principal en la que se encuentran Perros y Gatos
que comparten características que le da el nodo “animales”. Cada uno de ellos
tiene características propias que son heredados por nodos de nivel inferior.
Éste modelo evolucionó un poco y sirvió para describir el lenguaje y la forma en
como comprendemos las palabras escritas en un texto como enseña Feldman
(1990).
12
Fig. 14
Existe, sin embargo, un modelo conexionista de la codificación de la memoria que
toma una forma de redes como en los modelos anteriores, pero no insinúa la
existencia de jerarquías. Hardy & Jackson (1998, pp. 152) lo describen de la
siguiente manera: “El conocimiento no está codificado en un <<lugar>> concreto
por alguna <<cosa>>, sino que esta codificado mediante fuerzas de conexión, y el
aprendizaje ocurre a través de la modificación de las conexiones”. Los autores
mencionan, adicionalmente, que éste modelo es adaptable a una gran variedad
de situaciones y que sirve para describir situaciones de percepción, memoria y
habilidades motrices.
Memoria a mediano plazo
Éste tipo de memoria no suele ser muy mencionado en los libros y artículos sobre
memoria, sin embargo está presente ya se como parte de la memoria a largo
plazo o como una entidad individual a ésta última. La memoria a mediano plazo
involucra recuerdos o ideas aprendidas que no son retenidos más de uno dos
días, tales como el lugar en el que se parqueó el carro antes de llegar al
supermercado ó el lugar en el que se dejaron las llaves la noche anterior.
(Rosenzweig et al, 1996, pp. 624-627).
4 Tomado y adaptado de Hardy & Jackson (1998, pp.149)
13
Relación entre los tres tipos de memoria
Basados en la discusión en Hardy & Jackson (1998, caps. 5-6) sobre la relación
existente entre los tres tipos de memoria más importantes, explicamos a
continuación el proceso que se lleva a cabo:
Un individuo puede captar un estímulo y almacenarlo en la memoria sensorial, allí
el estimulo tiene dos opciones que son: la pérdida de la información del estímulo
o el almacenamiento de éste en la memoria operativa. Éste último proceso se
realiza mediante la atención o el reconocimiento de patrones.
Información almacenada en la memoria operativa puede ser olvidada, puede ser
usada para producir una respuesta, puede ser “refrescada” para no olvidarla o
puede ser codificada y enviada a la memoria de largo plazo. La información que
reside en la memoria operativa puede venir de la memoria sensorial o de la
memoria a largo plazo (cuando sea necesaria la recuperación de ésta
información).
Finalmente, la memoria a largo plazo puede recibir la información de la memoria
operante o enviarla a la memoria operante.
B. Elementos introductorios a la neurociencia
En el campo de investigación de la neurociencia se encuentran bien definidas
algunas áreas de estudio que contribuyen al desarrollo teórico del funcionamiento
del sistema nervioso. Dichos niveles, como los describe Perkel (1990) o
Churchland et al. (1990), son los siguientes:
1) Biofísica y bioquímica de la membrana celular y del citoplasma celular de la
neurona.
2) Subdivisiones de la neurona: dendritas, axones, sinapsis, etc.
14
3) Procesos funcionales de la célula y procesos metabólicos. La neurona como un
todo: propiedades eléctricas de la neurona, comportamiento de las salidas y las
entradas, crecimiento, intercambio de proteínas, etc.
4) Pequeños circuitos de células nerviosas.
5) Circuitos de tamaño medio a gran tamaño.
6) Sistemas funcionales completos.
7) Sistema Nervioso Central.
8) Sistemas motores y sensoriales.
A fin de entender el funcionamiento básico del cerebro como preámbulo para la
investigación que se pretende realizar, se realizará una breve descripción de los
estudios realizados en cada área descrita, haciendo énfasis en los puntos 2), 4), 5)
y cierta información del punto 3) pues es allí en donde se pueden hacer las
comparaciones con las redes neuronales artificiales. Sin embargo es interesante
comprender las partes más importantes del cerebro, así como sus funciones
básicas puesto que van a ser nombradas en algunas ocasiones dentro del texto.
Sistemas Funcionales: El encéfalo
El encéfalo esta compuesto por tres partes principales que son denominadas
cerebro, cerebelo y tallo cerebral. La Fig. 2 muestra el diagrama del encéfalo con
sus componentes principales.
Como explica Valiant (1994, pp. 12) la labor de encontrar lugares precisos del
cerebro que realicen tareas específicas es bastante desalentadora, debido a que
en muchos casos las áreas que se han identificado resultan multifuncionales en el
sentido en el que pueden tener además de la función, que se cree que es la
principal, funciones compartidas con otros áreas cerebrales. Sin embargo, es
importante darse la oportunidad de describir algunas funciones que se han
adjudicado a la masa cerebral, con el fin de entender el modo de procesamiento
15
del cerebro. A continuación se resumen algunos comentarios hechos por National
Institute of Neurological Disorders and Strokes [NINDS] (2001a) y por Lehr (2006)
con respecto a las funciones principales de las partes más importantes del cerebro.
0. Tallo cerebral: Controla las funciones vitales principales como la respiración y el
ritmo cardiaco.
1. Cerebelo: Encargado de los movimientos repetitivos (reflejos). Coordina
movimientos voluntarios.
2. Cerebro: Fuente de las actividades intelectuales. Se llevan tareas de
reconocimiento, pensamiento y memorización.
3. Lóbulos Frontales: Permiten guardar recuerdos e ideas por un periodo corto de
tiempo y analizarlas y utilizarlas para responder en ciertas actividades diarias.
Parecen ser los responsables de la memoria a corto plazo. Es en gran parte
responsable de las funciones del lenguaje.
4. Área motora: Hace parte de los lóbulos frontales. Procesa los movimientos
voluntarios.
5. Área de Broca: Hace parte de los lóbulos frontales. Responsable de expresar las
ideas mediante palabras.
6. Lóbulos Parietales: Encargados de percibir las sensaciones. Interviene en
procesos de lectura y de razonamiento aritmético. Permite la percepción del
sentido del tacto. También proporciona el control de movimientos voluntarios y
de manipulación de objetos. Integra diferentes sentidos con el fin de entender un
concepto.
7. Áreas sensoriales: Hacen parte de los lóbulos parietales. Es aquí en donde se
procesa la mayor cantidad de información sensorial.
8. Lóbulos Occipitales: Procesa información visual (específicamente de imágenes)
y las relaciona con información almacenada en la memoria.
16
9. Lóbulos Temporales: Se encarga de recibir y procesar información proveniente
de los oídos. También parece ser responsable de guardar y recuperar
información en la memoria. Pueden integrar la información guardada en
memoria. Adicionalmente sirve para la categorización de objetos.
Fig. 25
NINDS (2001a, pp. 6) describe también la corteza como una “capa que recubre el
cerebro y el cerebelo” y agrega que “la mayor cantidad de información que se
procesa en el cerebro se hace en la corteza”. El color de la corteza cerebral es gris
“debido a que no existe una capa aislante que le da el color blanco a la mayor
parte del cerebro” como describe NINDS (2001a). Valiant (1994) menciona que la
materia blanca es la encargada de comunicar diferentes zonas del cerebro y que,
de hecho, está compuesta en su mayor parte por los axones que atraviesan el
cerebro. La materia gris, en contraste, es la zona en al que se encuentran los
cuerpos de las neuronas y por tanto es el lugar en donde la mayor cantidad de la
información es procesada.
Los sistemas completos (visuales, olfativos, gustativos, sensoriales, auditivos) se
encuentran de alguna forma embebidos en el encéfalo. El sistema visual es, según
Haken (2002), el sistema más estudiado. Los modelos con los que se cuenta son
5Imagen tomada y adaptada de NINDS (2001). Sección the architecture of the brain.
17
estudiados por niveles de complejidad. Cada nivel cuenta con una red que realiza
una tarea específica y en la que la información suele verse cada vez más
especializada mientras se asciende en los niveles. Por ejemplo Hummel &
Biederman (1992) muestran 7 capas, en las que la información es cada vez más
especializada, en un modelo de reconocimiento de objetos en tres dimensiones. En
la primera capa se reconocen los bordes de los objetos, en el segundo la
información es separada en ejes, vértices y sombras; la tercera capa se ocupa de
analizar aspectos geométricos de los objetos; la siguiente se encarga de analizar la
relación que existe entre los atributos medidos en la capa anterior; en la capa 6 se
reconstruyen las características en una imagen mental que se tiene sobre el objeto;
y en la última se crea la imagen mental del objeto con las características que
encontró la capa anterior.
Partes internas del Cerebro
Existen, en la parte interna del cerebro, otras partes que cumplen funciones
importantes, especialmente en el aprendizaje y las emociones. En la Fig. 3 se
observan las estructuras mencionadas. A continuación se hará, como en la sección
anterior un breve resumen de sus funciones, basado en la publicación NINDS
(2001a).
18
Fig. 36
10. Hipotálamo: Centro emocional, controla el flujo de adrenalina durante los
momentos de tensión.
11. Tálamo: Es un intermediario entre la información que viaja desde el cerebro
hasta la espina dorsal y viceversa.
12. Hipocampo: Es un indexador de memoria. Se encarga de buscar el lugar en
el que la información debe ser almacenada a largo plazo y de recuperarla en el
momento en el que sea requerida. En otras palabras su función principal es
“establecer rápidamente conexiones…entre patrones” y lo logra mediante la
presentación repetida de la información a la corteza cerebral. Al hipocampo se le
atribuye la función de memorización7 a corto plazo o de memoria operativa que
ya ha sido mencionada en la sección I del documento.
6 Imagen tomada de NINDS(2001) Sección The Inner brain. 7 Es muy importante aclarar que la palabra memorización no se refiere a la forma en como un computador
almacena su información. Se debe entender que el proceso de memorizarción y en general de aprendizaje se da modificando las conexiones neuronales y éstas representan los conceptos aprendidos o los recuerdos “guardados”. Esta diferenciación se hará más clara en la sección C. Elementos introductiorios a las redes neuronales artificiales y en la sección en que se compara el modelo artificial con el cerebro, sección D Comparaciones entre el modelo artificial y los modelos biologicos.
19
Organización de la corteza
Hebb (1949), además de su planteamiento del aprendizaje Hebbiano, habla de
arreglos de células que se activan simultáneamente y que pueden estar dispersas
a lo largo de la masa cerebral, y que podrían constituir la percepción de una
escena inmersa dentro de un contexto. Es decir, si se produce un estimulo visual,
por ejemplo, la información recibida se podría procesar en diferentes lugares del
cerebro en forma paralela, dando como resultado una comprensión de la situación
presentada y no de casos aislados de la que forman parte de la situación.
(Rosenzweig et al, 1996).
Adicionalmente a las divisiones que se han descrito en la sección anterior, la
corteza cerebral está dividida fundamentalmente en dos partes según el número
láminas horizontales de un área específica de la corteza; las divisiones son
llamadas isocorteza (isocortex o homotyipical cortex) y allocorteza (allocortex o
heterotypical cortex). La isocorteza se caracteriza por tener seis láminas, mientras
que la allocorteza tiene un número variable de láminas. Valiant (1994) comenta
que la isocorteza es en gran parte la encargada de los procesos de memorización
(largo plazo) y aprendizaje. La allocorteza se encuentra en el hipocampo y en la
corteza olfatoria, entre otras regiones.
Adicionalmente, Spitzer (1999, pp. 91-95), describe columnas (diferentes a las
capas mencionadas anteriormente, pues las columnas atraviesan
perpendicularmente las capas) de procesamiento de información encontradas en la
corteza del cerebro de las que dice que pueden “ser recordadas como las más
pequeñas unidades de procesamiento de la corteza”. Estas columnas parecen
tener ciertas funciones específicas cuando algunas células son activadas.
Spitzer (1999) asegura que la organización en columnas supone la existencia de
una unidad funcional (un grupo de células dentro de una columna) que es activada
ante un estímulo único y concreto. No obstante, existen neuronas vecinas que son
estimuladas también en menor medida pero no alcanzan a ser activadas. Este
grupo de células vecinas pueden ser activadas por estímulos similares al que
20
activa la columna que contiene la unidad funcional, convirtiéndose ahora ésta en
una columna vecina. La unidad funcional conecta neuronas inhibitorias que tienen
como función no permitir la activación de células más lejanas. Tenemos entonces
un estímulo que actúa localmente y solamente activa unas pocas neuronas de una
región concreta del cerebro. En la Fig. 4 se observa una “unidad funcional de
procesamiento de información”, como la llama Spitzer.
Fig. 4
Mapas en la corteza
Desde un punto de vista más amplio, la corteza puede verse dividida en
estructuras que describen diferentes sistemas del cuerpo (sistemas visuales,
sensoriales, olfativos) y que pueden estar constituidas de la manera como se
explicó en la sección anterior.
El trazado de los mapas cerebrales se ha apoyado en pacientes con lesiones en
algunas partes del cerebro. Al estar lesionadas algunas áreas, los psicólogos y
neurólogos investigan qué funciones motoras, auditivas, visuales, del lenguaje,
entre otras; ha perdido el paciente. Otra fuente de información es la investigación
hecha con animales a los que se les extrae partes del cerebro o se les
“desconectan” ciertas partes del cerebro.
A continuación se definen algunos conceptos para entender como se construye un
mapa en la corteza. Para Amari (1990, pp. 267-268), un campo neuronal es “un
trozo de tejido cortical de neuronas en el que muchas neuronas son continuamente
organizadas”. El autor comenta que dependiendo de un estímulo ciertas neuronas
21
son excitadas como respuesta de ese estimulo y que esta característica puede ser
vista como una representación interna del mundo exterior dentro del cerebro,
organizado de acuerdo a la experiencia que tenga el individuo sobre el mundo
exterior. Además define un mapa a nivel físico como una campo neuronal que
representa el mundo exterior, o a nivel abstracto, como una representación
localizada de señales recibidas (es decir de estímulos) del individuo.
Adicionalmente, Amari (1990) explica un modelo matemático de los mapas en la
corteza y prueba rigurosamente la existencia de algunas propiedades que se le
han asignado a dichos mapas. Más adelante, en la sección de redes neuronales
artificiales, se dará una breve explicación de la matemática involucrada en el
modelo, por ahora centrémonos en las propiedades de los mapas.
Propiedad de Formación Topológica (Topological mapping property)
La formación topológica hace referencia a la estructura física de los campos
neuronales descritos anteriormente, sus conexiones inter-neuronales y su
organización. Según Amari (1990) los arreglos físicos se “programan”
genéticamente, sin embargo, comenta que la respuesta que dan los arreglos es
bastante burda en los momentos más prematuros. El individuo debe, con base en
su experiencia, refinar las conexiones de las neuronas que existen en el campo
neuronal y las que conectan éste campo con otros campos (esto es: aprendizaje).
Propiedad de Amplificación (Amplification property)
Con base en la experiencia que tiene el individuo, las estructuras discutidas son
capaces de mejorar sus conexiones para que se puedan adaptar mejor a las
condiciones en las que se encuentra el individuo. Para tal fin, las estructuras dan
un mayor espacio (físico) de procesamiento a los estímulos que se producen con
más frecuencia.
La capacidad que el cerebro tiene para modificar sus conexiones de acuerdo a
los estímulos presentados con mayor frecuencia se conoce con el nombre de
auto-organización (self-organization) de los mapas. Amari (1990) describe la auto-
22
organización como la responsable de la afinación de las estructuras referidas
anteriormente.
Propiedad de categorización (Categoring property)
La categorización se da al realizarse el proceso de auto-organización. Las
neuronas se establecen de tal manera que la información con características
similares se procesa en bloques del campo neuronal que son físicamente
adyacentes (como se mencionaba en las estructuras de columnas).
Información sobre el estudio detallado de algunos mapas como la corteza visual o
la corteza auditiva se consigue en Robinson (1990), Mead et al. (1990), Arbib
(1990), Suga (1990), Yeshurun et al (1990), Bienenstock et al (1982), entre otros.
Estos mapas son relevantes para nuestra investigación pues en general no
podemos decir que las neuronas actúan solas, sino en grupos como se ha visto en
éste modelo. Las redes neuronales artificiales supone la activación de neuronas
individuales.
La neurona
Dentro del sistema nervioso (SN) se encuentran varios tipos de células entre ellas
la neuroglia y la neurona. La primera parece ser la encargada de facilitar las
conexiones de las neuronas en el SN y de envolver el cerebro (Rosenzweig et al.,
1996), la segunda, la neurona, es la encargada del procesamiento de la
información en el cerebro (Rosenzweig et al., 1996). Valiant (1994) menciona que
en la corteza cerebral residen los cuerpos de alrededor 1010 neuronas,
aproximadamente. Spitzer, señala la dificultad existente al intentar entender la
complejidad de la red neuronal del cerebro. Young (1985), quien ve el
procesamiento de la información en el cerebro como un computador, opina que:
…los patrones de esas conexiones [entre neuronas] y los impulsos nerviosos que circulan en ellos de alguna manera constituyen los programas codificados del cerebro… Algunas partes funcionan rítmicamente, como en el programa de respiración… Algunos esperan listos hasta que se les necesite usar, como los que proporcionan el poder del entendimiento del habla y la respuesta [a lo que se entiende]. Young (1985)
23
Fig. 58
Las neuronas se componen de tres partes fundamentales denominadas dendritas,
axones y soma (ó cuerpo de la célula). En la Fig. 5 se ilustra una de las formas
más comunes de neurona ubicada en la neocorteza con sus partes más
importantes.
Las dendritas son ramificaciones que se encargan de recolectar la información
codificada en los impulsos eléctricos provenientes de los axones y de transferirla al
soma; los axones, por el contrario, tienen como función enviar la información
procesada por el soma a otras células nerviosas y el soma se encarga del
procesamiento de la información recibida por las dendritas (más adelante se
profundiza un poco sobre el procesamiento de la información que realiza el soma).
En la gran mayoría de neuronas existe una gran cantidad de dendritas que forman
ramificaciones y son comúnmente llamadas ramas dendríticas. En dichas
ramificaciones se encuentran las llamadas espinas dendríticas que son
protuberancias en donde se lleva a cabo la unión entre la célula receptora y la
célula emisora.
8 Imagen tomada de NINDS(2001) Sección making Connections.
24
Como describe Rosenzweig et al (1996, pp. 37), existen diferentes formas de
clasificar las neuronas de acuerdo a sus formas (multipolares, bipolares y
monopolares), a su tamaño (grande y pequeño) y a su función (motoneuronas,
neuronas sensoriales e interneuronas). Mas adelante Rosenzweig et al (1996, pp.
47) describe las diferencias entre lo que se denomina Sistema Nervioso Central y
Sistema Nervioso Periférico, haciendo claro que las neuronas sensoriales y
motoras forman parte del Periférico y las interneuronas forman parte (en su
mayoría) del sistema nervioso Central.9
Las neuronas motoras “llevan su axón a músculos o glándulas, y su trabajo es
hacer que los músculos se contraigan o hacer cambiar la actividad de las
glándulas” (Rosenzweig et al., 1996, pp. 37). Las neuronas sensoriales “son
afectadas directamente por el entorno” (Rosenzweig et al., 1996, pp. 37), y las
interneuronas reciben señales de entrada y salida de otras neuronas, como
comenta Rosenzweig et al. (1996).
Adicionalmente, existen tres estados eléctricos que se encuentran en una neurona.
Los estados eléctricos son medidos entre la parte interior del cuerpo de la célula y
la superficie exterior: el primero se conoce con el nombre de potencial de descanso
(resting potential) que es el estado inactivo de la neurona es de aproximadamente -
70µV; el segundo se denomina potencial de acción (action potential) que es el
producido cuando ha sido activada por haber alcanzado el umbral de activación
(véase la sección Función del soma), es de aproximadamente +40µV; y el último
es designado mediante el nombre potencial post-sináptico local (local postsynaptic
potential) que se debe a la activación de una neurona pre-sináptica, el valor que
puede tener es variable dependiendo de la fuerza de conexión entre las dos
neuronas y positivo o negativo dependiendo de la naturaleza de la neurona pre-
sináptica (inhibitoria o excitatoria).
9 En el modelo multicapa de la teoría de Redes neuronales Artificiales se podrían modelar las neuronas motoras
y sensoriales como las que se encuentran en las capas de entrada y de salida; y las interneuronas como las que se encuentran entre dichas capas.
25
Haken (2002, p. 3) señala que muchas de las neuronas que se encuentran en el
cerebro no producen una respuesta binaria (dos estados posibles además del
estado de reposo), sino que producen “trenes de pulsos individuales” y menciona
que muchos investigadores creen que la sincronización de dichos pulsos entre las
neuronas puede contener la codificación de la información en el cerebro.
Sinapsis
Como explica Rosenzweig et al (1996, pp. 41-42), la unión entre dos neuronas que
hace posible su comunicación se denomina sinapsis. No existe un contacto físico
entre los axones de una neurona y las dendritas de la siguiente, sino un vacío en el
que son liberadas sustancias químicas (llamadas neurotransmisores) que excitan
moléculas receptoras en las dendritas de la neurona receptora. Los
neurotransmisores pueden excitar la neurona positiva o negativamente
dependiendo de su composición química. Dependiendo del tipo de excitación las
neuronas se pueden clasificar, además como excitatorias (si excitan la neurona
post-sináptica positivamente) e inhibitorias (si excitan la neurona post-sináptica
negativamente).
Además del vacío las otras dos etapas que forman parte de una sinapsis son la
pre-sinapsis y la post-sinapsis que son los lugares de donde se desprenden los
neurotransmisores, y en donde se reciben por medio de las moléculas receptoras,
respectivamente.
En Rall & Segev (1990) se describen las características que hacen que una señal
sea transmitida con un grado de atenuación desde el vacío de la sinapsis y la post-
sinapsis (efectividad sináptica ó fuerza sináptica). Entre las características
mencionadas están la frecuencia con que son liberados los neurotransmisores, la
posición en la que la sinapsis se da con respecto al soma, las distancias que
existen entre las diferentes sinapsis de la célula receptora, que vienen desde
26
diferentes axones o desde el mismo axón. También cuenta la forma geométrica de
las espinas dendríticas, especialmente el área expuesta a la sinapsis.
Sin embargo, existen otros aspectos que intervienen en la fuerza de enlace en la
sinapsis de la neurona. Como menciona Rosenzweig et al (1996, p. 643), la
fortaleza en la unión de diferentes neuronas se puede dar por cambios químicos,
modulados por la influencia de otras neuronas que tienen contacto cerca al axón
de la neurona emisora, así como el número de moléculas receptoras en las
dendritas, la frecuencia de activación del axón, el área de contacto de la sinapsis.
La relación entre la cabeza de la espina dendrítica y la dendrita es no lineal como
se propone demostrar Koch (1990). En su trabajo muestra un modelo
comportamental dependiente del voltaje de entrada a la cabeza de la espina
dendrítica. Así mismo, enseña un modelo de la contribución de una sinapsis dada
dentro de una rama dendrítica a la neurona, la relación, que es una ecuación
diferencial de primer orden dependiente del tiempo y la posición en la que se
encuentra la espina dendrítica, se muestra a continuación tal y como es
presentada en el documento original:
( )2
2
1m j j
ja m
V V Vc g E V
t r t r
∂ ∂= − + −
∂ ∂ ∑ (1)
Fig. 6
27
en donde ra es la resistencia, considerada constante del citoplasma de la célula, rm
es la resistencia de la membrana, cm la capacitancia de la membrana, gj
conductancia sináptica, Ej representan sinapsis inhibitorias o excitatorias (Ei o Ee
respectivamente). La ecuación es la expresión matemática del modelo circuital de
la sinapsis presentado en la Fig. 6.
Función del Soma
En la literatura sobre el tema en general (Rosenzweig et al., 1996; Spitzer, 1999;
Valiant, 1994 entre otros), la función adjudicada al soma (dentro del contexto de
actividad neuronal, es decir, sin tener en cuenta condiciones de intercambio de
proteínas, oxigenación, etc.) es la de tomar las entradas obtenidas en las ramas
dendríticas y sumarlas de manera que se pueda dar un total que es comparado
con un valor de umbral en donde se dispararía un pulso en el axón de la neurona.
Sin embargo, como es mencionado en Koch (1990) varios han propuesto
teóricamente y han demostrado experimentalmente que dicha linealidad no existe.
No obstante Poggio & Torre (1981) demuestran que si las sinapsis se encuentran
situadas a una distancia relativamente corta en la dendrita de la neurona, dicha
linealidad se puede asumir con un error que es relativamente despreciable10.
Dinámica del cerebro11
Adicionalmente a las relaciones anteriores, Haken (2002) presenta una descripción
detallada del comportamiento de las neuronas en la sinapsis y de las implicaciones
que éste proceder tiene sobre una red de varias neuronas. Los modelos se basan
(o al menos se presentan) utilizando observaciones del comportamiento de las
10 Aunque existen modelos más completos de la neurona, la tesis de un error despreciable se defiende diciendo
que no es necesario conocer el sistema completamente para conocer las redes como un todo. Koch (1990) menciona que es casi como intentar simular el comportamiento de los electrones en un semiconductor para entender el comportamiento de un computador.
11 Título del libro de Haken (2002).
28
neuronas en el sistema visual. Presentarlo aquí en detalle sería una tarea
demasiado tediosa, por lo que solamente se darán las bases del comportamiento.
En primer lugar, la forma en como se presenta la información a lo largo del axón de
algunas neuronas no es una señal constante en el tiempo, justo después del
disparo de la neurona, sino una señal de voltaje oscilatorio con frecuencia que
depende de la función específica que cumpla la célula (los pesos de entrada de la
neurona o, lo que es lo mismo, las conexiones entre las neuronas pre-sinápticas y
la neurona que se estudia) y de los estímulos presentados en las dendritas de la
neurona. Estas señales son definidas como impulsos presentados, en los modelos
más simples, con una frecuencia constante.
La frecuencia de los impulsos y su amplitud liberan cierta cantidad de
neurotransmisores en el axón de la neurona con el fin de comunicar la información
codificada en los pulsos a las neuronas post-sinápticas. En la neurona post-
sináptica la información (representada por la corriente generada en las dendritas)
recibida es normalizada con los pesos de conexión y su magnitud depende
directamente de la frecuencia de los impulsos y de su amplitud.
( )
( )postpost
d taP t F
dt
ψτ γψ= − − + (2)
en donde P es la función que representa los picos presentes en el axón de la
neurona pre-sináptica, F es ruido presente en las dendritas, a es la amplitud (que
por ahora se supone constante para todos los pulsos), ψpost es la corriente
generada en los axones de la neurona post-sináptica y γ es la constante de
decaimiento de la corriente propia de la neurona. Básicamente la ecuación
describe una corriente que decrece exponencialmente con el tiempo cuando un
pulso es generado en el tiempo τ.
Un problema que surge cuando se discute un modelo como el presentado por
Haken (2002) es que para poder activar una neurona post-sináptica, las neuronas
pre-sinápticas deben ser disparadas en tiempos casi simultáneos, pues de no ser
de ésta manera la contribución de una neurona sola no podría alcanzar el nivel de
29
disparo requerido y la neurona post-sináptica no produciría una señal de salida.
Éste tipo de planteamientos sugiere una codificación de la información más
completa que la codificación que se supone en el modelo básico de la neurona y
en la teoría de redes neuronales artificiales clásica.
Aprendizaje a nivel Neuronal
La base del aprendizaje neuronal reside en la posibilidad de modificar la fuerza
sináptica. Al modificar las conexiones entre las neuronas es posible obtener
diferentes resultados en la respuesta de la red neuronal.
De ésta manera, para que una red neuronal tenga la capacidad de aprender, debe
ser hábil para poder modificar sus sinapsis. Entre las posibilidades que existen de
modificar la sinapsis se encuentran cambios químicos, incremento de las
moléculas receptoras, cambios en la frecuencia de la señal enviada por el axón,
cambios estructurales en la espina dendrítica, así como un cambio en el área de
contacto de la sinapsis y la instauración de nuevas conexiones entre neuronas, de
la misma manera pueden surgir reemplazos de caminos existentes por otras
conexiones (Rosenzweig et al., 1996). La anterior propuesta teórica ha sido
sustentada mediante experimentos con mamíferos, aves y otros animales, como
comenta Rosenzweig et. al (1996), él cita los siguientes autores: Rosenzweig et al
(1961), Bennet et al. (1964), Renner & Rosenzweig (1987), Rosenzweig (1984),
Hubel & Wiesel (1965), entre otros y estudios de Greenough &Volkmar (1973)
Volkmar & Greenough (1972)
En otros estudios, ha sido posible detectar cambios electrofisiológicos, químicos y
anatómicos en el cerebro debido a una actividad que el individuo debe aprender
(aprendizaje asociativo y no asociativo). En Rosenzweig et al (1996, pp. 650-670)
se comentan algunas observaciones y experimentos realizados.
El estudio se ha hecho en su mayoría con animales invertebrados debido a la
simplicidad de su Sistema Nervioso. Los resultados encontrados han sido, entre
otros, un aumento en el peso del cerebro después del entrenamiento, lo que
30
sugiere un crecimiento del número de dendritas que posee una neurona y por lo
tanto un mayor número de conexiones posible entre neuronas. Siguiendo los
resultados observados se han desarrollado modelos de circuitos neuronales que
indican la forma en que se realizan los procesos de sensibilización, habituación,
deshabituación y condicionamiento de animales invertebrados -en Rosenzweig et
al (1996, pp. 655-670) se evalúan ejemplos con Drosophila y Aplysia, animales
invertebrados. En los estudios se presentan los mecanismos por medio de los
cuales dichos animales presentan habituación y sensibilización de término corto y
de término largo.
Hebb (1949) propone que los cambios se pueden dar cuando la neurona pre-
sináptica excita en ocasiones repetidas la neurona post-sináptica (ésta hipótesis es
conocida como aprendizaje Hebbiano o Regla Hebbiana en la literatura científica).
Hebb (1949) añade la hipótesis del trazo doble en la que establece que durante el
aprendizaje se lleva a cabo una actividad neuronal en uno o diversos circuitos
neuronales que permite guardar información por un periodo de tiempo corto y es lo
que los psicólogos reconocen como memoria a corto plazo. Si la actividad es lo
suficientemente fuerte, puede dar paso a una modificación en las conexiones
neuronales, lo que significaría memoria a largo plazo.
Existe una fuerte teoría sobre el aprendizaje a nivel neuronal, aunque con
bastantes críticas, denominada LTP (Long-Term Potentiation). Básicamente
consiste en la activación simultánea de dos estímulos en una misma neurona
sincrónicamente. Como se describe en Spitzer (1999, pp. 42-45), existen dos
estímulos A y B. A es un estímulo que por si solo no causa ninguna respuesta en la
neurona (o es una respuesta muy débil) y B es un estímulo que causa una buena
respuesta de la neurona. Si los estímulos A y B son presentados simultáneamente
la neurona responde de la misma manera que lo haría si estuviera estimulada
únicamente por B. El aprendizaje se da después de éste estímulo simultáneo; la
neurona es activada indiferentemente por cualquiera de los dos estímulos
independientemente. Como comenta Ronsezweig et al (1994, pp. 670) el LTP
puede durar desde horas días y hasta semanas. El funcionamiento del LTP ha sido
31
probado en el hipocampo. Sin embargo no ha habido pruebas contundentes que
demuestren que este tipo de aprendizaje se de en otras partes del cerebro como,
por ejemplo, la corteza, según comenta Spìtzer (1999).
C. Elementos introductorios a la teoría de redes neuronales artificiales.
El Perceptrón
El modelo básico de una neurona, planteado por McCulloc y Pitts (1943) y
estudiado por Rosenblant (1962) quien lo denominó Perceptrón es, básicamente,
la suma de “n” señales “xk” ponderadas con una constante (comúnmente
denominada peso) “wk” (con valores de k desde 1 hasta n). El resultado de esa
suma se hace pasar por una función de activación que se dispara si la suma
anterior pasa un valor de umbral previamente establecido. Como ayuda visual
podríamos ver el perceptrón como se muestra en la Fig. 7. La ecuación que
describe al perceptrón es:
( ) ( )oy x g wx w= + (3)
En dondew es el vector de pesos de tamaño n, x es el vector de señales de
entrada en un momento específico ow corresponde a una entrada adicional (con
valor 1) denominada bias (la interpretación para éste bias puede ser profundizada
en Bishop (1995, pp. 78)). Finalmente g(.) es la función de activación que
típicamente tiene la forma de un paso como se describe a continuación:
1 0
( )1 0
si ag a
si a
− <=
≥ (4)
32
Fig. 7
Perceptrón multinivel
La arquitectura presentada a continuación es capaz de aproximar cualquier función
matemática. Es muy utilizada para reconocer patrones y predecir eventos futuros
con base en información de eventos pasados.
Una red neuronal multinivel o perceptrón multinivel, es un conjunto de
perceptrones “con conexiones desde cualquier unidad en una capa a todas las
unidades de las capas siguientes, pero sin ninguna otra conexión permitida”
(Bishop, 1995, pp. 117). Un ejemplo de un perceptrón multinivel es mostrado en
Fig. 8.
En la Fig. 8 se puede ver un ejemplo de un perceptrón multinivel de tres capas (ó
niveles). Se pueden distinguir 11 perceptrones marcados desde N1 hasta N11. A la
primera capa entran n señales x1…xn y cada perceptrón de la una capa anterior
está relacionado con una entrada de la siguiente capa. Las cuatro salidas de la red
(y1, y2, y3, y4) corresponden a las salidas de los perceptrones de la capa 3. Así
como en las entradas del perceptrón multinivel tenemos un vector de pesos para
cada entrada y cada perceptrón independientemente, existen vectores de pesos en
las conexiones entre perceptrón de diferentes capas.
33
Fig. 8
Es importante anotar que en el denominado perceptrón multinivel son permitidos
diferentes tipos de funciones de activación, especialmente para las capas
escondidas (capas que no corresponden a la salida de la red). En la mayoría de
casos los perceptrones de las capas escondidas tienen funciones de activación
sigmoidales del tipo:
1
1( )
1 exp( 2 )g a
aβ=
+ − (5)
ó,
( ) ( )2 tanhg a aβ= (6)
En donde β es una constante que por ahora asumiremos tiene valor β=1/2. La
diferencia entre ambas funciones está dada por 2 1( ) 2 ( ) 1g a g aβ = − . Una
comparación entre las dos funciones se puede ver en la Fig. 9. Nótese que la forma
de ambas funciones es exactamente la misma, el cambio está en que la primera
función tiene su valor mínimo en 0, mientras que la segunda lo alcanza en -1.
34
Fig. 9
De la constante β va a depender la rapidez con la que la función alcance los
extremos. (Véase Fig. 10). A medida que β →∞ la forma de la función es más
parecida a la función de activación del Perceptrón (ver (4))
Fig. 10
Como lo describe Bishop (1995, pp. 121-122, pp. 226-228), la razón para que
éstas funciones de activación sean diferentes es que cumplen diferentes funciones
dentro de la red. Biológicamente pueden representar “…fuerzas variables en el
disparo de la neurona, retrasos en la sinapsis, fluctuación aleatorias de los
transmisores de liberación en vesículas discretas, entre otras. Éstos efectos se
pueden pensar como ruido…” como lo describe Hertz et al. (1991). Más adelante
se presentará la forma en la que afecta el ruido a las Redes de Hopfield.
35
Aprendizaje
Según Valiant (1999, pp. 38-40) existen dos dicotomías básicas en el aprendizaje,
la primera: memorización y aprendizaje inductivo, y la segunda: aprendizaje
supervisado y aprendizaje no supervisado. La primera de ellas la describe como:
La memorización es simplemente el almacenamiento de alguna información que es explícitamente presentada o internamente deducida… La segunda noción, aprendizaje inductivo, la definimos esencialmente negativamente, como cualquier forma de obtención de información en donde la información adquirida no está explícitamente dada o necesariamente implícita por la que se da explícitamente. (Valiant, 1999, pp. 38).
La diferencia entre el aprendizaje supervisado y no supervisado es descrita por el
mismo autor de la siguiente manera:
En el caso de aprendizaje supervisado, la información que describe cada ejemplo es acompañada por información de un segundo tipo llamada etiqueta. La etiqueta puede ser dada por un instructor o deducida por algún proceso interno por el aprendiz…. En el caso de aprendizaje no supervisado, por otro lado, solamente se presenta la información que describe los ejemplos, sin ningún comentario adicional. (Valiant, 1999, pp. 38).
Adicionalmente, es posible distinguir dos tipos de aprendizaje supervisado: el
aprendizaje por refuerzo, en donde el aprendiz obtiene como “realimentación si la
respuesta que dio a una entrada específica es correcta o no” (Hertz et al., 1991,
pp. 10), es decir, simplemente se presenta la respuesta a una entrada y el
aprendizaje supervisado común, en donde el aprendiz conoce durante el proceso
de aprendizaje, ejemplos de las respuestas deseadas.
El aprendizaje de las redes neuronales artificiales, se basa en la actualización de
los pesos de acuerdo a las entradas de cada perceptrón. Éste proceso se conoce
comúnmente como entrenamiento y, en sus aplicaciones más comunes el
entrenamiento es supervisado.
Lo que la red conoce, está implícitamente guardado en la configuración de los
pesos de las conexiones entre ellas. La red es simplemente un sistema que
relaciona entradas con salidas. Los pesos juegan un papel muy importante pues
ellos dan la relación de entrada-salid del sistema. La red como tal no guarda
36
información como se podría pensar desde el punto de vista computacional en
donde la información se encuentra almacenada y se busca mediante un indexador
que busca una posición de memoria en la que pueda guardar información o
extraerla. Más adelante, en la sección de redes de Hopfield y mapas de Kohonen
se extiende ésta información.
Entrenamiento Supervisado del Perceptrón
Para entrenar un Perceptrón suponemos un conjunto de datos de entrenamiento
etiquetado. Los datos pueden pertenecer a dos clases en cuyo caso las podremos
diferenciar por un valor 0 ó 1 (en algunos casos como -1 o +1) dependiendo de la
clase.
Con base al conjunto de datos de entrenamiento es posible calcular un error
conocido como el criterio del Perceptrón (Bishop, 1995), que consiste en contar el
número de puntos mal clasificados por el perceptrón (en el estado actual),
multiplicados por el vector de pesos.
El compromiso del algoritmo es la minimización de dicho error. El algoritmo
propuesto en Bishop (1995, pp. 100) consiste en utilizar el método de optimización
gradient descent:
( ) ( )1 n nj j jw w x tτ τ η+ = + (7)
En donde tn es la etiqueta correspondiente a la entrada particular nx (con valores
posibles +1 y -1) y n identifica un elemento particular del conjunto de
entrenamiento. La constante η se denomina tasa de aprendizaje, que suele tener
un valor pequeño y en algunos algoritmos se asume que decrece con el tiempo
(ésta propiedad de decrecimiento será importante cuando se haga la comparación
entre los modelos artificial y las observaciones en el campo biológico). La
expresión n njx t viene de la derivada de el criterio del perceptrón con respecto al
37
peso wj, por lo que está midiendo que tanto afecta ese peso específico en el error y
de esa manera corrige el peso en menor o mayor medida.
Éste algoritmo converge a una solución, para un número finito de pasos solamente
si los datos son linealmente separables. Si no es el caso, el algoritmo se quedaría
iterando infinitamente a menos que se permita cierto error en la actualización de
los pesos como un criterio de parada para el algoritmo. Sin embargo el valor
encontrado con éste criterio de parada puede no acercarse mucho al valor óptimo
que puede separar los datos linealmente.
Existe un algoritmo más eficiente que el perceptrón denominado perceptrón con
bolsillo que consiste en guardar el error más pequeño hasta el momento y la
configuración de pesos que lo producen. Luego de un número de iteraciones pre-
establecido o de algún criterio de error de parada, se toman éstos pesos como los
óptimos para producir el menor de generalización. Para un estudio más profundo
léase Bishop (1995, pp. 354-357) y/o Gallant (1990).
Entrenamiento supervisado del perceptrón multinivel
El proceso de actualización de los pesos en un Perceptrón multinivel es mucho
más complejo que en el caso anterior, puesto que no es tan sencillo encontrar la
relación entre el error de salida y los pesos, específicamente los de las capas
internas. Existe un algoritmo denominado Back-Propagation (Rumelhart et al.,
1986) que calcula dichas relaciones y actualiza los pesos.
El algoritmo se lleva a cabo en dos partes. En la primera parte, llamada forward
propagation, se hace pasar una de las entradas etiquetadas hasta que se obtiene a
la salida de la red la respuesta para la señal.
Durante la segunda etapa se calcula la relación que existe entre el error y los
pesos, con el fin de modificarlos para minimizar el error. Por facilidad suponemos
38
un ejemplo sencillo de una capa escondida con tres neuronas en la capa
escondida y una en la capa de salida, como se muestra en la Fig. 11.
Fig. 11
A continuación se definen los elementos que se muestran en la Fig. 11 y que
servirán como apoyo para explicar el proceso que se lleva a cabo en el algoritmo:
- yk: Salida de la red. El subíndice k indica sugiere la posibilidad de más de una
salida de la red.
- ak : Es la suma de las entradas ponderadas por los pesos de la neurona de la
capa de salida.
- wj: Peso j de la neurona de la capa de salida.
- yj: Salida de la neurona j de la capa escondida.
- aj: Suma de las entradas de la neurona j de la capa escondida ponderadas por
los pesos de dicha neurona.
- wij: Pesos correspondientes a la entrada i de la neurona j de la capa de
entrada.
- En: Será el error producido por una entrada xn específica a la red. Éste error se
calcula con base en los datos de entrenamiento.
39
Podemos deducir la contribución al error de cada uno de los pesos de la capa
escondida, apoyándonos en la regla de la cadena, de la siguiente manera:
n
jk k k
ij k k k j ij
ay a wE E
w y a w a w
∂∂ ∂ ∂∂ ∂=
∂ ∂ ∂ ∂ ∂ ∂ (8)
Es fácil obtener el valor del primer término en (8) pues el error es calculado en
términos de la salida, además suele ser una función cuadrática fácilmente
derivable, véase Bishop (1995, pp. 194-198).
Sobre el segundo término sabemos que depende exclusivamente de la forma que
tome la función de activación para ésta neurona. En éste punto es importante
aclarar que, en términos computacionales, es más fácil calcular la derivada de una
función sigmoidal como en (5) ó (6), que de una función paso como en (4).
El tercer término es fácil de calcular pues sabemos que:
k j kk
a y w=∑ (9)
en donde yj corresponde a la salida de la neurona j en la capa escondida y wk es el
peso de la entrada k a la neurona de la capa de salida. De (9) podemos observar
que la dependencia de ak en términos de wk es lineal y como consecuencia el
tercer término de (8) es fácilmente calculable.
Para el cuarto término tenemos el mismo caso que en el segundo término con la
excepción de que no todas las relaciones entre wk y aj existen por lo que sus
derivadas toman el valor de 0.
Finalmente el último término se calcula de la misma manera que el tercer término.
Ahora que es posible calcular todos los términos de la expresión (8) el algoritmo
puede actualizar los pesos de la red de una manera parecida a como lo haría el
algoritmo del Perceptrón. Para describir el procedimiento definamos dos términos
que facilitarán la escritura matemática de la actualización:
40
δj y δk: Se llamarán errores y se definen mediante las siguientes relaciones:
nk
kk k k
nk k
j kj k j
ydE E
da y a
a wE
a w a
δ
δ δ
∂∂= =
∂ ∂
∂ ∂∂= =∂ ∂ ∂
(10)
El algoritmo de actualización debe entonces modificar los pesos de acuerdo a:
ij j i
k k j
w x
w y
ηδηδ
∆ = −
∆ = − (11)
Teniendo éstas definiciones podemos modificar (10) para el caso de la capa de
salida de la siguiente manera:
( )'n
k kk
Eg a
yδ
∂=
∂ (12)
Explicaciones más detalladas y variaciones de Back-Propagation en Bishop (1995,
pp. 117-163) y/o Hertz et al. (1991, pp. 115-163) y/o Haykin (1994, pp. 185-201).
Función XOR
Cuando se creó el modelo del perceptrón se tenía la restricción de no poder
realizar sino una función lógica AND y esto limitaba la capacidad computacional de
las neuronas individuales. Sin embargo, cuando se construyeron redes multicapa
fue posible, no solamente implementar la función AND, sino también la XOR. Es
bien conocido que con base a estas dos funciones es posible implementar
cualquier otra función lógica, por lo que el poder computacional de las redes
multicapa se ve altamente incrementado. Bishop (Bishop, 1995, pp. 86,104;
Spitzer, 1999, pp.116).
Algoritmos de poda
Existen algunos otros algoritmos que permiten afinar un poco la respuesta de las
redes multicapa presentadas hasta ahora. Algunos métodos se mencionan en
41
Bishop (1991, pp. 353-364) y se conocen mediante los nombre de pruning (poda) y
growing (crecimiento). El primero consiste básicamente en la eliminación de las
conexiones de algunas neuronas, tratando de minimizar el error de la respuesta de
la red. El segundo es el caso contrario: se parte de unas pocas neuronas y se van
creando conexiones poco a poco entre ellas, luego se agregan más neuronas, y
así suscesivamente.
Arquitectura dual de redes Multicapa
La implementación del algoritmo de Back-propagation es bastante lenta y tediosa,
por lo que no parece ser posible que el aprendizaje, biológicamente hablando, se
posible llevarse a cabo de ésta manera. Sin embargo, Zipser et al (1990, pp. 197-
199) han propuesto una arquitectura-mixta que tendría una mayor aproximación al
caso biológico y que utiliza la arquitectura de red multicapa manifestada
anteriormente. La técnica consiste, básicamente, en utilizar dos redes: una red
cuya función sería recibir la información, procesarla y brindar una salida tal y como
se hace en el proceso de forward propagation, la arquitectura es exactamente la
misma que la mostrada en la sección de redes neuronales multicapa; la otra
tendría la tarea de modificar los pesos y su arquitectura sería un tanto similar,
aunque en lugar de hacer los cálculos que realizaría el perceptrón, calcularía los
valores de (10) para todas las neuronas (su tarea es realizar el cálculo de los
valores de los errores que antes deducía el algoritmo de back-propagation).
Finalmente, cada neurona sería capaz de “auto-modificar” sus pesos con base en
la información recibida por la segunda red de propagación inversa. Sin embargo,
es justo anotar que la segunda red lleva a cabo cálculos un poco más complejos
que los realizados por el modelo de la neurona (por ejemplo la multiplicación de
señales de entrada). Adicionalmente, la última red mencionada, no cuenta con una
función de activación sigmoidal sino lineal.
42
Fig. 12
La Fig. 12 muestra la arquitectura de la red que se describió anteriormente. Los
cuadros nombrados como E1...E4 son los encargados de realizar el cálculo del
error de cada una de las neuronas dependiendo de t1 y la salida y1 actuales. Las
líneas punteadas representan la conexión entre las neuronas tal y como se
presentan en la arquitectura descrita en la sección anterior. Las líneas sólidas son
las conexiones entre las neuronas y los bloques de cálculo de error y una más
marcada se hace para distinguirla de la otra.
El funcionamiento se basa en el algoritmo de back-propagation, es decir que
cuando la red se está entrenando, se hace el proceso de forward propagation y
con base a la salida y y a la salida esperada t, se calculan los errores que luego
son pasados a la neuronas de la última capa y a las unidades que calculan el error
en la capa anterior. Allí se calcula el error las neuronas de esa capa, se pasa la
información a las neuronas de ésa capa y a las unidades de la capa anterior y así
sucesivamente, hasta que todas las capas hayan tenido calculado los pesos.
Adicionalmente, mientras se realiza el proceso, las neuronas que reciben la
43
información de las unidades de error, son capaces de corregir las conexiones entre
éstas y las neuronas de la capa anterior, a menos que sea la capa de entrada en
donde se actualizan las conexiones con las señales de entrada. En éste modelo se
asume que la responsable de darle un peso a la conexión es la neurona después
de la sinapsis, ésta propiedad puede ser una limitante del modelo si se compara
con las sinapsis en la sección que describía las neuronas (página 25 de éste
documento).
En resumen, la red de propagación inversa es capaz de calcular (12) y producir
como salida el resultado de ésta operación, con base en la información
proporcionada por el resultado de la operación, calculan los pesos mostrados en
(11). Una condición importante que se debe tener en cuenta (y que se deriva de la
descripción matemática, referirse a Zipser & Rumelhart, 1990) es que los pesos de
las conexiones de los bloques de error deben ser: 1 para t, -1para y y uij=wji para
las conexiones de las capas escondidas. De ésta manera, al actualizar las
conexiones entre las neuronas de forward-propagation, se deben actualizar
también los pesos de las conexiones de la red de back-propagation.
De éste modelo se deriva una forma diferente para calcular los pesos. Es la
neurona y no el algoritmo el que debe implementar el cambio.
Redes de Hopfield
Otro tipo de red Neuronal muy estudiado, incluso antes de las redes neuronales
multinivel, es la red de Hopfield o tipo Hopfield. Su nombre se da luego de la
contribución de Hopfield (1982) en donde “introduce la idea de Función de Energía
en la teoría de Redes Neuronales” (Hertz et al., 1991).
Una de las aplicaciones más comunes de las redes tipo Hopfield es la memoria
direccionable por contenido. Aunque dicha red tiene otras aplicaciones comunes, la
memoria es la que nos interesa en éste caso.
Una memoria direccionable por contenido es capaz de identificar un elemento
guardado en la memoria a partir de un elemento ruidoso dado, como por ejemplo
44
parte de una fotografía o una fotografía muy borrosa. En palabras más formales es
capaz de:
Guardar un conjunto de p patrones uiξ -en donde u=1,2,…,p es un patrón e i=1,2,…,N (N será
el número de neuronas) representa el iésimo elemento del patrón12- de tal manera que cuando se presente un nuevo patrón ζi, la red responde produciendo cualquiera de los patrones que se han guardado que mas se parece a ζi. (Hertz, J et al. , 1991, pp. 11).
Las Redes Neuronales tipo Hopfield son redes realimentadas de una capa. Todas
las neuronas dentro de una red de Hopfield están interconectadas entre sí con
pesos wij, con el subíndice ij se indica que la conexión está hecha desde la
neurona i hasta la neurona j. Las única conexión que no es permitida dentro de una
red de Hopfield es en el caso en el que i=j, es decir cuando una neurona se
conecta a sí misma. En la Fig. 13 se ilustra una red de Hopfield de 5 neuronas.
Fig. 13
A partir de la Fig. 13 es posible deducir la ecuación de salida de cada neurona,
asumiendo que cada una es modelada como un perceptrón y que existe un retraso
de una unidad de tiempo entre la salida y la salida. Para una neurona i la salida
será:
,
i ij ji i j
S g w S≠
=
∑ (13)
El algoritmo consiste en utilizar (13) en repetidas ocasiones hasta alcanzar un
punto en el que S se estabilice y de ésta manera la red es capaz de encontrar un
patrón guardado en el lugar en el que se ha estabilizado. La ecuación (13) es
conocida también como regla de evolución.
12 Las anotaciónes entre guiones son comentarios realizados por el autor
45
El proceso de aprendizaje en las redes de Hopfield difiere bastante con los
enseñados anteriormente. Los pesos son preestablecidos de acuerdo al postulado
de aprendizaje de Hebb13:
1
1 pu u
ij i ju
wN
ξ ξ=
= ∑ (14)
Funciones de Energía
Una forma diferente de ver las redes de Hopfield es mediante el uso de las
funciones de energía. La idea de una función de energía en las redes de Hopfield
es inspirada en las funciones de energía utilizadas para modelar los sistemas
magnéticos. Aunque en redes neuronales el término energía no es el más
preciso, se denominan de ésta manera por la analogía que se hace con dichos
sistemas. “La propiedad central de una función de energía es que siempre
decrece (o permanece constante) mientras el sistema avanza de acuerdo a su
regla de evolución.” (Hertz et Al, 1991, pp. 21).
Si se tiene presente que la función siempre disminuye, es posible utilizar los
mínimos (llamados attractors) de la función para almacenar los patrones
requeridos por la memoria asociativa. La única condición que deben cumplir las
redes de Hopfield con el fin de asociar una función de energía a ellas es que los
pesos deben ser simétricos, es decir ij jiw w= .
La función de energía asociada a una red de Hopfield determinística es14:
13 En Hertz, J et al. (1991, pp. 15-17) es posible encontrar una descripción detallada del procedimiento para
hallar (14). 14 En Hertz, J. et Al (1991, pp. 22) se prueba que la función de Energía (15) siempre decrece.
46
1
2 ij i jij
H w S S= − ∑ (15)
Capacidad de almacenamiento y Estados Espurios de las Redes de Hopfield
Dentro del conjunto de mínimos de la función de energía de una red de Hopfield
es posible encontrar, además de los que se utilizan para guardar la información
de la memoria asociativa, algunos otros estados que no corresponden a ninguna
información y que se pueden interpretar como ruido.
Existen tres diferentes clases de estados espurios como lo describe Hertz, et al.
(1991, pp. 24). El primero es debido a que un estado de memoria representa Si y
su contraparte –Si. Es decir que el sistema representa a ξi y -ξi en un mismo
“attractor”.
El segundo tipo de estado espurio es debido a la suma de un número impar de
tres patrones. La condición de estabilidad se puede dar en un estado como el
siguiente:
( )1 2 3ss g ξ ξ ξ= ± ± ± (16)
Finalmente, el tercer tipo es debido a una mayor cantidad de estados diseñados
en la red de los que son necesarios, es decir, puedo querer una red de tan solo K
patrones, pero el diseño real se hace de p patrones con p>K.
Existe un error inherente en la respuesta de la red neuronal, debido a estos
estados espurios. El error podrá hacer que el “attractor” para alguna entrada
inicial, la salida no sea la correcta. La probabilidad de que exista ese error puede
ser modificada de acuerdo a la cantidad de elementos que se quieran almacenar
47
(p) y al número de neuronas (N) de la red.15 Por ejemplo, para lograr una
probabilidad de error de 0.001 el valor máximo de p debe ser 0.105N.
Redes de Hopfield Estocásticas
Hasta ahora se han considerado las denominadas redes de Hopfield
determinísticas, sin embargo, es importante tomar en cuenta las redes de
Hopfield estocásticas ya que dan una versión más real de lo que ocurre a nivel
biológico en el cerebro. La diferencia básica radica en que la probabilidad de la
respuesta de las neuronas tiene la forma de (5), es decir:
( ) 1( 1)
1 exp( 2 )i ii
P S f hhβ β
= ± = ± =+ m
(17)
en donde
,
i ij ji i j
h w S≠
=∑ (18)
En las redes estocásticas no se mide como tal la salida de la neurona después de
su activación, sino la probabilidad de que la neurona tenga valores de +1 y -1. “Es
posible reinterpretar (17) como una función de activación ordinaria con un umbral
aleatorio θ descrito por una densidad de probabilidad dada como ( )'fβ θ .”(Hertz et
al., 1991).
Como anota Hertz et al. (1991), el comportamiento estocástico en las neuronas
reales se puede deber a variaciones en la fuerza de disparo de la neurona, y a
retrasos entre las sinapsis, entre otras causas. Una consecuencia de utilizar
variables aleatorias como salida de las neuronas es que se disminuyen los
estados espurios. El valor de β indica que tan ruidosa es la neurona.
15 En la Tabla 2.1 en Hertz et al. (1991, p. 19) es posible encontrar algunas probabilidades de error de acuerdo
a la relación entre p y N. También se encuentra el procedimiento para hallar los resultados en Hertz et al. (1991, pp. 19-20)
48
Redes de Hopfield continuas
El tratamiento que se ha hecho en las redes de Hopfield hasta ahora ha sido en
tiempo discreto. Sin existe un modelo de red de Hopfield en tiempo continuo que
se aproxima más al funcionamiento biológico del cerebro.
Siguiendo la notación de Hertz et Al. (1991) los valores de salida para la neurona i
será renombradas como Vi y sus entradas como ui. De ésta manera (13) se
redefinirá como:
( )i i ij jj
V g u g w V
= = ∑ (19)
en donde la función g puede estar descrita por (5) ó (6).
Las salidas de las neuronas pueden ser actualizad as de tres maneras diferentes:
asincrónicamente (en donde se selecciona únicamente una neurona para ser
actualizada), sincrónicamente (todas las neuronas se actualizan al mismo tiempo)
y de manera continua, en donde todas las neuronas cambian continuamente y
sincrónicamente.
La forma de actualización continua puede ser descrita mediante la siguiente
ecuación:
( )ii i j j
j
dVV g wi V
dtτ = − + ∑ (20)
Hertz(1991, pp.54, 56-57) demuestra que el comportamiento de la ecuación (20)
contiene los requeridos “attractors” para poder describir la red de Hopfield.
La función de energía de la red de Hopfield continua como la describe Hopfield
(1984) es:
49
( )1
0
1
2
Vi
ij i jij i
H w VV g V dV−= − +∑ ∑∫ (21)
Máquinas de Boltzman
Las máquinas de Boltzman son redes neuronales recurrentes, es decir, las
conexiones entre las diferentes neuronas se permiten de atrás hacia adelante y de
una neurona a sí misma. Como comenta Hertz et al. (1991, pp. 163), las redes
recurrentes no necesariamente son estables, incluso para entradas constantes.
En particular, las maquinas de Boltzman requieren, como las redes de Hopfield
anteriormente mencionadas, que las conexiones entre las neuronas sean
simétricas ( ij jiw w= ). Hertz et al. (1991) agrega que éste tipo de redes se pueden
considerar como redes de Hopfield que tienen capas escondidas y señala que las
neuronas son clasificables de tres formas a saber como: unidades escondidas,
unidades de salida y unidades de entrada.
Fig. 14
En la Fig. 14 se visualiza un ejemplo de máquina de Boltzman. Las líneas entre
neuronas indican la conexión entre ellas en ambas direcciones. Aunque las
conexiones no están completas, la figura ilustra la similitud que existe con el
perceptrón multinivel (presentada en la Fig. 8).
50
Otra condición que deben cumplir las neuronas en las máquinas de Boltzman es
que son estocásticas, es decir que la salida de cada neurona está determinada,
como en las redes de Hopfield estocásticas, mediante las ecuaciones (17) y (18).
Existe una función de energía definida como en (15) que tiene un mínimo cuando
el sistema es estable.
Como da a entender Hertz et al. (1991), para describir ésta red es necesario definir
la distribución de Boltzman-Gibbs que da la probabilidad de encontrar el sistema
en un estado en particular después de que se ha alcanzado un estado estable y
por la cual se deriva el nombre de éste tipo de red recurrente. La distribución está
definida como:
( ) { }( )exp ii
H SP S Z
β−= (22)
en donde,
{ }( ){ }
exp iSi
Z H Sβ= −∑ (23)
En el proceso de aprendizaje de una red de éste tipo, lo que se trata de hacer es
que las conexiones entre cada una de las neuronas se ajusten de tal manera, que
las unidades de entrada y de salida tengan una función de probabilidad específica.
El proceso de aprendizaje de una máquina de Boltzman es lento por el número de
cálculos que se deben realizar en parte porque es un proceso estocástico. Dentro
de los usos más comunes de éste tipo de redes se encuentra el reconocimiento de
patrones. Sin embargo por su complejidad se utiliza más el perceptrón multinivel
que este tipo de redes.
Técnicas de Aprendizaje no supervisado
Como se mencionó anteriormente, existe un tipo de aprendizaje que no requiere
una entrada externa que diga si el “concepto” aprendido es correcto o no. El
sistema, toma las entradas y mediante un análisis, es capaz de actualizar los
51
pesos sin necesidad de un “oráculo” que conteste a la pregunta de si es o no
correcta la salida que está produciendo. Ya se ha dicho que éste tipo de
aprendizaje se denomina aprendizaje no supervisado. A continuación se describen
una serie de algoritmos y redes que permiten obtener un aprendizaje no
supervisado.
Dentro de las redes neuronales que se basan en el aprendizaje no supervisado,
podemos encontrar cierto tipo de redes que aprenden mediante competencia.
Como comenta Fausett (1994), el tipo de competencia más utilizado es el
denominado winner takes all en donde al final del proceso de aprendizaje, queda
una neurona que se activa dada una entrada específica; las neuronas restantes no
son activadas por el patrón de entrada, aunque pueden activarse para otros
patrones.
Se han investigado varias redes de éste tipo y dentro de los más conocidos
algoritmos se encuentran MAXNET, Mexican Hat, Hamming Net, las redes de
Kohonen, LVQ (Learning Vector Quantization), Counterpropagation y Adaptive
Vector Resonance. A excepción de las redes de Kohonen, las otras arquitecturas
tienen una construcción demasiado ceñida y en general no parecen ajustarse a
ninguna arquitectura posible en el cerebro, razón por la cual, van a ser de utilidad
en la investigación. (si se desea profundizar sobre la arquitectura y los algoritmos
de éstas redes en Hertz et. al (1991) se encuentra una buena explicación).
Existen redes neuronales en las que se combinan redes de aprendizaje
supervisado y de aprendizaje no supervisado. Como describe Hertz et al (1991) la
técnica consiste, en general, en tener una capa de neuronas que aprenden de
forma no supervisada y varias capas que se entrenan con el algoritmo de Back-
Propagation. La red mencionada anteriormente “counterpropagation” es realmente
una técnica híbrida.
52
Mapas de Kohonen
Los mapas de Kohonen (Kohonen self-organizing maps como los llama Fausett
(1994)) pertenecen a un grupo de redes neuronales denominadas “redes
neuronales basadas en la competencia” (Fausett, 1994). Éste tipo de redes
neuronales se caracteriza por la existencia de una neurona que tenga una
activación mayor dado un estímulo, es decir, si se presenta una entrada a la red
neuronal, habrá una neurona con un mayor nivel de activación y se denominará
‘neurona ganadora’. El aprendizaje de este tipo de redes neuronales se basa en el
denominado aprendizaje de Kohonen. El aprendizaje de Kohonen consiste en la
actualización de los pesos “formando un nuevo vector de pesos que es una
combinación lineal de los pesos anteriores y del vector de entradas actual”
(Fausett, 1994, pp. 157).
La arquitectura básica de un mapa de Kohonen se podría describir como un
perceptrón de una capa con n numero de entradas. La función de activación en los
mapas de Kohonen es lineal es decir, la salida de cada neurona es ij iy w x=∑ . Un
diagrama que evidencia la arquitectura de un mapa de Kohonen con 4
perceptrones, o como las llama Kohonen (1982), unidades de procesamiento, se
expone en la Fig. 15.
Fig. 15
A diferencia del entrenamiento realizado para un perceptrón, en donde la
actualización de los pesos depende del error obtenido por la red, las redes de
53
Kohonen modifican los vectores de pesos de cada uno de los perceptrones
basadas en la unidad que tenga una mayor magnitud en su respuesta, osea la
neurona ganadora. Para tal efecto debe existir un mecanismo que detecte la mayor
respuesta y sea capaz de actualizar los pesos de la neurona ganadora, de la
siguiente manera:
( )( ) ( )( ) ( )
1 ijij
ij
w t x tw t
w t x t
α
α
++ =
+ (24)
En donde el numerador representa la normalización de la operación y α es
denominado el parámetro de ganancia. Dicha normalización como se anota en el
paper original (Kohonen, 1982) ayuda a incrementar la selectividad y ayuda a
mantener los recursos dentro de un rango definido. En el mismo paper anota la
diferencia existente con el perceptrón, que es, básicamente, que “la dirección de
las correcciones es siempre la misma que la dirección de x” y que por lo tanto no
se requiere un proceso de supervisión.
Sin embargo en la mayoría de los casos no se actualiza únicamente la neurona
ganadora, tambien se suelen actualizar algunas neuronas cercanas a la ganadora
dentro de un radio especificado. Para hacer esto posible se debe asumir una
“estructura topológica de las unidades de agrupamiento” (Fausett, 1994). Las
estructuras utilizadas en la mayoria de los casos son cuadrados o hexagonos como
se muestra en la Fig. 16 en donde el circulo en blanco representa la neurona
ganadora y los circulos negros representan los vecinos. Cada rectángulo o
hexágono representa un radio, asi el Radio 0 involucra unicamente a la neurona
ganadora, el Radio 1 representa a los vecinos más cercanos, el radio 2 involucra a
los vecinos más cercanos y los vecinos más cercanos de las neuronas de radio 1.
54
Fig. 1616
Al finalizar el procedimiento de entrenamiento de los mapas de Kohonen lo que se
obtienen son neuronas especializadas que se activan ante ciertas entradas y que
pueden identificar entradas parecidos a los datos con los que fue entrenada. Las
neuronas que se activan, dada una entrada específica se localizan ‘físicamente’
dentro del arreglo neuronal. Ésta característica es bastante importante ya que se
asimila mucho a los mapas trazados en el cerebro, de los cuales ya se ha hablado
y se se hablará más adelante, con el fin de realizar comparaciones.
Campos neuronales auto-organizativos
Aunque el siguiente modelo no corresponde con exactitud a un modelo de redes
neuronales artificiales, sino un modelo mátematico del comportamiento de los
campos neuronales biológicos, se analiza en ésta sección porque su pertinencia y
por que se considera que es más fácil de entender con los conceptos que se han
estudiado. Es importante aclarar que NO es un modelo artificial.
Recuerde que Amari(1990) definió un campo neuronal como “un trozo de tejido
cortical en el que muchas neuronas son continuamente organizadas”.
Matemáticamente hablando denomina F a un campo de éstos. Además puede
direccionar un punto del campo mediante las coordenadas ( )1 2,ξ ξ ξ= , suponiendo,
16 Diagramas basados en las Figuras 4.7 y 4.6 en Fausett (1994, pp. 171)
55
en principio que el campo es de dos dimensiones únicamentre. Se define ( ),u tξ
como potencial promedio alrededor de la posición ξ en el tiempo t.
La ecuación (25) describe la dinámica del potencial de un campo. En ella V
representa la suma de los estímulos de entrada del campo en la posición ξ y el
tiempo t, h es el potencial de descanso y τ es la constante de tiempo de la
ecuación.
( ) ( ) ( )
,, ,
u tu t V t h
t
ξτ ξ ξ∂
= − + −∂
(25)
Similar a la salida de un perceptrón, se definen el promedio de salidas z en la
posición ξ y el tiempo t como se muestra en la ecuación (26) la forma de un paso
tal y como se describe en la ecuación (27)
( ) ( )z ,t ,f u tξ ξ= (26)
1 0
( )1 0
si ag a
si a
− <=
≥ (27)
Adicionalmente, las neuronas del campo pueden recibir estímulos de neuronas
internas y externas, por lo que es necesario definir dos clases de conexiones. Para
las neuronas internas, el promedio de los pesos de la conexiones eficaces se
define mediante w(ξ,ξ’), en donde ξ corresponde a la posición del campo
“presináptica” y ξ’ la posición del campo postsináptica. El conjunto de conexiones
que reciben los estímulos externos es definido como ( ) ( ) ( ) ( ){ }1 2, ,..., ns s s sξ ξ ξ ξ= ,
en donde n es la dimensión del estímulo provenientes del exterior y los subindices
corresponden a la unidad de estímulo que conecta al campo en la posición ξ. El
estímulo es definido como un conjunto de unidades de estímulo de la siguiente
manera: { }1 2, ,..., nx x x x= .
56
La suma de los estimulos internos del campo, en la posición ξ es definida como la
convolución entre los pesos y la función de activación de las neuronas
presinapticas en ξ’. La definición formal se muestra en la ecuación (28)
( ) ( ) ( ), ,w f u w f u t dξ ξ ξ ξ′ ′ ′= ∫o (28)
Adicionalmente, la contribución de los estimulos es:
( ) ( ) ( ), o oV x s x s xξ ξ ξ= − (29)
en donde el úitlimo término se refiere a la eficacia de las neuronas inhibitorias.
La ecuación que muestra la dínamica del campo queda, teniendo en cuenta las
anteiores definiciones, de la siguiente manera:
( ) ( ) ( )
,, ,
u tu t w f V t h
t
ξτ ξ ξ∂
= − + + −∂
o (30)
Ésta ecuación da una idea del comportamiento del potencial cuando ocurren
estímulos en el campo por medios externos y por medios internos.
Para resolver la ecuación se supone un estado de equilibrio arbitrario para el
potencial. El resultado es una ecuación exponencial dependiente del tiempo,
alrededor del punto ξ con constante τ.
En general el resultado de activar un punto específico ξ tiende a activar, en menor
medida, una región alrededor del mismo. Ésta región se denomina E(x) y se define
como:
( ) ( ){ }, 0E x U xξ ξ= > (31)
en donde U(ξ,x) representa el punto de equilibrio del que se había hablado para
dar solución a la ecuación (30)
57
Adicionalmente el modelo exige que las conexiones efectivas de las neuronas
dentro del campo son excitatorias si el grupo de neuronas en ξ’ están en un radio
pequeño y son inhibitorias si se presentan fuera de ése radio. Esto implica que el
conjunto de señales externas que activan la región E(x) debe ser bien preciso,
pues si no lo fuera excitaria neuronas en otros puntos que inhibirían la respuesta
del E(x) y no alcanzarían a cruzar el umbral para obtener la respuesta z en 1 de las
neuronas en ξ.
Con el fin de introducir la modificación de las conexiones provenientes del exterior
al campo F, Amari introduce una ecuación que describe un decaimiento de la
eficacia de la conexión con una constante de tiempo muy grande y un incremento
proporcional a la intensidad de la señal si la neurona se activa. A continuación se
presenta la ecuación:
( ) ( ) ( )
,, ,
s ts t cxf u x
t
ξτ ξ ξ∂′ = − + ∂
(32)
en donde c es una constante. Para so se tiene una ecuación de la misma forma,
con una constante c’. SI ahora se analiza cual es el cambio de la suma de los
estimulos dado que existe un cambio en los pesos, se obtiene una ecuación de la
forma:
( ) ( ) ( ),
, ( , ') ,V t
V t k x x U xt
ξτ ξ ξ∂′ = − + ∂ (33)
en donde
( ), ' 'tok x x cx x c x= ⋅ − (34)
Éste resultado es particularmente interesante, pues el cambio de la suma de las
señales de externas depende de lo parecidas que sean.como puede verse en (34).
Entre más parecidas sean las señales, mayor va a ser el cambio en V. Esto no es
más que aprendizaje.
58
D. Comparación entre el modelo artificial y los modelos biológicos.
Existen tres niveles de análisis para los sistemas de procesamiento de información
para David Marr. Estos niveles están descritos con profundidad en Grobstein
(1990) y se explica con brevedad a continuación.
1) Teoría computacional: En este nivel Marr (1982) mira el sistema como uno
que mapea información de un tipo en otro tipo, resuelve detalladamente las
propiedades del mapeo y demuestra si el mapeo es o no apropiado para la
tarea que realiza el sistema.
2) Representación y algoritmo: En éste nivel se decide cuales deben ser los
símbolos y los pasos que se van a utilizar para dar solución al problema. En
el caso concreto que estamos tratando sería, por un lado las redes
neuronales artificiales, la representación de las conexiones, la forma en que
van a ser almacenadas en memoria, etc.; y por el otro, serían preguntas no
completamente resueltas como ¿cómo representa la información el
cerebro?,¿Por qué se crean conexiones en el cerebro y bajo que
condiciones?, entre otras.
3) Implementación en Hardware: En éste nivel se resuelve la pregunta ¿cómo
implementamos el algoritmo planteado físicamente? Para el caso artificial se
cuenta con opciones como un computador personal o mediante circuitos
eléctricos que trabajen en paralelo; para el caso biológico el Hardware es el
cerebro (como unidad más importante) y en general el Sistema Nervioso
Central.
En éste documento nos hemos centrado hasta ahora en los niveles 2
(representación de las conexiones y algoritmos que procesan la información y
modifican las conexiones) y 3 (anatomía general del cerebro y las neuronas) que
Marr plantea. Sin embargo no se puede decir que se conocen con certeza todas
las respuestas, pues, por un lado es claro que la fisiología del cerebro y su
funcionamiento no ha sido totalmente explorada (por ejemplo no se conocen con
59
certeza las funciones de partes concretas o la arquitectura de la conexión
neuronal). Por otro lado, se ha propuesto una teoría sobre la relación entre
neuronas, se han desarrollado algoritmos y arquitecturas, se han desarrollado
modelos que permiten describir, desde el punto de vista psicológico, la codificación
de la información; pero no conocemos un algoritmo que sirva para describir el
aprendizaje de la red neuronal que pueda ser implementado en el cerebro ni la
validez absoluta de los modelos planteados.
El problema que tenemos en el primer nivel es también difícil de resolver: no se
conoce exactamente la forma en que la información es codificada en el cerebro y
por lo tanto no se puede establecer exactamente una relación entre el tipo de
información recibida y el modo como es ésta es procesada.
A continuación se mostrará que preguntas se han resuelto sobre el cerebro,
viéndolo como una gran red neuronal. Se enseñarán similitudes, diferencias y
dificultades entre los modelos biológico y artificial.
Debates entre la psicología y la ciencia computacional
Existe una rama de la psicología denominada psicología cognitiva que incluye la
investigación del aprendizaje como un sistema de procesamiento de la información
y una investigación sobre la diferencia entre la mente (consciencia) y el cerebro. En
la psicología cognitiva se utiliza un lenguaje diferente al que se utiliza en otras
ramas de la psicología. Comentan Hardy & Jackson (1998) al respecto que el
vocabulario utilizado incluye palabras como entrada, salida, procesamiento de
información que fueron inspiradas en la forma en que se habla de un computador y
las funciones que en él se llevan a cabo. Perkel (1990), agrega que se han
utilizado metáforas para describir el funcionamiento del cerebro con base en la
experiencia adquirida en el campo computacional y viceversa. Señala además que
dicha comparación se originó, en parte, por la demostración, en 1943 por
60
McCulloch y Pitts, de que una red neuronal es capaz de realizar cualquier tarea
que un sistema de entrada-salida pueda hacer.
Tenemos entonces metáforas que tratan los problemas de un lado utilizando
herramientas del otro y proponen debates como los planteados por Searle (1990) y
Churchland & Churchland (1990) sobre si debe considerarse el cerebro humano
como una máquina o si una máquina es capaz de pensar.
Perkel recalca, sin embargo, que dichas metáforas pueden aplicarse en ambos
casos siendo útiles para describir los otros sistemas, pero que en ningún caso
podrá describir completamente al otro. Podría entonces ser útil aplicar el caso de
las redes neuronales artificiales a entender el funcionamiento del cerebro.
A continuación se presentan las diferencias que existen entre el modelo artificial y
el natural: Se comenzará mencionando las que se encuentran en el último nivel de
Marr, el Hardware; luego se iniciará la discusión sobre el segundo nivel; y
finalmente se hablará del primer nivel.
Tercer nivel: El Hardware
Serial vs. paralelo
En primer lugar es necesario mencionar que el procesamiento de la información
en el cerebro se hace en forma paralela, mientras que en un computador el
procesamiento es serial, aunque la simulación sea de un proceso en paralelo. El
computador es un emulador de procesamiento en forma serial de un proceso en
paralelo.
El cerebro puede ser visto como un computador, como sugieren Churchland et al.
(1990), para quienes es muy importante resaltar que el cerebro no es un
computador serial. La sugerencia que se presenta en el trabajo de ellos es tratar
de ver el funcionamiento como un computador paralelo. De hecho hay psicólogos
que utilizan la metáfora computacional insinuando que el cerebro humano se
61
puede ver como una serie de computadores que trabajan independientemente.
(Gardner, 1993)
Mapas vs. Neuronas
Recordemos que en las investigaciones de neurología el cerebro parece procesar
la información en estructuras cilíndricas que contienen un gran número de
neuronas. El modelo artificial es supremamente simplificado en éste aspecto pues
una neurona puede simular el funcionamiento de una de éstas columnas
únicamente, como se hace en el caso de los mapas de Kohonen. La actividad de
gran número de neuronas puede asegurar una arquitectura más robusta, en el
sentido en que puede perder varias neuronas y las columnas pueden seguir
funcionando muy bien.
Unidades de procesamiento
Otro punto a tratar son las unidades de procesamiento para ambos casos:
aunque en la literatura en general es común comparar el numero de transistores
de un procesador con el número de neuronas existentes en el cerebro y la
velocidad con la que realizan el procesamiento de la información, ésta
comparación no es del todo correcta pues, aunque es claro que los transistores
en el computador son las unidades de procesamiento de la información, también
es claro que éstos no la procesan de la misma manera que lo hacen las neuronas
(o desde el punto de vista de Shepherd (1990), la sinapsis). La unidad
computacional en ambos casos es diferente y cumple diferentes funciones
específicas para llevar a cabo su tarea.
Adicionalmente, la neurona en el cerebro solamente cumple una función
inhibitoria o excitatoria que es una característica que depende de la química de la
célula y que no cambia con el tiempo o con el entrenamiento que tenga. Sin
embargo, en todos los algoritmos estudiados surge la posibilidad de que las
neuronas puedan tener ambas características dependiendo del entrenamiento
que se le dé; es decir, una neurona puede tener inicialmente naturaleza
62
inhibitoria, pero después de un entrenamiento puede ser excitatoria. Ésta
posibilidad es totalmente errónea y es un limitante del modelo artificial, pues no
concuerda con las observaciones del cerebro. Chown (s.f.)
Constante de aprendizaje y recorte de neuronas
Una cuestión que se debe discutir en éste nivel es la constante de aprendizaje
decreciente de la que se habló en la sección del entrenamiento supervisado del
perceptrón. Aunque ésta cuestión, desde el punto de vista de inteligencia artificial
parece tener cabida en el software del sistema, desde el punto de vista del
cerebro no parece formar parte del software sino del hardware, pues en las
primeras etapas del desarrollo el cerebro parece estar más acondicionado para
realizar tareas de aprendizaje que un cerebro de mayor edad (Spitzer, 1996, pp.
51-53).
Igualmente, comenta Spitzer (1996), que la tasa de mortalidad de las neuronas
en el cerebro es bastante alta y parece poco probable que el cerebro sea capaz
de generar nuevas neuronas17. No obstante, somos capaces de retener la misma
información que teníamos cuando éramos más jóvenes, de pronto no con el
mismo grado de agudeza, pero la información sigue estando “almacenada en las
conexiones” que restan en el cerebro. Ésta característica tolerante a fallos se da
también en las redes neuronales artificiales. Ya se ha visto en la sección
Algoritmos de poda
que existe un algoritmo de pruning que recorta algunas conexiones en el cerebro
y no solamente no causa daños en la respuesta de la red, sino que además
puede para mejorar su respuesta18. Cuando el recorte neuronal es demasiado
17 Aunque desde principios de los años 60 se vienen presentado algunos estudios sobre la posibilidad de la neurogénesis (nacimiento de neuronas) incluso después del nacimiento de un animal, todavía no se tiene una teoría lo suficientemente fuerte para poder dar por sentado éste hecho (Véase NINDS (2006b)). Si ésta cualidad de regeneración de neuronas fuera plausible, podría suponer la posibilidad de implementación de algoritmos de crecimiento (como los comentados en la sección Algoritmos de poda
en la página 40 de éste documento) para el entrenamiento o el aprendizaje de las redes neuronales. 18 Se debe tener claro que en el algoritmo de pruning, la intención es hacer menos compleja la red y en parte
mejorar la respuesta de la misma. Por ésta razón se realiza una búsqueda de las conexiones menos relevantes en la red (con pesos más pequeños) como describe Bishop (1995). En el caso del cerebro no se realiza una
63
grande, sin embargo, la respuesta va a ser menos coherente con la respuesta
que se espera. Lo importante aquí es señalar que las redes neuronales pueden
funcionar bien incluso cuando porciones de sus conexiones (después de
entrenadas) han sido recortadas. Hardy & Jackson (1996) comentan el caso del
secretario de Prensa de Reagan, “quien recibió un disparo en la cabeza durante
el intento de asesinato de Reagan… Pese a la lesión cortical masiva, la
personalidad la inteligencia de Brady [el secretario] están razonablemente
intactas”.
Arquitecturas
Una dificultad muy grande es que no existe claridad sobre la arquitectura exacta
del cerebro (o de partes de él), pues, como comenta Young (1985) no se conoce
exactamente el procesamiento que realizan las células cuando alguien o algo
decide llevar a cabo una acción. Spitzer (1999) comenta al respecto: “Los
investigadores no saben exactamente como se ven las células, en donde se
encuentran exactamente en la corteza, o, en particular, como y donde se
conectan sus fibras” y agrega que existen métodos nuevos de estudio como son
el PET (positron emission tomography), el EEG (electroencefalolgrama), la fMRI
(functional magnetic resonante imaging), entre otros que sirven de herramienta
para “ver” el cerebro funcionando, desde el exterior. Además, existen modelos,
con base en experimentos, que han dado lugar a arquitecturas como las descritas
en la sub-sección de mapas de la corteza que toman una porción bastante
grande de células, pero aún así no se conoce la conexión exacta entre las
células, lo que hace difícil la comparación.
Existen algunas arquitecturas que cumplen funciones similares a las estudiadas
en la sección de aprendizaje humano, como condicionamiento clásico, o
condicionamiento operante. Inclusive Hardy & Jackson (1998, pp. 339-340)
mencionan la existencia de un modelo conexionista del hipocampo desarrollado
selección detallada de las neuronas que menor relevancia tengan, por lo que hay una clara diferencia entre las dos formas de recorte.
64
por Schmajuk (Hardy & Jackson mencionan el trabajo Schmajuk y DiCarlo, 1992).
Sin embargo, estos modelos están basados más en función de la tarea que
deben cumplir que en una arquitectura real existente en el cerebro. A
continuación se presenta una breve descripción de ellos las arquitecturas de una
red que simula condicionamiento clásico y el modelo conexionista mencionados,
Modelo de condicionamiento clásico
Un modelo de condicionamiento clásico, basado en la arquitectura de redes
neuronales artificiales, es descrito en Hardy & Jackson (1998, pp. 312-315). La
arquitectura es verdaderamente sencilla. Básicamente es un perceptrón con dos
entradas (véase la Fig. 17): uno es el estímulo incondicionado y el otro es el
estimulo condicionado. Antes del condicionamiento, la conexión entre el EI y la
neurona es nula o ajustada de tal manera que el estímulo no sea capaz de
disparar la neurona, sin embargo el peso de la conexión entre EC y la neurona es
lo suficientemente grande como para lograr una respuesta en ella. Después de
que el individuo ha sido condicionado cualquiera de los dos estímulos es capaz
de producir respuesta en la neurona.
Fig. 17
Con éste modelo es posible tener un mayor número de estímulos condicionados
que pueden ser añadidos agregando más entradas al perceptrón, sin embargo, si
se diera un caso de condicionamiento en donde dos estímulos produjeran una
respuesta condicionada, pero solamente estando presentes uno a parte del otro
(es decir con los dos estímulos al tiempo no se produce respuesta), la
arquitectura de la Fig. 17 no sirve para describir el funcionamiento. Tenemos, en
éste caso el mismo problema que se describió en la sección de la función XOR
descrita anteriormente. En éste caso es necesario tener una red de dos capas
(véase Fig. 18) que, además de solucionar el problema de selección de la
respuesta dependiente de un estímulo condicionado únicamente, también se
65
puede “condicionar” primero con un estímulo y luego con el otro mediante
entrenamientos separados, como suelen darse los procesos de
condicionamiento. (Hardy & Jackson, 1999, pp. 312-315)
Fig. 1819
Sobre éste modelo es necesario decir que la conexión entre N1 y N2 debe ser
inhibitoria, pues sólo de ésta manera se lograría implementar la función XOR
necesaria para que se discriminen los estímulos condicionados entre ellos.
Un modelo más completo conocido como modelo S-D (Schmajuk-DiCarlo) que
toma en cuenta el contexto en el que se desarrolla el (o los) estímulos
condicionados será descrito más adelante en la sección que analiza el hipocampo
(página 70 de éste documento)
Rosenzweig et al. (1998, pp.673-676) mencionan un modelo que proviene de la
observación de la actividad neuronal de la reacción a un estímulo condicionado.
Se le describe mediante neuronas simples dentro del cerebelo y las conexiones
necesarias para que el estímulo pueda llegar hasta ése lugar. El caso que se
menciona es, específicamente, el condicionamiento del ojo a un parpadeo
involuntario (RC) con una variedad de estímulos condicionados. El modelo fue
elaborado por Thompson (1990), basado en estudios realizados por él y algunos
colaboradores de animales con lesiones en el cerebelo y con animales
intencionalmente drogados o con partes cerebrales extraídas. En la Fig. 19 se
muestra el modelo (que he simplificado para hacerlo más parecido al lenguaje y la
simbología utilizados en éste documento), en donde no se puede apreciar, como
en el modelo original, con detalle la ubicación de las neuronas en el cerebro y,
19 Tomado y modificado de Hardy & Jackson (1999, pp.314)
66
adicionalmente, se han recortado algunas neuronas intermedias entre las
neuronas de la capa interior y la capa exterior20. Funcionalmente, las neuronas
recortadas pueden ser reemplazadas por una sola neurona modificando los
pesos de las conexiones, pues son neuronas con una sola entrada y una sola
salida.
Fig. 1921
Es clave observar que en el modelo existen signos que indican la naturaleza de la
conexión (excitatoria o inhibitoria) y que existe una conexión recíproca entre las
neuronas de la capa interior. Adicionalmente se señalan (mediante color gris) las
neuronas que actúan en el acto reflejo cuando existe un estímulo incondicionado
únicamente. La neurona N2 se refiere al área del cerebelo que desarrolla el
condicionamiento. Thompson cree que existe un área precisa que es plástica (en
donde se pueden modificar las conexiones, quizá mediante LTP) y da origen al
condicionamiento. La conexión inhibitoria entre N2 y N1 asegura la activación de
la RC únicamente por el EC.
Modelo de la memoria
Si se acepta el modelo de la memoria presentado en la sección Memoria de
Elementos de psicología del aprendizaje, se puede hacer un bosquejo de la
estructura neuronal de éste modelo.
20 Las neuronas recortadas conectaban neuronas de las capas de salida y neuronas del cerebelo, sin embargo no
estaban conectadas a ninguna otra. Su función se puede reemplazar por pesos adecuados entre esas neuronas. Adicionalmente, la red aquí estudiada permite comprender en términos generales el funcionamiento que pretende mostrar el autor.
21 Basado en el modelo de Thompson, en Rosenzweig (1996, pp. 673)
67
El primer lugar en la recepción de estímulos es la memoria sensorial. Allí se lleva
a cabo el almacenamiento de la información sensorial por un periodo corto de
tiempo. El modelo que se podría pensar haría tal tarea podría ser el mismo que
guarda la información en la memoria a corto plazo y que será discutido más
adelante. Para pasar la información a la memoria a corto plazo se debe filtrar la
información existente en la memoria a corto plazo. El procedimiento se puede
bautizar como un pre-procesamiento de las señales de entrada (como es
conocido en el lenguaje de Machine Learning) y que toma la información más
importante de las señales recibidas para procesarlas con mayor facilidad, pues la
cantidad de información recibida por las células sensoriales es demasiado grande
y no puede procesarse al mismo tiempo. Según Hardy & Jackson (1998, pp.117-
132) en la memoria sensorial se lleva a cabo un proceso de selección de la
información que debe ser enviada a la memoria operativa. Existes varias formas
de llevar a cabo ésta selección de la información, entre estas están la atención y
el reconocimiento de patrones. De la atención el autor señala que “se ha
conceptualizado de dos formas [:]… estado de concentración en algo… [y]
…como capacidad de procesamiento, que puede distribuirse a diferentes
estímulos y actividades en distintas formas” (pp. 118)22.y sobre el reconocimiento
de patrones menciona que es la forma en como se perciben y se reconocen los
estímulos con base en información almacenada anteriormente.
En general, el reconocimiento de patrones se modela con redes multicapa sin
realimentación (aún cuando podrían implementarse con una máquina de
Boltzman), por lo que se puede utilizar una red de éste tipo aún cuando sería
mejor darle la arquitectura dual descrita en la página 41 de éste documento, pues
solucionaría el problema de implementación del aprendizaje mediante back-
propagation.
Sin embargo, comentan Zipser & Rumelhart (1990) que se presenta un problema,
pues la respuesta que dan los bloques de error pueden ser positivos o negativos,
22 Retomaremos la cuestión de la atención cuando se analice el segundo nivel de Marr
68
pero esto no es posible en la implementación neuronal real, a menos que se
puedan diferenciar unas de otras mediante una codificación especial23.
Ahora bien, la memoria a largo plazo puede tener diferentes modelos de red, o
mejor, diferentes tipos de red distribuidas en subredes de la gran red
conformando la memoria a largo plazo. Conocemos con bastante profundidad el
potencial de las redes de Hopfield para guardar información y además de poder
recuperar la información por el contenido que hay en ella (la memoria) y no como
se recupera en un computador: indicando la posición de memoria de la que se
desea extraer la información.
Sin embargo, si tenemos en cuenta la existencia de mapas en la corteza cerebral
y el modelo jerárquico que se discutió en la presentación de la memoria a largo
plazo, es válido esperar que la memoria de éste tipo se pueda modelar como un
mapa de Kohonen o como un tipo de red competitiva como los mencionados en la
página 51. En el modelo se pueden tener en cuenta ambas arquitecturas.
Finalmente es necesario mencionar como se podría modelar la memoria a corto
plazo. En White et al (2004) se explica un modelo planteado por Jaeger (2001) y
se prueba que la capacidad de la memoria es proporcional al tamaño de la red.
La arquitectura, como la comentan White et al (2004) tiene una capa, con N
neuronas { }1... NX x x= , que guardan el “estado” de la memoria, y una capa de M
neuronas de salida { }1... MY y y= , de donde se puede obtener una copia similar a
la señal de entrada. El conjunto de neuronas X permite conexiones entre ellas
como en el caso presentado en la máquina de Boltzman, mientras que las
neuronas de salida Y permiten conexiones únicamente del conjunto de neuronas
Y. La señal de entrada, s(n), cambia con el tiempo discreto n y la red es capaz de
obtener “una copia de la historia de las señales ( ){ }s m m n≤ ” (White et al, 2004)
similar a la señal de entrada. La ecuación que describe el estado de la red es:
23 Al analizar el segundo nivel de Marr se profundizará sobre la codificación de la información en el cerebro.
69
( ) ( ) ( ) ( )1x n Wx n vs n z n= − + + (35)
en donde W24 son los pesos entre las neuronas X, v es el vector de conexiones
entre la señal de entrada y las neuronas X (la condición que debe cumplir es que
su norma sea 125) y z es un factor de interferencia, que simula la pérdida de los
datos en memoria (ruido). Adicionalmente, es necesario definir las conexiones
entre las neuronas de la primera capa y la capa de salida mediante una matriz
u(k,j), en donde k representa una neurona de la capa de salida y j representa una
neurona de la capa X. Los valores de u se escojen de tal manera que se minimice
el error entre la señal de entrada y la salida, después de un manejo matemático
se llega a la conclusión de que:
1ku C p−= (36)
en donde:
( ) ( )
( ) ( )
T
n
k n
C x n x n
p s n k x n
=
= − (37)
y en donde n representa el tiempo discreto.
La actualización de los pesos entre las neuronas de la capa central se hace
mediante:
( ) ( )1
1
1
Nk k T
k
W v vα−
+
=
= ∑ (38)
en donde α es una constante muy cercana a 1 y es un parámetro que puede
ajustar la capacidad de memoria de la red.
La arquitectura se muestra en la siguiente figura. Las líneas gruesas representan
la conexión entre las neuronas X.
24 En su trabajo, White et al (2004) demuestran que aunque inicialmente asumen la matriz W ortogonal, ésta
condición no es necesaria para que el sistema sea robusto. 25 Vk
se escoge de tal manera sea ortogonal con vk-1
70
Fig. 20
Sobre el modelo, comentan los autores, que para ser viable su implementación a
nivel biológico, las conexiones ‘u’ deben ser refrescadas constantemente para
que no haya pérdida de memoria, pues siempre se están modificando las
conexiones v y W.
¿Un modelo de la arquitectura del proceso de aprendizaje?
En la Fig. 21 se propone un prototipo de la memoria mediante redes neuronales
artificiales. Ésta se divide, básicamente en cinco elementos que han sido
mencionados y explicados en la sección anterior (modelo de la memoria): señales
de entrada (estímulos) memoria sensorial, procesamiento, memoria operante o
memoria a corto plazo (MCP) y memoria a largo plazo (MLP).
El modelo supone dos células sensoriales. Cada una de ellas puede guardar
información independientemente en la memoria sensorial en la que no se ha
indicado exactamente cuántos estímulos puede guardar ni por cuanto tiempo lo
puede hacer.
El segundo bloque corresponde al procesamiento. En él se decide que
información debe ser pasada a la memoria de corto plazo. La arquitectura, como
es presentada, es una red de dos capas por simplicidad, aunque podría
extenderse a un mayor número. Recibe información de las dos memorias
sensoriales.
El tercer bloque corresponde a la memoria a corto plazo. Al igual que las
memorias sensoriales utiliza la arquitectura propuesta por Jaeger (2001),
71
explicada anteriormente (p. 68). En principio se debe asumir que la memoria debe
ser capaz de guardar una mayor cantidad de información por más tiempo que la
memoria sensorial.
Fig. 21
El último bloque corresponde a la memoria de largo plazo. Se señalan, como se
describió anteriormente, dos tipos de arquitectura red de Kohonen (arriba) y red
de Hopfield (abajo), no queriendo decir que necesariamente deban ser utilizadas
las dos, sino que cabe la posibilidad de utilizar cualquiera de las dos o las dos si
es necesario. Las líneas que conectan la MCP con la MLP son punteadas
queriendo indicar que su función no es la de pasar información como en las redes
convencionales, sino la de ajustar las conexión entre las neuronas de la red, de
acuerdo a la codificación26 que deba tener la información en la memoria a largo
plazo. Podría pensarse que las líneas punteadas pueden ser redes que modifican
los valores a los pesos, comparando la salida de las redes de MLP con la
información de las redes de MCP y ajustándolos de acuerdo a un error entre las
dos señales27.
26 Como la llaman Hardy & Jackson (1996,pp. 112) 27 Tal como lo haría la arquitectura propuesta por Zipser & Rumelhart (1990)
72
Modelo del hipocampo
Ya se ha visto que el hipocampo cumple una función importante en el proceso de
almacenamiento de la información en la memoria a largo plazo se trata. Su tarea
principal parece ser la de repetir la información (almacenada en la memoria a
corto plazo) a la corteza para modificar sus conexiones y, de ésta manera
guardarla en la memoria a largo plazo.
Schmajuk y algunos colaboradores han trabajado en las funciones que posee el
hipocampo y su relación con el condicionamiento. Concretamente, Schmajuk &
Di-Carlo (1992) muestran un modelo conexionista del hipocampo aplicando el
Modelo SD del condicionamiento.
Fig. 2228
28 Imagen que representa la función del hipocampo. Contiene una subred encargada del condicionamiento y
otra encargada deguardar la información en la memoria a largo plazo. Tomada de Schmajuk & Di-Carlo (1992, pp.277)
73
Schmajuk & Di-Carlo (1992) dividen la red en tres etapas principales. Las
primeras dos (ubicadas en la parte inferior de la Fig. 22), representan la
información almacenada en la corteza del cerebro y la salida producida por el
cerebelo son las encargadas del condicionamiento.
Para aclarar el funcionamiento suponga que no existe la etapa del hipocampo
(presentada en la parte superior de la figura). Se tiene, de ésta manera una red
de tres capas con dos capas ocultas y tres señales de entrada. Las dos primeras
entradas (CS1 y CS2) son estímulos que ya han sido condicionados y la última
entrada (CX) representa el contexto en el que se presentan los estímulos. De la
arquitectura se sabe, entonces, que es un simple rastreador de patrones que
produce una salida (CR) cuando la configuración de las señales de entrada es la
apropiada, de acuerdo a los pesos que las conectan con las neuronas de las
capas ocultas.
Adicionalmente está presente el estímulo incondicionado (UC) que es capaz de
cambiar los pesos entre las neuronas de la primera y la segunda etapa mediante
un proceso similar al indicado en la sección que describía la arquitectura dual de
las redes multicapa (página 41).
Schmajuk & Di-Carlo(1992), adicionalmente, sitúan cada una de las subredes en
diferentes lugares del cerebro. La primera capa la ubican en la corteza cerebral
porque, según Hardy & Jackson(1998), allí se almacena una representación de
los estímulos. La segunda capa y la capa de salida están situadas en el cerebelo,
lo que va en concordancia con el modelo neurobiológico mencionado en
Rosenzweig et al. (1996, pp. 673-676), que se comentó anteriormente.
Finalmente, tenemos otra subred que no se ha discutido, que hace parte del
hipocampo, y cuya función es modificar las conexiones en la corteza. Ésta red
recibe la información en parte procesada por el cerebelo y por la corteza, y la
utiliza para modificar en mayor o menor medida las conexiones de la corteza.
Adicionalmente, la unidad que recibe la información del estímulo incondicionado
recibe una señal de predicción que ajustaría no solamente las conexiones entre
74
corteza y cerebelo, sino también las conexiones entre hipocampo y corteza. La
capacidad de modificar las conexiones de ésta manera es consecuente con la
teoría del aprendizaje mediante LTP (Long-Term potentiation, página 30 en éste
documento) en el hipocampo.
Segundo nivel: algoritmos y representación
A nivel de algoritmo es razonable discutir tres puntos: el primero es el relacionado
con el aprendizaje; el segundo se refiere al comportamiento de las neuronas
cuando han aprendido algo y se requiere que cumplan una función específica, en
otras palabras cuando a la red se le presentan los estímulos y obtiene una salida; y
el tercero hace referencia al proceso que se lleva a cabo cuando se utiliza una red
para un propósito específico, siendo éste más general que el anterior, pues
consiste en utilizar determinada zona del cerebro o determinada red, dependiendo
del problema que se esté afrontando, básicamente tomar la decisión de cual red
debe hacer la tarea o cual debe aprender.
Aprendizaje
El primero de ellos, el aprendizaje, puede tener dos puntos de vista: el punto de
vista biológico (en donde el aprendizaje parece ser parte del hardware y no del
software) y el punto de vista artificial (en el que en la mayoría de los casos se
asume que es parte del software de la red).
En la sección B se presentó la forma en como se cree se da el aprendizaje a nivel
neuronal, se explicó que las neuronas pueden modificar sus conexiones de
acuerdo a la experiencia adquirida (se crean o se destruyen conexiones ó se
modifica su fuerza de conexión). Por otro lado, según se vio en la sección C, el
modelo artificial también es capaz de modificar sus conexiones mediante el
algoritmo de back-propagation (al menos para las redes multicapa). No obstante,
el algoritmo requiere bastante tiempo para su realización29. Adicionalmente, las
29 Con base en mi experiencia puedo afirmar que para entrenar una red de dos capas con cinco o seis neuronas
en cada capa el entrenamiento demora un poco más de cinco minutos utilizando un procesador Pentium IV 2.3 GHz
75
redes que se programan mediante éste tipo de algoritmos no suelen ser de un
gran número de neuronas (no más de 30 neuronas) y aún así el tiempo
consumido para su entrenamiento es considerable. Por ésta razón es permisible
pensar que la implementación de una porción relativamente grande del cerebro
es prácticamente imposible. (Spitzer, 1999).
Se tienen entonces dos problemas que se resumen como: una diferencia en la
construcción del aprendizaje, una solución es “software” y la otra “hardware”; y un
requerimiento de tiempo excesivo en el aprendizaje artificial. Sin embargo estas
dos dificultades dieron lugar a la construcción de arquitecturas más complejas,
pero que hace más fácil su implementación y que solucionan el primer problema.
Ya se ha descrito la arquitectura de red dual propuesta en Zipser & Rumelhart
(1990) que soluciona en cierta forma el problema de implementación del
algoritmo de back-propagation.
Aunque el proceso de aprendizaje artificial, con ésta solución, se parece un poco
más al aprendizaje real, no dejan de haber limitaciones como las que señalas los
diseñadores del modelo y que se discutieron en la sección anterior, pues el
problema se ve desde el nivel de software.
Se podría pensar que la implementación del aprendizaje en otros tipos de red
como la red de Hopfield o la red tipo máquina de Boltzman también podría
ejecutarse mediante hardware adicional dentro de la red. De hecho un caso
concreto fue discutido en la sección anterior en el modelo SD del
condicionamiento, en donde los pesos de las redes de la corteza y el cerebelo se
modifican de acuerdo a señales que provienen del hipocampo.
Adicionalmente, el aprendizaje presenta un problema adicional conocido como
interferencia catastrófica (Hardy & Jackson, 1996, pp. 319; Spitzer, 1999, pp. 201-
202). Este problema se da cuando la red se entrena varias veces para cumplir
tareas diferentes, poco a poco la red va perdiendo la buena respuesta que había
logrado para la primera tarea y acomodándose mejor para realizar la segunda o la
tercera tarea para la cual fue entrenada. Hardy & Jackson comentan que la
76
interferencia no se da en los humanos, que podemos aprender a realizar una
tarea (como aprender un lenguaje) y luego aprender otra (conducir un automóvil)
y nunca tendremos interferencia de una tarea con la otra. Sin embargo, tal
interferencia se podría deber a dos causas principalmente: 1) que la red que se
entrena para hacer esas tareas, de manera artificial, es muy pequeña; 2) como ya
se ha visto, las tareas que realiza el cerebro se pueden dividir en varias áreas
especificas, por lo que la tarea “aprender a conducir” se lleva a cabo en una red
diferente a la cumple con la tarea “hablar inglés”30.
Elección de la red y tareas de alto nivel
Hardy & Jackson (1996, pp. 285-288) enseñan la teoría de los borradores
múltiples desarrollada por Dennett (1991), según la cual en la mente humana
existen borradores de algún episodio que van cambiando con la experiencia, pero
no todos cambian al mismo tiempo ni con la misma frecuencia. Algunos de éstos
borradores se pueden hacer conscientes y esta información que se hace
consciente es lo que normalmente se recuerda de la escena, aunque claro está,
no es la escena misma pues ha cambiado con base en la experiencia y depende
del borrado que se evoque. Más adelante Hardy & Jackson (1996, pp. 320-321)
señalan que el modelo que propone Dennet (1991) “se basa en la idea de la
mente como un híbrido de procesamiento en serie y paralelo” y que la
consciencia puede ser vista como varias máquinas virtuales, cargadas en
diferentes momentos, para realizar tareas específicas y que se desarrollan
dependiendo del ambiente en el que se desenvuelva el individuo que la posea.
De acuerdo a ésta teoría, en la consciencia se cargan los programas que deben
ser usados cuando se siente dolor, cuando se piensa en algo, cuando se hace
consciente en general cualquier pensamiento. Y es claro que el autor menciona
que el procesamiento en la consciencia se hace en forma serial aunque la
30 Sin embargo es probable que haya interferencia en dos tareas que sean más parecidas como aprender dos
idiomas extranjeros. Podría ser interesante conocer estudios que investiguen esta interferencia en el lenguaje.
77
máquina que la procesa es completamente paralela. Una pregunta que queda
abierta en este punto es: ¿como se “cargan” esos programas y como se elige
entre cargar uno u otro cuando existe una situación de conflicto?
Representación
El problema de la representación sigue aún en discusión. La pregunta que se
intenta resolver aquí es: ¿cómo se representa la información en el cerebro? En
inteligencia artificial la información se representa mediante un conglomerado de
conexiones y sus pesos, los cuales forman la arquitectura de la red. Conociendo
las conexiones entre las neuronas se pueden obtener las respuestas a los
estímulos, se puede “cargar” información de una memoria indexada por
contenido. Sin embargo, desde el punto de vista biológico no parece ser del todo
clara la representación de la información, pues la respuesta neuronal no es una
señal con un valor único binario como en el caso anterior, sino es una respuesta
oscilante como se vio en el primer capítulo, en la sección de
Dinámica del cerebro (p. 27).
Más allá de la codificación de las señales se plantean preguntas sobre la
representación de la información “almacenada” en el cerebro. Existen algunas
teorías dependiendo de las funciones que se quieran estudiar. Por ejemplo, en el
caso del lenguaje la teoría más fuerte que se tiene es una estructura jerárquica
como la mostrada en la Fig. 1, en donde las palabras con ciertas relaciones se
pueden encontrar en lugares cercanos del cerebro. La codificación se realizaría
mediante neuronas relativamente especializadas en una palabra (o su significado)
que se activan cuando se piensa, se escucha o se dice una palabra con el
significado que tiene “almacenada” esa neurona o con una palabra con un
significado parecido. Por ésta razón el lenguaje suele modelarse mediante redes
de Kohonen como ya se ha analizado.
78
Spitzer(1996, cap 4) evidencia la posibilidad de representar la información
mediante vectores en un espacio n-dimensional dependiendo de las
características de la información que se desea representar. Por ejemplo,
menciona existen evidencias de que los colores pueden ser representados en un
espacio de cuatro dimensiones. La información recibida por el ojo podría codificar
la información en ese espacio y luego podría ser utilizada en procesos más
complejos.
Así mismo, señala la posibilidad de representar los movimientos de las
extremidades mediante vectores en tres dimensiones. La posición a la que desea
llevarse la mano en un momento determinado, podría ser un vector que se
distribuiría en varias neuronas especializadas que se activan dependiendo de la
dirección que deba tomarse para llegar al punto que se desea (tal como se
modelan los movimientos en un brazo robótico).
Primer Nivel
Para Marr (1982) este parece ser el nivel más importante, pues es aquí en donde
se define cual es el problema que el sistema debe resolver, cuales son sus
entradas y salidas, sin necesidad de definir cómo se va a realizar. En términos
generales conocemos el problema que nuestro cerebro debe resolver.
En general se podría pensar que el sistema nervioso debe recibir información
sensorial por medio de los sentidos. En el caso de la vista, por ejemplo, la
información recibida son ondas de luz de diferentes frecuencias e intensidades; en
el caso del olfato, la información recibida son sustancias químicas, al igual que en
el caso del gusto. Las salidas son básicamente movimientos de los músculos de
manera voluntaria o involuntaria.
Sentidos Información recibida Olfativo Sustancias químicas. Gustativo Sustancias químicas. Tacto Pequeños “golpes” que son transformados en pulsos eléctricos.
79
Vista Luz: Diferentes frecuencias e intensidades Sonoro Sonidos de diferentes frecuencias e intensidades
Rangos:16Hz – 20.000Hz en humanos31 Información de salida
Músculos Señales eléctricas que contraen los músculos de manera precisa. En forma voluntaria por medio de el áreaa motora del cerebro (lóbulos parietales y cerebelo), o de forma involuntaria por medio del cerebelo.
31Alvarez (2004)
80
III. CONCLUSIONES Y COMENTARIOS FINALES
A lo largo del documento se han presentado algunos modelos del cerebro desde el
punto de vista psicológico y neurológico. Se presentaron modelos computacionales
que surgieron inspirados en la neurona, algunas arquitecturas básicas y algunos
algoritmos por medio de los cuales estas arquitecturas son capaces de lograr un
aprendizaje.
Al final del documento se presenta una comparación en la que se pretende
relacionar algunos conceptos encontrados en la neurología y la psicología. Se
muestran arquitecturas que se han desarrollado para explicar, mediante el
denominado conexionismo, teorías básicas del aprendizaje como el
condicionamiento y la memoria a corto plazo. Se lanzó una hipótesis sobre un
posible modelo que serviría para describir el proceso de memorización a partir de
simples estímulos, a partir del modelo de memoria presentado en Hardy & Jackson
(1996).
Las redes neuronales parecen SIMULAR bien los procesos de aprendizaje a nivel
Hardware. Es posible modelar algunas zonas cerebrales mediante redes
neuronales de diferentes arquitecturas aunque no se ha logrado definir con
exactitud la arquitectura del cerebro. Se han planteado modelos que se aproximan
bien y parecen tener respuestas a algunas preguntas, sin embargo, muchos
modelos parecen ser muy básicos y no logran entrar en detalles de niveles de
abstracción superiores en los sistemas sensoriales. Solamente se cuenta con
posibles modelos de los niveles de abstracción superiores.
Haken (2002) menciona que el sistema sensorial más estudiado en los animales es
el visual, pero solamente se han logrado conclusiones sobre los primeros niveles
de procesamiento, sin embargo parecen haber más de 15 diferentes campos
visuales que procesan información más compleja conforme se van alejando del
nivel primario. La información, como se ha señalado anteriormente, no se procesa
en una única zona del cerebro. Spitzer (1999) utiliza el término niveles de
81
abstracción. Todavía hay mucho que investigar sobre el sistema visual y mucho
más en otros sistemas sensoriales, sobre todo en los niveles de abstracción más
profundos. Existen modelos como el propuesto por Hummel & Biederman (1992),
pero no se conoce con certeza si dichos niveles representan exactamente lo que
sucede a nivel cerebral.
La interferencia catastrófica también sería un buen punto de investigación. Con
base en un modelo de red que se especialice en cierto tipo de problemas (por
ejemplo el lenguaje), se podría evaluar la capacidad de la red para soportar la
interferencia que se da cuando se aprenden palabras nuevas o se aprende un
nuevo lenguaje. Éste estudio requeriría un trabajo conjunto con psicólogos del
lenguaje.
En cuanto al software las preguntas son igualmente complejas: no se cuenta con
un algoritmo que se pueda implementar en un sistema biológico, además existen
cuestiones más filosóficas ó teológicas que técnicas ó psicológicas: como los
planteamientos que visualizan la consciencia como el software que controla el
hardware (el cerebro).
Sin embargo, quedan aún por resolver cuestiones como los algoritmos de
aprendizaje de las redes neuronales para que se parezcan más a la forma del
aprendizaje a nivel neuronal. Se necesita un mecanismo de aprendizaje que no
requiera una realimentación como el algoritmo de back-propagation o su
implementación en hardware como se mencionó. Si se trabaja con un modelo
como el presentado en Haken (2002) podría resultar posible que las señales
presentadas como impulsos en la sección pre-sináptica puedan servir tanto como
un mecanismo de comunicación, como un mecanismo de aprendizaje,
dependiendo de la frecuencia de los impulsos o de un patrón de impulsos o de la
sincronía de varias neuronas sobre una post-sináptica. Recuérdese que Hebb
(1949) encontró que la repetición de estímulos sobre una neurona cambiaba la
conexión que ésta tenía con dicho estímulo. El algoritmo estaría entonces muy
relacionado con la codificación de las señales presentes en las sinapsis y
82
especialmente en la sección pre-sináptica. Queda, con un modelo como éste,
abierta la pregunta sobre qué tanto debería modificarse la fuerza de conexión entre
dos neuronas, ¿Cómo se podrían codificar los errores que al final son los que van
a determinar la modificación de los pesos?
Un gran problema que surge con éste modelo es que la sincronización de las
neuronas debe ser bastante precisa para tener una buena respuesta neuronal. La
investigación sobre la sincronización de las neuronas requiere bastante trabajo
matemático. Éste sería un buen punto de partida como proyecto posterior de
investigación en el campo de redes neuronales artificiales.
Un inconveniente que hasta ahora está siendo estudiado es el ruido presente en
las conexiones neuronales: como se podría modelar dicho dentro de una red
neuronal, que tan robustos son los modelos propuestos en redes neuronales como
para no dejarse afectar por el ruido presente entre las conexiones. Se han dado
algunos pasos para responder ésta pregunta en White et al. (2004) y Haken
(2002), pero el camino se sigue desarrollando mediante la investigación de los
neurocientíficos.
El ruido presente en las señales sensoriales parece ser importante para mejorar la
capacidad cerebral y responder ante esos estímulos. Actualmente ésta es un área
que está en discusión e investigación (véase Hidaka et al (2000))
Actualmente también se investigan las aplicaciones que la teoría del caos puede
tener sobre diferentes investigaciones de los seres humanos, como la psicología, el
corazón y también en el campo de la neurología (véase Ives (2003)). La teoría
toma en cuenta fenómenos mas complejos del cerebro, pues no solamente tiene
en cuenta las conexiones dentro del cerebro, sino que añade características como
fenómenos electromagnéticos, diferentes clases de neuronas y diferentes clases
de neurotransmisores, elementos en los que la teoría de redes neuronales “clásica”
se queda bastante corto. Un estudio de las aplicaciones de la teoría del caos sobre
las redes neuronales también tendría bastante cabida como un tema de
investigación de cognición humana.
83
IV. REFERENCIAS
Las fuentes presentadas a continuación fueron consultadas directamente a lo largo de la investigación reflejada en éste documento: [1] Alvarez (2004). Posicionamientro ultrasónico: introducción. Universidad de las Américas.
Recuperado el 26 de Junio de 2006 de http://catarina.udlap.mx/u_dl_a/tales/documentos/lep/alvarez_p_af/
[2] Amari S.(1990) Formation of Cortical Cognitive Map by Self-Organization. En Schwartz (ed.) Computational Neuroscience (pp. 267-277). MIT Press.
[3] Arbib, M. A. (1990) Schemas for High-Level Vision: The problem of Instantiation. En Schwartz (ed.) Computational Neuroscience (pp. 341-351). MIT Press.
[4] Ballard, D. H.(1990), Modular Learning in Hierarchical Neural Networks. En Schwartz (Ed.), Computational Neuroscience (pp. 139-153). MIT Press.
[5] Bennet, E. L., Diamond, M. L., Krech, D. & Rosenzweig, M. R. (1964) Chemical and Anatomical Plasticity of Brain. En Science, 206:649-654
[6] Bienenstock, E. L., Cooper, L. N. & Munro, P. W. (1982) Theory for the development of neuron slectivity: orientation specificity and binocular interaction in the visual cortex. Journal of Neuroscience 2 (pp. 32-48). Reimpreso en Anderson, J. A. & Rosenfeld, E. (Eds.,1990) Neurocomputing: Foundations of Research (pp. 437-456).MIT Press
[7] Bishop,C. M.(1995), Neural Networks for Pattern Recognition. Oxford University Press. [8] Braslau S.,S.(1998).An Animal Trainer's Introduction To Operant and Classical Conditioning.
Recuperado el 19 de Febrero de 2006 de http://www.wagntrain.com/OC/ [9] Castro A., C. (1999). Mapas cognitivos, que son y como explorarlos. Script Nova, 33. Recuperado
el 12 de Abril de 2006 de http://www.ub.es/geocrit/sn-33.htm [10] Chown, E. (s. f.) Reminiscence and Arousal: A connectionist model. Recuperado el 28 de Abril de
2006 de www.bowdoin.edu/~echown/papers/ChownCogSci02.pdf [11] Churchland, P. M. & Churchland P. S. (1990).Could a Machine think? En Scientific American 262,
(pp.26-31) [12] Churchland, P. S., & Koch, Christof, & Sejnowski, T. J. (1990) What is Computational
Neuroscience?. En Schwartz (Ed.), Computational Neuroscience (pp. 46 - 55). MIT Press. [13] Clark, Debbie. (1999). Gestalt theory. Recuperado el 20 de Febrero de 2006 de
http://chd.gse.gmu.edu/immersion/knowledgebase/strategies/cognitivism/gestalt/gestalt2.htm [14] Diller, Antoni (2006). Cognitive Science. University of Birmingham. Recuperado el 2 de Junio de
2006 de http://www.cs.bham.ac.uk/~ard/modules/b.pdf [15] Fausett L. (1994). Fundamentals of Neural Networks: Architectures, Algorithms, and applications.
Prentice Hall. [16] Feldman J. A. (1990). Computational Constraints on higher Neural Representations. En Schwartz
(Ed.), Computational Neuroscience (pp. 163-178). MIT Press. [17] Gallant S. I. (1990), Perceptron Based Learning Algorihms. IEEE Transaction in Neural Networks.
Vol 1. No. 2. (pp. 179-191). [18] Gardner, H. (1993). Frames of mind. Basic Books. [19] Gersenowies R., J. R. (2000). Breve revisión histórica del estudio de la corteza cerebral.
Universidad Nacional autonoma de México. Recuperado el 12 de Abril de 2006 de http://biologia.iztacala.unam.mx/biblioteca_en_linea/pdf/Breve_revision_historica_del_estudio_de_la_corteza_cerebral.pdf
[20] Grobstein,P (1990). Strategies for Analizing Complex Organization in the Nervous System: I. Lesion Experiments. En Schwartz (ed.) Computational Neuroscience (19-37). MIT Press.
[21] Haken H. (2002). Brain Dynamics. Springer [22] Hardy L, T. & Jackson H., R. (1998) Aprendizaje y Cognición. 4 edición. Prentice Hall. [23] Haykin, S. (1994). Neural Networks A Comprehensive Foundation. MacMillan College Publishing
Company. [24] Hebb D. O. (1949). The Organization of Behavior. Wiley [25] Hertz, J. & Krogh A. & Palmer R. G. (1991). Introduction to the theory of Neural Computation.
Addison-Wesley Publishing Company.
84
[26] Hidaka, I & Nozaki, D. & Yamamoto, Y. (2000). Functional Stochastic resonance in the Human Brain: Noise Induced Sensitization of Baroreflex System. [Versión electrónica].En Physical review Letters Vol 85 No. 17
[27] Hopfield J.J.(1982). Neural Networks and Physical Systems with Emrgent Collective Computational Abilities. Proceedings of the national Academy os Sciences USA 79 2554-2558.
[28] Hummel, J. E. & Biederman, I. (1992) Dynamic Binding in a Neural Network for shape recognition. Psychological Review Vol. 99 No. 3 pp. 480-517 [Versión electrónica]
[29] Ives, C. (2003). Human beings as Chaotic Systems. Recuperado el 2 de Junio de 2006 de www.physics.orst.edu/~stetza/COURSES/ph407h/Chaos.pdf
[30] Jaeger, H.(2001) Report No. 148 en German National Research Center for Information Technology.
[31] Koch C. (1990). Biophysics of Computation: Toward the Mechanisms Underlying Information Processing in Single Neurons. En Schwartz (Ed.), Computational neurscience.(pp. 97-113)
[32] Kohonen, T. (1982). Self-organizaed formation of topologically correct feature maps. Biological Cybernetics 43:59-69. Reimpreso en Anderson & Rosenfield [1988] pp. 511-521
[33] Lehr, Robert (2006) Brain Map recuperado el 5 de Mayo de 2006 de Centre of neuro skills http://www.neuroskills.com/brain.shtml.
[34] Marr, D. (1982) Vision. WH Ferman, San Francisco. Reimpreso en Anderson & Rosenfeld (Eds., 1990) Neurocomputing Foundations of Research (pp. 465-480). MIT Press.
[35] Mead, C. A. & Mahowald M.(1990) A Silicion Model of Early Visual Processing. En Schwartz (ed.) Computational Neuroscience (pp. 331-339). MIT Press.
[36] National Institute of Neurological Disorders and Stroke (2001a) Brain Basics: Know your Brain Recuperado el 31 de marzo de 2006, de http://www.ninds.nih.gov/disorders/brain_basics/know_your_brain.htm.
[37] National Institute of Neurological Disorders and Stroke (2001b) The life and death of a neuron. Recuperado el 16 de abril de 2006, de http://www.ninds.nih.gov/disorders/brain_basics/ninds_neuron.htm.
[38] Perkel, Donald H (1990). Computational Neuroscience: Scope and Strcuture. En Schwartz (Ed.), Computational neuroscience (pp. 38-45). MIT Press.
[39] Poggio T. & Torre V. (1981) en Theoretical Approaches in Neurobiology, Reichardt W. & Poggio T (Ed.). MIT Press,Cambridge.
[40] Rall W. & Segev I. (1990). Dendritic Branches, Spines, Synapses, and Excitable Spine Clusters. En Schwartz (Ed.), Computational Neuroscience (pp. 69-81). MIT Press.
[41] Robinson, D. A. (1990) A computational View of the Oculomotor System. En Schwartz (ed.) Computational Neuroscience (pp. 319-330). MIT Press.
[42] Rosenzweig, M. R.,& Leiman A. L. & Breedlove S. M. (1996) Biological Phsycology. Sinauer Associates Inc.
[43] Rumelhart, D. E., & Hinton. G. E., & Williams, R. J. (1986). Learning Internal representations by error propagation. En Rumelhart D. E. & McCleland, & the PDP research Group (Eds.) Parallel Distributed Processing: Explorations of microstructure of Cognition, Vol. 1:Foundations, pp. 318-362. Cambridge, MA, MIT Press.
[44] Schmajuk, N.A., & DiCarlo, J.J. (1992) Stimulus configuration, classical conditioning, and hippocampal function. En Psychological Review Vol.99, pp. 268-305.
[45] Searle, J. R. (1990)Is the brain’s mind a Computer Program? En Scientific American 262, (pp. 21-25)
[46] Shepherd, G. M. (1990). The significance of Real Neuron Architectures for Neural Network Simulations. En Schwartz (ed.) Computational Neuroscience (pp. 82-96).MIT Press.
[47] Spitzer, Manfred (1999), The Mind Within the Net. MIT Press. [48] Spitzer, M. (2005, Noviembre) Post and pop-out neuroplasticity of cortical maps in postal workers.
Recuperado el 2 de Abril de 2006, de http://www.oecd.org/document/47/0,2340,en_2649_14935397_35782703_1_1_1_1,00.html
[49] Suga, N. (1990) Computations of Velocity and Range in the Bat Auditory System for Echo Location. En Schwartz (ed.) Computational Neuroscience (pp. 213-231). MIT Press.
[50] Thompson, R. F. (1990) Neural mechanisms of classical conditioning on mammals. En Philosophical transactions of the Royal Society (London) Vol 329, pp. 161-170.
[51] Tucker-Ladd, Clayton E. (2004) Psychological Self-Help Versión Electrónica], Clayton Tucker-Ladd & Mental Health Net. Recuperado el 22 de marzo de 2006, de http://mentalhelp.net/psyhelp/
85
[52] Valiant L. G.(1994), Circuits of the Mind. Oxford University Press. [53] Watkins A. B. (2005) Exploiting immunological metaphors in the development of serial, parallel,
and distributed learning algorithms. Recuperado el 10 de Mayo de 2006 de http://www.cs.kent.ac.uk/pubs/2005/2178/index.html
[54] White, O.L. & Lee, D. D. & Sompolinsky, H. (2004). Short-term memory in orthogonal neural networks [Versión electrónica].En Physical review Letters Vol 92 No. 14.
[55] Yeshurun, Y. & Schwartz E. L.(1990) Neural Maps as data Structures: Fast Segmentation of Binocular Images. En Schwartz (ed.) Computational Neuroscience (pp. 256-266). MIT Press.
[56] Young, J. Z. (1985) What’s in a brain? En Coen, C. W. Functions of the brain Clarendon Press. Oxford.
[57] Zipser, D. & Rumelhart D. E.(1990) The neurobiological significance of the new learning models. En Schwartz (Ed.) Computational Neuroscience (pp. 192-209).MIT Press.
V. REFERENCIAS ADICIONALES
Las siguientes referencias no fueron consultadas directamente. Son señaladas pues son trabajos destacados que mencionan los autores sobre temas que se trataron en éste documento, sin embargo en ningún momento se contó con la fuente primaria de éstas referencias. En rosenzweig et al. (1996): [1] Bennet, E. L.& Diamond M. L. & Krech, D. & Ronsenzweig, M. R. (1964). Chemical and Anatomical Plasticity of brain.En Science, 146. [2] Greenough, W. T. & Volkmar F. R.(1973) Pattern of dendritic branching in occipital cortex or rats
reared incomplex environments. En Experimental Neurology No. 40 [3] Hubel, D.H. & Wiesel, T. N. (1965) Binocular Interaction instriate cortex kittens reared with artificial Squint. En Journal of Psychology 28:1041-1059. [4] Renner, M. J. & Rosenzweig M. R. (1987). Enriched and impoverished environments: Effects on
brain and Behavior. Springer-Verlga, N.Y. [5] Ronsenzweig M. R. (1984). Experience, memory and the brain. En American Psychologist No. 39 [6] Ronsenzweig, M. R. (1946). Discrimination of audiotry intensities in the Cat. American journal of Phsicology. No. 59. [7] Rosenzweig, M. R, Krech, D. , Bennet, E. L. (1961). Heredity, environment, brain chiomestry, and
learning. En current trends in psycohological theory. Pp. 87-110. University of Pittsburgh Press, Pittsburgh
[8] Volkmar, F. R. & Greenough, W.T.(1972) Rearing complexity affects branching of dendrites in the visual cortex of the rat. En Science, 176:1445-1447.
En Hardy & Jackson (1996): [1] Dennett, D. C. (1991) Consciousness explained. Boston: Little, Brown [2] Kohonen, T. (1990). Improved versions of Learning Vector Quantization. En International Joint
Conference on Neural Networks, I, pp. 545-550.
86
VI. TABLA DE ACRÓNIMOS Y SÍMBOLOS
Acrónimo o símbolo Descripción
ak Suma de las señales de entrada de un perceptrón ponderada por los pesos AND Función lógica AND cap. Capítulo caps. Capítulos CE Estímulo Condicionado Cm Capacitancia de la membrana celular CR Respuesta Condicionada Dwij Cambio en el peso de la conexión entre la neurona i y la neurona j EC Estímulo Condicionado Ee Potencial de sinápsis excitatorias EI Estímulo Incondicionado Ei Potencial de sinápsis inhibitorias En Error de respuesta de la neurona (o de una red) F Ruido en las dendritas Fig. Figura γ Constante de dacaimiento de corriente post-sináptica g Función de activación gj Conductancia sináptica H Constante de aprendizaje H Funciones de energía de la red de Hopfield LTM Memoria a Largo Plazo LTP Long-Term Potentiation MCP Memoria a Corto Plazo MLP Memoria a Largo Plazo N Número de Neuronas en una red de Hopfield N Número de entradas de una red NINDS National Institute of Neurological Disorders and Strokes P Función periódica de impulsos P Número de posiciones de memoria de una red de Hopfield p. Página pp. Páginas ra Resitencia del Citoplasma RC Respuesta Condicionada rm Resistencia de la membrana Celular S Salida de la red de Hopfield S(n) Señal discreta en tiempo n s. f. Sin Fecha SD Modelo del Hipocampo por Schmajuak -DiCarlo SN Sistema Nervioso SNC Sistema Nervioso Central STM Memoria a Corto Plazo T Respuesta esperada de una neurona U Potencial alrededor de un campo autorganizativo UC Estímulo Incondicionado
uij Pesos de la "neurona" i a la neurona j que calculan el error en implementación Hardware de Back-propagation
87
V Salida de la red de Hopfield contínua wij Pesos de la conexión de la neurona i a la neurona j wk k-ésimo peso de una neurona o un perceptrón
x Conjunto de patrones disponibles para presentar a la red de Hopfield. Punto de un campo neuronal
Xk k-ésima señal de entrada de un perceptrón o una neurona XOR Función lógica XOR yk k-ésima salida de una red neuronal ψpost Corriente post-sináptica ζ Patrón presentado ala entrada de una red de Hopfield
88
VI. ANEXOS
Artículo
Aproximación al aprendizaje humano basado en la teoría de redes neuronales artificiales
Julián Arana M. Asesor:Mauricio Duque
Junio de 2006, j-arana@uniandes.edu.co,maduque@uniandes.edu.co
Resumen - En este documento se muestran los hallazgos hechos en la investigación de Proyecto de Grado sobre el aprendizaje
humano con base en la teoría de redes neuronales artificiales.
Se investigaron disciplinas como la psicología, la nuerología y
la ciencia cognitiva
Palabras Clave – Ciencia Cognitiva, Redes Neuronales, Aprendizaje, Machine Learning, Neurología, Neurociencia, psicología del aprendizaje.
I. INTRODUCCIÓN
En 1906, Santiago Ramón y Cajal recibió el premio Nobel por haber propuesto que el funcionamiento del Sistema Nervioso estaba basado en células que, después de algunos años se denominarían Neuronas. A partir de ésta afirmación surge la neurociencia, que se ha encargado, entre otras cosas, de modelar el funcionamiento de dichas células como unidades individuales que permiten entender su funcionamiento a partir de una aproximación matemática.
Inspirados en dicho modelo surge lo que se llama “redes neuronales”, una rama de Machine Learning que tiene como fin la investigación de redes de varias neuronas y de aplicaciones de dichas redes.
Las arquitecturas de las redes neuronales artificiales han servido para explicar el funcionamiento del aprendizaje en animales, sobre todo en sistemas sensoriales y de procesos de memorización de eventos. La motivación principal para escribir este artículo es conocer un poco sobre los estados actuales de la investigación de lo que se denomina Ciencia Cognitiva, con el fin de dar un panorama sobre investigaciones que se podrían desarrollar a futuro, con el fin de trazar un camino en el entendimiento del aprendizaje animal.
La investigación se basó en la investigación de información sobre neurología, psicología y redes neuronales artificiales. Al final se presentan puntos de comparación entre las tres áreas y puntos de discusión que están abiertos en la actualidad para llevar a cabo los objetivos.
II. CONTENIDO
A Psicología del aprendizaje
El campo de la psicología del aprendizaje abarca varios aspectos. Los más básicos se refieren al aprendizaje por
condicionamiento y a la memoria. A partir de éstos se derivan los procesos de aprendizaje más complejos como el aprendizaje de un nuevo idioma o el aprendizaje de una nueva habilidad.
En la literatura psicológica se conocen dos tipos de condicionamiento: el condicionamiento clásico y el condicionamiento operante (Ronsenzweig et al, 1996). El primero supone la existencia de dos estímulos: uno (estímulo incondicionado, EI) que causa una respuesta habitual (respuesta condicionada, RI), y uno que puede causar la misma respuesta después de un entrenamiento (estímulo condicionado, EC). El EC produce RC después de varias presentaciones del EC unos momentos antes del EI.
El segundo tipo de condicionamiento supone castigos o recompensas por un comportamiento dado, es decir, si un animal se comporta de una manera y se la da un premio, el animal va a tender a seguir realizando ese comportamiento pues lo asocia directamente con el premio que podría recibir. También funciona el proceso inverso en el que se presenta un castigo por un comportamiento, y el animal dejará, progresivamente, de dar dicho comportamiento pues lo asociará con un castigo que podría recibir.
Ahora bien, el estudio de la memoria ha dado como resultado una clasificación de los tipos de memoria, dependiendo del tiempo que es capaz de retenr información. En Hardy & Jackson (1996) se describen tres tipos de memoria: Memoria sensorial, memoria operante o de corto plazo y memoria a largo plazo.
La memoria sensorial retiene la información proveniente de los órganos sensoriales por un periodod muy corto de tiempo (0.75s a 3.5s). Su función es retener la información proveniente de dichos órganos mientras se clasifica y se determina cual es la información más importante para el individuo. La clasificación de ésta información se realiza mediante procesos de atención dependiendo de la situación en la que se encuentre el individuo y en qué decida concentrarse; y mediante el reconocimiento de patrones de la información presente en la memoria sensorial. La clasificación de la información es entonces un filtro de la información que se recibe.
La memoria operante tiene como función retener la información un periodo de tiempo suficiente para que el individuo pueda realizar proces de pensamiento con base en esa información. Si un individuo se concentra en algo, por ejemplo la descripción de cierto objeto, la información que guarda en la memoria operante son las características del objeto del que está hablando. El proceso de descripción del objeto lo realiza organizando las ideas
89
que él tiene guardadas en la memoria operante y expresándolas ya sea mediante un palabras, gestos, etc. Si la información la requiere durante un periodo largo de tiempo la información debe ser “refrescada” (como se hace en una memoria DRAM). Éste tipo de memoria recibe la información de la memoria sensorial y de la memoria de largo plazo y puede enviar información a la memoria de largo plazo.
La memoria a largo plazo (LTM por sus siglas en inglés) permite guardar la información durante un tiempo muy largo. Los dos tipos de memoria anteriores median su duración en segundos, pero la memoria a largo plazo lo puede medir en años, dependiendo de que tan afianzada esté la información en ella (qué tantas veces ha sido repetida la información).La información almacenada en la memoria a largo plazo es recibida directamente de la memoria a corto plazo.
Un problema que trata Hardy & Jackson (1996, cap. 6) en el capítulo de la LTM es la representación de la información. Describe dos teorías de representación de la información: una analógica y una analítica. En la primera la información es semejante a la representación que tiene físicamente: por ejemplo imágenes de un objeto, sonidos, etc., la otra sugiere que la información se representa de manera abstracta. Ésta última sirve para describir la manera en la que almacenamos conceptos del lenguaje y de allí se parte para modelar de varias maneras la representación de la información. (más adelante se detallara un poco éste tipo de representación
B. Elementos introductorios a la Neurociencia La Neurona
Las neuronas se componen de tres partes fundamentales denominadas dendritas, axones y soma. Las dendritas son ramificaciones que se encargan de recolectar información y transferirla al soma; los axones, por el contrario, tienen como función enviar la información procesada por el soma a otras células nerviosas; el soma se encarga del procesamiento de la información recibida por las dendritas.
En la gran mayoría de neuronas existe una gran cantidad de dendritas que forman ramificaciones y son comúnmente llamadas ramas dendríticas. En dichas ramificaciones se encuentran las llamadas espinas dendríticas que son protuberancias en donde se lleva a cabo la unión entre la célula receptora y la célula emisora.
Existen diferentes formas de clasificar las neuronas32 de acuerdo a sus formas (multipolares, bipolares y monopolares), a su tamaño (grande y pequeño) y a su función (motoneuronas encargadas de los movimientos; neuronas sensoriales, encargadas de la recepción de sensaciones; interneuronas, encargadas del procesamiento de la información).
La unión entre dos neuronas se denomina sinapsis. Sin embargo, no existe un contacto físico entre los axones de una neurona y las dendritas de la siguiente, sino un vacío en el que son liberadas sustancias químicas (neurotransmisores) que excitan moléculas receptoras en las dendritas de la neurona receptora. Además del vacío las otras dos etapas que forman parte de una sinapsis son la pre-sinapsis y la post-sinapsis que son los lugares en donde se sueltan los neurotransmisores y en donde se reciben por medio de las moléculas receptoras, respectivamente.
Existe un nivel de atenuación entre la señal en la pre- y la post- sinapsis. La atenuación se puede dar por: la frecuencia con que
32Rosenzweig et al (1996, pp. 37)
son liberados los neurotransmisores, la posición en la que la sinapsis se da con respecto al soma, las distancias que existen entre diferentes sinapsis que vienen de diferentes axones o del mismo axón y geometría de las espinas dendríticas33. Otros motivos que atenúan la fortaleza en la unión de diferentes neuronas son cambios químicos, modulados por la influencia de otras neuronas que tienen contacto cerca al axón de la neurona emisora, así como el número de moléculas receptoras en las dendritas, la frecuencia de activación del axón, el área de contacto de la sinapsis.34
La relación entre la cabeza de la espina dendrítica y la dendrita es no lineal como procura demostrar Koch (1990). En su trabajo muestra un modelo comportamental dependiente del voltaje de entrada a la cabeza de la espina dendrítica. Así mismo, enseña un modelo de la contribución de una sinapsis dada dentro de una rama dendrítica a la neurona, la relación es una ecuación diferencial de primer orden dependiente del tiempo y la posición en la que se encuentra la espina dendrítica.
En la mayoría de los casos se asume que la función adjudicada al soma (dentro del contexto de actividad neuronal, es decir, sin tener en cuenta condiciones de intercambio de proteínas, oxigenación, etc.) es la de tomar las entradas obtenidas en las ramas dendríticas y sumarlas de manera que se pueda dar un total que es comparado con un valor de umbral en donde se dispararía un pulso en el axón de la neurona. Sin embargo, como es mencionado en Koch (1990) varios han propuesto teóricamente y han demostrado experimentalmente que dicha linealidad no existe. Sin embargo, como demuestra Poggio & Torre (1981) si las sinapsis se encuentran situadas una cerca de la otra en la dendrita de la neurona, la linealidad se puede asumir siendo ésta una muy buena aproximación.
Cambios en la química, incremento de moléculas receptoras, cambos de frecuencia de la señal enviada por el axón, cambios estructurales en la espina dendrítica, cambios en el área de contacto de la sinapsis la instauración de nuevas conexiones entre neuronas, reemplazos de caminos existentes por otras conexiones pueden dar lugar a cambios en la fuerza de conexión entre dos neuronas.35
Los cambios se pueden dar cuando la neurona pre-sináptica excita en ocasiones repetidas la neurona post-sináptica36 Durante el aprendizaje se lleva a cabo una actividad neuronal en uno o diversos circuitos neuronales que permite guardar información por un periodo de tiempo corto.37 Si la actividad es lo suficientemente fuerte, puede dar paso a una modificación en las conexiones neuronales, lo que significaría memoria a largo plazo.
Un mecanismo por medio del cual las neuronas cambian su fuerza sináptica es el denominadao LTP (Long-Term Potentiation). Básicamente consiste en la activación simultánea de dos estímulos en una misma neurona sincrónicamente. Existen dos estímulos A y B. A es un estímulo que por si solo no causa ninguna respuesta en la neurona y B es un estímulo que causa una buena respuesta de la neurona. Si los estímulos A y B son presentados simultáneamente la neurona responde de la misma manera que lo haría si estuviera estimulada únicamente por B. El
33Rall & Segev (1990) 34Rosenzweig et al (1996, p. 643) 35Rosenzweig et al. (1996) 36 Hebb (1949) 37 Hebb (1949). Esta propiedad es importante cuando se habla
de Memoria a Corto Plazo.
90
aprendizaje se da después de éste estímulo simultáneo; la neurona es activada indiferentemente por cualquiera de los dos estímulos independientemente.38 El LTP puede tener una duración de hasta semanas.39 El funcionamiento del LTP ha sido probado en el hipocampo. Sin embargo no ha habido pruebas contundentes que demuestren que este tipo de aprendizaje se de en otras partes del cerebro como, por ejemplo, la corteza.40
C. Elementos introductorios a la teoría de Redes Neuronales Artificiales. El Perceptrón
El modelo básico de una neurona, planteado por McCulloc y Pitts (1943) es, la suma de “n” señales “xk” ponderadas con una constante (comúnmente denominada peso) “wk” (con valores de k desde 1 hasta n). El resultado de esa suma se hace pasar por una función de activación que se dispara si la suma anterior pasa un valor de umbral previamente establecido. La ecuación que describe al perceptrón es:
( ) ( )oy x g wx w= + (39)
En dondew es el vector de pesos de tamaño n, x es el vector
de señales de entrada en un momento específico ow corresponde
a una entrada adicional (con valor 1) denominada bias (la interpretación para éste bias puede ser profundizada en Bishop (1995, pp. 78)) y g(.) es la función de activación que típicamente tiene la forma siguiente:
1 0
( )1 0
si ag a
si a
− <=
≥ (40)
Perceptrón multinivel
Una red neuronal multinivel o perceptrón multinivel, es un conjunto de perceptrones “con conexiones desde cualquier unidad en una capa a todas las unidades de las capas siguientes, pero sin ninguna otra conexión permitida” (Bishop, 1995, pp. 117.
Es importante anotar que en el denominado perceptrón multinivel son permitidos diferentes tipos de funciones de activación, especialmente para las capas escondidas41. Típicamente son funciones sigmoidales del tipo:
1
1( )
1 exp( 2 )g a
aβ=
+ − (41)
en donde β es un parámetro modificable.42 El aprendizaje de las redes neuronales artificiales planteadas
anteriormente, se basa en la actualización de los pesos en las
38 Spitzer (1999, pp. 42-45) 39Ronsezweig et al (1994, pp. 670) 40 Spitzer (1999) 41 Las capas escondidas se refieren a las unidades que no
pertenecen al conjunto de neuronas de salida. 42Las funciones de activación en las neuronas reales suele ser
diferente debido a que cumplen diferentes funciones dentro de la red. Biológicamente pueden representar “…fuerzas variables en el disparo de la neurona, retrasos en la sinapsis, fluctuación aleatorias de los transmisores de liberación en vesículas discretas, entre otras. Éstos efectos se pueden pensar como ruido…”Hertz et al. (1991)
entradas de cada perceptrón. Éste proceso se conoce comúnmente como entrenamiento y, en sus aplicaciones más comunes el entrenamiento es supervisado (se hace presentando la entrada y la respuesta que debería provocar).
El algoritmo de entrenamiento se conoce como Back-propagation pero tiene dificultades en su implementación pues requiere que se recorra la red hacia delante y hacia atrás para poder modificar los pesos. Redes de Hopfield
Las Redes Neuronales tipo Hopfield son redes de una capa que permiten realimentación (algo que no es permitido en el perceptrón multinivel) La aplicación típica de las redes tipo Hopfield es una memoria direccionada por contenido, es decir, a la entrada de la red se presenta parte de la información que se requiere, y ella es capaz de devolver la información completa. La red describe una función matemática con muchos puntos mínimos. La información de entrada le permite localizarse en un lugar dentro de la función y ésta es capaz de encontrar el punto mínimo que representa la información completa. Redes de Kohonen
Los mapas de Kohonen pertenecen a un grupo de redes neuronales denominadas que son entrenadas por competencia, es decir que se instruyen para que una neurona tenga mayor activación que otras a partir de un estímulo dado. Ésta neurona se llamará neurona ganadora. En La Fig. 4 se presenta un grupo de neuronas, en donde las neuronas blancas representan la neurona ganadora para cierto estímulo y las demás representan neuronas cercanas que se activan, en menor medida, cuando se presenta el estímulo.
Fig. 2343
Máquina de Boltzman
La red denominada máquina de Boltzman tiene una arquitectura similar a la descrita en el perceptrón multinivel. La diferencia radica en que, a diferencia del perceptrón multinivel, la máquina de Boltzman permite la realimentación de las neuronas. El proceso de aprendizaje en éste tipo de red es más complejo que el algoritmo de Back-propagation. Éste tipo de red suele usarse para reconocimiento de Patrones y tiene aplicaciones en memoria direccionada por contenido, como en el caso de la red de Hopfield. D. Comparación entre los modelos Serial vs. Paralelo:
El cerebro puede ser visto como un computador, como sugieren Churchland et al. (1990), para quienes es muy importante resaltar que el cerebro no es un computador serial. El procesamiento de la
43 Imagen tomada y modificada de Kohonen (1982)
91
información en el cerebro se hace en forma paralela y no sería comparable a la simulaciones que de una red artificial se hacen en un computador serial. Se tiende mucho a comparar las velocidades de los procesos artificial y natural, pero no es una comparación válida pues los procesos son totalmente diferentes.
Unidades de procesamiento
E común comparar el numero de transistores de un procesador con el número de neuronas existentes en el cerebro y la velocidad con la que realizan el procesamiento de la información, ésta comparación no es del todo correcta pues, aunque es claro que los transistores en el computador son las unidades de procesamiento de la información, también es claro que éstos no la procesan de la misma manera que lo hacen las neuronas La unidad computacional en ambos casos es diferente y cumple diferentes funciones específicas para llevar a cabo su tarea.
La neurona en el cerebro solamente cumple una función inhibitoria o excitatoria (cualidad que no cambia con el entrenamiento) Sin embargo, en todos los algoritmos estudiados surge la posibilidad de que las neuronas puedan tener ambas características dependiendo del entrenamiento que se le dé. Ésta posibilidad es totalmente errónea y es un limitante del modelo artificial, pues no concuerda con las observaciones del cerebro. Chown (s.f.)
Constante de aprendizaje y recorte de neuronas
En algunos algoritmos se suele utilizar una constante de aprendizaje que disminuye conforme se va entrenando la red. Spitzer (1996) comenta que ésta tasa de aprendizaje también se encuentra en las neuronas cerebrales, pues conforme pasa el tiempo, nuestros cerebros van perdiendo la capacidad de aprender. En los primeros años de nuestras vidas, la tasa de aprendizaje parece ser más alta que cuando alcanzamos cierta edad.
Igualmente, comenta Spitzer (1996), que la tasa de mortalidad de las neuronas en el cerebro es bastante alta y parece poco probable que el cerebro sea capaz de generar nuevas neuronas. No obstante, somos capaces de retener la misma información que teníamos cuando éramos más jóvenes, de pronto no con el mismo grado de agudeza, pero la información sigue estando “almacenada en las conexiones” que restan en el cerebro. Por otro lado, existen técnicas que utilizan la poda de las neuronas para hacer menos complejas las redes. La respuesta de las redes no es perturbada a menos que haya un excesivo recorte de neuronas, lo que sugiere que las redes son bastante robustas.44
Arquitecturas
No existe claridad sobre la arquitectura exacta del cerebro (o de partes de él), pues, como comenta Young (1985) no se conoce exactamente el procesamiento que realizan las células cuando alguien o algo decide llevar a cabo una acción.
Existen algunas arquitecturas que cumplen funciones similares en la sección de psicología del aprendizaje, como condicionamiento clásico, modelos del hipocampo, modelos de memoria a corto plazo
44 Hardy & Jackson (1996) comentan el caso del secretario de
Prensa de Reagan, “quien recibió un disparo en la cabeza durante el intento de asesinato de Reagan… Pese a la lesión cortical masiva, la personalidad la inteligencia de Brady [el secretario] están razonablemente intactas”.
Modelo de condicionamiento clásico
La arquitectura propuesta para describir el condicionamiento es verdaderamente sencilla.45 Básicamente es un perceptrón con dos entradas (véase Fig 4): uno es el estímulo incondicionado y el otro es el estimulo condicionado. Antes del condicionamiento, la conexión entre el EI y la neurona es nula o ajustada de tal manera que el estímulo no sea capaz de disparar la neurona, sin embargo el peso de la conexión entre EC y la neurona es lo suficientemente grande como para lograr una respuesta en ella. Después de que el individuo ha sido condicionado cualquiera de los dos estímulos es capaz de producir respuesta en la neurona.
Fig. 24
Existe otro modelo que permite que dos estímulos produzcan una respuesta condicionada, pero solamente estando presente uno sólo de ellos. La arquitectura46 tiene dos capas (véase Fig 5) que, además de solucionar el problema de selección de la respuesta dependiente de un estímulo condicionado únicamente, también se puede “condicionar” primero con un estímulo y luego con el otro mediante entrenamientos separados, como suelen darse los procesos de condicionamiento.47
Fig. 2548
Modelo de la memoria A continuación se discuten los modelos que podrían servir de
base para describir la memoria. La memoria sensorial y la memoria a corto plazo se podría describir mediante una red de varias capas realimentadas como la máquina de Boltzman.49. La arquitectura que describiría éste tipo de memoria tiene la siguiente forma:
Fig. 26
Para pasar la información de la memoria sensorial a la de corto plazo, ésta debe ser filtrada para clasificar la que es más importante. El procedimiento se puede bautizar como un pre-
45 Descrita en Hardy & Jackson (1998, pp. 312-315). 46 Descrita en Hardy & Jackson (1998, pp. 312-315). 47 Hardy & Jackson (1999, pp. 312-315) 48Tomado y modificado de Hardy & Jackson (1999, pp.314)
La conexión entre N1 y N2 debe ser inhibitoria, para que se produzca la respuesta con un único estímulo.
49 En White et al (2004) se explica un modelo planteado por Jaeger (2001) y se prueba que la capacidad de la memoria es proporcional al tamaño de la red.
92
procesamiento50 de las señales de entrada. Existen dos formas –básicas- de llevar a cabo la selección de la información51, entre estas están la atención y el reconocimiento de patrones. De la atención el autor señala que “se ha conceptualizado de dos formas [:]… estado de concentración en algo… [y] …como capacidad de procesamiento, que puede distribuirse a diferentes estímulos y actividades en distintas formas” (Hardy & Jackson, 1998, p. 118) y sobre el reconocimiento de patrones menciona que es la forma en como se perciben y se reconocen los estímulos con base en información almacenada anteriormente. Se podría pensar entonces, que este procedimiento se puede modelar mediante perceptrón multinivel o mediante la máquina de Boltzman.
Ahora bien, la memoria a largo plazo puede tener diferentes tipos de red distribuidas en subredes de la gran red conformando la memoria a largo plazo. Conocemos el potencial de las redes de Hopfield para “almacenar” información y recuperarla por el contenido que hay en ella. Sin embargo, también pueden entrar a jugar un papel importante los mapas de Kohonen pues describen situaciones encontradas en estudios realizados en el campo del lenguaje.52 Un modelo de la arquitectura del proceso de aprendizaje En el anexo se presenta un modelo que bien podría describir las bases del proceso que se lleva cuando se memoriza algo (Fig A1). Ésta se divide, básicamente en cinco elementos que han sido mencionados y explicados en la sección anterior (modelo de la memoria): señales de entrada (estímulos) memoria sensorial, procesamiento, memoria operante o memoria a corto plazo (STM) y memoria a largo plazo (LTM).
Modelo del hipocampo
Ya se ha visto que el hipocampo cumple una función importante en el proceso de almacenamiento de la información en la memoria a largo plazo se trata. Su tarea principal parece ser la de repetir la información (almacenada en la memoria a corto plazo) a la corteza para modificar sus conexiones y, de ésta manera guardarla en la memoria a largo plazo.
Schmajuk y algunos colaboradores han trabajado en las funciones que posee el hipocampo y su relación con el condicionamiento. Concretamente, Schmajuk & Di-Carlo (1992) muestran un modelo conexionista del hipocampo aplicando el Modelo SD del condicionamiento.
Schmajuk & Di-Carlo (1992) dividen la red en tres etapas principales. Las primeras dos (ubicadas en la parte inferior de la Fig. 8), representan la información almacenada en la corteza del cerebro y la salida producida por el cerebelo son las encargadas del condicionamiento.
Para aclarar el funcionamiento suponga que no existe la etapa del hipocampo (presentada en la parte superior de la figura). Se tiene, de ésta manera una red de tres capas con dos capas ocultas y tres señales de entrada. Las dos primeras entradas (CS1 y CS2) son estímulos que ya han sido condicionados y la última entrada (CX) representa el contexto en el que se presentan los estímulos. De la arquitectura se sabe, entonces, que es un simple rastreador de patrones que produce una salida (CR) cuando la configuración
50 Como se le conoce en el lenguaje de Machine Learning 51Hardy & Jackson (1998, pp.117-132) 52 Vease Hardy & Jackson (1998) y Feldman (1990) entre
otros
de las señales de entrada es la apropiada, de acuerdo a los pesos que las conectan con las neuronas de las capas ocultas.
Adicionalmente está presente el estímulo incondicionado (UC) que es capaz de cambiar los pesos entre las neuronas de la primera y la segunda etapa mediante un proceso similar al indicado en la sección que describía la arquitectura dual de las redes multicapa.
Finalmente, tenemos otra subred que no se ha discutido, que hace parte del hipocampo, y cuya función es modificar las conexiones en la corteza. Ésta red recibe la información en parte procesada por el cerebelo y por la corteza, y la utiliza para modificar en mayor o menor medida las conexiones de la corteza. Adicionalmente, la unidad que recibe la información del estímulo incondicionado recibe una señal de predicción que ajustaría no solamente las conexiones entre corteza y cerebelo, sino también las conexiones entre hipocampo y corteza. La capacidad de modificar las conexiones de ésta manera es consecuente con la teoría del aprendizaje mediante LTP (Long-Term potentiation) en el hipocampo.
Aprendizaje
El aprendizaje, puede tener dos puntos de vista: el biológico (en donde el aprendizaje parece ser parte del hardware y no del software) y el punto de vista artificial (en el que en la mayoría de los casos se asume que es parte del software de la red).
En la sección B se presentó la forma en como se cree se da el aprendizaje a nivel neuronal, se explicó que las neuronas pueden modificar sus conexiones de acuerdo a la experiencia adquirida (se crean o se destruyen conexiones ó se modifica su fuerza de conexión). Por otro lado, según se vio en la sección C, el modelo artificial también es capaz de modificar sus conexiones mediante el algoritmo de back-propagation. No obstante, el algoritmo requiere bastante tiempo para su realización. Adicionalmente, las redes que se programan mediante éste tipo de algoritmos no suelen ser de un gran número de neuronas (no más de 30 neuronas) y aún así el tiempo consumido para su entrenamiento es considerable.
Adicionalmente, el aprendizaje presenta un problema conocido como interferencia catastrófica53. Este problema se da cuando la red se entrena varias veces para cumplir tareas diferentes, poco a poco la red va perdiendo la buena respuesta que había logrado para la primera tarea y acomodándose mejor para realizar la segunda o la tercera tarea para la cual fue entrenada. A diferencia del caso artificial, la interferencia no parece darse en los animales54. Sin embargo, tal interferencia se podría deber a dos causas principalmente: 1) que la red que se entrena para hacer esas tareas, de manera artificial, es muy pequeña; 2) que la red no se especialice en ciertas tareas55.
Representación
Más allá de la codificación de las señales se plantean preguntas sobre la representación de la información “almacenada” en el cerebro. Existen algunas teorías dependiendo de las funciones
53 (Hardy & Jackson, 1996, pp. 319; Spitzer, 1999, pp. 201-
202) 54 Hardy & Jackson 55 Sin embargo es probable que haya interferencia en dos
tareas que sean más parecidas como aprender dos idiomas extranjeros. Podría ser interesante conocer estudios que investiguen esta interferencia en el lenguaje.
93
que se quieran estudiar. Por ejemplo, en el caso del lenguaje la teoría más fuerte que se tiene es una estructura jerárquica en donde las palabras con ciertas relaciones se pueden encontrar en lugares cercanos del cerebro. La codificación se realizaría mediante neuronas relativamente especializadas en una palabra (o su significado) que se activan cuando se piensa, se escucha o se dice una palabra con el significado que tiene “almacenada” esa neurona o con una palabra con un significado parecido. Por ésta razón el lenguaje suele modelarse mediante redes de Kohonen como ya se ha analizado.
Spitzer(1996, cap 4) evidencia la posibilidad de representar la información mediante vectores en un espacio n-dimensional dependiendo de las características de la información que se desea representar. Por ejemplo, menciona existen evidencias de que los colores pueden ser representados en un espacio de cuatro dimensiones. La información recibida por el ojo podría codificar la información en ese espacio y luego podría ser utilizada en procesos más complejos.
Así mismo, señala la posibilidad de representar los movimientos de las extremidades mediante vectores en tres dimensiones. La posición a la que desea llevarse la mano en un momento determinado, podría ser un vector que se distribuiría en varias neuronas especializadas que se activan dependiendo de la dirección que deba tomarse para llegar al punto que se desea (tal como se modelan los movimientos en un brazo robótico). E. CONCLUSIONES Y COMENTARIOS FINALES
A lo largo del documento se han presentado algunos modelos del cerebro desde el punto de vista psicológico y neurológico. Se presentaron modelos computacionales que surgieron inspirados en la neurona, algunas arquitecturas básicas y algunos algoritmos por medio de los cuales estas arquitecturas son capaces de lograr un aprendizaje.
Al final del documento se presenta una comparación en la que se pretende relacionar algunos conceptos encontrados en la neurología y la psicología. Se muestran arquitecturas que se han desarrollado para explicar, mediante el denominado conexionismo, teorías básicas del aprendizaje como el condicionamiento y la memoria a corto plazo. Se lanzó una hipótesis sobre un posible modelo que serviría para describir el proceso de memorización a partir de simples estímulos.
Las redes neuronales parecen SIMULAR bien los procesos de aprendizaje a nivel Hardware. Es posible modelar algunas zonas cerebrales mediante redes neuronales de diferentes arquitecturas aunque no se ha logrado definir con exactitud la arquitectura del cerebro. Se han planteado modelos que se aproximan bien y parecen tener respuestas a algunas preguntas, sin embargo, muchos modelos parecen ser muy básicos y no logran entrar en detalles de niveles de abstracción superiores en los sistemas sensoriales. Solamente se cuenta con posibles modelos de los niveles de abstracción superiores.
Haken (2002) menciona que el sistema sensorial más estudiado en los animales es el visual, pero solamente se han logrado conclusiones sobre los primeros niveles de procesamiento, sin embargo parecen haber más de 15 diferentes campos visuales que procesan información más compleja conforme se van alejando del nivel primario. La información, como se ha señalado anteriormente, no se procesa en una única zona del cerebro. Spitzer (1999) utiliza el término niveles de abstracción. Todavía hay mucho que investigar sobre el sistema visual y mucho más en
otros sistemas sensoriales, sobre todo en los niveles de abstracción más profundos.
En cuanto al software las preguntas son igualmente complejas: no se cuenta con un algoritmo que se pueda implementar en un sistema biológico, además existen cuestiones más filosóficas ó teológicas que técnicas ó psicológicas: como los planteamientos que visualizan la consciencia como el software que controla el hardware (el cerebro).
Sin embargo, quedan aún por resolver cuestiones como los algoritmos de aprendizaje de las redes neuronales para que se parezcan más a la forma del aprendizaje a nivel neuronal. Se necesita un mecanismo de aprendizaje que no requiera una realimentación como el algoritmo de back-propagation o su implementación en hardware como se mencionó. Si se trabaja con un modelo como el presentado en Haken (2002) podría resultar posible que las señales presentadas como impulsos en la sección pre-sináptica puedan servir tanto como un mecanismo de comunicación, como un mecanismo de aprendizaje, dependiendo de la frecuencia de los impulsos o de un patrón de impulsos o de la sincronía de varias neuronas sobre una post-sináptica. Recuérdese que Hebb (1949) encontró que la repetición de estímulos sobre una neurona cambiaba la conexión que ésta tenía con dicho estímulo. El algoritmo estaría entonces muy relacionado con la codificación de las señales presentes en las sinapsis y especialmente en la sección pre-sináptica. Queda, con un modelo como éste, abierta la pregunta sobre qué tanto debería modificarse un la fuerza de conexión entre dos neuronas, ¿Cómo se podrían codificar los errores que al final son los que van a determinar la modificación de los pesos?
Un gran problema que surge con éste modelo es que la sincronización de las neuronas debe ser bastante precisa para tener una buena respuesta neuronal. La investigación sobre la sincronización de las neuronas requiere bastante trabajo matemático. Éste sería un buen punto de partida como proyecto posterior de investigación en el campo de redes neuronales artificiales.
Un problema que hasta ahora está siendo estudiado es el ruido presente en las conexiones neuronales: como se podría modelar dicho dentro de una red neuronal, que tan robustos son los modelos propuestos en redes neuronales como para no dejarse afectar por el ruido presente entre las conexiones. Se han dado algunos pasos para responder ésta pregunta en White et al. (2004) y Haken (2002), pero el camino se sigue desarrollando mediante la investigación de los neurocientíficos.
El ruido presente en las señales sensoriales parece ser importante para mejorar la capacidad cerebral y responder ante esos estímulos. Actualmente ésta es un área que está en discusión e investigación (véase Hidaka et al (2000))
Actualmente también se investigan las aplicaciones que la teoría del caos puede tener sobre diferentes investigaciones de los seres humanos, como la psicología, el corazón y también en el campo de la neurología (véase Ives (2003)). La teoría toma en cuenta fenómenos mas complejos del cerebro, pues no solamente tiene en cuenta las conexiones dentro del cerebro, sino que añade características como fenómenos electromagnéticos, diferentes clases de neuronas y diferentes clases de neurotransmisores, elementos en los que la teoría de redes neuronales “clásica” se queda bastante corto. Un estudio de las aplicaciones de la teoría del caos sobre las redes neuronales también tendría bastante cabida como un tema de investigación de cognición humana.
94
E. Referencias [3] Bishop,C. M.(1995), Neural Networks for Pattern Recognition. Oxford
University Press. [4] Chown, E. (s. f.) Reminiscence and Arousal: A connectionist model.
Recuperado el 28 de Abril de 2006 de www.bowdoin.edu/~echown/papers/ChownCogSci02.pdf
[5] Churchland, P. S., & Koch, Christof, & Sejnowski, T. J. (1990) What is Computational Neuroscience?. En Schwartz (Ed.), Computational Neuroscience (pp. 46 - 55). MIT Press.
[6] Feldman J. A. (1990). Computational Constraints on higher Neural Representations. En Schwartz (Ed.), Computational Neuroscience (pp. 163-178). MIT Press.
[7] Haken H. (2002). Brain Dynamics. Springer [8] Hardy L, T. & Jackson H., R. (1998) Aprendizaje y Cognición. 4 edición.
Prentice Hall. [9] Hebb D. O. (1949). The Organization of Behavior. Wiley [10] Hertz, J. & Krogh A. & Palmer R. G. (1991). Introduction to the theory of
Neural Computation. Addison-Wesley Publishing Company. [11] Ives, C. (2003). Human beings as Chaotic Systems. Recuperado el 2 de
Junio de 2006 de www.physics.orst.edu/~stetza/COURSES/ph407h/Chaos.pdf
[12] Jaeger, H.(2001) Report No. 148 en German National Research Center for Information Technology.
[13] Koch C. (1990). Biophysics of Computation: Toward the Mechanisms Underlying Information Processing in Single Neurons. En Schwartz (Ed.), Computational neurscience.(pp. 97-113)
[14] Kohonen, T. (1982). Self-organizaed formation of topologically correct feature maps. Biological Cybernetics 43:59-69. Reimpreso en Anderson & Rosenfield [1988] pp. 511-521
[15] Poggio T. & Torre V. (1981) en Theoretical Approaches in Neurobiology, Reichardt W. & Poggio T (Ed.). MIT Press,Cambridge.
[16] Rall W. & Segev I. (1990). Dendritic Branches, Spines, Synapses, and Excitable Spine Clusters. En Schwartz (Ed.), Computational Neuroscience (pp. 69-81). MIT Press.
[17] Rosenzweig, M. R.,& Leiman A. L. & Breedlove S. M. (1996) Biological Phsycology. Sinauer Associates Inc.
[18] Schmajuk, N.A., & DiCarlo, J.J. (1992) Stimulus configuration, classical conditioning, and hippocampal function. En Psychological Review Vol.99, pp. 268-305.
[19] Spitzer, Manfred (1999), The Mind Within the Net. MIT Press. [20] White, O.L. & Lee, D. D. & Sompolinsky, H. (2004). Short-term memory
in orthogonal neural networks [Versión electrónica].En Physical review Letters Vol 92 No. 14.
[21] Young, J. Z. (1985) What’s in a brain? En Coen, C. W. Functions of the brain Clarendon Press. Oxford.
95
III. ANEXOS ARTICULO
Fig. A1
Fig. A256
56 Imagen que representa la función del hipocampo. Contiene una subred encargada del condicionamiento y
otra encargada deguardar la información en la memoria a largo plazo. Tomada de Schmajuk & Di-Carlo (1992, pp.277)
top related