la naturaleza del aprendizaje
TRANSCRIPT
La naturaleza del aprendizaje 1
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
LA NATURALEZA DEL APRENDIZAJE
La naturaleza del aprendizaje 2
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
LA NATURALEZA DEL APRENDIZAJE1
En el estudio del aprendizaje estamos interesados en cómo un organismo adquiere nuevas formas de
comportarse. Pero el comportamiento de un organismo puede cambiar de muchas formas, y podríamos
estar dispuestos a considerar más algunos cambios como aprendizaje que otros. De tal manera, aún la
definición de aprendizaje es potencialmente controversial, y en psicología el estudio del aprendizaje ha
tenido muchas controversias.
Una de las controversias menores pero más persistentes, si los organismos unicelulares pueden
aprender, ilustra el problema de distinguir aprendizaje de otros tipos de cambios comportamentales. En
alguna ocasión fue argumentado, por ejemplo, que el paramecium podía aprender, porque se había
demostrado que los paramecios podían congregarse, después de varias sesiones de alimento, en una
región donde el alimento era presentado. Pero este argumento desapareció cuando se encontró que su
congregación dependía de residuos físicos de sesiones anteriores más que de oportunidades previas de
alimentarse en ese lugar (Jensen, 1957); los paramecios se congregaban ahí por lo que había ahí
actualmente, y no debido a lo que había ocurrido ahí en el pasado.
También se discutió el aprendizaje en el paramecium cuando se mostró que los paramecios evitaban la
luz después de que ésta había sido apareada con calor. Pero este argumento también desapareció
cuando se encontró que los paramecios evitan la luz después de haber sido calentados
independientemente de que la luz y el calor hayan sido presentados juntos o no (Best, 1954); los
paramecios evitaban la luz debido a que eso es lo que los paramecios calentados hacen, y no debido a
que hubiesen aprendido algo acerca de la relación entre luz y calor en estos experimentos. La cuestión,
si los paramecios pueden aprender, se ha mantenido igual; la respuesta ha cambiado con el tiempo.
Pero ¿Qué clase de cuestión es ésta? Ciertamente el comportamiento de un paramecium individual
puede cambiar. Pero algo más debe estar involucrado, porque el mismo cambio en comportamiento
puede o no llamarse un ejemplo de aprendizaje, dependiendo de las circunstancias que llevan a él. La
cuestión es parcialmente acerca de los paramecios; también es acerca de las condiciones bajo las cuales
decimos que un organismo ha aprendido.
Considere otro ejemplo. Si exponemos por un tiempo a los paramecios a una temperatura un poco más
alta que aquélla en la que han estado viviendo, encontramos que pueden sobrevivir temperaturas aún
más altas que de otro modo los hubieran matado ( Beale, 1953). No pudiesen muchos observadores
1Catania, Ch. (1973). The Nature of Learning. En: Nevin, J. y Reynolds, G. The Study of Behavior. Glenview, Ill. Scott, Foresman and Company. (páginas 31-68).
La naturaleza del aprendizaje 3
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
hablar de esta adaptación a la temperatura diciendo que los paramecios habían aprendido a tolerar
temperaturas más altas? Y qué pudiésemos encontrar acerca de la forma en la cual esta adaptación a la
temperatura funciona que los convenciese para hablar de ello de manera diferente?
No existe una respuesta sencilla o final a estas cuestiones, pero ellas ilustran que el modo en que nos
referimos al aprendizaje merece tanto escrutinio como el comportamiento que investigamos. Nuestro
propósito, por lo tanto, es doble: Examinaremos algunas propiedades del comportamiento, y
consideraremos las formas en las cuales estas propiedades pueden ser descritas. Salvo que ofrezcamos
ejemplos que comúnmente son considerados como ejemplos de aprendizaje, no intentaremos definir el
aprendizaje mismo, porque los fenómenos de aprendizaje son variados aunque comparten la misma
naturaleza.
LA NATURALEZA DEL COMPORTAMIENTO
Cuando analizamos el comportamiento, tenemos disponibles para nuestro estudio solamente las
propiedades del ambiente del organismo y las propiedades del comportamiento del organismo. Llamamos
a estas propiedades estímulos y respuestas, pero ninguno de ellos es de interés por sí solo. Estudiamos
los estímulos para determinar las formas en las cuales afectan a las respuestas, y estudiamos las
respuestas para determinar las formas en que pueden ser afectadas por los estímulos. Así, una de las
tareas esenciales del análisis del comportamiento es examinar los tipos de relaciones que pueden existir
entre los estímulos y las respuestas, y cómo es que estas relaciones se presentan.
Observando al organismo
La primera y más sencilla cosa que podemos hacer para saber acerca del comportamiento de un
organismo es simplemente observarlo (cf. métodos etológicos en el Capítulo 9). Por ejemplo, si
estuviésemos interesados en el comportamiento de una rata, podríamos colocarla en un espacio abierto y
después observar (cf. Bindra, 1961). La rata podría permanecer inmóvil por un tiempo, pero después
podríamos verla caminar o correr y ocasionalmente levantar sus patas traseras. Podríamos verla olfatear
o posiblemente lamerse o acicalarse; o la rata podría orinar y defecar. Si instalamos el equipo de registro
necesario, también podríamos ver cambios en su respiración, pulso, presión arterial, y otras respuestas
que no son fácilmente observadas con el simple ojo.
Podríamos registrar éstas y otras respuestas, pero nuestro conocimiento del comportamiento de la rata
estaría seriamente limitado por el carácter restringido de su ambiente. Si deseáramos encontrar más,
tendríamos que construir un ambiente que diese a la rata más oportunidad para desarrollar otros tipos de
La naturaleza del aprendizaje 4
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
comportamiento. Por ejemplo, podríamos construir un área alrededor de la cual estuviesen localizados
varios compartimientos. Cada uno de estos compartimientos podría ofrecer un diferente juego de
estímulos. Una lista posible podría incluir un compartimiento que contuviese un dispensador lleno de
alimento que se elevase; un compartimiento que contuviese un tubo lleno de agua; un compartimiento
que contuviese una rueda de actividad; un compartimiento que contuviese la entrada a un laberinto; un
pequeño compartimiento vacío; un compartimiento grande vacío; un compartimiento en el cual la entrada
de la rata encendiese un juego de luces y figuras en la pared; un compartimiento en el cual la entrada de
la rata encendiese una grabación de ruidos a un nivel moderado; un compartimiento en el cual la entrada
de la rata encendiese una grabación de ruidos a un nivel extremadamente alto; un compartimiento en el
cual la entrada de la rata encendiese un baño de agua fría; un compartimiento en el cual la entrada de la
rata encendiese una bocanada de aire caliente; y finalmente, un compartimiento con un piso con rejilla
electrificada.
También aquí podríamos esperar observar caminata, corrida, lamida o acicalamiento, orinar o defecar.
Pero también podríamos empezar a encontrar la probabilidad con la cual podría presentar otras
respuestas que dependen más directamente de estímulos específicos en el ambiente. La rata podría
presumiblemente pasar algún tiempo alimentándose del dispensador, tomando agua del tubo, corriendo
en la rueda de actividad, o explorando el laberinto. Después de algunos días podría empezar a dormir de
manera consistente en el pequeño compartimiento vacío, pero podría quizás pasar muy poco tiempo en
el compartimiento grande vacío. La rata también podría pasar un tiempo viendo y escuchando en los
compartimientos con luces y niveles moderados de ruidos. Y después de unas cuantas visitas,
probablemente rara vez visitaría los compartimientos con ruidos altos, baño de agua fría, aire caliente, o
parrilla electrificada.
Jerarquías del comportamiento
Podemos asumir que la rata aprendería lo que la lleva a cada compartimiento, pero nuestro mayor interés
sería evaluar la probabilidad con la que la rata se expondría a los estímulos en diferentes
compartimientos en tiempos diferentes. Sobre esta base, podríamos describir el comportamiento de la
rata en términos de una jerarquía de respuestas. Por ejemplo, la rata podría alimentarse a una hora
específica del día, y podría comúnmente tomar agua después de comer. Así, en ese momento el comer
estaría alto en la jerarquía y el tomar agua estaría después; entonces las otras respuestas, tales como
correr en la rueda de actividad, seguirían. La organización del comportamiento en términos de las
probabilidades relativas de diferentes respuestas han sido referidas como jerarquía de hábitos (Hull,
1943). Como veremos, una de las características esenciales del aprendizaje es la modificación de las
posiciones de diferentes respuestas en tal jerarquía.
La naturaleza del aprendizaje 5
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
La descripción del comportamiento en términos de jerarquías restringidas solamente a aquéllas
respuestas que hemos tornado disponibles todavía deja fuera algunos aspectos del comportamiento del
organismo. Por ejemplo, del comportamiento de la rata en el área podríamos no encontrar nada acerca
de su comportamiento social o sexual. Para estudiar los efectos de otras ratas como estímulos,
deberíamos añadir más compartimientos, algunos de ellos con individuos ratas machos, otros con
individuos ratas hembras, y todavía otros con grupos de tamaños diferentes de ratas de uno o ambos
sexos.
La clasificación de los estímulos
Sin embargo, sobre la base del comportamiento de la rata en la arena original podríamos empezar a
clasificar algunas de sus respuestas en términos de las probabilidades de que la rata las presente.
Encontraríamos que en un período de tiempo la rata frecuentemente se coloca en situación de presentar
respuestas tales como comer, mientras que rara vez, si acaso, se coloca en situación de presentar el
salto y el chillido producido por una rejilla electrificada. Los estímulos que poseen estos diferentes efectos
se han distinguido por nombres diferentes; los primeros son referidos como estímulos apetitivos o
reforzantes, y los últimos como estímulos aversivos o castigantes.
Pero tal caracterización aún no está completa, porque la rata puede no exponerse a estímulos que no
son aversivos si ocurre que esos estímulos tampoco son apetitivos. Tales estímulos podrían referirse
como neutrales. Por ejemplo, la rata podría rara vez entrar al compartimiento en el que las luces y las
figuras son proyectados en la pared simplemente porque no es muy probable que vea tales estímulos.
Nuestro interés no solamente debe ser con la probabilidad de que la rata se exponga a estímulos
diferentes, sino también con la probabilidad de que finalizará tal exposición una vez que ha iniciado. En
este punto, es necesario que intervengamos; no podemos simplemente observar a la rata. Para evaluar
la probabilidad de que la rata finalice su exposición a los estímulos en cualquier compartimiento dado,
debemos elegir a la rata y colocarla sucesivamente en cada compartimiento y observar qué tan rápido se
retira. Podríamos quizás tomar como línea base -un punto de referencia- el tiempo que la rata toma para
retirarse de los compartimientos vacíos pequeño o grande. Relativo a esta línea base, podríamos
probablemente encontrar que la rata se detiene un poco más en los compartimientos con alimento y
agua, pero se retira mucho más rápido de los compartimientos con ruido alto y descarga eléctrica.
Nuestra conclusión de tales observaciones es que los estímulos, y las diversas respuestas para las
cuales proveen una oportunidad, no caen ordenadamente dentro de una triple clasificación del ambiente
en eventos apetitivos, neutrales y aversivos; al contrario, el ambiente ofrece un continuo de posibilidades
La naturaleza del aprendizaje 6
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
que abarcan de aquéllas a las cuales es más probable que el organismo se exponga, a aquéllas con
efectos relativamente indiferentes, hasta aquéllas a las cuales no solamente es poco probable que el
organismo se exponga, sino que es altamente probable que las finalice si se expone. También podríamos
anticipar que el ordenamiento de estos eventos a lo largo del continuo cambia de tiempo en tiempo, así
como el estatus de comer cambia como una función del tiempo transcurrido desde el último alimento.
Es importante hacer notar que las características de los diferentes estímulos no pueden especificarse
independientemente del comportamiento de la rata. Sabemos que el alimento es apetitivo o reforzante
solamente en virtud del comportamiento de la rata con respecto al alimento; y sabemos que la descarga
es aversiva o castigante solamente en virtud del comportamiento de la rata con respecto a la descarga.
Solo a través de nuestras observaciones del comportamiento podemos asegurar cual será el efecto de un
estímulo, y podríamos incluso cambiar los efectos de un estímulo particular al manipular sus propiedades.
Por ejemplo, la rata podría ocasionalmente exponerse a ruidos con niveles moderados en un
compartimiento, pero rara vez exponerse a estos ruidos con niveles intensos en otro compartimiento. De
esta manera, tendríamos que concluir que los ruidos son reforzantes, neutrales, o aversivos,
dependiendo de su nivel.
Operaciones y procesos
Hemos indicado que el comportamiento involucra relaciones entre estímulos y respuestas, y hemos visto
que estas relaciones no pueden examinarse simplemente observando a un organismo. En algunas
ocasiones debemos intervenir presentando estímulos al organismo. Una vez que hemos iniciado tal
intervención, debemos distinguir entre operaciones comportamentales y procesos comportamentales. Las
operaciones son los procedimientos experimentales que pueden ser impuestos sobre el comportamiento;
los procesos son los efectos comportamentales de estos procedimientos.
La operación de elicitación
La presentación de estímulos a un organismo es la operación más sencilla, y como resultado de esta
operación en el comportamiento, podríamos observar cambios en las respuestas del organismo. Nos
referimos a la presentación de estímulos como una operación de elicitación, y el efecto de esta operación
es hacer más o menos probables las respuestas particulares. (Consideraremos después con más detalle
algunos de los efectos de la operación de elicitación).
Las operaciones consecuenciales de reforzamiento y castigo
Sin embargo, algunas de las propiedades más interesantes del comportamiento involucran no sólo el
efecto de eventos ambientales en el comportamiento, sino también el efecto del comportamiento en el
La naturaleza del aprendizaje 7
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
ambiente. Podemos arreglar que el comportamiento de un organismo tenga consecuencias. Por ejemplo,
podríamos presentar alimento a una rata hambrienta cada vez que la rata levantara sus patas traseras, o
podríamos presentar descarga cada vez que la rata se trasladara a una cierta área del piso. En estas
operaciones consecuenciales, discutidas posteriormente en las secciones de reforzamiento y castigo, el
comportamiento puede cambiar no simplemente porque los estímulos son presentados al organismo, sino
porque los estímulos son presentados en alguna relación a su comportamiento.
Operaciones de control del estímulo
Podemos complicar más las cosas al sobreimponer otra operación en elicitación, en reforzamiento, o en
castigo. Podemos arreglar que las operaciones más sencillas estén en vigor solamente en la presencia
de algún estímulo adicional. Nos referimos a tal procedimiento como una operación de control del
estímulo. Por ejemplo, este procedimiento podría ser sobreimpuesto en elicitación arreglando que el
alimento sea presentado a la rata sólo cuando suena un timbre, o que una descarga sea presentada sólo
cuando una luz está encendida. O el procedimiento podría en su lugar ser sobreimpuesto en las
operaciones consecuenciales de reforzamiento o castigo, de tal manera que las respuestas tendrán
consecuencias sólo en presencia de un estímulo particular: El alimento podría ser presentado a una rata
siempre que se levanta sobre sus patas traseras, pero sólo si lo hace cuando una luz verde está
encendida. Como resultado de la operación de control del estímulo, los cambios en el comportamiento
producidos por las operaciones más sencillas de elicitación, reforzamiento, o castigo pueden llegar a
ocurrir sólo en presencia de los estímulos correlacionados con estas operaciones. Este resultado se
refiere como el proceso comportamental de discriminación.
Estas diversas operaciones, y los procesos comportamentales que resultan de ellas, constituyen las
principales características de los experimentos en aprendizaje y condicionamiento, y ofrecen la
organización básica del presente capítulo. Primero examinaremos brevemente algunos de los efectos de
la presentación de estímulos, y la operación de elicitación. Después consideraremos las operaciones
consecuenciales de reforzamiento y castigo, en las cuales los estímulos son presentados como una
consecuencia del comportamiento del organismo. Finalmente, esquematizaremos la relación de estas
operaciones con la operación de control del estímulo a manera de una introducción a la cobertura más
detallada de algunos de estos procedimientos en capítulos subsecuentes.
LOS EFECTOS DE LOS ESTÍMULOS
Cuando hablamos de estímulos y respuestas, frecuentemente invocamos el vocabulario del reflejo.
Decimos que los estímulos producen respuestas, o que el comportamiento es una respuesta a los
estímulos. Esta forma de hablar entró en nuestro lenguaje cotidiano, al menos en parte, como una
La naturaleza del aprendizaje 8
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
herencia de varias fuentes: fisiología (e.g., Sherrington, 1906), los conceptos de Pavlov del reflejo
condicionado (1927), y el conductismo inicial de Watson (1919). De estas fuentes provino la noción de
que el reflejo -la producción confiable de una respuesta particular por un estímulo específico- debía ser
considerado como una unidad del comportamiento; el comportamiento complejo y el aprendizaje serían
entonces reductibles a la combinación de unidades reflejas.
Muchos reflejos son bien conocidos: La salivación producida por alimento en la boca, el reflejo rotuliano
producido por un pequeño golpe en el tendón patelar, la contracción pupilar producida por una luz
brillante, la reacción de sorpresa producida por un ruido intenso súbito, y los ajustes posturales
producidos por una pérdida de soporte. La característica común de cada uno de estos ejemplos es que
un estímulo específico produce de manera confiable una respuesta particular. El reflejo en sí mismo no
es ni estímulo ni respuesta; en su lugar, es la relación entre estos dos eventos (cf. Skinner, 1931). Así, el
reflejo salival es definido por la relación entre alimento en la boca y salivación. La respuesta salival, por sí
misma, no puede ser referida como un reflejo, porque no se ha especificado un estímulo elicitador.
Estímulos elicitadores y respuestas elicitadas
El concepto del reflejo poseía una simplicidad tentadora, pero no se encontró adecuado para una
descripción exhaustiva del comportamiento. A pesar de que el enfoque contemporáneo aún trata el
comportamiento en términos de la relación entre estímulos y respuestas, el reflejo es considerado como
sólo una relación especializada entre muchas. En un reflejo, la presentación de un estímulo dado produce
una respuesta particular con gran confiabilidad. Pero el estímulo de ese reflejo puede tener efectos
diferentes en otras respuestas, y la respuesta de ese reflejo puede ser afectada de manera diferente por
otros estímulos. Cualquier estímulo puede elevar la probabilidad de algunas respuestas, disminuir la
probabilidad de otras, y no tener efecto todavía en otras. Cualquier respuesta puede tornarse más
probable por algunos estímulos, tornarse menos probable por otros, y no ser afectada todavía por otros.
Para especificar completamente la relación entre un estímulo particular y una respuesta particular,
debemos plantear qué tan probable es la respuesta en ausencia del estímulo y qué tan probable es
cuando el estímulo es presentado.
Considere algunos ejemplos. Si observamos un perro por un período extendido de tiempo, podríamos ver
que se mueve ocasionalmente, levanta sus orejas, o ladra. Si presentamos alimento al perro, podríamos
ver que estas respuestas cesan e inicia el comer. Si entonces aplicamos una descarga a la pata
delantera del perro, el perro dejará de comer, flexionará su pata, y posiblemente aúlle. Si en su lugar
presentamos un ruido intenso, el perro de nuevo dejará de comer, pero esta ocasión podría levantar sus
orejas y ladrar. El alimento, la descarga, y el ruido simultáneamente elevan la probabilidad de algunas
La naturaleza del aprendizaje 9
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
respuestas y disminuyen la probabilidad de otras. Algunas de las respuestas pudiesen ocurrir con alguna
frecuencia aún en la ausencia de estos estímulos, pero ninguna de las respuestas ocurrirá
necesariamente en cada ocasión que un estímulo dado es presentado. Así, el reflejo, en el cual un
estímulo particular eleva una respuesta específica de baja frecuencia a virtualmente una ocurrencia
cierta, es solamente una clase especial de relación estímulo-respuesta.
Una descripción más general del comportamiento explica las observaciones de que las respuestas
pueden ocurrir con frecuencias altas aún en ausencia de cualquier estímulo identificable, y que sus
frecuencias pueden ser modificadas por la presentación de un estímulo. En cualquier momento, las
respuestas disponibles pueden ser caracterizadas en términos de una jerarquía comportamental; cuando
un estímulo es presentado, su efecto inmediato es modificar esa jerarquía. Por ejemplo, cuando el perro
estaba comiendo, el efecto de la descarga fue de elevar la flexión de la pata y de disminuir el comer en
sus posiciones relativas en la jerarquía.
La situación puede en ocasiones ser más complicada. Por ejemplo, si presentamos una bolita de
alimento a una rata privada de alimento, la rata comerá primero la bolita. Entonces típicamente tomará
agua si está disponible (Falk, 1961). De manera similar, si se aplica una descarga a un mono, morderá
cualquier objeto cercano a la que pueda hincar sus dientes. Entonces típicamente manipulará objetos,
tales como palancas, que se encuentran disponibles en su cámara (Hutchinson, Renfrew, & Young,
1971). Las respuestas que de manera confiable siguen a otras respuestas que han sido elicitadas son
referidas como comportamiento adjunto (Falk, 1971). Estos patrones secuenciales son propiedades
adicionales de comportamiento elicitado que deben considerarse.
En resumen, entonces, las presentaciones de un estímulo proporcionan una operación, llamada
elicitación, para modificar el comportamiento. Podemos cambiar lo que un organismo hace simplemente
presentándole estímulos. Sin embargo, para poder decir de qué forma puede ser modificado el
comportamiento, no es suficiente solamente catalogar los efectos de diferentes estímulos, porque estos
efectos pueden variar con el número de presentaciones del estímulo y con el espaciamiento de estas
presentaciones en el tiempo. Es en este punto que la operación de elicitación se vuelve relevante al
estudio del aprendizaje: La respuesta producida por un estímulo en un momento puede depender de lo
que le ha ocurrido al organismo previamente.
Efectos temporales de los estímulos
Si a una rata le presentamos bolitas de alimento y la rata se las come rápidamente, es muy probable que
digamos que la rata estaba hambrienta. Si continuamos presentando las bolitas, la rata las come cada
La naturaleza del aprendizaje 10
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
vez más lentamente hasta que eventualmente deja de comer completamente; en este punto podríamos
decir que la rata se ha saciado. La probabilidad con que estos estímulos (bolitas de comida) son seguidos
por una respuesta particular (comer) disminuye con cada presentación sucesiva del estímulo. Este
proceso ha sido llamado saciedad, pero no sólo se limita a estímulos tales como alimento y agua que el
organismo consume. Una diversidad de otros estímulos también tienen este efecto en el comportamiento.
Un perro levantará sus orejas con la presentación de luces o sonidos, pero si continuamos estas
presentaciones el perro pronto deja de responder. Un gato jugará con una pelota de hilo balanceada
frente a él, pero el gato eventualmente se dirige a otros objetos. Y un niño puede pasar un largo período
de tiempo con un juguete nuevo, pero finalmente “la novedad se acaba”.
Figura 2.1. Diversos efectos temporales de la operación de elicitación. Las flechas indican las presentaciones del estímulo. Se ilustran en A, B y C los efectos comúnmente referidos como adaptación o habituación: La respuesta disminuye con presentaciones repetidas del estímulo (con estímulos consumibles tales como alimento o agua, el fenómeno es comúnmente llamado saciedad). Los efectos comúnmente referidos como sensibilización o facilitación se ilustran en D, E y F: Las respuestas se incrementan con presentaciones repetidas del estímulo. En ambos casos el tiempo transcurrido desde la última presentación del estímulo también influye en la respuesta. En el primero, en el cual el tiempo transcurrido es a veces llamado período de privación, la respuesta se incrementa a medida que el tiempo transcurre sin presentaciones del estímulo; en el último, la respuesta se decrementa.
Este proceso, el decremento en la respuesta con presentaciones repetidas de un estímulo, ha sido
llamado de diferentes formas dependiendo de los estímulos involucrados. Ha sido llamado saciedad con
La naturaleza del aprendizaje 11
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
respecto a estímulos consumibles, pero con respecto a otros estímulos ha sido más comúnmente
llamado adaptación o habituación. A pesar de que las distinciones entre estos términos poseen una larga
historia, algunas veces involucrando intereses fisiológicos, no está claro que las distinciones tengan
importancia comportamental. El fenómeno se ilustra en las Figuras 2.1 A a 2.1 C. La respuesta inicia a
niveles diferentes en cada uno de los tres ejemplos, pero en cada caso la respuesta declina con
presentaciones sucesivas del estímulo.
El proceso de saciedad o adaptación parece ser un efecto característico de la presentación de la mayor
parte de los estímulos apetitivos o reforzantes, y posiblemente también de algunos estímulos
considerados como neutrales. Otros estímulos tienen efectos diferentes. La primera presentación de una
descarga eléctrica puede producir menor respuesta que presentaciones subsiguientes (e.g. Badia, Suter,
& Lewis, 1966; Hutchinson, Renfrew, & Young, 1971). Este proceso parece ser un efecto característico
de la presentación de estímulos considerados como aversivos o castigantes. Esta base para la distinción
entre diferentes clases de estímulos también es apoyada por evidencia indirecta. Por ejemplo, los
organismos en experimentos que involucran estímulos aversivos (e.g. evitación) típicamente pasan por
un período de calentamiento al inicio de cada sesión experimental; durante este tiempo, el estímulo
aversivo es menos efectivo de lo que lo es más adelante en la sesión.
Un incremento en la respuesta elicitada con presentaciones sucesivas del estímulo no tiene un nombre
bien establecido. Algunas veces ha sido llamado sensibilización (pero el término ha sido también aplicado
a casos en los cuales las presentaciones de un estímulo incrementan el efecto elicitante de algún otro
estímulo); el término facilitación puede también ser apropiado. El fenómeno se ilustra en las Figuras 2.1 D
a 2.1 F. La respuesta aumenta a una razón diferente cada uno de los tres ejemplos, pero en cada caso
aumenta con presentaciones sucesivas del estímulo.
Los procesos de adaptación y sensibilización serán indudablemente más explorados en investigación
futura. Por lo pronto, es suficiente hacer notar que la probabilidad con la que un estímulo particular
produce una respuesta específica depende no solamente de qué se trata el estímulo, sino también en la
exposición previa del organismo a ese estímulo.
Las presentaciones repetidas de un estímulo modifican el grado al que un estímulo produce respuestas.
Pero en la ausencia subsiguiente de ese estímulo, la tendencia a responder puede retornar a valores
anteriores. La rata cuya alimentación ha cesado después del consumo de muchas bolitas de alimento
comerá de nuevo si las bolitas se suspenden por un período de tiempo. La probabilidad de que coma y el
número de bolitas que comerá antes de dejar de comer depende de cuánto tiempo ha transcurrido desde
su última comida. Esta propiedad de las presentaciones del estímulo está íntimamente relacionada con el
La naturaleza del aprendizaje 12
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
proceso de saciedad o adaptación. La probabilidad de la respuesta disminuye con presentaciones
repetidas del estímulo, pero aumenta con el paso del tiempo desde la última presentación del estímulo,
como se ilustra en las Figuras 2.1 A a 2.1 C. La operación de la suspensión del estímulo es referida como
privación. Desafortunadamente, no existe un término que corresponda precisamente al proceso que
resulta de esta operación. Términos disponibles, tales como impulso, comúnmente implican estados
inferidos del organismo y tienden a distraer acerca de los eventos críticos que ocurrieron en el pasado
del organismo.
Nuevamente, pueden mantenerse las relaciones inversas para estímulos que producen sensibilización
más que adaptación. Por ejemplo, las respuestas producidas por descarga pueden convertirse en menos
probables a medida que el tiempo transcurre desde la última descarga (cf. Figuras 2.1 D a 2.1 F). Pero,
de nuevo desafortunadamente, no existen todavía datos no ambiguos que pudiesen permitir tal
generalización acerca del comportamiento. El análisis del comportamiento se simplificaría si los diversos
efectos temporales descritos aquí fueran correlacionados con las categorías de eventos apetitivos y
aversivos que fueron derivados de las jerarquías comportamentales discutidas previamente (i.e. la
probabilidad de que el organismo inicie o finalice diferentes comportamientos). Pero este asunto también
debe aguardar a experimentación futura.
La naturaleza de la motivación
Hemos indicado que las probabilidades de la respuesta pueden ser alteradas por presentaciones
sucesivas de un estímulo. Esta propiedad del comportamiento proporciona otros medios para la
modificación del comportamiento. Retornemos a la rata en su área. Podríamos notar que el comer y
tomar agua son altamente probables a una hora particular del día, pero el correr en la rueda de actividad
es menor. Sin embargo, si retiramos la rueda y así privamos a la rata de una oportunidad de correr en
ella, podemos encontrar al presentar después la rueda a la rata que ahora es más probable que corra a
que coma o tome agua. La operación de la privación hace posible alterar la jerarquía comportamental en
un tiempo dado. Podemos hacer el correr más probable que el comer, o el tomar agua más probable que
el correr, dependiendo de la exposición previa del organismo a los estímulos en presencia de los cuales
estas respuestas ocurren. Bajo cada una de estas diferentes condiciones, podemos describir las
probabilidades de diferentes respuestas en términos de su estatus relativo a otras respuestas en la
jerarquía. Veremos después que este tipo de descripción incide en los efectos de operaciones
consecuenciales en las cuales las respuestas tienen un efecto sobre el ambiente.
En los capítulos anteriores, la significación de los estímulos era cambiada por las condiciones bajo las
cuales los estímulos eran presentados. Tales cambios son el interés básico del estudio de la motivación
La naturaleza del aprendizaje 13
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
(cf. Cofer & Appley, 1964): Los estímulos pueden ser hechos más o menos reforzantes, o más o menos
aversivos, dependiendo de tales factores como el tiempo transcurrido desde su última presentación. Sin
embargo, la significación de los estímulos puede ser cambiada por otras operaciones aparte de la
privación. En el fenómeno llamado impronta (ver Capítulo 9), por ejemplo, un estímulo adquiere su
significación para un organismo simplemente en virtud de su presentación en un período particular en la
vida de un organismo. Una cría de pato ordinariamente ve a su madre durante las horas siguientes de
salir del cascarón y en adelante se mantiene cerca de su madre; pero si algún otro estímulo en
movimiento es sustituido por la madre pato durante este período crítico después de salir del cascarón, la
cría de pato puede después seguir ese estímulo en lugar de su madre (Hess, 1959). Una vez que un
estímulo ha adquirido propiedades reforzantes a través de la impronta, el seguimiento puede ocurrir
porque tiene la consecuencia de mantener este estímulo cerca (Peterson, 1960).
El ejemplo de la impronta es de especial interés porque ilustra otro efecto de la operación de elicitación.
La explicación de otros procedimientos motivacionales, tales como la intervención fisiológica, está más
allá de la esfera de este capítulo, pero algunos métodos para alterar la significancia de los estímulos son
tratados en los Capítulos 5 y 8.
El papel del ejercicio
Hemos resumido diversos efectos de las presentaciones de un estímulo. Un último efecto posible de la
operación de elicitación debe mencionarse antes de pasar a las operaciones consecuenciales de
reforzamiento y castigo. El efecto no está bien documentado, posiblemente porque ha sido ensombrecido
por los fenómenos de aprendizaje que consideraremos después. Pero a pesar de la sorprendente
escasez de evidencia, puede ser de significado fundamental para un análisis del comportamiento. Los
primeros trabajos en aprendizaje (e.g., Thorndike, 1913) con frecuencia se refirieron a la importancia de
ocurrencias repetidas de una respuesta, descrita en términos de leyes de ejercicio o práctica. A pesar de
que el fenómeno ha sido descuidado, puede todavía probar ser el caso de que la producción repetida de
una respuesta por un estímulo hace esa respuesta más probable aún en ausencia del estímulo. Por
ejemplo, en un ambiente experimental dado un perro puede al principio salivar sólo cuando el alimento es
presentado, pero después de varias presentaciones el perro puede también salivar en ausencia de
alimento (e.g., Zener & McCurdy, 1939). Tal respuesta ha sido llamada salivación espontánea; no puede
ser tomada como reflejo, porque no existe un estiímulo elicitante identificable. Otro ejemplo proviene de
experimentos interesados en estímulos aversivos, especialmente aquellos que involucran evitación. Estos
experimentos con frecuencia parecen ser diseñados para sacar provecho del mismo fenómeno, así como
el salto de obstáculo es elegido como una respuesta de evitación con ratas porque la descarga las hace
saltar; una vez que el saltar ha sido producido por la descarga, es probable que ocurra en otras
La naturaleza del aprendizaje 14
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
ocasiones cuando la descarga está ausente. Finalmente, existe evidencia que el picoteo de un pollo no
sólo depende de las condiciones elicitantes o de las consecuencias de picoteos previos, sino también es
afectado por qué tanto picoteo el polluelo ya ha presentado (Hogan, 1971).
Es sólo una suposición que este efecto de presentaciones repetidas del estímulo puede ser la propiedad
general del comportamiento. Si la suposición es correcta, el fenómeno será eventualmente descrito,
analizado, y formulado en términos considerablemente diferentes de las leyes clásicas de ejercicio y
práctica. Sin embargo, no podemos ignorar la posibilidad de que la elicitación de respuestas por un
estímulo hace más probables estas respuestas aún en ausencia del estímulo. En términos que serán más
familiares después, la elicitación de una respuesta puede elevar la probabilidad de su emisión
subsecuente. El proceso, en términos de las operaciones necesarias para producirla, es sin lugar a duda
el más sencillo que puede entrar en ejemplos de aprendizaje.
LAS CONSECUENCIAS DE LA RESPUESTA
Un organismo no es pasivamente dirigido por los estímulos. Los estímulos pueden afectar su
comportamiento de momento a momento, pero su comportamiento afecta a su vez el ambiente.
Simplemente al moverse, el organismo cambia la porción del ambiente que confronta. El comportamiento
tiene consecuencias, y es un factor importante del comportamiento el que pueda ser modificado por sus
consecuencias. Una rata que encuentra alimento en un lugar particular tiene más probabilidad de dirigirse
hacia ese lugar en ocasiones subsecuentes cuando está privada de alimento. Una rata que encuentra
una descarga eléctrica en otro lugar tiene más probabilidad de mantenerse lejos de ese lugar.
En estos casos las operaciones no solo involucran la presentación de estímulos, sino la presentación de
los estímulos con alguna relación al comportamiento. El experimentador arregla el ambiente de tal
manera que ciertos eventos sigan a ciertas respuestas emitidas por el organismo. Una rata puede
encontrar agua en una caja meta después de recorrer un laberinto; un pichón puede producir alimento al
picotear un disco iluminado; un mono puede tener una oportunidad de ver otros monos cada vez que
presiona una palanca; un niño puede obtener un dulce al colocar monedas en una máquina
dispensadora. En cada uno de estos casos las respuestas tienen consecuencias, y estas consecuencias
pueden hacer las respuestas más probables en el futuro.
La ley del efecto
El efecto de las consecuencias de la respuesta en respuestas subsiguientes fue estudiado
experimentalmente por Thorndike (1898), y fue descrito en términos de un principio que él llamo Ley del
Efecto. Esta ley sufrió muchas revisiones, pero su esencia era que el comportamiento podía ser
La naturaleza del aprendizaje 15
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
fortalecido por algunas consecuencias y debilitado por otras. La Ley del Efecto estaba basada en
experimentos con animales en cajas problema, cajas de las cuales los animales podían escapar al operar
un pestillo. En un ejemplo típico, un gato hambriento era colocado dentro de la caja con un pescado a la
vista desde fuera. En sus diversas actividades dentro de la caja, el gato eventualmente operaba el pestillo
y estaba libre para comerse el pescado. Las condiciones eran repetidas, y después de una cantidad de
ensayos el gato aprendía a operar el pestillo más y más rápidamente. El operar el pestillo inició como una
respuesta de baja probabilidad, pero su probabilidad incrementó después de varias ocasiones dio al gato
la oportunidad de comerse el pescado. Se muestran datos de la caja problema, presentados de dos
formas, en la Figura 2.2.
Este proceso, el cual por un tiempo fue llamado aprendizaje por ensayo y error, fue examinado con
diferentes organismos en muchas variaciones. Una descripción de las cajas problema, laberintos, pasillos
rectos, plataformas de salto, y otros mecanismos (e.g., Hilgard, 1951) que fueron empleados en el
estudio del aprendizaje está más allá del ámbito de la presente explicación. Sus diseños fueron con
frecuencia determinados por intereses teóricos, tales como si es que el aprendizaje era discreto o
continuo, si el organismo aprendía patrones motores (aprendizaje de la respuesta), o si las
consecuencias de la respuesta eran necesarias para el aprendizaje o sólo permitían al organismo
comportarse de acuerdo con lo que había aprendido de otras maneras. Algunas de estas cuestiones se
sostienen de interés experimental y teórico (e.g., Goldstein, Krantz, & Rains, 1965).
Figura 2.2. Dos formas de graficar una curva de aprendizaje en el desempeño de un gato en una caja problema. En A, el tiempo para escapar de la caja se grafica como función de los ensayos. En B, el tiempo se acumula horizontalmente, y los ensayos sucesivos se representan verticalmente como pasos
La naturaleza del aprendizaje 16
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
acumulativos. En el primer caso, el desempeño se muestra como un decremento variable en la medida temporal. En el segundo caso, se muestra como una curva, cuya pendiente corresponde a los escapes sucesivamente mas rápidos (Woodworth & Schlosberg, 1954).
Sin embargo, la característica esencial de estos diversos diseños experimentales era que el
comportamiento podía tornarse más probable cuando tenía ciertas consecuencias. El cambio en la
probabilidad de la respuesta fue medido de diferentes formas por diferentes investigadores, dependiendo
de los mecanismos empleados y de los propósitos del experimento. Las medidas contribuyeron a las
curvas de aprendizaje, gráficas que muestran cómo es que el comportamiento cambió en el curso de un
experimento: El tiempo para escapar de una caja problema como una función de los ensayos; el
porcentaje de vueltas correctas como una función del número de recorridos en un laberinto; o la
proporción de animales que alcanzaron un criterio de desempeño exitoso en etapas sucesivas de
entrenamiento. Pero la forma de la curva de aprendizaje dependía tanto de cuál instrumento era
empleado y cuáles medidas eran tomadas que ninguna descripción cuantitativa de la progresión del
aprendizaje era satisfactoria.
Una dificultad era que los desempeños estudiados en estos experimentos de aprendizaje eran
complicados. El período de tiempo en el cual las entradas a pasillos ciegos era eliminado a medida que
la rata aprendía a negociar un laberinto no necesariamente mostraba cómo es que el aprendizaje
proseguía en un punto particular del laberinto. Una medida de desempeño promedio del progreso de un
grupo de animales no era necesariamente representativa del desempeño de ningún animal individual en
el grupo. Y aún una medida relativamente sencilla, tal como la velocidad del correr en un pasillo recto,
podía ser afectada por factores irrelevantes tales como la dirección hacia la cual el animal estaba
orientado cuando un ensayo iniciaba, rastros de olor dejados por otros animales, el espacio disponible
para que el animal desacelerara en la caja meta sin golpear su cabeza contra la pared, o la forma en que
el animal era manipulado entre ensayos cuando el experimentador lo regresaba de la caja meta a la caja
de inicio del pasillo.
Una solución a estos problemas requería al menos dos innovaciones experimentales: El diseño de un
instrumento en el cual el organismo pudiese emitir repetidamente una respuesta de fácil especificación
sin intervención del experimentador; y la medición de la respuesta directamente en términos de la razón
de frecuencia, más que indirectamente en términos de otras medidas que eran derivadas o de
secuencias complejas de respuestas o del comportamiento de grupos de organismos. Estas fueron las
características de un enfoque de investigación iniciado por Skinner (1930, 1938; ver también a Skinner,
1950, 1956).
La naturaleza del aprendizaje 17
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
En un arreglo típico, una rata privada de alimento es colocada en una pequeña cámara. De una pared
sobresale una palanca que puede ser presionada por la rata y un comedero en el cual se pueden
entregar bolitas de alimento (pellets). Una vez que la rata se ha dirigido a comer pellets del comedero, el
instrumento es arreglado de tal manera que la entrega de las bolitas depende de los palanqueos: El
palanqueo así ofrece a la rata una oportunidad de comer. En un arreglo análogo para el pichón, la pared
de la cámara contiene un disco pequeño, o tecla, que puede ser iluminado desde atrás y una hendidura
dentro de la cual puede ser presentada al pichón una bandeja con grano mixto. Puede entonces
arreglarse que los picoteos en la tecla ofrezcan al pichón una oportunidad de comer grano. Bajo estas
circunstancias, la oportunidad de comer puede emplearse para elevar la probabilidad del palanqueo de la
rata o el picoteo de tecla del pichón, tal como era empleada para elevar la probabilidad de la operación
del gato del pestillo de una caja problema.
Algunas de las ventajas de estos arreglos y la importancia de la medición de respuestas en términos de
su frecuencia o razón serán consideradas de nuevo en el Capítulo 6. Por lo pronto, será suficiente hacer
notar que todo lo que estos arreglos experimentales tienen en común es que las consecuencias siguen al
comportamiento y que el comportamiento subsiguiente puede ser modificado por estas consecuencias.
El principio del reforzamiento
Los palanqueos de una rata privada de alimento se hacen más frecuentes cuando estos palanqueos
producen bolitas de alimento. Este ejemplo ilustra el principio del reforzamiento, el cual plantea que la
respuesta se incrementa cuando es seguida de estímulos reforzantes. El principio es relativamente
sencillo, pero durante su evolución de la Ley del Efecto inicial de Thorndike a su estado actual ha traído
con él una cantidad de problemas de lenguaje y lógica (Catania, 1969). Estos problemas deben ser
tratados antes de que puedan examinarse algunas de las propiedades empíricas del reforzamiento.
El vocabulario del reforzamiento
Consideramos primero el vocabulario del reforzamiento, el cual incluye el término reforzador como
estímulo y el término reforzamiento como operación. Un estímulo reforzante, tal como la bolita de
alimento presentada a la rata privada de alimento, es llamada reforzador. El reforzamiento, sin embargo,
no es ni un estímulo ni una respuesta. En su lugar, el reforzamiento es la operación de presentar un
reforzador cuando una respuesta ocurre. Esta operación es aplicada a respuestas, y por lo tanto
hablamos de respuestas reforzadas, no organismos. Así, podemos decir que el palanqueo de la rata
produjo el reforzador, una bolita de alimento, o que el palanqueo de la rata fue reforzado con una bolita
de alimento.
La naturaleza del aprendizaje 18
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
El término reforzamiento también ha sido aplicado con frecuencia al proceso que sigue de la operación
de reforzamiento, específicamente, el incremento en la frecuencia de la respuesta. Este doble empleo del
término, como operación y como proceso, complica la forma en la cual el comportamiento es descrito.
Por ejemplo, la declaración de que una respuesta fue reforzada puede significar tanto que la respuesta
produjo un reforzador como que la respuesta incrementó en frecuencia como consecuencia de producir
un reforzador. A pesar de que ambos usos son comunes en la literatura experimental, este capítulo se
restringirá al primer uso, aquél del reforzamiento como operación. El proceso que sigue de esta
operación es descrito concretamente en términos de los cambios en la frecuencia de una respuesta, y de
esta manera existe poca justificación para sustituir otra terminología por una descripción directa en
términos de cambios de frecuencia (cf. Catania, 1968).
Sin embargo, aún si el término reforzamiento se restringe a una operación experimental, este vocabulario
lleva a algunas dificultades lógicas. Cuando una respuesta produce un estímulo y así aumenta en
frecuencia, se dice que el estímulo es un reforzador y que la respuesta es reforzada. Si nos preguntan
cómo es que sabemos que el estímulo era un reforzador, nos apoyamos en el aumento en frecuencia de
la respuesta. Si entonces nos preguntan por qué la respuesta incrementó en frecuencia, decimos que lo
hizo porque fue reforzada. Es claro que en algún punto empezaremos a repetirnos; no podemos definir al
mismo tiempo un estímulo reforzante en términos de su efecto en el comportamiento y el efecto del
comportamiento en términos del estímulo reforzante.
El problema de la circularidad en la definición puede ser resuelta en una variedad de formas (cf. Meehl,
1950). Es primero importante reconocer que la función del término reforzamiento es descriptivo más que
explicatorio. El término nombra una cierta relación entre comportamiento y ambiente; no explica esta
relación. Sería inapropiado, por ejemplo, decir que porque una respuesta aumentó en frecuencia la
respuesta debe haber sido reforzada; el incremento pudo haber ocurrido por otras razones (e.g., la
respuesta pudo haber sido elicitada por un estímulo). En su lugar, debemos mostrar que la respuesta
aumentó en frecuencia porque la respuesta produjo un estímulo. Una vez que hemos logrado esto,
podemos describir estas circunstancias diciendo que la respuesta fue reforzada y que el estímulo fue un
reforzador.
También podemos hacer la conjetura de que el estímulo continuará funcionando como un reforzador en
el futuro, y que reforzará otras respuestas en otras situaciones.
Este supuesto, sin embargo, puede ser incorrecto. Es concebible que ciertos estímulos pueden ser
reforzadores con respecto a ciertas respuestas pero no con respecto a otras. Por ejemplo, si el
palanqueo de una rata nos lleva a la conclusión de que las bolitas de alimento son reforzadores, no
La naturaleza del aprendizaje 19
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
necesariamente seguirá que las bolitas de alimento aumentarán la frecuencia con la cual la rata cruza
una rejilla electrificada. Sin embargo, tales posibilidades son al menos susceptibles a la prueba empírica,
y permanece como dato bien establecido el que los reforzadores empleados en la mayor parte de las
situaciones experimentales son reforzadores efectivos con respecto a una variedad de respuestas.
Las propiedades de los reforzadores
A pesar de que tales consideraciones pueden apoyar la lógica del vocabulario del reforzamiento, esta
formulación todavía no ofrece un medio para identificar los reforzadores independientemente de sus
efectos en la operación de reforzamiento. Sin convertir un estímulo particular como una consecuencia de
la respuesta, no es posible decir si el estímulo será o no un reforzador. Aún aquéllos estímulos que se ha
demostrado son reforzadores, tales como alimento y agua, pueden ser efectivos o no efectivos
dependiendo de la privación. La entrega de alimento o agua siempre que una rata presiona una palanca
no elevará la probabilidad del palanqueo si el alimento y el agua están continuamente disponibles aún
cuando esta respuesta no ocurre. (Tales circunstancias fueron discutidas anteriormente en términos de
motivación: Podemos ahora definir el estudio de la motivación con mayor precisión como un interés con
los factores que hacen a los estímulos más o menos efectivos como reforzadores o como castigadores).
Los estímulos reforzantes existen en gran variedad. Algunos estímulos reforzantes son consumibles;
otros no. Algunos son efectivos sólo si el organismo entra en contacto físico con ellos; otros son efectivos
aún a distancia. Algunos parecen ser efectivos en el primer contacto del organismo con ellos; otros
parecen adquirir sus propiedades reforzantes durante la vida del organismo (ver Capítulo 5). No es por lo
tanto razonable esperar que los reforzadores sean identificables, independientemente de sus efectos
comportamentales, sobre la base de cualquier característica física común.
Sin embargo, es posible que las propiedades reforzantes de un estímulo estén correlacionadas con otros
efectos comportamentales de ese estímulo. Ya hemos indicado que las probabilidades con las que los
estímulos producen respuestas pueden variar con presentaciones sucesivas del estímulo, de acuerdo a
los procesos de adaptación o sensibilización. Estos procesos parecen distinguir clases de estímulos, y
puede ser que estén relacionados con propiedades reforzantes.
Hasta aquí hemos hablado de estímulos reforzantes, pero el posible involucramiento de procesos
temporales tales como adaptación en la función de estos estímulos sugiere que nuestra explicación
estará incompleta si no tratamos también con las respuestas producidas por estos estímulos. El
palanqueo de una rata produce alimento, y el alimento proporciona a la rata una oportunidad de comer.
Sabemos que si hiciésemos disponibles a la rata tanto la palanca como el alimento de manera
simultánea, sería más probable que la rata comiera a que presionara la palanca.
La naturaleza del aprendizaje 20
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
Este tipo de observación lleva a la conclusión, formulada por Premack (1959), que la probabilidad de una
respuesta aumentará si produce un estímulo que ofrece al organismo una oportunidad para presentar
una respuesta aún más probable. De acuerdo a esta explicación, el alimento es un reforzador efectivo
para los palanqueos de la rata privada de alimento simplemente porque el comer es más probable que el
palanqueo.
La relatividad del reforzamiento
Premack ha demostrado este principio en una variedad de experimentos. Uno de éstos (Premack, 1962)
muestra cómo es que los reforzadores pueden ser revertidos al variar independientemente las
probabilidades de dos respuestas. El correr de una rata en una rueda de actividad era controlado al
accionar o liberar un freno en la rueda, y era medido en términos de la frecuencia de las revoluciones de
la rueda. El tomar agua de la rata de un tubo era controlado por la introducción del tubo en, o retirarlo de
una apertura en una pared estacionaria a un lado de la rueda, y era medido por un sistema eléctrico, un
medidor de la cantidad de agua bebida, que contaba los lamidos. Después de que la oportunidad de
correr de la rata había sido restringida mientras el agua permanecía disponible, el correr se convirtió más
probable que el tomar agua. Después de que el acceso de la rata al tubo fue restringido mientras que el
correr libremente era permitido en la rueda, el tomar agua se convirtió más probable que el correr. Fue
entonces mostrado, en cada uno de estos casos, que una oportunidad de presentar la respuesta más
probable podría ser empleada para incrementar la frecuencia de la respuesta menos probable. Cuando el
correr era más probable que el tomar agua, el tomar agua se hizo más frecuente si liberaba el freno en la
rueda y permitía a la rata correr que si no hubiese consecuencia con respecto al correr. Inversamente,
cuando el tomar agua era más probable que el correr, el correr se hizo más frecuente si introducía el tubo
y permitía a la rata tomar agua que si no tuviese consecuencia con respecto al tomar agua.
La implicación de esta demostración es que los reforzadores no pueden ser definidos
independientemente de las respuestas que son reforzadas. La mayoría de los experimentos restringen su
atención a respuestas que ocurren con relativa poca frecuencia y a reforzadores que presentan la
ocasión para respuestas altamente probables. A pesar de ser experimentalmente tanto comunes como
convenientes, estos son casos especiales. Nos referiremos, en el texto subsecuente, a estos
reforzadores simplemente como estímulos. Pero no deberíamos olvidar que, de acuerdo a esta
explicación, los reforzadores son relativos, no absolutos; sus características importantes no descansan
en sus propiedades como estímulos, sino en las respuestas para las cuales ofrecen una oportunidad.
La relatividad de la relación del reforzamiento puede ser ilustrada al considerar tres diferentes respuestas
en lugar de sólo dos. Suponga que un dispensador de bolitas de alimento es añadido a la rueda de
La naturaleza del aprendizaje 21
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
actividad y el tubo del experimento precedente, y que, por operaciones adecuadas de privación, el comer
es hecho más probable que el correr, el cual a su vez es hecho más probable que el tomar agua. Bajo
estas circunstancias, el correr aumentaría en frecuencia si produjese una oportunidad para comer, pero al
mismo tiempo el tomar agua aumentaría en frecuencia si produjese una oportunidad para correr. Con
respecto al comer, el correr es la respuesta reforzada, pero con respecto a tomar agua, una oportunidad
de correr funciona como un reforzador.
Hablamos anteriormente del comportamiento como una jerarquía. El ordenamiento de respuestas dentro
de esta jerarquía varía con el paso del tiempo, con los estímulos que son presentados al organismo, y
con la oportunidad del organismo de involucrarse en las diferentes respuestas que forman la jerarquía. Al
restringir la oportunidad del organismo de participar en ciertas respuestas en esta jerarquía, o , en otras
palabras, por operaciones de privación, hacemos estas respuestas más probables y así podemos
emplear la oportunidad de involucrarse en ellas para elevar la probabilidad de otras respuestas que están
más bajas en la jerarquía. El reforzamiento no es una explicación; es el nombre de la operación que tiene
este efecto.
Reforzamiento positivo y negativo
Previamente en esta explicación, cuando sugerimos formas en las cuales podían ser clasificados los
eventos ambientales, consideramos no sólo la probabilidad con la cual el organismo se exponía a los
estímulos, sino también la probabilidad con la cual el organismo finalizaba tal exposición una vez iniciada.
Una rata comúnmente no se expone a una descarga eléctrica, y una vez sacudida se retiraría de la
descarga si tuviese la oportunidad. Este tipo de estímulo es algunas ocasiones llamado aversivo, y la
terminación de un estímulo aversivo proporciona la base para otro tipo de operación de reforzamiento.
La terminación de un estímulo, así como su presentación, puede ser tornada en una consecuencia de la
respuesta. Si esta terminación del estímulo hace la respuesta más probable, se dice que el estímulo es
un reforzador negativo y la operación es llamada reforzamiento negativo. El reforzamiento positivo y el
reforzamiento negativo, por lo tanto, se distinguen sobre la base de si un estímulo es presentado o
retirado cuando una respuesta ocurre.
Escape y evitación
La operación más sencilla de reforzamiento negativo es algunas veces referida como un procedimiento
La naturaleza del aprendizaje 22
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
de escape. Por ejemplo regresemos una vez más a la rata en el área. Notamos que la rata pronto dejaría
de entrar al compartimiento con la rejilla electrificada en el piso. Pero la rata puede ser expuesta a la
descarga eléctrica simplemente colocándola en ese compartimiento. La construcción del área entonces
presenta el escenario para reforzamiento negativo: La rata puede escapar de la descarga al abandonar el
compartimiento. En otras palabras, este instrumento está arreglado de tal manera que la terminación de
la descarga eléctrica es una consecuencia de la respuesta locomotora de abandonar el compartimiento.
El movimiento de un lugar a otro con frecuencia ha sido la base para estudios experimentales de
reforzamiento negativo, pero es posible sustituir respuestas que son más discretas y de medición más
fácil. Por ejemplo, si la salida del compartimiento está cerrada, una palanca puede ser introducida, la
cual, cuando es presionada, apagará la descarga por un período de tiempo. En este ejemplo, así como
en otros anteriores, el principio es el mismo: Se permite que una respuesta tenga una consecuencia
particular y puede así aumentar en frecuencia.
Considere entonces los dos casos. En ausencia de alimento, una respuesta que produce alimento puede
aumentar en frecuencia. En presencia de descarga, una respuesta que elimina la descarga puede
aumentar en frecuencia. El paralelo es sencillo y directo. Sin embargo, a pesar de la naturaleza
fundamental del reforzamiento negativo en el procedimiento de escape, no ha recibido tanta atención
experimental como procedimientos más complejos que involucran estímulos aversivos. El grueso de la
literatura sobre reforzamiento negativo está interesado con evitación (cf. Herrnstein, 1969; Herrnstein &
Hineline, 1966; ver también Capítulo 7), en el cual las respuestas en ausencia de un estímulo aversivo
previene o retardan la presentación subsecuente del estímulo. En un procedimiento de evitación, un
estímulo neutral, tal como una luz, precede consistentemente la presentación de una descarga, pero una
respuesta en presencia de la luz apaga la luz y previene la presentación subsecuente de la descarga. El
desempeño generado por tal procedimiento es algunas veces interpretado en términos de escape de un
estímulo, la luz, que ha adquirido propiedades aversivas por virtud de su relación con la descarga.
La razón por el descuido relativo del escape en la literatura experimental en reforzamiento negativo es
clara: Respuestas tales como los palanqueos de ratas o los picoteos de pichones que son fácilmente
elevados en frecuencia por reforzamiento positivo son con frecuencia difíciles de afectar por
reforzamiento negativo en procedimientos de escape. Esta diferencia en los resultados de operaciones
de reforzamiento positivo y reforzamiento negativo se debe a que las relaciones temporales entre la
respuesta reforzada y otras respuestas producidas por estímulos reforzantes son diferentes en los dos
casos.
El papel de las respuestas elicitadas
La naturaleza del aprendizaje 23
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
En el reforzamiento positivo el reforzador está ausente en el momento en que la respuesta reforzada
debe ocurrir. Cuando la respuesta ocurre, el reforzador es presentado y pueden entonces seguir otras
respuestas producidas por el reforzador. Por ejemplo, si la respuesta reforzada es el palanqueo de una
rata y el reforzador es alimento, el comer no puede ocurrir sino hasta que el palanqueo es completado y
el alimento ha sido presentado; las respuestas de palanqueo y comer necesariamente ocurren en
sucesión y no compiten directamente la una con la otra.
Sin embargo, en el reforzamiento negativo, el estímulo efectivo está presente en el momento en que la
respuesta reforzada debe ocurrir. Sólo después de que la respuesta ocurre el estímulo es retirado. Por
ejemplo, si la respuesta reforzada es un palanqueo y el reforzador negativo es una descarga, el
palanqueo debe ocurrir en el momento en que la descarga está produciendo otras respuestas, quizás
incompatibles. La descarga puede producir directamente salto, y puede también elevar la probabilidad de
otras respuestas diferentes al palanqueo que reducen la descarga al cambiar el contacto de la rata con la
rejilla electrificada. Estas respuestas permanecen altamente probables mientras la descarga está
presente y por lo tanto reducen la probabilidad de palanqueo. Cuando el palanqueo ocurre, la descarga
termina junto con las respuestas que genera. En este punto, las respuestas producidas por la descarga
ya no compiten con el palanqueo. Sin embargo, en ausencia de la descarga, el palanqueo no puede ya
ser reforzado negativamente porque no puede tener la consecuencia de terminar la descarga.
Esta explicación sugiere que un criterio importante para distinguir reforzamiento positivo y negativo es si
las respuestas producidas por el reforzador pueden ocurrir en un momento cuando pudiesen interferir con
la respuesta reforzada. Por lo tanto, una distinción basada en la operación de presentación o retiro de
estímulos puede ser de utilidad dudosa, porque cada una de esas operaciones es simplemente un
cambio en el ambiente del organismo que pudiese afectar de manera diferente la probabilidad de
diferentes respuestas en momentos diferentes.
Este punto se ilustra con un experimento de escape del frío (Weiss & Laties, 1961). Los palanqueos de
una rata en un cuarto frío fueron reforzados por la operación de una lámpara de calor, y los palanqueos
en el frío aumentaron así en frecuencia. En un aspecto, puede decirse de este procedimiento que es un
reforzamiento positivo, porque involucra la presentación de un estímulo, calor, cuando un palanqueo
ocurre. Por otra parte, a pesar de que el frío no es nada más que ausencia de calor, puede funcionar
como un estímulo a través de su acción en los receptores de temperatura en la piel de la rata. De esta
forma, puede también decirse del procedimiento que es un reforzamiento negativo, porque involucra la
terminación de los efectos de frío del estímulo cuando un palanqueo enciende la lámpara de calor.
La conclusión a que debe llegarse de este ejemplo es que la distinción entre reforzamiento positivo y
La naturaleza del aprendizaje 24
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
negativo es hasta cierto punto arbitrario. Sin embargo, a pesar de que pueden existir casos tales como
escape del frío en el cual es difícil especificar si la operación de reforzamiento involucra la presentación o
el retiro de un estímulo, la distinción puede tener significado comportamental. En este ejemplo, puede ser
importante saber qué sucede con respuestas diferentes al palanqueo durante la operación de
reforzamiento. En el frío, la rata puede temblar, arrinconarse, o engarzarse en otras respuestas que
reduzcan la probabilidad de presionar la palanca; sólo después de que el palanqueo es reforzado,
cuando la lámpara de calor ha sido encendida, es que la competencia entre estas otras respuestas y el
palanqueo termina. Por lo tanto, con respecto a las probabilidades de la respuesta antes y después del
reforzamiento, este caso parece ser mejor descrito como reforzamiento negativo más que positivo.
Reforzamiento y castigo
Hasta el momento hemos considerado los casos en los cuales las consecuencias de una respuesta
elevan la probabilidad de la respuesta. Pero también existen consecuencias de la respuesta que reducen
la probabilidad de la respuesta. De hecho, las consecuencias de la respuesta pueden ser representadas
de manera exhaustiva a lo largo de un continuo que abarca desde aquéllas que elevan significativamente
la respuesta, a aquéllas que tienen poco o ningún efecto en la probabilidad de la respuesta (discutidas
después en la sección sobre estímulos neutrales), hasta aquéllas que reducen significativamente la
probabilidad de la respuesta.
El vocabulario del castigo
La operación de arreglar la consecuencia de una respuesta que reduce la probabilidad de la respuesta es
llamada castigo. El estímulo que es arreglado como una consecuencia es llamado punitivo. Por ejemplo,
si es presentada una descarga eléctrica cada vez que una rata presiona una palanca, se dice que el
palanqueo es castigado y que la descarga es el castigador, porque el efecto de esta operación es una
reducción en la frecuencia de los palanqueos. Así, el vocabulario del castigo es paralelo al vocabulario
del reforzamiento.
Un estímulo punitivo refiere al evento estímulo, y el castigo es una operación. Pero así como el término
reforzamiento ha sido aplicado en algunas ocasiones tanto a procesos como a operaciones, el término
castigo también se le ha usado indistintamente para referir a procesos o a operaciones. Por lo tanto, en
cierta literatura, la declaración de que una respuesta fue castigada puede significar o que la respuesta
produjo un punitivo o que la respuesta disminuyó en frecuencia como resultado de producir un punitivo.
Así como en el reforzamiento, la explicación presente restringirá la aplicación del término castigo al
vocabulario de operaciones, y el proceso resultante será descrito directamente en términos de cambios
en la frecuencia de la respuesta o probabilidad.
La naturaleza del aprendizaje 25
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
Otro paralelo al vocabulario del reforzamiento es que las respuestas, no los organismos, se dice que son
castigados. Así, cuando el palanqueo de una rata produce una descarga, podemos decir que la rata fue
sacudida pero que el palanqueo de la rata fue castigado. Superficialmente, esta distinción puede parecer
tanto conceptualmente como gramaticalmente trivial, pero puede tener un efecto significativo en la
precisión con la que observamos y describimos el comportamiento.
Considere un caso en el cual un niño se porta mal. Un padre llama al niño, y después, cuando el niño
llega, el padre le da una zurra al niño. Es conveniente decir simplemente que el padre castigó al niño.
Pero esta forma de hablar hace muy fácil omitir hacer mención de las respuestas que pueden ser
afectadas por la zurra. La consecuencia del mal comportamiento del niño fue que el padre llamó al niño, y
que el padre administró la zurra cuando el niño obedeció la llamada. Así, a pesar de que la zurra puede
afectar el mal comportamiento futuro del niño, es más importante notar que el padre castigó la
aproximación del niño a la llamada. Este tipo de observación es más probable que sea hecha cuando es
necesario ser explícito acerca de la respuesta castigada (la aproximación del niño al padre fue castigada
por la zurra) que cuando una descripción menos precisa es considerada como aceptable (el niño fue
castigado por la zurra). El vocabulario de reforzamiento y castigo de respuestas no prejuzga los efectos
de estas operaciones sobre el comportamiento; no presupone que los efectos de estas operaciones
estarán restringidos solamente a las respuestas en las cuales las operaciones son ejecutadas. Sin
embargo, los efectos comportamentales de estas operaciones pueden ser descritas fácilmente, y es por
tanto ventajoso trabajar con un vocabulario de operaciones que exprese sin ambigüedad las
consecuencias del comportamiento.
La efectividad del castigo
Ha sido una controversia prolongada el hecho de si el castigo es de hecho efectivo. La delaración de que
el castigo debilitaba la respuesta fue parte de las primeras versiones de la Ley del Efecto de Thorndike,
pero fue abandonada en versiones posteriores. Solamente en años recientes se ha acumulado suficiente
evidencia como para reinstalar el castigo como una operación efectiva para modificar el comportamiento
(e.g., Azrin & Holz, 1966; Solomon, 1964). Las formas en las que el castigo puede afectar la respuesta se
considerarán en detalle en el Capítulo 7; por lo tanto, la explicación presente solamente resume
brevemente algunas características significativas del castigo y su relación con otras operaciones.
La primera dificultad en el análisis del castigo es que, para empezar, una reducción en la frecuencia de la
respuesta solamente puede ser estudiada si la respuesta posee una frecuencia considerable. Una
respuesta que nunca es emitida no puede ser castigada. De esta forma, muchos experimentos sobre
castigo proceden sobreimponiendo esta operación en una respuesta que es mantenida por
La naturaleza del aprendizaje 26
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
reforzamiento. Por tanto, en un experimento dado, los efectos del castigo pueden depender en parte de
cómo es reforzada la respuesta. Por ejemplo, los palanqueos de una rata pueden ser menos afectados
cuando son castigados con descarga eléctrica si la rata está severamente privada y sus palanqueos son
reforzados con bolas grandes de alimento que si la rata está sólo levemente privada y los palanqueos
son reforzados solamente con bolitas pequeñas de alimento.
Una segunda dificultad es que los estímulos efectivos como castigadores pueden afectar el
comportamiento aún cuando no son convertidos en una consecuencia de las respuestas. Por lo tanto,
debe mostrarse que el efecto del castigo depende de la relación entre respuestas y castigadores, y no
simplemente de la entrega de castigadores. Por ejemplo, un pichón puede picotear una tecla con menos
frecuencia cuando se presentan descargas ocasionales aún si las descargas ocurren
independientemente de los picoteos en la tecla. Así, debe ser demostrado que las descargas tienen un
mayor efecto cuando son producidas por picoteos en la tecla que cuando ocurren independientemente de
los picoteos en la tecla (cf. Azrin, 1956).
Una tercera dificultad, y la que posiblemente tuvo las implicaciones mayores para el desarrollo histórico
del análisis del castigo, es que los efectos de esta operación son temporales. Una vez que la frecuencia
de una respuesta ha sido reducida por castigo, es probable que la frecuencia regrese a niveles anteriores
cuando el castigo es descontinuado. Esta transitoriedad del efecto no es una propiedad sorprendente de
un proceso comportamental y tiene su equivalencia en la transitoriedad de los efectos del reforzamiento.
Como veremos después en nuestra discusión de extinción, las respuestas que se han convertido en más
frecuentes a través de reforzamiento se mantienen solamente si el reforzamiento continúa; cuando el
reforzamiento es descontinuado regresan a niveles anteriores.
Sin embargo, en la evolución del análisis del castigo, la transitoriedad de sus efectos fue enfatizada; por
esta razón, el castigo fue por mucho tiempo no reconocido como una operación con propiedades
comportamentales fundamentales. De hecho, los procedimientos de castigo efectivos eran en ocasiones
llamados por nombre diferente, evitación pasiva. Cuando una respuesta era eliminada por castigo, se
decía que el organismo estaba evitando pasivamente al castigador al retener la respuesta castigada. Con
este uso, los procedimientos efectivos de castigo podían ser referidos en términos del vocabulario de
evitación pasiva, mientras que los procedimientos restantes podían ser utilizados para defender la
afirmación de que el castigo era inefectivo.
Pero estas suposiciones han cedido a los hallazgos experimentales. El castigo es paralelo al
reforzamiento, salvo que los efectos de las dos operaciones difieren en signo: El reforzamiento aumenta
la frecuencia de la respuesta reforzada, mientras que el castigo disminuye la frecuencia de la respuesta
La naturaleza del aprendizaje 27
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
castigada. Los efectos de ambas operaciones disminuye con el tiempo después de que las operaciones
son descontinuadas.
Propiedades de los estímulos punitivos
En la mayoría de los experimentos sobre castigo, los estímulos que funcionan como punitivos son
seleccionados por su efectividad confiable con respecto a una variedad de respuestas, porque tales
estímulos revelan muy claramente los efectos del castigo. La descarga eléctrica es un ejemplo de tal
evento, y posee las ventajas adicionales de que puede ser medido adecuadamente y de que puede ser
presentada a niveles que no lastiman al organismo. Sin embargo, tales estímulos representan sólo
ejemplos extremos de estímulos punitivos, y aún estímulos que ordinariamente funcionan como
reforzadores pueden convertirse en punitivos bajo ciertas condiciones. La autoadministración de drogas,
por ejemplo, puede tener consecuencias reforzantes hasta cierto punto, pero las drogas pueden
convertirse en aversivas con la administración continuada (así como cuando demasiados martinis
enferman al bebedor, o cuando una dosis de LSD produce un “mal viaje”).
La implicación de esta observación es que, así como los reforzadores, los estímulos punitivos no pueden
ser definidos en términos absolutos, ni pueden ser identificados en términos de propiedades físicas
comunes. Por el contrario, las propiedades de dichos eventos deben ser evaluadas en términos de las
respuestas que son castigadas y su relación con las respuestas producidas por el estímulo punitivo.
Regresemos una vez más a la caja experimental en donde el correr de una rata en una rueda de
actividad y el tomar agua de un tubo pueden ser controlados. Anteriormente, mostramos cómo estas
respuestas pueden ser utilizadas para ilustrar el principio del reforzamiento de Premack , el cual afirma
que la probabilidad de una respuesta menos probable puede ser aumentada si esta respuesta produce
una oportunidad para participar en una respuesta más probable. Este tipo de análisis, en términos de
probabilidades de respuesta, también ha sido extendido al castigo (Premack, 1971).
La relatividad del castigo
Considere la siguiente modificación en la caja experimental para correr y tomar agua de Premack. La
rueda de actividad está comúnmente bloqueada, pero un motor está unido a ella de tal manera que,
cuando es operada, gira la rueda y así fuerza a la rata a correr. La operación del motor puede entonces
ser convertida en la consecuencia de alguna respuesta, tal como el presionar una palanca o el tomar
agua del tubo.
El primer paso en este experimento es controlar las probabilidades relativas de correr y tomar agua. Se
pueden arreglar dos condiciones: El correr puede ser convertido en más probable que el beber privando a
La naturaleza del aprendizaje 28
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
la rata de una oportunidad de correr pero dándole libre acceso al agua, y el beber puede ser convertido
en más probable privando a la rata de agua pero dándole una oportunidad de correr.
El siguiente paso es convertir la operación de la rueda una consecuencia del beber: Cada vez que la rata
bebe, la rueda empieza a girar y la rata es forzada a correr. Cuando correr es más probable que beber,
el resultado de esta operación es consistente con nuestra discusión anterior del principio del
reforzamiento. La probabilidad de beber aumenta, y es por tanto apropiado describir esta operación como
el reforzamiento de beber por la actividad de correr. Sin embargo, cuando beber es más probable que
correr, la operación tiene un efecto opuesto. La probabilidad de beber disminuye cuando correr es su
consecuencia, y es apropiado describir la operación como el castigo de beber por correr. Así, en este
ejemplo, una única respuesta, beber, es o reforzada o castigada por una única consecuencia, correr
reforzado, dependiendo de las probabilidades relativas de estas respuestas en la jerarquía
comportamental.
La reversibilidad potencial de las consecuencias como reforzadores o punitivos no es evidente en los
estímulos empleados en la mayor parte de los experimentos en reforzamiento y castigo. Los estímulos
reforzantes y punitivos son seleccionados de tal manera que las respuestas que producen estén
representadas en los extremos de la jerarquía comportamental. Es más probable que la rata privada de
alimento coma, si se le presenta la oportunidad, a que participe en otras respuestas; y en el experimento
típico sobre reforzamiento con alimento, comer es convertido en una consecuencia de las respuestas,
tales como palanqueo, que comúnmente son de probabilidad relativamente baja. Por el otro lado, existen
pocas circunstancias bajo las cuales una rata se colocará en posición de participar en respuestas
producidas por una descarga; y en el experimento típico sobre castigo con descarga, el comportamiento
elicitado por descarga es convertido en una consecuencia de respuestas, tales como palanqueo
mantenido por reforzamiento, que comúnmente son de probabilidad relativamente alta. Estos arreglos
experimentales típicos empañan la relatividad de reforzamiento y castigo y la forma en que esta
relatividad está basada en las posiciones de respuestas diferentes en la jerarquía comportamental. Es
por tanto importante reconocer que, a pesar de que las respuestas pueden ser manipuladas al cambiar
las consecuencias ambientales, los efectos de estas consecuencias dependen de sus propiedades
comportamentales. Una explicación adecuada de estas propiedades debe tratar con la relación entre las
respuestas que produce una consecuencia particular y las respuestas que a su vez son producidas por
esa consecuencia.
Estímulos aversivos
En diversos puntos en nuestra discusión, hemos hablado de estímulos aversivos, reforzadores negativos,
y punitivos. Cada uno fue introducido en un contexto diferente. Los estímulos aversivos fueron discutidos
La naturaleza del aprendizaje 29
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
en términos de los efectos de las operaciones de elicitación, los reforzadores negativos en términos de
consecuencias que incrementaban la probabilidad de las respuestas, y los estímulos punitivos en
términos de consecuencias que reducían la probabilidad de las respuestas. Sería conveniente asumir que
cada término identifica un aspecto diferente de una única categoría comportamental de eventos
ambientales. Puede decirse que la descarga eléctrica, por ejemplo, es un estímulo aversivo, un
reforzador negativo, o un estímulo punitivo, dependiendo del contexto experimental dentro del cual
ocurre. Para muchos estímulos llamados aversivos, esta suposición es probablemente correcta, porque
cada clasificación tiene sus orígenes en las relaciones entre las probabilidades de diferentes respuestas
en la jerarquía comportamental. Un estímulo que es efectivo como reforzador negativo puede por lo tanto
esperarse que sea efectivo como estímulo punitivo. Sin embargo, es importante hacer notar que el
supuesto solamente ofrece una categorización práctica. Dado el presente estado de nuestra comprensión
del comportamiento, la correspondencia entre reforzadores negativos y estímulos punitivos permanece
como un tema para comprobación empírica.
Castigo positivo y negativo
Debe hacerse una última distinción antes de cerrar nuestra discusión de la operación de castigo. Así
como con los reforzadores positivos y negativos, es posible distinguir entre estímulos punitivos positivos y
negativos. La presentación de ciertos eventos ambientales, tales como una descarga eléctrica o una
rueda giratoria que fuerza a la rata a correr, pueden funcionar como estímulo punitivo. Pero las
respuestas también pueden ser castigadas por la terminación de un estímulo. Por ejemplo, el retiro de
alimento como consecuencia del palanqueo puede reducir la probabilidad del palanqueo (y los padres
algunas ocasiones castigan el mal comportamiento al retirar privilegios). Por lo tanto, esta operación
puede ser referida como castigo negativo. Sin embargo, los efectos de esta operación no han sido
estudiados directamente, porque es difícil arreglar las condiciones necesarias. Por ejemplo, si el retiro de
alimento es convertido en consecuencia del palanqueo de una rata privada de alimento, es más probable
que la rata coma a que presione la palanca; de esta forma, surgirán muy pocas oportunidades de castigar
el palanqueo. Así como los estudios de reforzamiento negativo se han concentrado más en evitación que
en escape, los estudios de castigo negativo se han concentrado en castigo por tiempo fuera de
reforzamiento positivo (e.g., Ferster, 1958), en el cual una respuesta es castigada por retiro de un
estímulo en presencia del cual las respuestas pueden ser reforzadas más que simplemente por retiro del
propio reforzador positivo.
Estímulos neutrales
Hasta el momento hemos discutido las consecuencias de la respuesta, llamadas reforzadores, que
aumentan la probabilidad de las respuestas, y otras consecuencias de la respuesta, llamadas punitivas,
La naturaleza del aprendizaje 30
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
que disminuyen la probabilidad de las respuestas. Pero tanto los reforzadores como los punitivos deben
ser definidos relativamente, porque una consecuencia que puede funcionar como reforzador para una
respuesta puede funcionar como punitivo para otra respuesta. Hemos visto que los estímulos que
funcionan experimentalmente como reforzadores o punitivos son por lo común seleccionados por sus
efectos dramáticos. Sin embargo, tales estímulos representan solamente extremos a lo largo de un
continuo de efectos comportamentales. Entre estos extremos se encuentra un rango de estímulos que
comúnmente son llamados neutrales, porque su efectividad como reforzadores o punitivos no puede ser
demostrada tan fácil o dramáticamente. Sin embargo, tales estímulos también pueden ser consecuencias
de la respuesta, y como tales pueden afectar el comportamiento subsecuente.
Considere algunos ejemplos. Cuando alcanzamos un objeto en una mesa, una consecuencia de alcanzar
es que nuestra mano entra en contacto con el objeto. Cuando escuchamos mientras alguien habla, una
consecuencia de escuchar es que oímos lo que el hablante dice. Y cuando miramos una página de un
libro, una consecuencia de ver es que podemos leer el texto. Cada una de estas consecuencias puede a
su vez presentar la ocasión para otras respuestas: Una vez que hemos tocado un objeto, podemos
moverlo; una vez que hemos escuchado a un hablante, podemos responder; y una vez que hemos leído
una página de un libro, podemos continuar con la siguiente.
En cada uno de estos casos, podemos describir las consecuencias del comportamiento en el vocabulario
del reforzamiento. Podemos decir que alcanzar es reforzado por tocar, que escuchar es reforzado por oír,
o que mirar es reforzado por ver. Tal aplicación de este vocabulario tiene precedente (Skinner, 1957),
pero será suficiente para nuestros propósitos hablar simplemente en términos de consecuencias. Aquí
estamos interesados no tanto con cómo aumentamos o disminuimos la probabilidad de las respuestas,
sino en cómo la respuesta llega a ser coordinada con eventos ambientales.
Procesos sensoriales como comportamiento
El papel de los procesos sensoriales ha sido una fuente de una controversia sostenida en el estudio del
aprendizaje. Los teóricos tomaron partido en la cuestión de si el aprendizaje era sensorial o motor:
Aprendía un organismo relaciones entre estímulos, o aprendía respuestas? La cuestión no ha sido
todavía resuelta.
Parte de la dificultad es si los procesos sensoriales deben ser tratados como comportamiento. La
explicación presente asume que tal tratamiento es apropiado pues es consistente con el enfoque de que
las propiedades importantes del comportamiento pueden ser tratadas no sólo en términos de estímulos y
respuestas aislados, sino en términos de relaciones entre estímulos y respuestas. Así, a pesar de que ver
y oír no son tan fácil o sin ambigüedad medidos como respuestas discretas como palanqueos o picoteos,
La naturaleza del aprendizaje 31
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
son sin embargo parte del comportamiento de un organismo. Ver y oír dependen respectivamente de
estímulos visuales y auditivos, pero también dependen de lo que el organismo hace. Un organismo no
está pasivo en su ambiente: Ve lo que mira y oye lo que escucha. Tal comportamiento puede también
ocurrir en ausencia de estímulos relevantes, así como cuando hablamos de atender, buscar, imaginar, o
pensar.
Luces, sonidos, y otros eventos ambientales relativamente sencillos han sido con frecuencia descritos
como estímulos neutrales. La etiqueta neutral es práctica, y la empleamos aquí por esa razón. Pero,
como veremos, es un término inapropiado. Los eventos que pueden ser consecuencias del
comportamiento no pueden ser verdaderamente neutrales, porque como consecuencias no es posible
que no tengan ningún efecto en comportamiento subsecuente. Es también difícil concebir situaciones en
las cuales todo lo que un organismo pudiese hacer no tendría consecuencia.
La importancia de los estímulos que una vez fueron considerados neutrales fue demostrado en
experimentos interesados con un fenómeno llamado reforzamiento sensorial (ver Kish, 1966, para un
resumen). Por ejemplo, se sabía que los palanqueos de una rata aumentaban en frecuencia si encendían
brevemente una luz. Este efecto de la luz era tanto pequeña como transitoria, pero era sin embargo
apropiado concluir que la luz era temporalmente efectiva como un reforzador débil. Estos y otros
fenómenos relacionados fueron discutidos en términos de curiosidad o comportamiento exploratorio (e.g.,
Berlyne, 1960), y una variedad de demostraciones fueron añadidas a la literatura experimental. Por
ejemplo, se mostró que un mono en una cámara cerrada presionará un interruptor si las presiones le
ofrecen una oportunidad de ver hacia fuera de la cámara a otros monos (Butler, 1957).
Tales experimentos evalúan el efecto de consecuencias sensoriales de una respuesta elegida por el
experimentador por su facilidad de medición. Pero las inevitables consecuencias del estímulo del
comportamiento en cualquier ambiente pueden afectar la respuesta. Simplemente al moverse, el
organismo cambia la porción de ambiente con el cual entra en contacto; si el organismo se mueve, las
cosas que ve y toca cambian.
La importancia de estas consecuencias del comportamiento se ilustra en un experimento realizado por
Held y Hein (1963). Se criaron parejas de gatitos de tal manera que la estimulación visual a la que un
gatito (activo) se exponía mientras se movía alrededor de un recinto circular era duplicada por un
segundo gatito (pasivo). Sin embargo, la estimulación visual para el gatito activo, era una consecuencia
de su propio movimiento, mientras que para el gatito pasivo dependía de los movimientos del gatito
activo. Esto fue arreglado al añadir un sistema de arnés y polea al gatito activo y conectarlo, a través de
una palanca montada en un punto de apoyo en el centro de la cámara, a un pequeño compartimiento
La naturaleza del aprendizaje 32
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
dentro del cual estaba el gatito pasivo. De esta forma, el gatito pasivo, que era movido como en un
pequeño carrusel, veía los mismos tipos de cambios en estímulos visuales en las mismas secuencias
temporales que aquellos vistos por el gatito activo, pero estos cambios no eran consecuencias de su
propio comportamiento. A pesar de sus exposiciones equivalentes a estímulos visuales, el gatito que
estaba expuesto pasivamente a los estímulos visuales por los movimientos del gatito activo no podía
responder apropiadamente en pruebas subsecuentes de coordinación visual-motora, aunque lo logró
hacer después de que le fue permitido moverse libremente en un cuarto iluminado.
Por lo tanto, debemos concluir que las consecuencias de la respuesta juegan un papel crítico en el
control del comportamiento, podamos o no categorizar de manera práctica estas consecuencias como
estímulos reforzantes o neutrales o punitivos. Y si, cuando hablamos de situaciones en las que un
organismo aprende, no podemos decir que el organismo ha aprendido o estímulos o respuestas,
podemos al menos generalmente decir que el organismo ha aprendido las consecuencias de su
comportamiento.
Aprendizaje latente
Una amplia base para controversias acerca de la naturaleza del aprendizaje provino de un fenómeno
llamado aprendizaje latente (ver Thistlethwaite, 1951, para un resumen). En un experimento sobre
aprendizaje latente, ratas privadas de alimento en cada uno de dos grupos recorrieron un laberinto. Las
ratas en un grupo encontraron alimento en la caja meta del laberinto, y en ensayos sucesivos su tiempo
de recorrido del laberinto y sus entradas a los pasillos ciegos disminuyó gradualmente. Las ratas en el
otro grupo no encontraron alimento en la caja meta, y en el mismo número de ensayos que el primer
grupo sus desempeños no mostraron evidencia de aprendizaje. Entonces las ratas en este grupo fueron
colocadas en la caja meta y se les presentó alimento ahí por primera vez, y los desempeños de los dos
grupos fueron probados de nuevo. Esta ocasión no hubo diferencia considerable entre los grupos. Las
ratas que previamente había recorrido el laberinto sin alimento en la caja meta empezaron a correr tan
rápido y con tan pocas entradas a los pasillos ciegos como las ratas que habían encontrado alimento en
la caja meta en todos los ensayos previos.
Las ratas habían aprendido el laberinto igual de bien con o sin alimento en la caja meta, decía el
argumento, y por lo tanto el aprendizaje no podía ser atribuido al efecto del alimento como reforzador.
Pero, se oponía, el alimento en la caja meta no es el único reforzador posible para el correr de la rata por
el laberinto. Se realizaron entonces experimentos para evaluar si un reforzador efectivo podría ser el
retiro de la rata del laberinto, o su escape del confinamiento de los pasillos ciegos, o su regreso a su caja
hogar, donde es alimentado. Mientras un experimento mostró que un reforzador particular podría ser
efectivo, otro repitió la demostración del aprendizaje latente de modo tal que este reforzador no podía
La naturaleza del aprendizaje 33
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
explicar el fenómeno.
Pero el argumento no podía ser resuelto ni aún en principio, porque la negociación de una rata del
laberinto inevitablemente involucra consecuencias de la respuesta. En un punto particular en el laberinto,
una vuelta es seguida por un pasillo ciego y la otra por una oportunidad de avanzar en el laberinto; en
otro punto, una vuelta es seguida por la entrada a la caja meta, contenga ésta o no alimento. El ver,
olisquear, tocar, y moverse de la rata en el laberinto es comportamiento consecuencial, aún si este
comportamiento no es tan de fácil acceso al experimentador como vueltas correctas y entradas a pasillo
ciegos. Llamar a estas consecuencias reforzadores es quizás nada más que un asunto de preferencia.
Pero sería difícil afirmar que estas consecuencias no son esenciales para el proceso llamado
aprendizaje.
Extinción y superstición
Algunas respuestas tienen consecuencias que permanecen bastante constantes a lo largo de la vida de
un organismo. Alcanzar un objeto en una mesa, por ejemplo, es generalmente seguido por tocar el
objeto. Pero para muchas respuestas, las consecuencias cambian. El comportamiento que es reforzado
en la niñez puede ya no ser reforzado cuando el niño se ha convertido en adulto. Y cuando las
consecuencias de la respuesta cambian, el comportamiento a su vez puede cambiar. Cuando una
respuesta es reforzada, aumenta en frecuencia; pero este efecto no es permanente, porque cuando el
reforzamiento es suspendido, la frecuencia de la respuesta regresa a niveles anteriores.
La suspensión del reforzamiento es llamada extinción, y una respuesta en la cual esta operación se
ejecuta se dice que es extinguida. (La extinción es ocasionalmente confundida con el olvido, pero una
respuesta extinguida no es necesariamente olvidada; simplemente ya no tiene las consecuencias
reforzantes que antes tenía). Como resultado de la operación de extinción, la probabilidad de la
respuesta regresa al nivel previo al reforzamiento. En este respecto, la extinción demuestra simplemente
que la operación de reforzamiento es temporal en su efecto. La disminución en la respuesta durante la
extinción es por tanto solamente una parte del proceso generado por el reforzamiento, en tanto que la
disminución muestra cómo los efectos del reforzamiento persisten en el tiempo (cf. Morse, 1966).
La respuesta durante la extinción fue considerada en un tiempo como una medida fundamental de los
efectos del reforzamiento. Referida como resistencia a la extinción, tales mediciones como el número de
respuestas emitidas durante un período de extinción, o el tiempo transcurrido antes de que la respuesta
disminuyera a un nivel específico, suplementaron otras medidas de la respuesta tomadas durante el
reforzamiento. Así, si un procedimiento de reforzamiento generaba más respuesta después de haber sido
La naturaleza del aprendizaje 34
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
suspendido que otro procedimiento de reforzamiento, se decía que el primer procedimiento de
reforzamiento había producido mayor resistencia a la extinción.
Extinción e inhibición
Pero las cuestiones se complicaron porque los efectos de la extinción no podían ser descritos solamente
como una declinación en la respuesta. Esta declinación era típicamente acompañada por otros efectos.
Uno de los más prominentes era el fenómeno de la recuperación espontánea. Después de que la
respuesta había disminuido a niveles bajos al final de una sesión de extinción, la respuesta se
recuperaba a niveles anteriores altos al inicio de la siguiente sesión. Análisis experimentales de éste y
otros fenómenos de extinción llevaron a una variedad de explicaciones acerca de la extinción, formuladas
en términos de procesos inferidos tales como frustración, interferencia, e inhibición (cf. Kimble, 1961,
Capítulo 10). Estas explicaciones sugerían que la respuesta en la extinción no solamente declinaba
pasivamente, sino que era suprimida activamente por propiedades aversivas o inhibitorias de respuestas
no reforzadas. Fenómenos tales como recuperación espontánea fueron tomados como indicadores de
que la respuesta reducida por la extinción estaba de alguna manera “ahí todo el tiempo pero inhibida” (cf.
Reid, 1958).
Las explicaciones asumieron que la supresión activa de la respuesta extinguida era criticada sobre la
base de que explicaban los fenómenos de la extinción en términos de procesos o eventos que no eran ni
observados ni observables. Cuando se decía que una respuesta extinguida era inhibida, por ejemplo, era
posible medir la respuesta inhibida pero no era posible medir directamente los procesos o eventos que se
decía producían la inhibición. Por lo tanto, fueron formuladas otras explicaciones que no asumieron
procesos supresores o inhibitorios.
Una de tales explicaciones sugirió que el inicio de la sesión tenía propiedades especiales de estímulo,
posiblemente derivadas de la manipulación del animal y otras condiciones pre-experimentales, y que por
tanto, los efectos de la extinción bajo condiciones diferentes durante la sesión podían no transferirse al
inicio de la siguiente sesión de extinción. En una evaluación experimental de esta explicación (Kendall,
1965), las condiciones del estímulo fueron modificadas durante la extinción del picoteo de un pichón. Los
picoteos del pichón en una tecla iluminada habían previamente sido reforzados con grano. Se condujo
entonces la extinción durante períodos de 1 minuto de iluminación de la tecla alternados con períodos de
1 minuto de oscuridad en la cámara, durante los cuales el pichón no picoteaba. Después de que los
picoteos en la tecla iluminada se hicieron poco frecuentes, la tecla se mantenía iluminada continuamente;
en pocos minutos el pichón de nuevo empezó a picotear. De esta forma, la extinción durante iluminación
periódica de la tecla redujo la respuesta, pero este efecto no se transfirió a la iluminación continua
durante la sesión. En este experimento, podía decirse que la recuperación espontánea ocurrió dentro de
La naturaleza del aprendizaje 35
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
la sesión más que en su inicio.
Dependencias estímulo-respuesta y entregas de estímulo
Sin embargo, explicaciones acerca de la naturaleza de la extinción y de los fenómenos que la
acompañan permanecen controversiales. La razón puede ser que la suspensión del reforzamiento tiene
dos efectos: Termina una dependencia entre respuestas y reforzadores, y los reforzadores ya no son
entregados. La diferencia entre estos dos efectos de la operación de extinción pueden ser ilustrados al
comparar la extinción con el procedimiento de saciedad, en la cual la respuesta continúa produciendo un
estímulo pero el estímulo se convierte en inefectivo como reforzador, y un procedimiento de elicitación,
en el cual la entrega del reforzador continúa pero es independiente de la respuesta.
Asuma que los palanqueos de una rata privada de alimento son reforzados con bolitas de alimento, y que
la rata presiona la palanca y come una bolita de alimento una vez cada diez o quince segundos. Si los
palanqueos son entonces extinguidos, ya no producen bolitas y la rata ya no come. Como resultado, el
palanqueo se vuelve menos frecuente.
Si, en su lugar, la dependencia entre los palanqueos y las bolitas de alimento se mantiene pero la rata ya
no está privada de alimento, la rata ya no come aunque los palanqueos continúen produciendo bolitas.
Como resultado de esta operación de saciedad, el palanqueo se vuelve menos frecuente. Sin embargo,
es así, no porque los palanqueos no tengan consecuencias, sino porque las consecuencias ya no son
efectivas como reforzadores.
Considere la tercera posibilidad. La rata permanece privada de alimento y la dependencia entre
palanqueos y bolitas de alimento es suspendida, pero ahora las bolitas se entregan automáticamente
cada 10 o 15 segundos. Como resultado de esta operación de elicitación, el palanqueo de nuevo se hace
menos frecuente. Pero en este caso los efectos de la terminación de la dependencia entre respuestas y
reforzadores, contrarios a aquellos de la operación de extinción, no son acompañados por el efecto de la
suspensión de alimento.
La distinción entre terminar una dependencia y terminar la entrega de reforzadores es importante porque
los efectos de estas dos operaciones no son necesariamente los mismos. La terminación de una
dependencia es seguida por un cambio en la probabilidad de la respuesta para la cual la dependencia fue
arreglada. Sin embargo, la terminación de la entrega de reforzadores, tiene efectos en un rango más
amplio de comportamiento, dependiese o no la entrega de reforzadores de la respuesta. Por ejemplo, si
una rata privada de alimento ha estado comiendo bolitas y las bolitas ya no son de pronto disponibles, la
rata se volverá más activa, probablemente orinará o defecará, y comúnmente morderá la palanca o
La naturaleza del aprendizaje 36
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
atacará objetos de la cámara. Si las bolitas fueron producidas por palanqueos, la rata puede morder la
palanca (e.g., Mowrer & Jones, 1943); si otro organismo se encuentra en la cámara, el otro organismo
puede ser atacado (Azrin, Hutchinson, & McLaughlin, 1965). Tales efectos como éstos no son resultado
directo de la terminación de una dependencia; son efectos colaterales, sobreimpuestos en la declinación
de la respuesta cuando la dependencia es terminada, porque esta terminación está necesariamente
acompañada por la terminación de la entrega de reforzadores.
Existen problemas análogos con respecto a reforzamiento negativo y con respecto a castigo. La extinción
con respecto a reforzamiento negativo en escape por descarga, por ejemplo, pudiera asumirse que
involucra terminación de la dependencia entre respuestas y la descarga durante presentación continua de
descarga (cf. Herrnstein & Hineline, 1966). Sin embargo, con más frecuencia, la simple terminación de la
descarga ha sido referida como una operación de extinción en el caso del reforzamiento negativo. En
este caso, no puede haber dependencia entre respuestas y terminación de descarga, pero tampoco
puede haber un evento reforzador independiente de la respuesta porque la ausencia de descarga puede
sólo reforzar efectivamente si la descarga está en ocasiones presente.
La terminación de castigo es referida en términos de recuperación más que en términos de extinción. Sin
embargo, si las respuestas son castigadas por descarga, la dependencia entre respuestas y descargas
puede ser terminada con la terminación de la entrega de descargas o terminando la dependencia
mientras se entregan descargas independientemente de las respuestas. El primer caso, mas no el
segundo, es análogo al de extinción con reforzamiento positivo, porque los efectos generales de terminar
la descarga pueden sobreimponerse en los efectos específicos de la terminación de la dependencia. (Ni
en reforzamiento negativo ni en castigo positivo está claro cómo es que la dependencia puede ser
mantenida mientras las presentaciones del estímulo son descontinuadas. Una operación análoga a la
saciedad en reforzamiento positivo puede ser la reducción de la intensidad de la descarga a un nivel que
la hace inefectiva como reforzador negativo o como un castigador positivo, mientras mantiene la
dependencia entre respuestas y descarga).
Se ofrece un ejemplo con experimentos interesados con el mantenimiento de la respuesta por descarga
eléctrica (e.g., Kelleher & Morse, 1968). Si se arreglan las condiciones de tal manera que el palanqueo de
un mono produce una descarga al final de intervalos sucesivos de 10 minutos cada uno, el mono puede
llegar a producirse la descarga a sí mismo por palanqueo. Después de cada descarga el mono se
detiene, y entonces responde más y más rápidamente hasta que nuevamente se choca a sí mismo al
final del intervalo siguiente. Si la descarga es descontinuada, el palanqueo del mono cesa. En este
desempeño, la descarga parece funcionar como reforzador: El mono responde cuando sus respuestas
producen descarga pero no cuando sus respuestas no tienen consecuencia. Sin embargo, también es
La naturaleza del aprendizaje 37
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
necesario evaluar lo que el mono hace cuando las descargas son entregadas independientemente de su
respuesta. Las descargas independientes de la respuesta elicitan palanqueo en el mono (e.g.,
Hutchinson, Renfrew, & Young, 1971). La comparación apropiada no es entre descargas producidas por
respuesta y no descargas en absoluto, sino entre descargas producidas por respuesta y descargas
independientes de la respuesta. Si el palanqueo ocurre con menor frecuencia cuando las descargas son
producidas por la respuesta que cuando son independientes de la respuesta, es apropiado concluir que la
descarga es un castigador efectivo. En estas circunstancias, el castigo reduce la respuesta, pero los
efectos elicitadores del estímulo punitivo son tan potentes que el castigo no es suficiente para eliminar la
respuesta; así, tenemos el hallazgo paradójico de que el mono continúa chocándose a sí mismo aún
cuando las descargas ya no serían entregadas si dejase de responder completamente.
Este ejemplo puede tener implicaciones importantes. Podríamos asumir, por ejemplo, que un padre que
trata de lograr que un niño deje de llorar castigando el llanto tendrá dificultad simplemente porque el
estímulo positivo elicita la misma respuesta que el padre está tratando de suprimir. Por lo tanto, en el
castigo, así como en el reforzamiento, debemos observar que las dependencias y las entregas del
estímulo tienen efectos separados.
En todos estos casos, es de interés saber cómo cambia la frecuencia de la respuesta cuando termina una
dependencia entre respuestas y consecuencias. Pero este proceso ha sido comúnmente examinado
durante extinción, cuando los efectos generales de la terminación de las presentaciones del estímulo son
sobreimpuestas en los efectos específicos de la terminación de la dependencia. Es razonable
preguntarse por qué ha sido éste el caso. Para responder a esta cuestión, debemos considerar más
ampliamente los efectos de las presentaciones del estímulo independientes de la respuesta.
Operaciones elicitadoras y superstición
La presentación de un estímulo produce respuesta, pero aún si el estímulo es presentado sin referencia
al comportamiento del organismo, también sigue a las respuestas. Por ejemplo, la entrega de una bolita
de alimento independiente de la respuesta podría ocurrir justo cuando la rata se muerde la cola. Y si
sucede que la bolita es entregada justo después de que la rata presiona una palanca, qué es lo que
puede distinguir esta sucesión, la presión seguida por la bolita, de aquella en la cual la presión
actualmente produce la bolita? La sucesión de respuesta y reforzador puede afectar respuestas
subsecuentes tanto si esta sucesión ocurre accidentalmente como si es arreglada por la operación de
reforzamiento.
La respuesta que es aumentada en probabilidad por la sucesión accidental de respuestas y reforzadores
ha sido llamada respuestas supersticiosas (Skinner, 1948). En la demostración de una superstición
La naturaleza del aprendizaje 38
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
experimental, Skinner le presentó grano a un pichón privado de alimento en intervalos de 15 segundos.
Cualquier respuesta que ocurriese justo antes de la entrega del grano era probable de ser repetida, y por
lo tanto era probable que fuese seguida por todavía otra entrega de grano. Así, a través de esta sucesión
accidental de respuestas y reforzadores, tendía a desarrollarse un patrón estereotipado de respuestas.
Los pichones giraban, saltaban, o picoteaban; las respuestas fueron diferentes para diferentes pichones,
y aún para un solo pichón el patrón cambiaba con frecuencia gradualmente con entregas sucesivas de
grano. A pesar de que era imposible anticipar cuáles respuestas serían afectadas, era posible, después
de que el procedimiento había operado por un tiempo, identificar las respuestas que las habían vuelto
altamente probables.
El desarrollo de la respuesta supersticiosa depende en parte al menos del espaciamiento temporal de las
entregas del reforzador, porque este espaciamiento determina si una respuesta que ha sido hecha más
probable por un apareamiento accidental con un reforzador será más probable que ocurra de nuevo justo
antes de la entrega del siguiente reforzador. El efecto puede también depender de las propiedades
elicitantes del reforzador, porque el reforzador puede directamente cambiar las probabilidades de las
respuestas que ocurren entre entregas sucesivas. Por ejemplo, si el grano hace más probable que los
pichones picoteen aún en ausencia de grano, entonces será más probable que el picoteo se desarrolle
supersticiosamente que otras respuestas no relacionadas con comer grano (cf. Staddon & Simmelhag,
1971).
Las supersticiones generadas por la sucesión accidental de respuestas y reforzadores son un problema
siempre presente en el análisis del comportamiento, porque pueden surgir si los reforzadores son
entregados independientemente de las respuestas o como consecuencia de las respuestas. Por ejemplo,
si una respuesta es seguida por una respuesta diferente que es entonces reforzada, el reforzador puede
afectar ambas respuestas aún cuando su entrega no dependía de esa sucesión particular de respuestas.
Para ilustrar este punto, regresemos al caso que nos llevó a la discusión de superstición: La dependencia
entre respuesta y reforzador es terminada mientras la entrega de reforzadores es continuada. Los
palanqueos de una rata son primero reforzados con bolitas de alimento; entonces, los palanqueos ya no
producen bolitas pero las bolitas continúan siendo entregadas, ahora independientemente del
comportamiento. Bajo estas circunstancias, es probable que la rata continúe presionando la palanca y,
debido a que las bolitas todavía son entregadas, es probable que las presiones sean frecuentemente
seguidas por bolitas. Así, el palanqueo puede declinar solo lentamente, posiblemente para ser
reemplazado eventualmente por otras respuestas, no porque una dependencia tiene efectos perdurables
aún después de que la dependencia es descontinuada, sino porque el efecto supersticioso de sucesiones
accidentales de respuestas y reforzadores contrarresta hasta cierto punto los efectos de la terminación de
La naturaleza del aprendizaje 39
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
la dependencia.
Hemos visto que, a pesar de que la extinción es sencilla como operación experimental, sus efectos son
complejos. Cuando el comportamiento tiene consecuencias, la terminación de estas consecuencias
afecta tanto al espaciamiento de los estímulos en el tiempo como la relación de estos estímulos con el
comportamiento. Un análisis adecuado de la transición del reforzamiento a la extinción debe tomar en
cuenta estos dos efectos.
REFORZAMIENTO DIFERENCIAL Y CONTROL DEL ESTÍMULO
Hemos hablado de formas en las que el comportamiento puede ser modificado por presentaciones del
estímulo en la operación de elicitación y por sus consecuencias en las operaciones de reforzamiento y
castigo. También hemos discutido cómo estas operaciones afectan las posiciones relativas de las
respuestas en la jerarquía comportamental. La jerarquía comportamental es una propiedad de la
respuesta con la cual el organismo llega a nosotros. Puede decirse que el comportamiento del organismo
consiste en un repertorio de respuestas, cada una de las cuales tiene una probabilidad diferente. Sin
embargo, no podemos restringir nuestra atención sólo a estas respuestas, porque una característica
importante de las modificaciones del comportamiento descritas como aprendizaje es que el organismo
llega a responder en formas novedosas. Como resultado del proceso de aprendizaje, el organismo emite
respuestas que no podía emitir antes de que el aprendizaje iniciara. Por lo tanto debemos considerar
cómo estas nuevas respuestas pueden ser añadidas a la jerarquía comportamental o, en otras palabras,
cómo el repertorio de respuestas del organismo puede ser ampliado.
Con frecuencia hemos empleado el palanqueo de una rata o el picoteo de una tecla de un pichón como
ejemplos de respuestas. Pero si simplemente colocamos a una rata en una cámara con una palanca o a
un pichón en una cámara con una tecla, estas respuestas no necesariamente ocurrirán. Y la operación de
reforzamiento no puede tener ningún efecto si la respuesta a ser reforzada no es emitida nunca. Por lo
tanto, más que esperar la respuesta, el experimentador puede emplear un procedimiento llamado
moldeamiento: Produce palanqueos o picoteos de tecla al reforzar comportamiento que se aproxima más
y más a estas respuestas.
Moldeamiento: Reforzamiento diferencial por aproximaciones sucesivas
Considere el palanqueo. Una vez que la rata ha empezado a comer bolitas de alimento a medida que son
entregadas, el experimentador entrega una bolita sólo cuando la rata gira hacia la palanca. Después de
reforzar dos o tres movimientos hacia la palanca con bolitas, el experimentador puede reforzar no
La naturaleza del aprendizaje 40
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
solamente cualquier movimiento hacia la palanca, sino solo aquellos movimientos que incluyen levantar
las patas delanteras. Pero esta ocasión, la rata pasa la mayor parte de su tiempo cerca de la palanca, y
el experimentador pronto tiene la oportunidad de reforzar el contacto con la palanca. Ya no es necesario
reforzar giros hacia la palanca, porque los contactos con la palanca se aproximan más al palanqueo y
serán repetidos una vez que el contacto sea reforzado. El experimentador por lo tanto puede después
empezar a reforzar toques en la superficie superior de la palanca, y pronto ocurre una presión de la
palanca. En este punto, el experimentador puede retirarse, porque el instrumento puede automatizarse
de tal forma que cada palanqueo subsiguiente produzca una bolita de alimento.
El procedimiento de moldeamiento está basado sobre reforzamiento diferencial: En cada etapa, algunas
respuestas son reforzadas pero otras no. Además, los criterios para reforzamiento diferencial cambian,
en aproximaciones sucesivas a palanqueo, así como la respuesta cambia. Dos propiedades del
comportamiento contribuyen a la efectividad de este reforzamiento diferencial de aproximaciones
sucesivas a la respuesta. La primera es que el comportamiento es variable. No existen dos respuestas
idénticas, y el reforzamiento de una respuesta produce un espectro de respuestas que, a pesar de ser
similares a la respuesta reforzada, difieren de ella hasta cierto punto en topografía o forma, y en otras
propiedades tales como fuerza, magnitud, y dirección. De estas respuestas, algunas se aproximarán a la
respuesta a ser moldeada más que otras, y por lo tanto pueden ser seleccionadas para reforzamiento. El
reforzamiento de estas respuestas será seguido a su vez por respuestas adicionales, de las cuales
algunas de ellas se aproximarán más a la respuesta a ser moldeada. Así, el espectro de respuestas
puede gradualmente ser alterado por reforzamiento hasta que ocurra la respuesta a ser moldeada.
Este aspecto del procedimiento de moldeamiento, el cual depende del efecto específico de reforzadores y
respuestas precedentes, puede en ocasiones ser suplementado por un segundo efecto más amplio de
algunos reforzadores en el comportamiento: La entrega de algunos reforzadores, tales como alimento,
tiende a hacer más activo a un organismo (e.g., Blough, 1958). Así, tanto la dependencia entre
respuestas y reforzadores, en su efecto específico en respuestas reforzadas, como la entrega de
reforzadores, en su efecto general en una variedad de respuestas, contribuyen al moldeamiento de
nuevas respuestas. Una respuesta mayor en fuerza o magnitud y con mayor parecido a la respuesta a
ser moldeada que la respuesta reforzada puede ocurrir no sólo porque el reforzamiento hace más
probables las respuestas similares a la respuesta reforzada, sino también porque la entrega del
reforzador hace más activo al organismo. Una vez más, tanto los efectos específicos de la dependencia
entre respuestas y reforzadores como los efectos generales de la entrega de reforzadores deben ser
tomados en consideración.
Operantes: Diferenciación e Inducción
La naturaleza del aprendizaje 41
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
Una rata puede presionar una palanca con su pata izquierda, su pata derecha, o ambas patas.
Ocasionalmente, puede aún presionar la palanca recargándose en su barbilla, mordiéndola, o
sentándose en ella. Cada una de estas respuestas es diferente, y aún dos presiones sucesivas con la
misma pata no serán idénticas. Sin embargo, todas estas respuestas son llamadas palanqueos. La rata
puede también hacer los mismos movimientos en el lado opuesto de la cámara, de tal manera que la
palanca no es presionada. Pero tales movimientos no serían llamados palanqueos.
Es por lo tanto insuficiente hablar del comportamiento sólo en términos de respuestas particulares. Las
respuestas particulares son ejemplos de comportamiento, y debido a que ninguna respuesta es idéntica
en todos sus aspectos, cada respuesta puede ocurrir solamente una vez. El reforzamiento de una
respuesta produce respuestas subsiguientes que se parecen más o menos a la respuesta reforzada, pero
estas respuestas no pueden ser exactamente iguales a la respuesta reforzada. Así, para hablar de
comportamiento efectivamente debemos hablar no de respuestas únicas sino de clases de respuestas
definidas por propiedades comunes.
Clases de respuestas
En los experimentos en donde se trabaja con respuestas a la palanca, la palanca está unida a un
interruptor que opera cada vez que la palanca es lo suficientemente presionada. Así, la propiedad común
de todos los palanqueos es este efecto ambiental de las presiones: Cada respuesta que opera el
interruptor califica como palanqueo. La definición de clases de respuestas en términos de efectos
ambientales comunes ofrece la base para la medición de respuestas en la clase y para las operaciones
experimentales que son impuestas en estas respuestas. Por ejemplo, el experimentador puede medir las
respuestas a la palanca al registrar desde el interruptor y arreglar que todas las respuestas dentro de la
clase definida (respuestas a la palanca) sean reforzadas con bolitas de alimento.
Pero la clase de respuestas medida por el experimentador no tendrá ninguna significación
comportamental a menos que los efectos de las operaciones impuestas sobre la clase sean también
tomadas en consideración. Con respecto a cualquier clase de respuesta es necesario preguntar una
cuestión comportamental fundamental: Puede la probabilidad de las respuestas en esta clase ser
modificada por sus consecuencias? Si es así, la clase es llamada una clase operante; es una clase de
respuestas que es afectada por la forma en la cual opera en el ambiente. Los palanqueos y picoteos son
ejemplos prácticos de tales clases; sin embargo, como veremos, el comportamiento que puede ser
referido en términos de clases operantes es a la vez variado y complejo.
Anteriormente en el estudio del aprendizaje, cuando el comportamiento operante era llamado
La naturaleza del aprendizaje 42
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
comportamiento instrumental o voluntario, se asumía que las clases de respuestas que podían ser
modificadas por sus consecuencias estaban limitadas principalmente a la musculatura esquelética. Otras
clases de respuestas, las respuestas autónomas tales como aquellas de las glándulas y músculos lisos,
no se había mostrado que fuesen modificables por sus consecuencias. Tales respuestas eran elicitadas
por estímulos, y los procedimientos del condicionamiento de Pavlov (ver Capítulo 3) habían mostrado
cómo estímulos nuevos podían llegar a elicitar estas respuestas. No existía evidencia en ese momento
que estas respuestas pudiesen ser modificadas por reforzamiento o castigo.
Sin embargo, este punto de vista ha cambiado, con la demostración de que las respuestas autónomas
pueden ser afectadas por sus consecuencias. La respuesta salival ofrece un ejemplo. Se sabía que la
salivación ocurre espontáneamente también cuando es elicitada por un estímulo tal como alimento en la
boca (e.g., Zener & McCurdy, 1939). Así, era posible arreglar consecuencias para salivación espontánea
o emitida, la cual era medida en gotas de fluido extraído del ducto salival de un perro a un sistema de
registro externo. Pero la consecuencia no podía ser la entrega de alimento, porque un efecto del alimento
como reforzador no sería distinguible de su efecto como un elicitador de salivación. Por lo tanto, Miller y
Carmona (1967) estudiaron la salivación en perros privados de agua con un reforzador (agua) que no
elicita salivación. Encontraron que la salivación decrecía cuando evitaba la entrega de agua (castigo
negativo). En otras palabras, mostraron que esta clase de respuestas, medida en gotas de saliva, podía
ser modificada por sus consecuencias y por tanto podía ser apropiadamente referida como una clase
operante.
Una operante, entonces, es una clase de respuestas que puede ser modificada por sus consecuencias.
Así como los estímulos no pueden ser clasificados independientemente de sus efectos
comportamentales, la definición de clases de respuestas depende de las propiedades comportamentales
de las respuestas y no de sus propiedades físicas o fisiológicas independientes. La operación
experimental en la cual el estudio de estas propiedades comportamentales está basada es llamada
reforzamiento diferencial, o el reforzamiento de solamente aquellas respuestas que caen dentro de una
clase específica. El efecto de esta operación es hacer que las respuestas subsiguientes se conformen a
los límites de la clase específica. Así, la característica esencial de una operante es la correspondencia
entre la clase de respuestas definida por sus consecuencias y el espectro de respuestas generado por
estas consecuencias.
Un ejemplo experimental: Diferenciación de la localización de la respuesta
La naturaleza de esta correspondencia puede ilustrarse con un ejemplo. (Los datos a ser presentados
son hipotéticos, pero Antonitis, 1951, y Gollub, 1966, han reportado experimentos relacionados.) Asuma
que una rata privada de alimento es colocada en una cámara experimental en la cual se localiza en una
La naturaleza del aprendizaje 43
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
pared una rendija horizontal de 30 centímetros de longitud. Detrás de la rendija se encuentra una serie de
fotoceldas que permiten que las respuestas sean registradas por separado en segmentos sucesivos de
2.5 centímetros (más o menos una pulgada) siempre que la rata introduce su nariz en la rendija. (Estos
segmentos serán llamados espacios del 1 al 12, leyendo de izquierda a derecha a lo largo de la rendija.)
En la pared opuesta a la rendija se encuentra una taza en la cual pueden ser entregadas bolitas de
alimento como reforzadores. La entrega de bolitas se acompaña por un chasquido fuerte, y siempre que
una bolita es entregada la rata rápidamente viene a la taza y come. Mientras se mueve en la cámara, la
rata puede ocasionalmente oler la rendija y colocar su nariz en ella. Pero en ausencia de reforzamiento
estas respuestas son bastante poco frecuentes, y no necesariamente tienen una relación sistemática con
los diversos espacios a lo largo de la rendija (ver Figura 2.3 A).
Suponga ahora que las respuestas son reforzadas, pero sólo en los espacios 7, 8, y 9. El efecto
inmediato del reforzamiento (ilustrado en la Figura 2.3 B) puede ser un incremento general en la
respuesta en todos los espacios. Este fenómeno es en ocasiones llamado inducción: El efecto del
reforzamiento no se restringe a la respuesta reforzada, sino que se extiende a otras respuestas similares.
En este caso, el efecto de reforzar una respuesta en los espacios 7, 8, o 9 no se limitó a respuestas en
estos espacios, sino que se extendió a respuestas en otros espacios.
Sin embargo, a medida que el reforzamiento diferencial continúa, de tal forma que las respuestas en los
espacios 7, 8, y 9 son reforzadas mientras que las respuestas en otros espacios no lo son, la respuesta
en los espacios reforzados aumenta mientras que la respuesta en otros espacios disminuye (ver Figuras
2.3 C a 2.3 F). Eventualmente, todas salvo una pequeña proporción de respuestas ocurre en los espacios
7, 8, y 9 (E), y se llega a un punto en el cual la prolongación del procedimiento de reforzamiento
diferencial no produce más cambios importantes en la distribución de respuestas a través de los espacios
(F).
En este ejemplo, la distribución de respuestas viene a conformarse muy de cerca de los límites de la
clase de respuesta que ha sido reforzada. Este proceso es llamado diferenciación, y tal respuesta se dice
que es diferenciada. Ha sido establecida una clase operante que es definida en términos de la
localización de las respuestas.
Sin embargo, ¿Qué puede decirse de las respuestas en los espacios 6 y 10? Con seguridad, están fuera
de los límites de la clase de respuestas que es reforzada, y de acuerdo a la interpretación más estricta de
las propiedades definitorias de las operantes no cuentan como respuestas en la clase operante. Tales
respuestas han sido referidas en ocasiones en términos de inducción; estas respuestas están tan
cercanamente relacionadas con las respuestas reforzadas a lo largo del continuo de los espacios que los
La naturaleza del aprendizaje 44
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
efectos del reforzamiento se extienden a ellas. En este enfoque, las respuestas dentro de los límites de la
clase reforzada son atribuidos a diferenciación, y las respuestas fuera de los límites a inducción. Pero tal
distinción parece inapropiada, porque la respuesta tanto dentro como fuera de estos límites es generada
por las mismas operaciones y es representada por una distribución continua.
Figura 2.3. Datos hipotéticos que ilustran los efectos del reforzamiento diferencial en una distribución de respuestas (introducción de la nariz de una rata en una ranura horizontal de 30 cm. ubicada en la pared). La respuesta no reforzada se muestra en A. De B a F, las respuestas en los lugares 7, 8 y 9 (delimitados por líneas verticales) son reforzadas con pellets. La inducción se muestra en B; los efectos del reforzamiento se extienden a respuestas a todo lo largo de la ranura. La diferenciación se ilustra a medida que la respuesta se restringe mas y mas a los lugares reforzados con reforzamiento diferencial continuo de C a F. En E y F, la distribución de las respuestas se ha estabilizado y corresponde muy de cerca de la clase de respuestas reforzadas.
La solución de esta dificultad radica en reconocer que están involucradas dos diferentes clases de
La naturaleza del aprendizaje 45
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
respuestas. Una de ellas ofrece la base para la operación experimental de reforzamiento (líneas
verticales discontinuas en la Figura 2.3). La otra representa el desempeño que viene como resultado de
estas operaciones (distribución de respuestas en la Figura 2.3). No es necesario asumir que las dos
deben corresponder exactamente. De hecho, para cualquier clase de respuestas reforzadas, la cuestión
fundamental concierne el grado al cual el comportamiento producido se conforma al comportamiento
reforzado.
Considere ahora otro ejemplo. Una vez más, las respuestas pueden ser medidas por separado en
regiones sucesivas de una rendija en una pared de la cámara, pero en esta ocasión la rendija es vertical
en lugar de horizontal. En la medida en que la rata algunas veces coloca su nariz en la rendija mientras
olisquea la cámara en ausencia de reforzamiento, sus respuestas están concentradas en la porción
inferior de la rendija (ver Figura 2.4 A). Por lo tanto, la diferenciación de la respuesta en la porción
superior de la rendija no puede proceder a menos que la respuesta en la parte superior sea moldeada.
A medida que aproximaciones sucesivas a respuestas en niveles superiores son diferencialmente
reforzadas, la distribución de las respuestas cambia, como se ilustra en la Figura 2.4. Al principio, todas
las respuestas en el nivel 5 o más alto son reforzadas (B). Como resultado, la respuesta aumenta en
muchos niveles, y cierta respuesta ocurre en el nivel 7 y arriba por primera vez. En este punto, el límite
para reforzamiento diferencial es trasladado hacia arriba de tal forma que sólo las respuestas a nivel 7 o
más arriba son reforzadas (C). De nuevo, la distribución de respuestas se traslada hacia arriba, y la
respuesta en niveles inferiores empieza a disminuir. El límite para reforzamiento diferencial es entonces
trasladado más arriba de nuevo, a respuestas a nivel 9 o más arriba (D). La distribución de respuestas se
traslada más arriba, y la respuesta en niveles inferiores continúa disminuyendo. Pero la altura que la rata
puede alcanzar es limitada, y a pesar de que el mantenimiento del reforzamiento diferencial a nivel 9 y
superiores produce poco más estrechamiento de la distribución (E), se alcanza eventualmente un punto
en el cual el reforzamiento diferencial continuado en este nivel no produce más cambios importantes en
la distribución de las respuestas (F).
En este caso, la clase de respuestas que tuvo consecuencias (respuestas a nivel 9 y superior, las cuales
fueron reforzadas) fue diferente de la distribución de respuestas producida por estas consecuencias (las
respuestas abarcando hasta el nivel 10, pero con un máximo a nivel 8). La respuesta en esta situación ha
sido claramente modificada por sus consecuencias, pero parece inapropiado decir que el criterio para el
reforzamiento es la propiedad definitoria de la clase operante. Este criterio ofrece la base para una
operación experimental, pero la importancia comportamental de esta operación es dada por la respuesta
que resulta. Así, la propiedad definitoria de la clase operante debe en su lugar ser el comportamiento:
Una vez que la operación consecuencial de reforzamiento ha sido mostrada como afectando la
La naturaleza del aprendizaje 46
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
distribución de las respuestas, esta distribución define la clase operante.
Estos ejemplos han sido hipotéticos. Pero ahora es posible considerar cómo estas relaciones repercuten
en el área tradicionalmente llamada aprendizaje, en la que muchos problemas se reducen a cuestiones
acerca de las correspondencias entre clases de respuesta definidas en términos de sus consecuencias y
clases de respuestas definidas en términos de las distribuciones resultantes.
Propiedades diferenciables del comportamiento
La operación de reforzamiento inevitablemente involucra diferenciación. Respuestas tales como
palanqueo y picoteo de tecla deben estar situadas en una localización adecuada y de una fuerza
suficiente, y los ejemplos hipotéticos de las Figuras 2.3 y 2.4 podrían ser repetidos sustituyendo las
dimensiones de estas respuestas, respectivamente, por las dimensiones de respuesta consideradas en
las figuras. Pero las respuestas pueden variar no sólo en localización y fuerza, sino también en topografía
o forma, en duración, y en dirección. Y como cualquier dimensión de respuesta puede ser la base para
reforzamiento diferencial, cualquier dimensión de respuesta puede ofrecer las propiedades definitorias de
una clase operante.
La naturaleza del aprendizaje 47
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
Figura 2.4. Datos hipotéticos que muestran los cambios en la distribución de respuestas (inserción de la nariz de una rata en una ranura vertical de 30 cm. ubicada en la pared de la cámara) con reforzamiento diferencial de aproximaciones sucesivas a respuestas mas altas (moldeamiento). Las respuestas no reforzadas, concentradas en los niveles mas bajos se muestran en A. En B, las respuestas en los niveles 5 y superiores (a la derecha de la línea vertical) son reforzadas. La distribución resultante incluye algunas respuestas en los niveles 7 y superiores. En C y en D, la clase de respuestas reforzadas cambia a los niveles superiores. Cuando el reforzamiento diferencial de solamente las respuestas en los niveles 9 y superiores se mantienen, en E y F, la distribución de respuestas se estabiliza, pero no corresponde cercanamente a la clase de respuestas que es reforzada. Una dimensión de interés especial es la separación de respuestas en el tiempo. Por ejemplo, en el
reforzamiento de los picoteos de tecla de un pichón, el reforzamiento diferencial puede ser arreglado sólo
para aquellos picoteos precedidos por un período de 10 segundos de no picoteo, o sólo por aquellos
picoteos emitidos tan rápidamente que al menos cinco picoteos ocurran en un período de 5 segundos.
En el primer caso, el picoteo puede disminuir, pero sólo porque la probabilidad de los picoteos precedida
por pausas largas aumenta; la pausa debe de hecho ser tratada como componente de una operante
compleja que consiste en una pausa más un picoteo. En el segundo caso, el picoteo puede aumentar,
pero sólo porque la misma tasa alta ha sido diferencialmente reforzada. La importancia de estos ejemplos
La naturaleza del aprendizaje 48
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
es que la frecuencia o tasa de respuesta algunas veces puede ser tomada como una medida directa de
los efectos del reforzamiento porque, así como otras propiedades de respuesta, también puede ser
diferenciado (cf. Capítulo 6). Por lo tanto, los análisis de la diferenciación de la tasa de respuesta
dependen críticamente del grado al que el espaciamiento temporal de las respuestas se conforma al
espaciamiento temporal que es reforzado.
Si una pausa más un picoteo pueden ser tratados como una clase de respuesta compleja, entonces una
pausa sola puede ser tratada también como una clase de respuesta. Considere, por ejemplo, la clase de
todas las respuestas que consisten de 10 segundos de no picoteos. Si un reforzador es entregado
después de cada 10 segundos sin picoteo, entonces cada picoteo retrasa el reforzamiento al menos por
10 segundos. Pero cuando un picoteo evita o retrasa la entrega de un reforzador, también se dice que el
picoteo es negativamente castigado. Así, el reforzamiento positivo de un período sin respuesta es
equivalente al castigo negativo de la respuesta. El estatus empírico de esta distinción depende al menos
en parte de las propiedades de la “no respuesta”; debería la “no respuesta” ser tratada como
comportamiento, o como ausencia de comportamiento?
Un problema análogo surge en el vocabulario del castigo. Si un palanqueo produce una descarga, se dice
que esta respuesta es castigada positivamente. Pero cada respuesta salvo el palanqueo evita la entrega
de la descarga. Debería decirse que la clase de todas las respuestas excepto los palanqueos son
reforzados negativamente? (mencionamos anteriormente que algunas explicaciones de hecho se refieren
al castigo como evitación pasiva). Por otra parte, si los palanqueos escapan o evitan la descarga,
entonces cada respuesta excepto el palanqueo es seguida por descarga. Debería el reforzamiento
negativo en escape o evitación ser referido en términos de castigo en ausencia de palanqueo?
Es más sencillo hablar en términos de respuestas discretas que en términos de su ausencia, de forma
que la descripción directa de los efectos de respuestas mensurables tales como picoteos de tecla o
palanqueos es probablemente preferible en cada uno de estos casos. Sin embargo, estos ejemplos
ilustran la inevitable complementariedad de las operaciones de reforzamiento y castigo y muestran cómo
la definición de una clase operante puede afectar la forma en la cual hablamos de operaciones y
procesos comportamentales.
Comportamiento complejo: Aprendizaje de laberinto
Hemos comúnmente hablado de respuestas relativamente sencillas, tales como palanqueos y picoteos
de tecla. Pero la explicación anterior indica que secuencias complejas de respuesta pueden también ser
afectadas por reforzamiento diferencial y por tanto pueden también ser tratadas como clases operantes.
Es posible, por ejemplo, tratar el recorrido de un laberinto como una respuesta única pero compleja.
La naturaleza del aprendizaje 49
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
Considere el laberinto más sencillo, el laberinto T, en el cual la caja de inicio lleva a un solo punto de
elección en el cual una vuelta o a la izquierda o a la derecha es seguida por alguna consecuencia. Si la
caja meta a la izquierda está vacía y la caja meta a la derecha contiene alimento, una secuencia de
respuesta de la caja de inicio a la caja meta que incluye una vuelta a la derecha se hará más probable o,
en otras palabras, se diferenciará. (Debería notarse que las secuencias largas también pueden ser
tratadas como una sucesión de diferentes operantes, cada una de ellas teniendo la consecuencia
reforzante de producir una oportunidad de continuar con la siguiente, hasta que la siguiente es terminada
por la entrega del reforzador. Tal tratamiento, el cual se encuentra más allá del enfoque del capítulo
presente, se considera en el Capítulo 5.)
La complejidad de la diferenciación de secuencias de respuestas se ilustra con el problema de doble
alternancia (e.g., Hunter, 1928) en aprendizaje de laberinto. Al final de un pasillo central, un punto de
elección ofreció una oportunidad para una vuelta hacia la izquierda (L) o una vuelta hacia la derecha (R),
pero ambos caminos llevaron de nuevo al inicio del pasillo central. Así, el organismo podía realizar
vueltas sucesivas en el punto de elección sin ser retirado del instrumento. La cuestión era si una
secuencia de doble alternancia (LLRR o RRLL) podía ser aprendida. Los experimentos fueron dirigidos
hacia la cuestión de si el comportamiento del organismo en un momento podía controlar su
comportamiento subsiguiente, y hacia la comparación de comportamiento en especies diferentes. De
hecho, la secuencia fue aprendida con diversos éxitos por diferentes especies y por las mismas especies
en experimentos diferentes. Sin embargo, para los objetivos presentes el punto principal es que la
cuestión trata con la correspondencia entre la secuencia de vueltas que es reforzada y la secuencia que
es producida por la operación de reforzamiento.
Excepto por la longitud y complejidad de la secuencia, difiere como clase de respuesta de los ejemplos
presentados anteriormente principalmente en la forma en que puede ser medida. Las secuencias
posibles pueden ser especificadas, pero no pueden ser ordenadas sin ambigüedad a lo largo de una sola
dimensión (e.g., es la secuencia LLLR, que contiene sólo una transición de L a R, o la secuencia LRLR,
que contiene números iguales de L´s y R´s, relacionada más de cerca de la secuencia reforzada,
LLRR?). Dentro de cada secuencia, la contribución de sus componentes puede también ser evaluada
(e.g., ocurren las R´s con más frecuencia que las L´s sólo porque la última vuelta en la frecuencia
reforzada, LLRR, es inmediatamente seguida por reforzamiento?). Estos problemas tienen paralelos en el
estudio de habilidades motoras en humanos (e.g., Bilodeau, 1969), que algunas veces trata con la
adquisición de secuencias complejas de respuestas.
La estructura del comportamiento
Las cuestiones acerca de las propiedades diferenciables de la respuesta están interesadas con la
La naturaleza del aprendizaje 50
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
estructura del comportamiento, y las técnicas de medición variarán con las respuestas bajo estudio. En
cada caso el interés central está en las dimensiones a lo largo de las cuales la respuesta se conforma a
la clase de respuestas que es reforzada. Cuando estas dimensiones involucran características
estructurales del comportamiento, es difícil definirlas. Por ejemplo, Pryor, Haag, y O´Reilly (1969)
produjeron desempeños novedosos en una marsopa al seleccionar para reforzamiento, en cada sesión
experimental, una clase de respuestas que no había sido reforzada en ninguna sesión previa. La
marsopa llegó a emitir respuestas, al inicio de sesiones sucesivas, que los experimentadores no habían
observado nunca. Este experimento demostró la novedosidad de la diferenciación de la respuesta. Sin
embargo, la especificación de las propiedades de esta clase operante está necesariamente limitada a
una descripción de los criterios para el reforzamiento.
Otro caso igual es la estructura gramatical de las oraciones en el comportamiento verbal humano.
Oraciones gramaticales y no gramaticales pueden sin duda tener diferentes consecuencias para el que
habla, y las oraciones pueden ser diferenciadas en clases gramaticales tales como voces activas vs
voces pasivas, o declarativas vs interrogativas. Los casos son complicados porque la función de una
oración, y por tanto la interpretación de su estructura,, puede depender de las condiciones bajo las cuales
es enunciada (e.g., Skinner, 1957). Sin embargo, hay técnicas disponibles para tratar con las
propiedades formales de la estructura gramatical (e.g., Chomsky, 1963). La paradoja consiste en que el
desarrollo de estas técnicas ha llevado a controversia acerca de la naturaleza del lenguaje humano
(Chomsky, 1959), sobre el fundamento de que las propiedades estructurales de la gramática en el
comportamiento verbal humano son incompatibles con los procesos de reforzamiento diferencial en
comportamiento operante.
Sin embargo el comportamiento verbal es comportamiento consecuencial, y el hallazgo de que algunas
estructuras gramaticales son más fácilmente aprendidas que otras (e.g., McNeill, 1968), o que oraciones
particulares son más o menos fácilmente aprendidas dependiendo de su estructura gramatical (e.g.,
Mehler, 1963), no es más embarazoso para una formulación del comportamiento como el hallazgo de que
la rata puede aprender una secuencia de alternancia simple (LRLR), o que la respuesta de una rata
puede ser más fácilmente diferenciada a lo largo de una rendija horizontal que a lo largo de una vertical.
En cualquiera de estos casos, el problema es empírico: La identificación de las dimensiones a lo largo de
las cuales la respuesta puede llegar a conformarse a la clase de respuestas que tiene consecuencias.
Para un organismo dado, las clases operantes pueden ser establecidas con mayor facilidad a lo largo de
algunas dimensiones que a lo largo de otras (anteriormente, hubiésemos dicho que algunas respuestas
son más fáciles de aprender que otras). Si estas dimensiones son simples o complejas, intensivas o
estructurales, un interés con el análisis de estas dimensiones debe ser distinguido de un análisis de los
procesos que resultan de las consecuencias diferenciales de las respuestas a lo largo de estas
La naturaleza del aprendizaje 51
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
dimensiones. Los dos intereses no son incompatibles; son complementarios, y el análisis del
comportamiento verbal debe ser deficiente si las consecuencias del comportamiento verbal son
ignoradas.
Operantes discriminadas: Discriminación y generalización
Las propiedades con respecto a las cuales las respuestas pueden ser reforzadas diferencialmente no
solamente incluyen las dimensiones de las respuestas sino también las dimensiones de los estímulos en
presencia de los cuales estas respuestas ocurren. Por ejemplo, un picoteo de tecla en presencia de una
luz verde es diferente de un picoteo de tecla en presencia de una luz roja, y el reforzamiento puede ser
arreglado para picoteos en presencia de una luz pero no de otra. Las clases de respuesta que son
establecidas por tal reforzamiento diferencial con respecto a las propiedades de los estímulos son
llamadas operantes discriminadas.
Un ejemplo experimental: Discriminación de la localización de un estímulo
Algunas características de las operantes discriminadas pueden ser ilustradas por un ejemplo hipotético
que se relaciona de cerca con el presentado en la Figura 2.3. Una pared de la cámara experimental de la
rata contiene una rendija horizontal detrás de la cual una serie de lámparas pueden iluminar por separado
segmentos sucesivos de 2.5 centímetros de la rendija. Debajo de la rendija está colocada una palanca, y
un dispensador de bolitas de alimento está colocado en la pared opuesta. Asuma ahora que las lámparas
individuales son iluminadas en un orden irregular, y que los palanqueos son registrados durante la
iluminación de cada segmento. En ausencia de reforzamiento, el palanqueo será poco frecuente y
probablemente no tendrá relación sistemática con el segmento que es iluminado. De hecho, los datos
pueden ser básicamente los mismos a aquellos mostrados en la Figura 2.3 A, siendo la mayor diferencia
que el eje horizontal podría ser etiquetado localización del estímulo en lugar de localización de la
respuesta.
En este punto, puede introducirse reforzamiento para los palanqueos, pero sólo cuando los segmentos 7,
8, y 9 son iluminados. El efecto inmediato del reforzamiento puede ser el incremento del palanqueo
durante la iluminación de todos los segmentos, con un resultado muy parecido al mostrado en la Figura
2.3 B. Pero con reforzamiento diferencial continuado con respecto a palanqueos durante la iluminación de
solamente los segmentos 7, 8, y 9, será probable que el palanqueo aumente durante la iluminación de
estos segmentos y disminuya durante la iluminación de los otros segmentos, casi como la distribución de
las respuestas cambió en las Figuras 2.3 C a 2.3 E. Eventualmente, el reforzamiento diferencial podría
producir un patrón de respuesta bastante estable durante la iluminación de los diferentes segmentos, así
como en las Figuras 2.3 E y 2.3 F, con la mayor parte de los palanqueos ocurriendo durante la
La naturaleza del aprendizaje 52
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
iluminación de los segmentos 7, 8, y 9, y con el palanqueo disminuyendo con el aumento de distancia de
la iluminación de aquellos segmentos correlacionados con reforzamiento.
En el caso del reforzamiento diferencial con respecto a las propiedades del estímulo, como en este
ejemplo, el proceso resultante es llamado discriminación en lugar de diferenciación, y la extensión de los
efectos del reforzamiento de los estímulos correlacionados con reforzamiento a estímulos en otros puntos
a lo largo del continuo es llamada generalización en lugar de inducción. Pero la distinción entre estos
conjuntos de términos es hasta cierto punto arbitraria, porque en ambos casos se involucra la operación
de reforzamiento diferencial y los procesos resultantes de esta operación son similares.
El vocabulario de la diferenciación y la discriminación
Una característica que distingue al reforzamiento diferencial con respecto a las propiedades de la
respuesta, del reforzamiento diferencial con respecto a las propiedades del estímulo es metodológica. En
la primera, el experimentador mide las respuestas en diferentes clases a medida que ocurren; en la
última, el experimentador puede controlar la oportunidad del organismo de emitir respuestas en diferentes
clases al presentar o retirar los estímulos relevantes. Por ejemplo, el experimentador podría establecer
una discriminación con respecto a los espacios 4 y 8 iluminando alternadamente estos dos segmentos y
reforzando palanqueos sólo durante la iluminación del segmento 8, pero nunca iluminando ninguno de los
otros diez segmentos. Por esta razón, se dice que los estímulos involucrados en procedimientos de
discriminación presentan la ocasión para las respuestas: Cuando un estímulo particular es tratado como
una propiedad de las respuestas dentro de una clase dada, las respuestas en esta clase no pueden
ocurrir si el estímulo no ha sido presentado. (Es apropiado añadir el calificativo de que un estímulo puede
presentar la ocasión para la respuesta aún cuando un retraso es impuesto entre estímulo y respuesta;
cuando preguntamos si la respuesta del organismo ahora es ocasionada por algún estímulo en el
pasado, estamos interesados con el estudio de la memoria.)
Pero aún esta distinción metodológica tiene excepciones. Considere, por ejemplo, el reforzamiento
diferencial del espaciamiento de las respuestas en el tiempo, discutido brevemente en una sección
previa. Si los picoteos de tecla de un pichón son reforzados sólo cuando siguen a un período de 5
segundos de no picoteo, el pichón puede llegar a espaciar sus picoteos cada 5 segundos. Este
desempeño puede ser referido como la diferenciación de una operante compleja que consiste de una
pausa más un picoteo. Por otra parte, la duración de la pausa puede ser tratada como una propiedad del
estímulo, y el desempeño puede entonces ser referido como discriminación con respecto a la duración de
la pausa precedente: Los picoteos después de pausas menores de 5 segundos no son reforzados y se
convierten en menos probables, mientras que los picoteos después de pausas mayores de 5 segundos
son reforzados y se convierten en más probables (Catania, 1970).
La naturaleza del aprendizaje 53
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
Aquí la distinción involucra el vocabulario con el que describimos el comportamiento y no las
características de los procesos comportamentales. La operación de reforzamiento diferencial subyace en
cada uno de estos casos. Anteriormente en este capítulo indicamos que respuestas y estímulos tienen
poca significación a menos que sean tratadas en relación unas con otros. Los presentes ejemplos ilustran
la cercanía de estas relaciones entre respuestas y estímulos. No es significativo hablar de respuestas
independientemente del ambiente en el cual ocurren, y aún en los casos en los que el experimentador no
arregla reforzamiento diferencial con respecto a propiedades del estímulo, algunos estímulos en el
ambiente del organismo deben ser relevantes para su desempeño. Los palanqueos no pueden ocurrir en
ausencia de palancas, y los picoteos de tecla no pueden ocurrir en ausencia de teclas. Y aún aquellas
respuestas que no dependen de instrumentos especiales, tales como cambios posturales, ocurren en un
ambiente. Así, los procesos de discriminación y generalización, que son considerados en más detalle en
el Capítulo 4, son similares en su relevancia a los fenómenos de aprendizaje a los procesos de
diferenciación e inducción. La cuestión fundamental nuevamente concierne a la correspondencia entre
las dimensiones en las que el reforzamiento diferencial está basado y en las dimensiones del
comportamiento resultante.
La controversia sobre aprendizaje de lugar vs aprendizaje de respuesta ofrece un ejemplo (e.g., Restle,
1957). Si las vueltas a la derecha son reforzadas pero no las vueltas a la izquierda, en un laberinto T, las
vueltas a la derecha de una rata pueden ser diferenciadas. Es entonces posible preguntarse si esta
diferenciación está basada en una dimensión de respuesta (vueltas a la derecha opuestas a vueltas a la
izquierda), o si está basada en una dimensión de estímulo (discriminación con respecto a la orientación
del laberinto relativo a los estímulos fuera del laberinto). Si la rata siempre se ha aproximado al punto de
elección desde el sur, estas alternativas pueden ser evaluadas modificando el laberinto de tal forma que
la rata se aproxime al punto de elección desde el norte. Si la rata gira a la derecha, y por tanto hacia la
caja meta opuesta a aquella en la que el reforzador había sido previamente entregado, se dice que se ha
demostrado aprendizaje de respuesta. Si en su lugar la rata gira hacia la izquierda, y por tanto hacia la
misma caja meta que en ensayos anteriores, se dice que se ha demostrado aprendizaje de lugar. La
cuestión es si la rata ha aprendido vueltas a la derecha VS vueltas a la izquierda, o vueltas al este VS
vueltas al oeste. De hecho, debido a que el aprendizaje de lugar no puede ocurrir a menos que estímulos
discriminables estén correlacionados con vueltas en una dirección particular, la demostración del
aprendizaje de lugar depende hasta cierto punto de la construcción del laberinto. Si el laberinto es
abierto, de tal forma que los estímulos fuera del laberinto estén disponibles (e.g., ventanas o luces en el
techo del cuarto experimental), el aprendizaje de lugar probablemente será observado; si el laberinto es
cerrado, de tal forma que los estímulos externos no están disponibles, el aprendizaje de respuesta es
predominante. Cualquier resultado puede ser hecho más probable que el otro. Pero en ambos casos, el
La naturaleza del aprendizaje 54
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
interés es si la respuesta producida por reforzamiento diferencial puede ser caracterizada como una clase
operante definida por propiedades del estímulo o una clase operante definida por propiedades de la
respuesta.
Propiedades discriminables de los estímulos
Tal como las propiedades de la respuesta, las propiedades del estímulo que definen la clase de
respuesta de una operante discriminada pueden ser variadas y complejas. Propiedades sencillas de los
estímulos, tales como intensidad o forma visual, pueden ofrecer la base para reforzamiento diferencial.
Por ejemplo, en la plataforma de salto de Lashley (1930), las ratas eran forzadas a saltar de una
plataforma hacia uno de dos tableros (e.g., un triángulo o un círculo). Uno de estos tableros se baja
cuando la rata salta hacia él, y permite a la rata acceso a alimento. Si la rata salta hacia el otro tablero, el
cual está inmóvil, la rata cae en una red bajo la plataforma. Las posiciones de los dos estímulos son
alternados irregularmente de ensayo en ensayo. Así, el reforzamiento diferencial es arreglado con
respecto a los saltos hacia un estímulo, y castigo diferencial con respecto al otro. La cuestión
experimental es si la respuesta se conforma a las consecuencias diferenciales en el sentido de que la
rata llega a saltar solamente hacia el estímulo correlacionado con reforzamiento. En este instrumento, las
propiedades del estímulo que controlan el comportamiento de la rata pueden ser estudiados.
Pero el reforzamiento diferencial puede también ser arreglado con respecto a las relaciones entre
estímulos, y con respecto a propiedades complejas que no son fácilmente cuantificadas. Los pichones,
por ejemplo, pueden ser entrenados a responder al estímulo extraño de varios estímulos si todos salvo
uno de los estímulos son iguales, o a responder a uno de varios estímulos que corresponde a un estímulo
muestra (e.g., Cumming & Berryman, 1965); y en un procedimiento que pudiese decirse demuestra la
formación de conceptos en pichones, pueden ser entrenados a responder a dibujos que contienen forma
humana pero no a dibujos en los cuales la forma humana está ausente (e.g., Herrnstein & Loveland,
1964). Así, las dimensiones complejas de extrañez y correspondencia o del concepto de forma humana
pueden definir operantes discriminadas (cf. Capítulo 4).
Comportamiento complejo: Arreglo de aprendizaje
La forma en la que las relaciones entre las propiedades del estímulo pueden llegar a controlar la
respuesta independientemente de los estímulos específicos involucrados se ilustra en experimentos
sobre un fenómeno llamado arreglo de aprendizaje (Harlow, 1949). El alimento es colocado bajo uno de
dos objetos diferentes presentados a un mono privado de alimento, y el levantar este objeto es por tanto
reforzado diferencialmente. Después de que la discriminación entre estos dos objetos es establecida, un
nuevo par de objetos es presentado, de nuevo con reforzamiento diferencial arreglado con respecto a
uno de ellos. Cuando esta discriminación es establecida, todavía otro nuevo par es presentado, y así
La naturaleza del aprendizaje 55
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
continúa. A medida que la sucesión de nuevos pares de estímulos continúa, son establecidas sucesivas
discriminaciones más y más rápidamente, y eventualmente el mono puede responder consistentemente
al estímulo correlacionado con reforzamiento después de un solo ensayo con un par nuevo. Una
operante discriminada en esta situación no puede ser descrita simplemente en términos de los estímulos
en un par dado. En su lugar, debe estar basada en la dependencia entre estímulos y sus consecuencias
correlacionadas en ensayos sucesivos. Si la respuesta a un estímulo dado es reforzada en el primer
ensayo con un nuevo par, el mono responde a ese estímulo en todos los ensayos subsiguientes. Si esa
respuesta no es reforzada, el mono responde al otro estímulo en todos los ensayos subsiguientes. Estas
relaciones entre estímulos, respuestas, y consecuencias son las propiedades definitorias del
comportamiento que es establecido en el fenómeno del conjunto de aprendizaje y demuestran la
complejidad de las dimensiones que debe tomar en consideración el análisis de operantes discriminadas.
Enfrentamos problemas similares cuando preguntamos acerca de las características críticas de letras y
palabras a medida que un niño aprende a leer (e.g., Gibson, 1965). La facilidad con que un niño aprende
a distinguir letras del alfabeto depende de relaciones entre tales propiedades del estímulo como simetría,
curvatura, y cierre. Pero no podemos simplemente enumerar las propiedades críticas; con respecto a
algunas propiedades, por ejemplo, formas mayúsculas o minúsculas de una sola letra pueden diferir más
de cada una que lo que difieren de otras letras (cf. e, E, y F; o h, n, y N). Una explicación adecuada debe
tratar tanto con las propiedades estructurales de las letras como estímulos como con las formas en las
que el niño se comporta con respecto a las letras (cf. El análisis de los procesos cognitivos: Neisser,
1967). Nombrar las letras en una secuencia es diferente de leer la secuencia como palabra. La diferencia
está en el comportamiento del niño, y no en las letras como estímulos: En un caso, el niño responde a las
letras como unidades; en el otro, el niño responde a una unidad mayor, la palabra, en la que las letras
son componentes. Podemos decir que el niño está listo para leer ya sea letras o palabras. Así, este
ejemplo de nuevo demuestra que la estructura del estímulo no puede ser especificada sin referencia a la
estructura de la respuesta.
La naturaleza del control del estímulo
Hemos enfatizado las propiedades del estímulo como base para reforzamiento diferencial, y la
discriminación como un proceso comportamental. Es ahora apropiado regresar a las operaciones en las
que esta formulación está basada. Consideramos, en una sección anterior, las operaciones
consecuenciales de reforzamiento y castigo: Una respuesta es seguida por una consecuencia. Pero
también hicimos notar más recientemente que el reforzamiento diferencial con respecto a las propiedades
del estímulo depende de la presentación de los estímulos. Así, para tratar de forma más general con
reforzamiento diferencial debemos sobreimponer otra operación, la operación de control del estímulo, en
las operaciones consecuenciales de reforzamiento y castigo: En presencia de un estímulo, una respuesta
La naturaleza del aprendizaje 56
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
es seguida por una consecuencia. En estos tres términos, estímulo-respuesta-consecuencia,
caracterizamos exhaustivamente las relaciones fundamentales del comportamiento operante. Resta por
tanto completar el círculo y regresar a la operación de elicitación, para considerar brevemente su relación
con la operación del control del estímulo.
Respondientes: Elicitación diferencial
Definimos las operantes en términos de sus efectos ambientales, pero las clases de respuestas también
pueden ser definidas en términos de los estímulos que las producen. Tales clases son llamadas
respondientes y corresponden a lo que anteriormente nos referimos como comportamiento elicitado o
reflexivo. Así, la salivación producida por alimento en la boca es una clase respondiente. Esta clase debe
distinguirse de la salivación producida por ácido en la boca, la cual es una clase respondiente diferente, y
de la salivación espontánea, la cual puede ser tratada como una clase operante porque es emitida más
que elicitada.
Hablamos de la producción de respuestas por estímulos como la operación de elicitación. No existe un
procedimiento que corresponda al reforzamiento diferencial de propiedades de respuesta para la
operación de elicitación, porque las propiedades de las respuestas en las clases respondientes son
determinadas por los estímulos elicitadores presentados al organismo. De esta forma, a pesar de que
pueden ser creadas nuevas operantes por moldeamiento, las respondientes son más limitadas en su
potencialidad para modificación.
Existe, sin embargo, un procedimiento correspondiente al reforzamiento diferencial con respecto a las
propiedades del estímulo. Así como la operación del control del estímulo puede ser sobreimpuesta en las
operaciones de reforzamiento y castigo, también así puede ser sobreimpuesto en la operación de
elicitación: Un estímulo discriminativo puede presentar la ocasión en la que un estímulo elicitador es
presentado (Catania, 1971). Podemos llamar tal procedimiento elicitación diferencial; la operación de
elicitación es arreglada sólo en presencia de un estímulo particular.
Condicionamiento respondiente
Los casos más conocidos vienen de la demostración de condicionamiento respondiente de los
experimentos en reflejo condicionado de Pavlov (1927). (El condicionamiento respondiente también ha
sido con frecuencia llamado condicionamiento clásico o Pavloviano, y es explorado en detalle en el
Capítulo 3.) Por ejemplo, un perro es sostenido en una plataforma por un arnés, una campana suena, y
entonces el alimento es colocado en el hocico del perro. El alimento, el cual elicita salivación, es
presentado cuando una campana suena, pero nunca en otras ocasiones. Así, la campana es un estímulo
La naturaleza del aprendizaje 57
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
en presencia del cual la operación de elicitación, la entrega de alimento, es arreglada. La campana es
referida como un estímulo condicionado (o condicional), y el alimento es un estímulo incondicionado (o
incondicional). Como resultado de este procedimiento, el perro puede empezar a salivar al sonido de la
campana, y entonces se dice que un reflejo condicionado (o condicional) ha sido establecido.
Un ejemplo actual que involucra una respuesta motora más que glandular se la ofrecen Brown y Jenkins
(1968). La tecla en una cámara de un pichón es iluminada a intervalos irregulares. Después de varios
segundos de iluminación, el dispensador es operado. Así, la iluminación de la tecla presenta la ocasión
en la que comer es elicitado por alimento. En este procedimiento, los pichones llegan a picotear la tecla
después de varias sucesiones de iluminación de tecla y alimento. Este fenómeno se ha referido como
auto moldeamiento del picoteo de tecla, y se le han dado diversas interpretaciones. Una es que el picoteo
de tecla gradualmente evoluciona como una respuesta supersticiosa; otra es que ocurre porque el
alimento eleva la probabilidad de picoteo aún cuando el alimento está ausente, y esta respuesta por tanto
viene a ser emitida en la presencia del estímulo correlacionado con presentaciones de alimento. El punto
esencial es que estos procedimientos ilustran la operación de elicitación diferencial, elicitación en
presencia de un estímulo discriminativo.
Clases de estímulo en condicionamiento
La sobreimposición de la operación del control del estímulo en la operación de elicitación no necesita ser
restringida a reforzadores como estímulos elicitadores. Puede también ser extendida a estímulos con
propiedades relativamente neutrales y a estímulos con propiedades aversivas. Por ejemplo, en
experimentos sobre el fenómeno de precondicionamiento sensorial (Brogden, 1939), un conjunto de
estímulos presenta la ocasión en la cual un segundo estímulo es presentado; una campana puede ser
tañida sólo en presencia de una luz. Subsecuentemente, es establecido un reflejo condicionado en el que
la campana funciona como estímulo condicionado (e.g., la campana puede presentar la ocasión para
salivar). La luz es entonces presentada para examinar si, por virtud de su relación anterior con la
campana, la luz también controlará la respuesta. Las demostraciones de precondicionamiento sensorial
poseen el mismo tipo de relación con la operación de elicitación diferencial que las demostraciones de
aprendizaje latente poseen con la operación de reforzamiento.
La elicitación diferencial que involucra estímulos aversivos ha sido referida como condicionamiento
defensivo. Por ejemplo, una luz puede presentar la ocasión en la que una descarga es presentada, y las
respuestas en presencia de la luz y su relación con las respuestas elicitadas por descarga pueden
entonces ser examinadas. En un procedimiento relacionado interesado con un fenómeno llamado
supresión condicionada o ansiedad (ver Capítulo 8), los efectos de la luz son examinados sobre una línea
base continua de respuesta reforzada.
La naturaleza del aprendizaje 58
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
Propiedades de la respuesta en condicionamiento
Tanto en elicitación diferencial como en reforzamiento diferencial con respecto a las propiedades del
estímulo, la respuesta llega a concentrarse en presencia de los estímulos discriminativos. En el primer
caso, la respuesta es producida por la operación de elicitación, y en el segundo caso, por la operación de
reforzamiento. Pero en ambos casos la sobreimposición de una operación de control del estímulo tiene
efectos similares; así, los procesos discriminativos generados por esta operación pueden estar
relacionados muy de cerca (cf. Capítulo 3). Muchos experimentos han estado interesados con la relación
entre procesos operantes y respondientes, y el éxito o fracaso de experimentos particulares ha sido
tomado como evidencia de que los procesos operantes son de alguna forma reductibles a procesos
respondientes, o que los procesos respondientes son de alguna forma reductibles a procesos operantes,
o que los dos procesos son completamente independientes. Sin embargo, los resultados de experimentos
particulares pueden depender en forma crítica de la relación entre respuestas elicitadas y reforzadas.
Esta dependencia puede ilustrarse al comparar dos experimentos interesados con las propiedades
operantes o respondientes de la salivación.
En el experimento Pavloviano clásico, la salivación era elicitada por alimento, y la elicitación subsiguiente
de la salivación por un estímulo condicionado que precedía consistentemente al alimento fue tomada
como evidencia de que una nueva clase respondiente, salivación elicitada por el estímulo condicionado,
había sido establecida. Sin embargo, era posible argumentar que la relación entre salivación y el estímulo
condicionado llegó accidentalmente, y que la salivación era subsiguientemente mantenida, así como en
un procedimiento de superstición, porque la salivación en presencia del estímulo condicionado era
consistentemente seguido por alimento (e.g., Smith, 1954). Para evaluar este tipo de posibilidad,
Sheffield (1965) condujo un experimento para determinar si la adición de consecuencias a este
procedimiento podrían modificar la salivación. Específicamente, el alimento era presentado a un perro en
presencia de un estímulo condicionado, pero la presentación de alimento era omitida cada vez que el
perro salivaba en presencia del estímulo condicionado. Este procedimiento, un ejemplo de castigo
negativo referido como entrenamiento por omisión, no eliminó la salivación; la salivación no llegó a estar
bajo el control de su consecuencia, la omisión de alimento. Una vez que la salivación ocurría en
presencia del estímulo condicionado, el alimento era omitido; como resultado la salivación disminuyó en
ensayos subsiguientes. Pero en ensayos sin salivación, el alimento era de nuevo presentado, y así la
salivación era reinstaurada por la sucesión del estímulo condicionado y alimento. Entonces iniciaba un
nuevo ciclo de omisiones de alimento y salivación disminuida.
Sin embargo, en una sección anterior, consideramos un experimento de Miller y Carmona (1967). En ese
estudio, la salivación se reducía cuando tenía la consecuencia de omisión de reforzamiento. La diferencia
La naturaleza del aprendizaje 59
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
era que el reforzador era agua. Por tanto debemos concluir que la efectividad relativa de operaciones
elicitantes y reforzantes debe depender hasta cierto punto de la compatibilidad de las respuestas
reforzadas y las respuestas elicitadas. En el experimento de Sheffield, la ausencia de salivación era
reforzada por la presentación de alimento, el cual entonces elicitaba salivación; la ausencia reforzada de
salivación y la salivación elicitada eran claramente incompatibles, y el reforzamiento no demostró ser
efectivo. Sin embargo, en el experimento de Miller y Carmona la ausencia de salivación fue reforzada por
la presentación de agua, la cual no elicita salivación; así, no existía incompatibilidad entre la respuesta
reforzada (ausencia de salivación) y la respuesta elicitada por el reforzador. En este caso, el
reforzamiento fue efectivo.
Funciones múltiples
Estos ejemplos ilustran un interés general en el análisis del comportamiento: El problema de la función
múltiple. Hemos tratado con estímulos en elicitación, reforzamiento, y control del estímulo. Pero es poco
probable que un estímulo dado en un procedimiento particular posea sólo una de estas funciones. Un
estímulo discriminativo puede también funcionar como reforzador, y un estímulo reforzador puede
también funcionar como elicitador. A pesar de que entendemos algunas de las propiedades de estas
funciones por separado, nuestro entendimiento de sus efectos en combinación es limitado. El progreso
en el análisis de los fenómenos de aprendizaje dependerá por tanto en parte de nuestra habilidad para
caracterizar las interacciones entre funciones de estímulo.
LOS LÍMITES DEL APRENDIZAJE
La explicación previa ha enfatizado la clasificación de fenómenos del aprendizaje en términos de
operaciones comportamentales. Pero cuando un procedimiento experimental es impuesto sobre un
organismo, no existe garantía de que el procedimiento será efectivo. Un procedimiento que lleva a
aprendizaje en un organismo puede no hacerlo con otros organismos, y un organismo que aprende bajo
un procedimiento puede no hacerlo bajo otros procedimientos. Tales hallazgos no invalidan la
clasificación, porque la clasificación es simplemente una forma de nombrar fenómenos y relacionar unos
con otros. Sin embargo, sería de otro modo si se asumiese que el aprendizaje está basado en un solo
proceso que actúa en todos los organismos y en todos los procedimientos.
En su desarrollo histórico, la psicología del aprendizaje examinó los resultados experimentales de
diversos procedimientos comportamentales; a cada procedimiento, a su vez, se le asignó importancia en
proporción a su efectividad demostrable. Los hallazgos experimentales disponibles en diferentes
momentos llevaron a formulaciones teóricas en las que los principios de asociación y contigüidad, las
reglas del condicionamiento respondiente, y las leyes del reforzamiento fueron seleccionados para
La naturaleza del aprendizaje 60
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
papeles dominantes, en ocasiones hasta el punto en que uno u otro era considerado como la base
exclusiva y fundamental para el aprendizaje. Sin embargo, tales formulaciones estaban inevitablemente
abiertas a desafío y controversia, porque un único proceso no podía explicar exhaustivamente los
fenómenos del aprendizaje. Las teorías del aprendizaje se hicieron más precisas, pero los refinamientos
progresivos fueron necesariamente acompañados por restricciones del rango de fenómenos a los cuales
las teorías podían ser aplicadas. El reconocimiento de los límites del aprendizaje estaba implícito en
estas restricciones.
Cuando los límites del aprendizaje pueden ser rastreados con facilidad a las capacidades sensoriales o
motoras de un organismo, no presentan problemas. No nos sorprende, por ejemplo, si ciertos estímulos
son más capaces de controlar respuestas en ciertas especies que en otras. El pichón es capaz de
discriminaciones visuales que son imposibles para el murciélago, y el murciélago es capaz de
discriminaciones auditivas que son imposibles para el pichón, simplemente porque estos organismos
poseen sistemas sensoriales diferentes. Las diferentes capacidades de respuesta no nos preocupan.
Podemos atribuir diferentes modalidades de vuelo en pichones y murciélagos a tales diferencias
anatómicas como la estructura del ala. Los ejemplos son obvios mas no triviales. Ilustran el grado al cual
damos por descontado las limitaciones de las capacidades sensoriales y motoras de un organismo. No es
siquiera probable que preguntemos acerca del vuelo de la rata, como lo haríamos con el murciélago o el
pichón; sabemos bien por qué las ratas no pueden volar.
Así como las capacidades sensoriales y motoras, las capacidades de varios estímulos para reforzar
difieren en las especies. Sin embargo, antes de que la relatividad del reforzamiento fuera reconocido, era
difícil tratar con hallazgos en los cuales reforzadores establecidos para una especie fracasaran en tener
sus efectos característicos. Algunos casos fueron descritos por Breland y Breland (1961). En una
demostración con mapaches, por ejemplo, reforzadores de alimento eran entregados cuando un
mapache recogía monedas del suelo y las depositaba en un depósito. Pero después de que el
procedimiento había continuado por algún tiempo, el mapache empezaba a pasar su tiempo frotando una
moneda con la otra en lugar de soltarlas en el depósito. Este hallazgo no invalidó el principio de
reforzamiento; por el contrario, demostró una propiedad del comportamiento del mapache. Un mapache
comúnmente frota y enjuaga su alimento antes de comerlo, pero las monedas aparentemente ofrecían
una mejor oportunidad para este comportamiento que el alimento que era empleado para reforzar el
desempeño del mapache. En esta situación, frotar era suficientemente más probable que comer ese
alimento que no era un reforzador efectivo; podemos por tanto suponer que una oportunidad para frotar
pudo haber sido empleada para reforzar otras respuestas, posiblemente incluyendo comer.
Cuando la relatividad del reforzamiento fue reconocida, ya no era suficiente simplemente identificar los
La naturaleza del aprendizaje 61
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
reforzadores efectivos para una especie dada. Los reforzadores también tenían que ser definidos en
términos de la respuesta a ser reforzada. En una especie dada, un reforzador efectivo con una respuesta
no es necesariamente un reforzador efectivo con otras. Así, los límites del aprendizaje no pueden ser
especificados por separado en términos de estímulos y en términos de respuestas; también es necesario
considerar las limitaciones de las clases de relaciones que pueden ser establecidas entre estímulos y
respuestas en una especie dada.
Se ofrece un ejemplo con el experimento de aversión al alimento en la rata (Revusky & García, 1970). Si
una rata se enferma después de comer un alimento particular, la rata comúnmente deja de comer ese
alimento; así, comer puede ser castigado por sus consecuencias sistémicas aún cuando esas
consecuencias pueden seguir el comer sólo después de un retraso considerable. Las propiedades de
este tipo de castigo fueron estudiadas al permitir que ratas sedientas bebieran agua endulzada en
presencia de ruido y luz. En un grupo de ratas, beber era seguido por descarga eléctrica. En un segundo
grupo, beber era seguido por niveles de irradiación X que después producía enfermedad. En pruebas
subsiguientes con agua endulzada y no endulzada, las ratas que habían sido irradiadas bebieron menos
agua endulzada estuviesen o no presentes el ruido y la luz. Cuando el estímulo aversivo era descarga,
las ratas aprendieron su relación con eventos externos tales como ruido y luz. Cuando el estímulo
aversivo era el efecto sistémico retardado de la irradiación X, las ratas aprendieron su relación con el
sabor del agua que habían consumido recientemente. En otras palabras, los efectos inmediatos de la
descarga castigaron beber en presencia de ruido y luz, pero los efectos retardados de las irradiaciones X
castigaron beber el agua endulzada. Este ejemplo, el cual es tratado bajo el tópico de atención en el
Capítulo 4, demuestra que las ratas están predispuestas a aprender relaciones diferentes entre estímulos
y respuestas en situaciones diferentes (cf. Seligman, 1970). Así, no es suficiente decir que para una
especie dada algunas respuestas o algunos estímulos son más fácilmente aprendidos que otros; una
explicación de los límites del aprendizaje debe también tratar con las relaciones entre estímulos y
respuestas.
La lista podría extenderse. Investigación reciente ha examinado el papel del reforzamiento y
consecuencias sistémicas retardadas en el desarrollo de preferencias de alimento y de las hambres
específicas que siguen a deficiencias dietéticas (Rozin & Kalat, 1971), el efecto de reacciones de defensa
específicas de la especie que son elicitadas por estímulos aversivos en el desarrollo del desempeño de
evitación (Bolles, 1970), y la naturaleza del comportamiento que no puede ser atribuido a la sucesión
accidental de una respuesta y un reforzador en el desarrollo del desempeño durante un procedimiento de
superstición (Staddon & Simmelhag, 1971). Estos ejemplos, los cuales también son discutidos en el
Capítulo 9, tratan con los límites dentro de los que diversas operaciones son efectivas, pero al serlo no
alteran las propiedades definitorias de los procesos comportamentales. Si un fenómeno viene a ser
La naturaleza del aprendizaje 62
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
menos general de lo que antes creíamos, no se sigue que deberíamos llamarle por diferente nombre.
Si se mantuviese que el principio único del aprendizaje es demostrado por una operación experimental
dada, tal como elicitación o reforzamiento o control del estímulo, entonces el descubrimiento de las
condiciones que limitaron la efectividad de esa operación desafiarían su generalidad como una base del
aprendizaje. Pero hoy es reconocido que las diversas operaciones son todas importantes en sus
diferentes formas. Así, el descubrimiento de las limitaciones de cada una es una parte integral de, más
que un desafío crítico a, el análisis de los fenómenos del aprendizaje.
RESUMEN Y CONCLUSIONES
Hemos presentado los fenómenos del aprendizaje en términos de operaciones experimentales. Primero
consideramos los efectos de la operación más sencilla, la elicitación o presentación de estímulos. Las
respuestas son producidas por estímulos, y la probabilidad de estas respuestas puede ser modificada no
sólo por presentaciones del estímulo sino por el patrón temporal de estas presentaciones. La operación
de elicitación también puede tener otros efectos: Las respuestas elicitadas pueden volverse más
probables aún en ausencia del estímulo elicitador, y las presentaciones del estímulo pueden afectar las
respuestas que les siguen en el fenómeno de la superstición.
Pero así como los estímulos pueden ser seguidos por respuestas, las respuestas pueden ser seguidas
por estímulos, y por tanto el tratamiento de las operaciones consecuenciales de reforzamiento y castigo
trataron con los efectos de las consecuencias de la respuesta. Sobre la base de los efectos de estas
operaciones, distinguimos entre reforzamiento positivo, reforzamiento negativo (o escape y evitación),
castigo positivo, y castigo negativo (o entrenamiento por omisión). En añadidura, el tratamiento de
fenómenos tales como aprendizaje sensorial-motor y aprendizaje latente demostró la importancia de
consecuencias menos dramáticas, algunas veces erróneamente llamadas neutrales, que no son
generalmente clasificadas como reforzadores o punitivos.
El reforzamiento y el castigo fueron distinguidos sobre la base de si las consecuencias de la respuesta
producían aumentos o disminuciones en la respuesta, pero notamos que la distinción entre casos
positivos y negativos de estas operaciones era hasta cierto punto arbitraria. Los casos positivos y
negativos no podían ser tratados consistentemente en términos de si las consecuencias de la respuesta
involucraban la presentación o retiro de estímulos. En su lugar, estos casos fueron tratados en términos
de la relación temporal entre las respuestas reforzadas o castigadas con otras respuestas que fueron
producidas por estas operaciones.
La naturaleza del aprendizaje 63
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
La operación final, control del estímulo, es una operación que puede ser sobreimpuesta tanto en la
operación de elicitación como en las operaciones consecuenciales de reforzamiento y castigo. Cuando es
sobreimpuesta en la elicitación, esta operación genera los procesos que han sido referidos como
condicionamiento respondiente; casos especiales incluyen el precondicionamiento sensorial, en el cual el
estímulo elicitador es neutral, y el condicionamiento defensivo, en el cual el estímulo elicitador es
aversivo. Cuando es sobreimpuesta en operaciones consecuenciales, la operación de control del
estímulo genera procedimientos de discriminación. Consideramos aquí solamente el caso de
discriminación con respecto al reforzamiento positivo, pero el análisis puede ser extendido al castigo, así
como a las consecuencias neutrales del aprendizaje latente.
Estas operaciones agotan las relaciones comportamentales que pueden ser establecidas entre estímulos
y respuestas. Por lo tanto, un interés particular era la caracterización de las dimensiones a lo largo de las
cuales los estímulos y las respuestas pueden variar: Este interés fue tratado en la discusión de los
procesos de diferenciación y discriminación y se mostró que las dimensiones relevantes incluían no
solamente tales dimensiones relativamente sencillas como intensidad, localización, y topografía, sino las
dimensiones complejas de la relación y estructura de estímulo y respuesta. El análisis de la estructura es
diferente del análisis de las funciones de estímulos y respuestas, y es esencial para la definición de las
clases de respuesta.
Una conclusión a ser derivada de esta explicación es que el comportamiento es mejor representado en
términos de un continuo de procesos en lugar de categorías dicotomizadas. Reforzamiento y castigo no
son procesos independientes, sino extremos en un continuo que abarca desde aquellas operaciones
consecuenciales que elevan la probabilidad de las respuestas, a aquellas que no tienen efecto en la
probabilidad de las respuestas, hasta aquellas que disminuyen la probabilidad de las respuestas. Tanto el
reforzamiento positivo como el negativo no son procesos independientes, sino que difieren con respecto
a la magnitud de los efectos elicitadores y discriminativos de los estímulos que están presentes durante la
operación de reforzamiento. La diferenciación y discriminación no son procesos independientes, sino que
sólo difieren con respecto a si la operación de reforzamiento diferencial enfatiza las propiedades de la
respuesta o las propiedades del estímulo. Y los efectos del reforzamiento diferencial y de la elicitación
diferencial no son procesos independientes, sino que están relacionados en tanto que la operación de
control del estímulo modifica la respuesta que es generada por las operaciones de reforzamiento o
elicitación en las cuales está sobreimpuesta.
En todo esto, el término aprendizaje ha retrocedido al trasfondo, y bien puede suceder que ha terminado
su utilidad. Las jerarquías comportamentales pueden ser modificadas, nuevas respuestas pueden ser
moldeadas, y pueden ser establecidas discriminaciones. Estos son fenómenos del comportamiento, y
La naturaleza del aprendizaje 64
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
parte de nuestro entendimiento de estos fenómenos depende de qué tan precisamente podemos hablar
de ellos. El vocabulario actual no carece de ambigüedades, e indudablemente cambiará. Pero en su
énfasis en operaciones comportamentales y procesos comportamentales, se adhiere muy cercanamente
a lo que se hace y se observa en experimentos sobre comportamiento. Y esta adherencia puede ser
esencial a nuestro progreso, porque no es de utilidad decir que un organismo ha aprendido a menos que
también podamos decir lo que ha aprendido, y cómo.
REFERENCIAS
Antonitis, J. J. Response variability in the white rat during conditioning, extinction, and reconditioning. Journal of Experimental Psychology, 1951, 42, 273-281. Azrin, N. H. Some effects of two intermittent schedules of immediate and non-immediate punishment. Journal of Psychology, 1956, 42, 3-21. Azrin, N.H., & Holz, W. C. Punishment. In W. K. Honig (Ed.), Operant Behavior: Areas of research and application. New York: Appleton-Century-Crofts, 1966. Pp. 380-447. Azrin, N. H., Hutchinson, R. R., & Hake, D.F. Extinction-induced aggression. Journal of the Experimental Analysis of Behavior, 1966, 9, 191-204. Azrin, N.H., Hutchinson, R. R., & McLaughlin, R. The opportunity for aggression as an operant reinforcer during aversive stimulation. Journal of the Experimental Analysis of Behavior, 1965, 8, 171-180. Badia, P., Suter, S., & Lewis, P. Rat vocalization to shock with and without a CS. Psychonomic Science, 1966, 4, 117-118. Beale, G. H. Adaptation in paramecia. In R. Davis & E. F. Gale (Eds.), Adaptation in microorganisms. (Third Symposium of the Society for General Microbiology.) Cambridge: Cambridge University Press, 1953. Pp. 294-305. Berlyne, D. E. Conflict, arousal, and curiosity. New York: McGraw-Hill, 1960. Best, J. B. The photosensitization of paramecia aurelia by temperature shock. Journal of Experimental Zoology, 1954, 126, 87-99. Bilodeau, E. A. (Ed.) Principles of skill acquisition. New York: Academic Press, 1969. Bindra, D. Components of general activity and the analysis of behavior. Psychological Review, 1961, 68, 205-215. Blough, D. S. New test for tranquilizers. Science, 1958, 127, 586-587. Bolles, R. C. Species-specific defense reactions and avoidance learning. Psychological Review, 1970, 77, 32-48. Breland, K., & Breland, M. The misbehavior of organisms. American Psychologist, 1961, 16, 681-684. Brogden, W. J. Sensory preconditioning. Journal of Experimental Psychology, 1939, 25, 323-332.
La naturaleza del aprendizaje 65
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
Brown, P. L., & Jenkins, H. M. Auto-shaping of the pigeon´s key-peck. Journal of the Experimental Analysis of Behavior, 1968, 11, 1-8. Butler, R. A. The effect of deprivation of visual incentives on visual exploration motivation in monkeys. Journal of Comparative and Physiological Psychology, 1957, 50, 177-179. Catania, A. C. Glossary. In A. C. Catania (Ed.), Contemporary research in operant behavior. Glenview, Ill.: Scott, Foresman, 1968. Pp. 327-349. Catania, A. C. On the vocabulary and the grammar of behavior. Journal of the Experimental Analysis of Behavior, 1969, 12, 845-846. Catania, A. C. Reinforcement schedules and psychophysical judgments: A study of some temporal properties of behavior. In W. N. Schoenfeld (Ed.), The theory of reinforcement schedules. New York: Appleton-Century-Crofts, 1970. Pp. 1-42. Catania, A. C. Elicitation, reinforcement, and stimulus control. In R. Glaser (Ed.), The nature of reinforcement. New York: Academic Press, 1971. Pp. 196-220. Chomsky, N. Review of B. F. Skinner´s Verbal behavior. Language, 1959, 35, 26-58. Chomsky, N. Formal properties of grammars. In R. D. Luce, R. R. Bush, & E. Galanter (Eds.), Handbook of mathematical psychology. Vol. 2. New York: Wiley, 1963. Pp. 323-418. Cofer, C. N., Appley, M. H. Motivation: Theory and research. New York: Wiley, 1964. Cumming, W. W., & Berryman, R. The complex discriminated operant: Studies of matching-to-sample and related problems. In D. I. Mostofsky (Ed.), Stimulus generalization. Stanford: Stanford University Press, 1965. Pp. 284-330. Falk, J. L. Production of polydipsia in normal rats by an intermittent food schedule. Science, 1961, 133, 195-196. Falk, J. L. The nature and determinants of adjunctive behavior. Physiology and Behavior, 1971, 6, 577-588. Ferster, C. B. Control of behavior in chimpanzees and pigeons by time out from positive reinforcement. Psychological Monographs, 1958, 72, (8, Whole Number 461). Gibson, E. J. Learning to read. Science, 1965, 148, 1066-1072. Goldstein, H., Krantz, D. L., & Rains, J. D. Controversial issues in learning. New York: Appleton-Century-Crofts, 1965. Gollub, L. R. Stimulus generalization of response-position in the rat. Psychonomic Science, 1966, 6, 433-434. Harlow, H. F. The formation of learning sets. Psychological Review, 1949, 56, 51-65. Held, R., & Hein, A. Movement-produced stimulation in the development of visually guided behavior. Journal of Comparative and Physiological Psychology, 1963, 56, 872-876. Herrnstein, R. J. Method and theory in the study of avoidance. Psychological Review, 1969, 76, 49-69.
La naturaleza del aprendizaje 66
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
Herrnstein, R. J., & Hineline, P. N. Negative reinforcement as shock-frequency reduction. Journal of the Experimental Analysis of Behavior, 1966, 9, 421-430. Herrnstein, R. J., & Loveland, D. H. Complex visual concept in the pigeon. Science, 1964, 146, 549-551. Hess, E. H. Imprinting. Science, 1959, 130, 133-141. Hilgard, E. R. Method and procedures in the study of learning. In S. S. Stevens (Ed.), Handbook of experimental psychology. New York: Wiley, 1951. Pp. 517-567. Hogan, J. A. The development of a hunger system in young chicks. Behaviour, 1971, 39, 128-201. Hull, C. L. Principles of behavior. New York: Appleton-Century-Crofts, 1943. Hunter, W. S. The behavior of raccoons in a double-alternation temporal maze. Journal of Genetic Psychology, 1928, 35, 374-388. Hutchinson, R. R., Renfrew, J. W., & Young, G. A. Effects of long-term shock and associated stimuli on aggressive and manual responses. Journal of the Experimental Analysis of Behavior, 1971, 15, 141-166. Jensen, D. D. Experiments on learning in paramecia. Science, 1957, 125, 191-192. Kelleher, R. T., & Morse, W. H. Schedules using noxious stimuli: III. Responding maintained with response-produced electric shocks. Journal of the Experimental Analysis of Behavior, 1968, 11, 819-838. Kendall, S. B. Spontaneous recovery after extinction with periodic time-outs. Psychonomic Science, 1965, 2, 117-118. Kimble, G. A. (Ed.) Hiilgard and Marquis´ Conditioning and Learning. (2nd ed.) New York: Appleton-Century-Crofts, 1961. Kish, G. B. Studies of sensory reinforcement. In W. K. Honig (Ed.), Operant Behavior: Areas of research and application. New York: Appleton-Century-Crofts, 1966. Pp. 109-159. Lashley, K. S. The mechanism of vision. I. A method for rapid analysis of pattern vision in the rat. Journal of Genetic Psychology, 1930, 37, 453-460. McNeill, D. On theories of language acquisition. In T. R. Dixon & D. L. Horton (Eds.), Verbal behavior and general behavior theory. Englewood Cliffs, N. J.: Prentice-Hall, 1968. Pp. 406-420. Meehl, P. E. On the circularity of the law of effect. Psychological Bulletin, 1950, 47, 52-75. Mehler, J. Some effects of grammatical transformations on the recall of English sentences. Journal of Verbal Learning and Verbal Behavior, 1963, 2, 346-351. Miller, N. E. & Carmona, A. Modification of a visceral response, salivation in thirsty dogs, by instrumental training with water reward. Journal of Comparative and Physiological Psychology, 1967, 63, 1-6. Morse, W. H. Intermittent reinforcement. In W. K. Honig (Ed.), Operant Behavior: Areas of research and application. New York: Appleton-Century-Crofts, 1966. Pp. 52-108. Mowrer, O. H., & Jones, H. M. Extinction and behavior variability as functions of effortfulness of task.
La naturaleza del aprendizaje 67
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
Journal of Experimental Psychology, 1943, 33, 369-385. Neisser, U. Cognitive Psychology. New York: Appleton-Century-Crofts, 1967. Pavlov, I. P. Conditioned reflexes. G. V. Anrep (Trans.) London: Oxford University Press, 1927. Peterson, N. Control of behavior by presentation of an imprinted stimulus. Science, 1960, 132, 1395-1396. Premack, D. Toward empirical behavior laws: I. Positive reinforcement. Psychological Review, 1959, 66, 219-233. Premack, D. Reversibility of the reinforcement relation. Science, 1962, 136, 255-257. Premack, D. Catching up with common sense or two sides of a generalization: Reinforcement and punishment. In R. Glaser (Ed.), The nature of reinforcement. New York: Academic Press, 1971. Pp. 121-150. Pryor, K. W., Haag, R., & O’Reilly, J. The creative porpoise: Training for novel behavior. Journal of the Experimental Analysis of Behavior, 1969, 12, 653-661. Reid, R. L. The role of the reinforcer as a stimulus. British Journal of Psychology, 1958, 49, 202-209. Restle, F. Discrimination of cues in mazes: A resolution of the “place-versus-response” question. Psychological Review, 1957, 64, 217-228. Revusky, S., & Garcia, J. Learned associations over long delays. In G. H. Bower (Ed.), The psychology of learning and motivation. Vol. 4. New York: Academic Press, 1970. Pp. 1-84. Rozin, P., & Kalat, J. W. Specific hungers and poison avoidance as adaptive specializations in learning. Psychological Review, 1971, 78, 459-486. Seligman, M. E. P. On the generality of the laws of learning. Psychological Review, 1970, 77, 406-418. Sheffield, F. D. Relation between classical conditioning and instrumental learning. In W. F. Prokasy (Ed.), Classical conditioning: A symposium. Appleton-Century-Crofts, 1965. Pp. 302-322. Sherrington, C. S. The integrative action of the nervous system. New Haven: Yale University Press, 1906. Skinner, B. F. On the conditions of elicitation of certain eating reflexes. Proceedings of the National Academy of Sciences, 1930, 16, 433-438. Skinner, B. F. The concept of the reflex in the description of behavior. Journal of General Psychology, 1931, 5, 427-458. Skinner, B. F. The behavior of organisms. New York: Appleton-Century-Crofts, 1938. Skinner, B. F. “Superstition” in the pigeon. Journal of Experimental Psychology, 1948, 38, 168-172. Skinner, B. F. Are theories of learning necessary? Psychological Review, 1950, 57, 193-216. Skinner, B. F. A case history in scientific method. American Psychologist, 1956, 11, 221-233.
La naturaleza del aprendizaje 68
Seminario Interactum de Análisis del Comportamiento
UNIVERSIDAD DE SONORA
Skinner, B. F. Verbal behavior. New York: Appleton-Century-Crofts, 1957. Smith, K. Conditioning in an artifact. Psychological Review, 1954, 61, 217-225. Solomon, R. L. Punishment. American Psychologist, 1964, 19, 239-253. Staddon, J. E. R., & Simmelhag, V. L. The “superstition” experiment: A reexamination of its implications for the principles of adaptive behavior. Psychological Review, 1971, 78, 3-43. Thistlethwaite, D. A critical review of latent learning and related experiments. Psychological Bulletin, 1951, 48, 97-129. Thorndike, E. L. Animal intelligence: An experimental study of the associative processes in animals. Psychological Monographs, 1898, 2, 109. Thorndike, E. L. The psychology of learning. New York: Teachers College, 1913. Watson, J. B. Psychology from the standpoint of a behaviorist. Philadelphia: Lippincott, 1919. Weiss, B., & Laties, V. G. Behavioral thermoregulation. Science, 1961, 133, 1338-1344. Woodworth, R. S., & Schlosberg, H. Experimental psychology. (Rev. ed.) New York: Holt, Rinehart & Winston, 1954. Figure 2.2: Copyright 1938, 1954 by Holt, Rinehart and Winston, Inc. Copyright 1966 by Mrs. Greta Woodworth Herron, Svenson Woodworth, William Woodworth, and Virginia Woodworth. Reprinted by permission of Holt, Rinehart and Winston, Inc. Zener, K., & McCurdy, H. G. Analysis of motivation factors in conditioned behavior: I. Differential effect of change in hunger upon conditioned, unconditioned, and spontaneous salivary secretion. Journal of Psychology, 1939, 8, 321-350.