la naturaleza del aprendizaje

La naturaleza del aprendizaje 1

Seminario Interactum de Análisis del Comportamiento

UNIVERSIDAD DE SONORA

LA NATURALEZA DEL APRENDIZAJE




LA NATURALEZA DEL APRENDIZAJE1

En el estudio del aprendizaje estamos interesados en cómo un organismo adquiere nuevas formas de

comportarse. Pero el comportamiento de un organismo puede cambiar de muchas formas, y podríamos

estar dispuestos a considerar más algunos cambios como aprendizaje que otros. De tal manera, aún la

definición de aprendizaje es potencialmente controversial, y en psicología el estudio del aprendizaje ha

tenido muchas controversias.

Una de las controversias menores pero más persistentes, si los organismos unicelulares pueden

aprender, ilustra el problema de distinguir aprendizaje de otros tipos de cambios comportamentales. En

alguna ocasión fue argumentado, por ejemplo, que el paramecium podía aprender, porque se había

demostrado que los paramecios podían congregarse, después de varias sesiones de alimento, en una

región donde el alimento era presentado. Pero este argumento desapareció cuando se encontró que su

congregación dependía de residuos físicos de sesiones anteriores más que de oportunidades previas de

alimentarse en ese lugar (Jensen, 1957); los paramecios se congregaban ahí por lo que había ahí

actualmente, y no debido a lo que había ocurrido ahí en el pasado.

También se discutió el aprendizaje en el paramecium cuando se mostró que los paramecios evitaban la

luz después de que ésta había sido apareada con calor. Pero este argumento también desapareció

cuando se encontró que los paramecios evitan la luz después de haber sido calentados

independientemente de que la luz y el calor hayan sido presentados juntos o no (Best, 1954); los

paramecios evitaban la luz debido a que eso es lo que los paramecios calentados hacen, y no debido a

que hubiesen aprendido algo acerca de la relación entre luz y calor en estos experimentos. La cuestión,

si los paramecios pueden aprender, se ha mantenido igual; la respuesta ha cambiado con el tiempo.

Pero ¿Qué clase de cuestión es ésta? Ciertamente el comportamiento de un paramecium individual

puede cambiar. Pero algo más debe estar involucrado, porque el mismo cambio en comportamiento

puede o no llamarse un ejemplo de aprendizaje, dependiendo de las circunstancias que llevan a él. La

cuestión es parcialmente acerca de los paramecios; también es acerca de las condiciones bajo las cuales

decimos que un organismo ha aprendido.

Considere otro ejemplo. Si exponemos por un tiempo a los paramecios a una temperatura un poco más

alta que aquélla en la que han estado viviendo, encontramos que pueden sobrevivir temperaturas aún

más altas que de otro modo los hubieran matado ( Beale, 1953). No pudiesen muchos observadores

1Catania, Ch. (1973). The Nature of Learning. En: Nevin, J. y Reynolds, G. The Study of Behavior. Glenview, Ill. Scott, Foresman and Company. (páginas 31-68).




hablar de esta adaptación a la temperatura diciendo que los paramecios habían aprendido a tolerar

temperaturas más altas? Y qué pudiésemos encontrar acerca de la forma en la cual esta adaptación a la

temperatura funciona que los convenciese para hablar de ello de manera diferente?

No existe una respuesta sencilla o final a estas cuestiones, pero ellas ilustran que el modo en que nos

referimos al aprendizaje merece tanto escrutinio como el comportamiento que investigamos. Nuestro

propósito, por lo tanto, es doble: Examinaremos algunas propiedades del comportamiento, y

consideraremos las formas en las cuales estas propiedades pueden ser descritas. Salvo que ofrezcamos

ejemplos que comúnmente son considerados como ejemplos de aprendizaje, no intentaremos definir el

aprendizaje mismo, porque los fenómenos de aprendizaje son variados aunque comparten la misma

naturaleza.

LA NATURALEZA DEL COMPORTAMIENTO

Cuando analizamos el comportamiento, tenemos disponibles para nuestro estudio solamente las

propiedades del ambiente del organismo y las propiedades del comportamiento del organismo. Llamamos

a estas propiedades estímulos y respuestas, pero ninguno de ellos es de interés por sí solo. Estudiamos

los estímulos para determinar las formas en las cuales afectan a las respuestas, y estudiamos las

respuestas para determinar las formas en que pueden ser afectadas por los estímulos. Así, una de las

tareas esenciales del análisis del comportamiento es examinar los tipos de relaciones que pueden existir

entre los estímulos y las respuestas, y cómo es que estas relaciones se presentan.

Observando al organismo

La primera y más sencilla cosa que podemos hacer para saber acerca del comportamiento de un

organismo es simplemente observarlo (cf. métodos etológicos en el Capítulo 9). Por ejemplo, si

estuviésemos interesados en el comportamiento de una rata, podríamos colocarla en un espacio abierto y

después observar (cf. Bindra, 1961). La rata podría permanecer inmóvil por un tiempo, pero después

podríamos verla caminar o correr y ocasionalmente levantar sus patas traseras. Podríamos verla olfatear

o posiblemente lamerse o acicalarse; o la rata podría orinar y defecar. Si instalamos el equipo de registro

necesario, también podríamos ver cambios en su respiración, pulso, presión arterial, y otras respuestas

que no son fácilmente observadas con el simple ojo.

Podríamos registrar éstas y otras respuestas, pero nuestro conocimiento del comportamiento de la rata

estaría seriamente limitado por el carácter restringido de su ambiente. Si deseáramos encontrar más,

tendríamos que construir un ambiente que diese a la rata más oportunidad para desarrollar otros tipos de




comportamiento. Por ejemplo, podríamos construir un área alrededor de la cual estuviesen localizados

varios compartimientos. Cada uno de estos compartimientos podría ofrecer un diferente juego de

estímulos. Una lista posible podría incluir un compartimiento que contuviese un dispensador lleno de

alimento que se elevase; un compartimiento que contuviese un tubo lleno de agua; un compartimiento

que contuviese una rueda de actividad; un compartimiento que contuviese la entrada a un laberinto; un

pequeño compartimiento vacío; un compartimiento grande vacío; un compartimiento en el cual la entrada

de la rata encendiese un juego de luces y figuras en la pared; un compartimiento en el cual la entrada de

la rata encendiese una grabación de ruidos a un nivel moderado; un compartimiento en el cual la entrada

de la rata encendiese una grabación de ruidos a un nivel extremadamente alto; un compartimiento en el

cual la entrada de la rata encendiese un baño de agua fría; un compartimiento en el cual la entrada de la

rata encendiese una bocanada de aire caliente; y finalmente, un compartimiento con un piso con rejilla

electrificada.

También aquí podríamos esperar observar caminata, corrida, lamida o acicalamiento, orinar o defecar.

Pero también podríamos empezar a encontrar la probabilidad con la cual podría presentar otras

respuestas que dependen más directamente de estímulos específicos en el ambiente. La rata podría

presumiblemente pasar algún tiempo alimentándose del dispensador, tomando agua del tubo, corriendo

en la rueda de actividad, o explorando el laberinto. Después de algunos días podría empezar a dormir de

manera consistente en el pequeño compartimiento vacío, pero podría quizás pasar muy poco tiempo en

el compartimiento grande vacío. La rata también podría pasar un tiempo viendo y escuchando en los

compartimientos con luces y niveles moderados de ruidos. Y después de unas cuantas visitas,

probablemente rara vez visitaría los compartimientos con ruidos altos, baño de agua fría, aire caliente, o

parrilla electrificada.

Jerarquías del comportamiento

Podemos asumir que la rata aprendería lo que la lleva a cada compartimiento, pero nuestro mayor interés

sería evaluar la probabilidad con la que la rata se expondría a los estímulos en diferentes

compartimientos en tiempos diferentes. Sobre esta base, podríamos describir el comportamiento de la

rata en términos de una jerarquía de respuestas. Por ejemplo, la rata podría alimentarse a una hora

específica del día, y podría comúnmente tomar agua después de comer. Así, en ese momento el comer

estaría alto en la jerarquía y el tomar agua estaría después; entonces las otras respuestas, tales como

correr en la rueda de actividad, seguirían. La organización del comportamiento en términos de las

probabilidades relativas de diferentes respuestas han sido referidas como jerarquía de hábitos (Hull,

1943). Como veremos, una de las características esenciales del aprendizaje es la modificación de las

posiciones de diferentes respuestas en tal jerarquía.




La descripción del comportamiento en términos de jerarquías restringidas solamente a aquéllas

respuestas que hemos tornado disponibles todavía deja fuera algunos aspectos del comportamiento del

organismo. Por ejemplo, del comportamiento de la rata en el área podríamos no encontrar nada acerca

de su comportamiento social o sexual. Para estudiar los efectos de otras ratas como estímulos,

deberíamos añadir más compartimientos, algunos de ellos con individuos ratas machos, otros con

individuos ratas hembras, y todavía otros con grupos de tamaños diferentes de ratas de uno o ambos

sexos.

La clasificación de los estímulos

Sin embargo, sobre la base del comportamiento de la rata en la arena original podríamos empezar a

clasificar algunas de sus respuestas en términos de las probabilidades de que la rata las presente.

Encontraríamos que en un período de tiempo la rata frecuentemente se coloca en situación de presentar

respuestas tales como comer, mientras que rara vez, si acaso, se coloca en situación de presentar el

salto y el chillido producido por una rejilla electrificada. Los estímulos que poseen estos diferentes efectos

se han distinguido por nombres diferentes; los primeros son referidos como estímulos apetitivos o

reforzantes, y los últimos como estímulos aversivos o castigantes.

Pero tal caracterización aún no está completa, porque la rata puede no exponerse a estímulos que no

son aversivos si ocurre que esos estímulos tampoco son apetitivos. Tales estímulos podrían referirse

como neutrales. Por ejemplo, la rata podría rara vez entrar al compartimiento en el que las luces y las

figuras son proyectados en la pared simplemente porque no es muy probable que vea tales estímulos.

Nuestro interés no solamente debe ser con la probabilidad de que la rata se exponga a estímulos

diferentes, sino también con la probabilidad de que finalizará tal exposición una vez que ha iniciado. En

este punto, es necesario que intervengamos; no podemos simplemente observar a la rata. Para evaluar

la probabilidad de que la rata finalice su exposición a los estímulos en cualquier compartimiento dado,

debemos elegir a la rata y colocarla sucesivamente en cada compartimiento y observar qué tan rápido se

retira. Podríamos quizás tomar como línea base -un punto de referencia- el tiempo que la rata toma para

retirarse de los compartimientos vacíos pequeño o grande. Relativo a esta línea base, podríamos

probablemente encontrar que la rata se detiene un poco más en los compartimientos con alimento y

agua, pero se retira mucho más rápido de los compartimientos con ruido alto y descarga eléctrica.

Nuestra conclusión de tales observaciones es que los estímulos, y las diversas respuestas para las

cuales proveen una oportunidad, no caen ordenadamente dentro de una triple clasificación del ambiente

en eventos apetitivos, neutrales y aversivos; al contrario, el ambiente ofrece un continuo de posibilidades




que abarcan de aquéllas a las cuales es más probable que el organismo se exponga, a aquéllas con

efectos relativamente indiferentes, hasta aquéllas a las cuales no solamente es poco probable que el

organismo se exponga, sino que es altamente probable que las finalice si se expone. También podríamos

anticipar que el ordenamiento de estos eventos a lo largo del continuo cambia de tiempo en tiempo, así

como el estatus de comer cambia como una función del tiempo transcurrido desde el último alimento.

Es importante hacer notar que las características de los diferentes estímulos no pueden especificarse

independientemente del comportamiento de la rata. Sabemos que el alimento es apetitivo o reforzante

solamente en virtud del comportamiento de la rata con respecto al alimento; y sabemos que la descarga

es aversiva o castigante solamente en virtud del comportamiento de la rata con respecto a la descarga.

Solo a través de nuestras observaciones del comportamiento podemos asegurar cual será el efecto de un

estímulo, y podríamos incluso cambiar los efectos de un estímulo particular al manipular sus propiedades.

Por ejemplo, la rata podría ocasionalmente exponerse a ruidos con niveles moderados en un

compartimiento, pero rara vez exponerse a estos ruidos con niveles intensos en otro compartimiento. De

esta manera, tendríamos que concluir que los ruidos son reforzantes, neutrales, o aversivos,

dependiendo de su nivel.

Operaciones y procesos

Hemos indicado que el comportamiento involucra relaciones entre estímulos y respuestas, y hemos visto

que estas relaciones no pueden examinarse simplemente observando a un organismo. En algunas

ocasiones debemos intervenir presentando estímulos al organismo. Una vez que hemos iniciado tal

intervención, debemos distinguir entre operaciones comportamentales y procesos comportamentales. Las

operaciones son los procedimientos experimentales que pueden ser impuestos sobre el comportamiento;

los procesos son los efectos comportamentales de estos procedimientos.

La operación de elicitación

La presentación de estímulos a un organismo es la operación más sencilla, y como resultado de esta

operación en el comportamiento, podríamos observar cambios en las respuestas del organismo. Nos

referimos a la presentación de estímulos como una operación de elicitación, y el efecto de esta operación

es hacer más o menos probables las respuestas particulares. (Consideraremos después con más detalle

algunos de los efectos de la operación de elicitación).

Las operaciones consecuenciales de reforzamiento y castigo

Sin embargo, algunas de las propiedades más interesantes del comportamiento involucran no sólo el

efecto de eventos ambientales en el comportamiento, sino también el efecto del comportamiento en el




ambiente. Podemos arreglar que el comportamiento de un organismo tenga consecuencias. Por ejemplo,

podríamos presentar alimento a una rata hambrienta cada vez que la rata levantara sus patas traseras, o

podríamos presentar descarga cada vez que la rata se trasladara a una cierta área del piso. En estas

operaciones consecuenciales, discutidas posteriormente en las secciones de reforzamiento y castigo, el

comportamiento puede cambiar no simplemente porque los estímulos son presentados al organismo, sino

porque los estímulos son presentados en alguna relación a su comportamiento.

Operaciones de control del estímulo

Podemos complicar más las cosas al sobreimponer otra operación en elicitación, en reforzamiento, o en

castigo. Podemos arreglar que las operaciones más sencillas estén en vigor solamente en la presencia

de algún estímulo adicional. Nos referimos a tal procedimiento como una operación de control del

estímulo. Por ejemplo, este procedimiento podría ser sobreimpuesto en elicitación arreglando que el

alimento sea presentado a la rata sólo cuando suena un timbre, o que una descarga sea presentada sólo

cuando una luz está encendida. O el procedimiento podría en su lugar ser sobreimpuesto en las

operaciones consecuenciales de reforzamiento o castigo, de tal manera que las respuestas tendrán

consecuencias sólo en presencia de un estímulo particular: El alimento podría ser presentado a una rata

siempre que se levanta sobre sus patas traseras, pero sólo si lo hace cuando una luz verde está

encendida. Como resultado de la operación de control del estímulo, los cambios en el comportamiento

producidos por las operaciones más sencillas de elicitación, reforzamiento, o castigo pueden llegar a

ocurrir sólo en presencia de los estímulos correlacionados con estas operaciones. Este resultado se

refiere como el proceso comportamental de discriminación.

Estas diversas operaciones, y los procesos comportamentales que resultan de ellas, constituyen las

principales características de los experimentos en aprendizaje y condicionamiento, y ofrecen la

organización básica del presente capítulo. Primero examinaremos brevemente algunos de los efectos de

la presentación de estímulos, y la operación de elicitación. Después consideraremos las operaciones

consecuenciales de reforzamiento y castigo, en las cuales los estímulos son presentados como una

consecuencia del comportamiento del organismo. Finalmente, esquematizaremos la relación de estas

operaciones con la operación de control del estímulo a manera de una introducción a la cobertura más

detallada de algunos de estos procedimientos en capítulos subsecuentes.

LOS EFECTOS DE LOS ESTÍMULOS

Cuando hablamos de estímulos y respuestas, frecuentemente invocamos el vocabulario del reflejo.

Decimos que los estímulos producen respuestas, o que el comportamiento es una respuesta a los

estímulos. Esta forma de hablar entró en nuestro lenguaje cotidiano, al menos en parte, como una




herencia de varias fuentes: fisiología (e.g., Sherrington, 1906), los conceptos de Pavlov del reflejo

condicionado (1927), y el conductismo inicial de Watson (1919). De estas fuentes provino la noción de

que el reflejo -la producción confiable de una respuesta particular por un estímulo específico- debía ser

considerado como una unidad del comportamiento; el comportamiento complejo y el aprendizaje serían

entonces reductibles a la combinación de unidades reflejas.

Muchos reflejos son bien conocidos: La salivación producida por alimento en la boca, el reflejo rotuliano

producido por un pequeño golpe en el tendón patelar, la contracción pupilar producida por una luz

brillante, la reacción de sorpresa producida por un ruido intenso súbito, y los ajustes posturales

producidos por una pérdida de soporte. La característica común de cada uno de estos ejemplos es que

un estímulo específico produce de manera confiable una respuesta particular. El reflejo en sí mismo no

es ni estímulo ni respuesta; en su lugar, es la relación entre estos dos eventos (cf. Skinner, 1931). Así, el

reflejo salival es definido por la relación entre alimento en la boca y salivación. La respuesta salival, por sí

misma, no puede ser referida como un reflejo, porque no se ha especificado un estímulo elicitador.

Estímulos elicitadores y respuestas elicitadas

El concepto del reflejo poseía una simplicidad tentadora, pero no se encontró adecuado para una

descripción exhaustiva del comportamiento. A pesar de que el enfoque contemporáneo aún trata el

comportamiento en términos de la relación entre estímulos y respuestas, el reflejo es considerado como

sólo una relación especializada entre muchas. En un reflejo, la presentación de un estímulo dado produce

una respuesta particular con gran confiabilidad. Pero el estímulo de ese reflejo puede tener efectos

diferentes en otras respuestas, y la respuesta de ese reflejo puede ser afectada de manera diferente por

otros estímulos. Cualquier estímulo puede elevar la probabilidad de algunas respuestas, disminuir la

probabilidad de otras, y no tener efecto todavía en otras. Cualquier respuesta puede tornarse más

probable por algunos estímulos, tornarse menos probable por otros, y no ser afectada todavía por otros.

Para especificar completamente la relación entre un estímulo particular y una respuesta particular,

debemos plantear qué tan probable es la respuesta en ausencia del estímulo y qué tan probable es

cuando el estímulo es presentado.

Considere algunos ejemplos. Si observamos un perro por un período extendido de tiempo, podríamos ver

que se mueve ocasionalmente, levanta sus orejas, o ladra. Si presentamos alimento al perro, podríamos

ver que estas respuestas cesan e inicia el comer. Si entonces aplicamos una descarga a la pata

delantera del perro, el perro dejará de comer, flexionará su pata, y posiblemente aúlle. Si en su lugar

presentamos un ruido intenso, el perro de nuevo dejará de comer, pero esta ocasión podría levantar sus

orejas y ladrar. El alimento, la descarga, y el ruido simultáneamente elevan la probabilidad de algunas




respuestas y disminuyen la probabilidad de otras. Algunas de las respuestas pudiesen ocurrir con alguna

frecuencia aún en la ausencia de estos estímulos, pero ninguna de las respuestas ocurrirá

necesariamente en cada ocasión que un estímulo dado es presentado. Así, el reflejo, en el cual un

estímulo particular eleva una respuesta específica de baja frecuencia a virtualmente una ocurrencia

cierta, es solamente una clase especial de relación estímulo-respuesta.

Una descripción más general del comportamiento explica las observaciones de que las respuestas

pueden ocurrir con frecuencias altas aún en ausencia de cualquier estímulo identificable, y que sus

frecuencias pueden ser modificadas por la presentación de un estímulo. En cualquier momento, las

respuestas disponibles pueden ser caracterizadas en términos de una jerarquía comportamental; cuando

un estímulo es presentado, su efecto inmediato es modificar esa jerarquía. Por ejemplo, cuando el perro

estaba comiendo, el efecto de la descarga fue de elevar la flexión de la pata y de disminuir el comer en

sus posiciones relativas en la jerarquía.

La situación puede en ocasiones ser más complicada. Por ejemplo, si presentamos una bolita de

alimento a una rata privada de alimento, la rata comerá primero la bolita. Entonces típicamente tomará

agua si está disponible (Falk, 1961). De manera similar, si se aplica una descarga a un mono, morderá

cualquier objeto cercano a la que pueda hincar sus dientes. Entonces típicamente manipulará objetos,

tales como palancas, que se encuentran disponibles en su cámara (Hutchinson, Renfrew, & Young,

1971). Las respuestas que de manera confiable siguen a otras respuestas que han sido elicitadas son

referidas como comportamiento adjunto (Falk, 1971). Estos patrones secuenciales son propiedades

adicionales de comportamiento elicitado que deben considerarse.

En resumen, entonces, las presentaciones de un estímulo proporcionan una operación, llamada

elicitación, para modificar el comportamiento. Podemos cambiar lo que un organismo hace simplemente

presentándole estímulos. Sin embargo, para poder decir de qué forma puede ser modificado el

comportamiento, no es suficiente solamente catalogar los efectos de diferentes estímulos, porque estos

efectos pueden variar con el número de presentaciones del estímulo y con el espaciamiento de estas

presentaciones en el tiempo. Es en este punto que la operación de elicitación se vuelve relevante al

estudio del aprendizaje: La respuesta producida por un estímulo en un momento puede depender de lo

que le ha ocurrido al organismo previamente.

Efectos temporales de los estímulos

Si a una rata le presentamos bolitas de alimento y la rata se las come rápidamente, es muy probable que

digamos que la rata estaba hambrienta. Si continuamos presentando las bolitas, la rata las come cada




vez más lentamente hasta que eventualmente deja de comer completamente; en este punto podríamos

decir que la rata se ha saciado. La probabilidad con que estos estímulos (bolitas de comida) son seguidos

por una respuesta particular (comer) disminuye con cada presentación sucesiva del estímulo. Este

proceso ha sido llamado saciedad, pero no sólo se limita a estímulos tales como alimento y agua que el

organismo consume. Una diversidad de otros estímulos también tienen este efecto en el comportamiento.

Un perro levantará sus orejas con la presentación de luces o sonidos, pero si continuamos estas

presentaciones el perro pronto deja de responder. Un gato jugará con una pelota de hilo balanceada

frente a él, pero el gato eventualmente se dirige a otros objetos. Y un niño puede pasar un largo período

de tiempo con un juguete nuevo, pero finalmente “la novedad se acaba”.

Figura 2.1. Diversos efectos temporales de la operación de elicitación. Las flechas indican las presentaciones del estímulo. Se ilustran en A, B y C los efectos comúnmente referidos como adaptación o habituación: La respuesta disminuye con presentaciones repetidas del estímulo (con estímulos consumibles tales como alimento o agua, el fenómeno es comúnmente llamado saciedad). Los efectos comúnmente referidos como sensibilización o facilitación se ilustran en D, E y F: Las respuestas se incrementan con presentaciones repetidas del estímulo. En ambos casos el tiempo transcurrido desde la última presentación del estímulo también influye en la respuesta. En el primero, en el cual el tiempo transcurrido es a veces llamado período de privación, la respuesta se incrementa a medida que el tiempo transcurre sin presentaciones del estímulo; en el último, la respuesta se decrementa.

Este proceso, el decremento en la respuesta con presentaciones repetidas de un estímulo, ha sido

llamado de diferentes formas dependiendo de los estímulos involucrados. Ha sido llamado saciedad con




respecto a estímulos consumibles, pero con respecto a otros estímulos ha sido más comúnmente

llamado adaptación o habituación. A pesar de que las distinciones entre estos términos poseen una larga

historia, algunas veces involucrando intereses fisiológicos, no está claro que las distinciones tengan

importancia comportamental. El fenómeno se ilustra en las Figuras 2.1 A a 2.1 C. La respuesta inicia a

niveles diferentes en cada uno de los tres ejemplos, pero en cada caso la respuesta declina con

presentaciones sucesivas del estímulo.

El proceso de saciedad o adaptación parece ser un efecto característico de la presentación de la mayor

parte de los estímulos apetitivos o reforzantes, y posiblemente también de algunos estímulos

considerados como neutrales. Otros estímulos tienen efectos diferentes. La primera presentación de una

descarga eléctrica puede producir menor respuesta que presentaciones subsiguientes (e.g. Badia, Suter,

& Lewis, 1966; Hutchinson, Renfrew, & Young, 1971). Este proceso parece ser un efecto característico

de la presentación de estímulos considerados como aversivos o castigantes. Esta base para la distinción

entre diferentes clases de estímulos también es apoyada por evidencia indirecta. Por ejemplo, los

organismos en experimentos que involucran estímulos aversivos (e.g. evitación) típicamente pasan por

un período de calentamiento al inicio de cada sesión experimental; durante este tiempo, el estímulo

aversivo es menos efectivo de lo que lo es más adelante en la sesión.

Un incremento en la respuesta elicitada con presentaciones sucesivas del estímulo no tiene un nombre

bien establecido. Algunas veces ha sido llamado sensibilización (pero el término ha sido también aplicado

a casos en los cuales las presentaciones de un estímulo incrementan el efecto elicitante de algún otro

estímulo); el término facilitación puede también ser apropiado. El fenómeno se ilustra en las Figuras 2.1 D

a 2.1 F. La respuesta aumenta a una razón diferente cada uno de los tres ejemplos, pero en cada caso

aumenta con presentaciones sucesivas del estímulo.

Los procesos de adaptación y sensibilización serán indudablemente más explorados en investigación

futura. Por lo pronto, es suficiente hacer notar que la probabilidad con la que un estímulo particular

produce una respuesta específica depende no solamente de qué se trata el estímulo, sino también en la

exposición previa del organismo a ese estímulo.

Las presentaciones repetidas de un estímulo modifican el grado al que un estímulo produce respuestas.

Pero en la ausencia subsiguiente de ese estímulo, la tendencia a responder puede retornar a valores

anteriores. La rata cuya alimentación ha cesado después del consumo de muchas bolitas de alimento

comerá de nuevo si las bolitas se suspenden por un período de tiempo. La probabilidad de que coma y el

número de bolitas que comerá antes de dejar de comer depende de cuánto tiempo ha transcurrido desde

su última comida. Esta propiedad de las presentaciones del estímulo está íntimamente relacionada con el




proceso de saciedad o adaptación. La probabilidad de la respuesta disminuye con presentaciones

repetidas del estímulo, pero aumenta con el paso del tiempo desde la última presentación del estímulo,

como se ilustra en las Figuras 2.1 A a 2.1 C. La operación de la suspensión del estímulo es referida como

privación. Desafortunadamente, no existe un término que corresponda precisamente al proceso que

resulta de esta operación. Términos disponibles, tales como impulso, comúnmente implican estados

inferidos del organismo y tienden a distraer acerca de los eventos críticos que ocurrieron en el pasado

del organismo.

Nuevamente, pueden mantenerse las relaciones inversas para estímulos que producen sensibilización

más que adaptación. Por ejemplo, las respuestas producidas por descarga pueden convertirse en menos

probables a medida que el tiempo transcurre desde la última descarga (cf. Figuras 2.1 D a 2.1 F). Pero,

de nuevo desafortunadamente, no existen todavía datos no ambiguos que pudiesen permitir tal

generalización acerca del comportamiento. El análisis del comportamiento se simplificaría si los diversos

efectos temporales descritos aquí fueran correlacionados con las categorías de eventos apetitivos y

aversivos que fueron derivados de las jerarquías comportamentales discutidas previamente (i.e. la

probabilidad de que el organismo inicie o finalice diferentes comportamientos). Pero este asunto también

debe aguardar a experimentación futura.

La naturaleza de la motivación

Hemos indicado que las probabilidades de la respuesta pueden ser alteradas por presentaciones

sucesivas de un estímulo. Esta propiedad del comportamiento proporciona otros medios para la

modificación del comportamiento. Retornemos a la rata en su área. Podríamos notar que el comer y

tomar agua son altamente probables a una hora particular del día, pero el correr en la rueda de actividad

es menor. Sin embargo, si retiramos la rueda y así privamos a la rata de una oportunidad de correr en

ella, podemos encontrar al presentar después la rueda a la rata que ahora es más probable que corra a

que coma o tome agua. La operación de la privación hace posible alterar la jerarquía comportamental en

un tiempo dado. Podemos hacer el correr más probable que el comer, o el tomar agua más probable que

el correr, dependiendo de la exposición previa del organismo a los estímulos en presencia de los cuales

estas respuestas ocurren. Bajo cada una de estas diferentes condiciones, podemos describir las

probabilidades de diferentes respuestas en términos de su estatus relativo a otras respuestas en la

jerarquía. Veremos después que este tipo de descripción incide en los efectos de operaciones

consecuenciales en las cuales las respuestas tienen un efecto sobre el ambiente.

En los capítulos anteriores, la significación de los estímulos era cambiada por las condiciones bajo las

cuales los estímulos eran presentados. Tales cambios son el interés básico del estudio de la motivación




(cf. Cofer & Appley, 1964): Los estímulos pueden ser hechos más o menos reforzantes, o más o menos

aversivos, dependiendo de tales factores como el tiempo transcurrido desde su última presentación. Sin

embargo, la significación de los estímulos puede ser cambiada por otras operaciones aparte de la

privación. En el fenómeno llamado impronta (ver Capítulo 9), por ejemplo, un estímulo adquiere su

significación para un organismo simplemente en virtud de su presentación en un período particular en la

vida de un organismo. Una cría de pato ordinariamente ve a su madre durante las horas siguientes de

salir del cascarón y en adelante se mantiene cerca de su madre; pero si algún otro estímulo en

movimiento es sustituido por la madre pato durante este período crítico después de salir del cascarón, la

cría de pato puede después seguir ese estímulo en lugar de su madre (Hess, 1959). Una vez que un

estímulo ha adquirido propiedades reforzantes a través de la impronta, el seguimiento puede ocurrir

porque tiene la consecuencia de mantener este estímulo cerca (Peterson, 1960).

El ejemplo de la impronta es de especial interés porque ilustra otro efecto de la operación de elicitación.

La explicación de otros procedimientos motivacionales, tales como la intervención fisiológica, está más

allá de la esfera de este capítulo, pero algunos métodos para alterar la significancia de los estímulos son

tratados en los Capítulos 5 y 8.

El papel del ejercicio

Hemos resumido diversos efectos de las presentaciones de un estímulo. Un último efecto posible de la

operación de elicitación debe mencionarse antes de pasar a las operaciones consecuenciales de

reforzamiento y castigo. El efecto no está bien documentado, posiblemente porque ha sido ensombrecido

por los fenómenos de aprendizaje que consideraremos después. Pero a pesar de la sorprendente

escasez de evidencia, puede ser de significado fundamental para un análisis del comportamiento. Los

primeros trabajos en aprendizaje (e.g., Thorndike, 1913) con frecuencia se refirieron a la importancia de

ocurrencias repetidas de una respuesta, descrita en términos de leyes de ejercicio o práctica. A pesar de

que el fenómeno ha sido descuidado, puede todavía probar ser el caso de que la producción repetida de

una respuesta por un estímulo hace esa respuesta más probable aún en ausencia del estímulo. Por

ejemplo, en un ambiente experimental dado un perro puede al principio salivar sólo cuando el alimento es

presentado, pero después de varias presentaciones el perro puede también salivar en ausencia de

alimento (e.g., Zener & McCurdy, 1939). Tal respuesta ha sido llamada salivación espontánea; no puede

ser tomada como reflejo, porque no existe un estiímulo elicitante identificable. Otro ejemplo proviene de

experimentos interesados en estímulos aversivos, especialmente aquellos que involucran evitación. Estos

experimentos con frecuencia parecen ser diseñados para sacar provecho del mismo fenómeno, así como

el salto de obstáculo es elegido como una respuesta de evitación con ratas porque la descarga las hace

saltar; una vez que el saltar ha sido producido por la descarga, es probable que ocurra en otras




ocasiones cuando la descarga está ausente. Finalmente, existe evidencia que el picoteo de un pollo no

sólo depende de las condiciones elicitantes o de las consecuencias de picoteos previos, sino también es

afectado por qué tanto picoteo el polluelo ya ha presentado (Hogan, 1971).

Es sólo una suposición que este efecto de presentaciones repetidas del estímulo puede ser la propiedad

general del comportamiento. Si la suposición es correcta, el fenómeno será eventualmente descrito,

analizado, y formulado en términos considerablemente diferentes de las leyes clásicas de ejercicio y

práctica. Sin embargo, no podemos ignorar la posibilidad de que la elicitación de respuestas por un

estímulo hace más probables estas respuestas aún en ausencia del estímulo. En términos que serán más

familiares después, la elicitación de una respuesta puede elevar la probabilidad de su emisión

subsecuente. El proceso, en términos de las operaciones necesarias para producirla, es sin lugar a duda

el más sencillo que puede entrar en ejemplos de aprendizaje.

LAS CONSECUENCIAS DE LA RESPUESTA

Un organismo no es pasivamente dirigido por los estímulos. Los estímulos pueden afectar su

comportamiento de momento a momento, pero su comportamiento afecta a su vez el ambiente.

Simplemente al moverse, el organismo cambia la porción del ambiente que confronta. El comportamiento

tiene consecuencias, y es un factor importante del comportamiento el que pueda ser modificado por sus

consecuencias. Una rata que encuentra alimento en un lugar particular tiene más probabilidad de dirigirse

hacia ese lugar en ocasiones subsecuentes cuando está privada de alimento. Una rata que encuentra

una descarga eléctrica en otro lugar tiene más probabilidad de mantenerse lejos de ese lugar.

En estos casos las operaciones no solo involucran la presentación de estímulos, sino la presentación de

los estímulos con alguna relación al comportamiento. El experimentador arregla el ambiente de tal

manera que ciertos eventos sigan a ciertas respuestas emitidas por el organismo. Una rata puede

encontrar agua en una caja meta después de recorrer un laberinto; un pichón puede producir alimento al

picotear un disco iluminado; un mono puede tener una oportunidad de ver otros monos cada vez que

presiona una palanca; un niño puede obtener un dulce al colocar monedas en una máquina

dispensadora. En cada uno de estos casos las respuestas tienen consecuencias, y estas consecuencias

pueden hacer las respuestas más probables en el futuro.

La ley del efecto

El efecto de las consecuencias de la respuesta en respuestas subsiguientes fue estudiado

experimentalmente por Thorndike (1898), y fue descrito en términos de un principio que él llamo Ley del

Efecto. Esta ley sufrió muchas revisiones, pero su esencia era que el comportamiento podía ser




fortalecido por algunas consecuencias y debilitado por otras. La Ley del Efecto estaba basada en

experimentos con animales en cajas problema, cajas de las cuales los animales podían escapar al operar

un pestillo. En un ejemplo típico, un gato hambriento era colocado dentro de la caja con un pescado a la

vista desde fuera. En sus diversas actividades dentro de la caja, el gato eventualmente operaba el pestillo

y estaba libre para comerse el pescado. Las condiciones eran repetidas, y después de una cantidad de

ensayos el gato aprendía a operar el pestillo más y más rápidamente. El operar el pestillo inició como una

respuesta de baja probabilidad, pero su probabilidad incrementó después de varias ocasiones dio al gato

la oportunidad de comerse el pescado. Se muestran datos de la caja problema, presentados de dos

formas, en la Figura 2.2.

Este proceso, el cual por un tiempo fue llamado aprendizaje por ensayo y error, fue examinado con

diferentes organismos en muchas variaciones. Una descripción de las cajas problema, laberintos, pasillos

rectos, plataformas de salto, y otros mecanismos (e.g., Hilgard, 1951) que fueron empleados en el

estudio del aprendizaje está más allá del ámbito de la presente explicación. Sus diseños fueron con

frecuencia determinados por intereses teóricos, tales como si es que el aprendizaje era discreto o

continuo, si el organismo aprendía patrones motores (aprendizaje de la respuesta), o si las

consecuencias de la respuesta eran necesarias para el aprendizaje o sólo permitían al organismo

comportarse de acuerdo con lo que había aprendido de otras maneras. Algunas de estas cuestiones se

sostienen de interés experimental y teórico (e.g., Goldstein, Krantz, & Rains, 1965).

Figura 2.2. Dos formas de graficar una curva de aprendizaje en el desempeño de un gato en una caja problema. En A, el tiempo para escapar de la caja se grafica como función de los ensayos. En B, el tiempo se acumula horizontalmente, y los ensayos sucesivos se representan verticalmente como pasos




acumulativos. En el primer caso, el desempeño se muestra como un decremento variable en la medida temporal. En el segundo caso, se muestra como una curva, cuya pendiente corresponde a los escapes sucesivamente mas rápidos (Woodworth & Schlosberg, 1954).

Sin embargo, la característica esencial de estos diversos diseños experimentales era que el

comportamiento podía tornarse más probable cuando tenía ciertas consecuencias. El cambio en la

probabilidad de la respuesta fue medido de diferentes formas por diferentes investigadores, dependiendo

de los mecanismos empleados y de los propósitos del experimento. Las medidas contribuyeron a las

curvas de aprendizaje, gráficas que muestran cómo es que el comportamiento cambió en el curso de un

experimento: El tiempo para escapar de una caja problema como una función de los ensayos; el

porcentaje de vueltas correctas como una función del número de recorridos en un laberinto; o la

proporción de animales que alcanzaron un criterio de desempeño exitoso en etapas sucesivas de

entrenamiento. Pero la forma de la curva de aprendizaje dependía tanto de cuál instrumento era

empleado y cuáles medidas eran tomadas que ninguna descripción cuantitativa de la progresión del

aprendizaje era satisfactoria.

Una dificultad era que los desempeños estudiados en estos experimentos de aprendizaje eran

complicados. El período de tiempo en el cual las entradas a pasillos ciegos era eliminado a medida que

la rata aprendía a negociar un laberinto no necesariamente mostraba cómo es que el aprendizaje

proseguía en un punto particular del laberinto. Una medida de desempeño promedio del progreso de un

grupo de animales no era necesariamente representativa del desempeño de ningún animal individual en

el grupo. Y aún una medida relativamente sencilla, tal como la velocidad del correr en un pasillo recto,

podía ser afectada por factores irrelevantes tales como la dirección hacia la cual el animal estaba

orientado cuando un ensayo iniciaba, rastros de olor dejados por otros animales, el espacio disponible

para que el animal desacelerara en la caja meta sin golpear su cabeza contra la pared, o la forma en que

el animal era manipulado entre ensayos cuando el experimentador lo regresaba de la caja meta a la caja

de inicio del pasillo.

Una solución a estos problemas requería al menos dos innovaciones experimentales: El diseño de un

instrumento en el cual el organismo pudiese emitir repetidamente una respuesta de fácil especificación

sin intervención del experimentador; y la medición de la respuesta directamente en términos de la razón

de frecuencia, más que indirectamente en términos de otras medidas que eran derivadas o de

secuencias complejas de respuestas o del comportamiento de grupos de organismos. Estas fueron las

características de un enfoque de investigación iniciado por Skinner (1930, 1938; ver también a Skinner,

1950, 1956).




En un arreglo típico, una rata privada de alimento es colocada en una pequeña cámara. De una pared

sobresale una palanca que puede ser presionada por la rata y un comedero en el cual se pueden

entregar bolitas de alimento (pellets). Una vez que la rata se ha dirigido a comer pellets del comedero, el

instrumento es arreglado de tal manera que la entrega de las bolitas depende de los palanqueos: El

palanqueo así ofrece a la rata una oportunidad de comer. En un arreglo análogo para el pichón, la pared

de la cámara contiene un disco pequeño, o tecla, que puede ser iluminado desde atrás y una hendidura

dentro de la cual puede ser presentada al pichón una bandeja con grano mixto. Puede entonces

arreglarse que los picoteos en la tecla ofrezcan al pichón una oportunidad de comer grano. Bajo estas

circunstancias, la oportunidad de comer puede emplearse para elevar la probabilidad del palanqueo de la

rata o el picoteo de tecla del pichón, tal como era empleada para elevar la probabilidad de la operación

del gato del pestillo de una caja problema.

Algunas de las ventajas de estos arreglos y la importancia de la medición de respuestas en términos de

su frecuencia o razón serán consideradas de nuevo en el Capítulo 6. Por lo pronto, será suficiente hacer

notar que todo lo que estos arreglos experimentales tienen en común es que las consecuencias siguen al

comportamiento y que el comportamiento subsiguiente puede ser modificado por estas consecuencias.

El principio del reforzamiento

Los palanqueos de una rata privada de alimento se hacen más frecuentes cuando estos palanqueos

producen bolitas de alimento. Este ejemplo ilustra el principio del reforzamiento, el cual plantea que la

respuesta se incrementa cuando es seguida de estímulos reforzantes. El principio es relativamente

sencillo, pero durante su evolución de la Ley del Efecto inicial de Thorndike a su estado actual ha traído

con él una cantidad de problemas de lenguaje y lógica (Catania, 1969). Estos problemas deben ser

tratados antes de que puedan examinarse algunas de las propiedades empíricas del reforzamiento.

El vocabulario del reforzamiento

Consideramos primero el vocabulario del reforzamiento, el cual incluye el término reforzador como

estímulo y el término reforzamiento como operación. Un estímulo reforzante, tal como la bolita de

alimento presentada a la rata privada de alimento, es llamada reforzador. El reforzamiento, sin embargo,

no es ni un estímulo ni una respuesta. En su lugar, el reforzamiento es la operación de presentar un

reforzador cuando una respuesta ocurre. Esta operación es aplicada a respuestas, y por lo tanto

hablamos de respuestas reforzadas, no organismos. Así, podemos decir que el palanqueo de la rata

produjo el reforzador, una bolita de alimento, o que el palanqueo de la rata fue reforzado con una bolita

de alimento.




El término reforzamiento también ha sido aplicado con frecuencia al proceso que sigue de la operación

de reforzamiento, específicamente, el incremento en la frecuencia de la respuesta. Este doble empleo del

término, como operación y como proceso, complica la forma en la cual el comportamiento es descrito.

Por ejemplo, la declaración de que una respuesta fue reforzada puede significar tanto que la respuesta

produjo un reforzador como que la respuesta incrementó en frecuencia como consecuencia de producir

un reforzador. A pesar de que ambos usos son comunes en la literatura experimental, este capítulo se

restringirá al primer uso, aquél del reforzamiento como operación. El proceso que sigue de esta

operación es descrito concretamente en términos de los cambios en la frecuencia de una respuesta, y de

esta manera existe poca justificación para sustituir otra terminología por una descripción directa en

términos de cambios de frecuencia (cf. Catania, 1968).

Sin embargo, aún si el término reforzamiento se restringe a una operación experimental, este vocabulario

lleva a algunas dificultades lógicas. Cuando una respuesta produce un estímulo y así aumenta en

frecuencia, se dice que el estímulo es un reforzador y que la respuesta es reforzada. Si nos preguntan

cómo es que sabemos que el estímulo era un reforzador, nos apoyamos en el aumento en frecuencia de

la respuesta. Si entonces nos preguntan por qué la respuesta incrementó en frecuencia, decimos que lo

hizo porque fue reforzada. Es claro que en algún punto empezaremos a repetirnos; no podemos definir al

mismo tiempo un estímulo reforzante en términos de su efecto en el comportamiento y el efecto del

comportamiento en términos del estímulo reforzante.

El problema de la circularidad en la definición puede ser resuelta en una variedad de formas (cf. Meehl,

1950). Es primero importante reconocer que la función del término reforzamiento es descriptivo más que

explicatorio. El término nombra una cierta relación entre comportamiento y ambiente; no explica esta

relación. Sería inapropiado, por ejemplo, decir que porque una respuesta aumentó en frecuencia la

respuesta debe haber sido reforzada; el incremento pudo haber ocurrido por otras razones (e.g., la

respuesta pudo haber sido elicitada por un estímulo). En su lugar, debemos mostrar que la respuesta

aumentó en frecuencia porque la respuesta produjo un estímulo. Una vez que hemos logrado esto,

podemos describir estas circunstancias diciendo que la respuesta fue reforzada y que el estímulo fue un

reforzador.

También podemos hacer la conjetura de que el estímulo continuará funcionando como un reforzador en

el futuro, y que reforzará otras respuestas en otras situaciones.

Este supuesto, sin embargo, puede ser incorrecto. Es concebible que ciertos estímulos pueden ser

reforzadores con respecto a ciertas respuestas pero no con respecto a otras. Por ejemplo, si el

palanqueo de una rata nos lleva a la conclusión de que las bolitas de alimento son reforzadores, no




necesariamente seguirá que las bolitas de alimento aumentarán la frecuencia con la cual la rata cruza

una rejilla electrificada. Sin embargo, tales posibilidades son al menos susceptibles a la prueba empírica,

y permanece como dato bien establecido el que los reforzadores empleados en la mayor parte de las

situaciones experimentales son reforzadores efectivos con respecto a una variedad de respuestas.

Las propiedades de los reforzadores

A pesar de que tales consideraciones pueden apoyar la lógica del vocabulario del reforzamiento, esta

formulación todavía no ofrece un medio para identificar los reforzadores independientemente de sus

efectos en la operación de reforzamiento. Sin convertir un estímulo particular como una consecuencia de

la respuesta, no es posible decir si el estímulo será o no un reforzador. Aún aquéllos estímulos que se ha

demostrado son reforzadores, tales como alimento y agua, pueden ser efectivos o no efectivos

dependiendo de la privación. La entrega de alimento o agua siempre que una rata presiona una palanca

no elevará la probabilidad del palanqueo si el alimento y el agua están continuamente disponibles aún

cuando esta respuesta no ocurre. (Tales circunstancias fueron discutidas anteriormente en términos de

motivación: Podemos ahora definir el estudio de la motivación con mayor precisión como un interés con

los factores que hacen a los estímulos más o menos efectivos como reforzadores o como castigadores).

Los estímulos reforzantes existen en gran variedad. Algunos estímulos reforzantes son consumibles;

otros no. Algunos son efectivos sólo si el organismo entra en contacto físico con ellos; otros son efectivos

aún a distancia. Algunos parecen ser efectivos en el primer contacto del organismo con ellos; otros

parecen adquirir sus propiedades reforzantes durante la vida del organismo (ver Capítulo 5). No es por lo

tanto razonable esperar que los reforzadores sean identificables, independientemente de sus efectos

comportamentales, sobre la base de cualquier característica física común.

Sin embargo, es posible que las propiedades reforzantes de un estímulo estén correlacionadas con otros

efectos comportamentales de ese estímulo. Ya hemos indicado que las probabilidades con las que los

estímulos producen respuestas pueden variar con presentaciones sucesivas del estímulo, de acuerdo a

los procesos de adaptación o sensibilización. Estos procesos parecen distinguir clases de estímulos, y

puede ser que estén relacionados con propiedades reforzantes.

Hasta aquí hemos hablado de estímulos reforzantes, pero el posible involucramiento de procesos

temporales tales como adaptación en la función de estos estímulos sugiere que nuestra explicación

estará incompleta si no tratamos también con las respuestas producidas por estos estímulos. El

palanqueo de una rata produce alimento, y el alimento proporciona a la rata una oportunidad de comer.

Sabemos que si hiciésemos disponibles a la rata tanto la palanca como el alimento de manera

simultánea, sería más probable que la rata comiera a que presionara la palanca.




Este tipo de observación lleva a la conclusión, formulada por Premack (1959), que la probabilidad de una

respuesta aumentará si produce un estímulo que ofrece al organismo una oportunidad para presentar

una respuesta aún más probable. De acuerdo a esta explicación, el alimento es un reforzador efectivo

para los palanqueos de la rata privada de alimento simplemente porque el comer es más probable que el

palanqueo.

La relatividad del reforzamiento

Premack ha demostrado este principio en una variedad de experimentos. Uno de éstos (Premack, 1962)

muestra cómo es que los reforzadores pueden ser revertidos al variar independientemente las

probabilidades de dos respuestas. El correr de una rata en una rueda de actividad era controlado al

accionar o liberar un freno en la rueda, y era medido en términos de la frecuencia de las revoluciones de

la rueda. El tomar agua de la rata de un tubo era controlado por la introducción del tubo en, o retirarlo de

una apertura en una pared estacionaria a un lado de la rueda, y era medido por un sistema eléctrico, un

medidor de la cantidad de agua bebida, que contaba los lamidos. Después de que la oportunidad de

correr de la rata había sido restringida mientras el agua permanecía disponible, el correr se convirtió más

probable que el tomar agua. Después de que el acceso de la rata al tubo fue restringido mientras que el

correr libremente era permitido en la rueda, el tomar agua se convirtió más probable que el correr. Fue

entonces mostrado, en cada uno de estos casos, que una oportunidad de presentar la respuesta más

probable podría ser empleada para incrementar la frecuencia de la respuesta menos probable. Cuando el

correr era más probable que el tomar agua, el tomar agua se hizo más frecuente si liberaba el freno en la

rueda y permitía a la rata correr que si no hubiese consecuencia con respecto al correr. Inversamente,

cuando el tomar agua era más probable que el correr, el correr se hizo más frecuente si introducía el tubo

y permitía a la rata tomar agua que si no tuviese consecuencia con respecto al tomar agua.

La implicación de esta demostración es que los reforzadores no pueden ser definidos

independientemente de las respuestas que son reforzadas. La mayoría de los experimentos restringen su

atención a respuestas que ocurren con relativa poca frecuencia y a reforzadores que presentan la

ocasión para respuestas altamente probables. A pesar de ser experimentalmente tanto comunes como

convenientes, estos son casos especiales. Nos referiremos, en el texto subsecuente, a estos

reforzadores simplemente como estímulos. Pero no deberíamos olvidar que, de acuerdo a esta

explicación, los reforzadores son relativos, no absolutos; sus características importantes no descansan

en sus propiedades como estímulos, sino en las respuestas para las cuales ofrecen una oportunidad.

La relatividad de la relación del reforzamiento puede ser ilustrada al considerar tres diferentes respuestas

en lugar de sólo dos. Suponga que un dispensador de bolitas de alimento es añadido a la rueda de




actividad y el tubo del experimento precedente, y que, por operaciones adecuadas de privación, el comer

es hecho más probable que el correr, el cual a su vez es hecho más probable que el tomar agua. Bajo

estas circunstancias, el correr aumentaría en frecuencia si produjese una oportunidad para comer, pero al

mismo tiempo el tomar agua aumentaría en frecuencia si produjese una oportunidad para correr. Con

respecto al comer, el correr es la respuesta reforzada, pero con respecto a tomar agua, una oportunidad

de correr funciona como un reforzador.

Hablamos anteriormente del comportamiento como una jerarquía. El ordenamiento de respuestas dentro

de esta jerarquía varía con el paso del tiempo, con los estímulos que son presentados al organismo, y

con la oportunidad del organismo de involucrarse en las diferentes respuestas que forman la jerarquía. Al

restringir la oportunidad del organismo de participar en ciertas respuestas en esta jerarquía, o , en otras

palabras, por operaciones de privación, hacemos estas respuestas más probables y así podemos

emplear la oportunidad de involucrarse en ellas para elevar la probabilidad de otras respuestas que están

más bajas en la jerarquía. El reforzamiento no es una explicación; es el nombre de la operación que tiene

este efecto.

Reforzamiento positivo y negativo

Previamente en esta explicación, cuando sugerimos formas en las cuales podían ser clasificados los

eventos ambientales, consideramos no sólo la probabilidad con la cual el organismo se exponía a los

estímulos, sino también la probabilidad con la cual el organismo finalizaba tal exposición una vez iniciada.

Una rata comúnmente no se expone a una descarga eléctrica, y una vez sacudida se retiraría de la

descarga si tuviese la oportunidad. Este tipo de estímulo es algunas ocasiones llamado aversivo, y la

terminación de un estímulo aversivo proporciona la base para otro tipo de operación de reforzamiento.

La terminación de un estímulo, así como su presentación, puede ser tornada en una consecuencia de la

respuesta. Si esta terminación del estímulo hace la respuesta más probable, se dice que el estímulo es

un reforzador negativo y la operación es llamada reforzamiento negativo. El reforzamiento positivo y el

reforzamiento negativo, por lo tanto, se distinguen sobre la base de si un estímulo es presentado o

retirado cuando una respuesta ocurre.

Escape y evitación

La operación más sencilla de reforzamiento negativo es algunas veces referida como un procedimiento




de escape. Por ejemplo regresemos una vez más a la rata en el área. Notamos que la rata pronto dejaría

de entrar al compartimiento con la rejilla electrificada en el piso. Pero la rata puede ser expuesta a la

descarga eléctrica simplemente colocándola en ese compartimiento. La construcción del área entonces

presenta el escenario para reforzamiento negativo: La rata puede escapar de la descarga al abandonar el

compartimiento. En otras palabras, este instrumento está arreglado de tal manera que la terminación de

la descarga eléctrica es una consecuencia de la respuesta locomotora de abandonar el compartimiento.

El movimiento de un lugar a otro con frecuencia ha sido la base para estudios experimentales de

reforzamiento negativo, pero es posible sustituir respuestas que son más discretas y de medición más

fácil. Por ejemplo, si la salida del compartimiento está cerrada, una palanca puede ser introducida, la

cual, cuando es presionada, apagará la descarga por un período de tiempo. En este ejemplo, así como

en otros anteriores, el principio es el mismo: Se permite que una respuesta tenga una consecuencia

particular y puede así aumentar en frecuencia.

Considere entonces los dos casos. En ausencia de alimento, una respuesta que produce alimento puede

aumentar en frecuencia. En presencia de descarga, una respuesta que elimina la descarga puede

aumentar en frecuencia. El paralelo es sencillo y directo. Sin embargo, a pesar de la naturaleza

fundamental del reforzamiento negativo en el procedimiento de escape, no ha recibido tanta atención

experimental como procedimientos más complejos que involucran estímulos aversivos. El grueso de la

literatura sobre reforzamiento negativo está interesado con evitación (cf. Herrnstein, 1969; Herrnstein &

Hineline, 1966; ver también Capítulo 7), en el cual las respuestas en ausencia de un estímulo aversivo

previene o retardan la presentación subsecuente del estímulo. En un procedimiento de evitación, un

estímulo neutral, tal como una luz, precede consistentemente la presentación de una descarga, pero una

respuesta en presencia de la luz apaga la luz y previene la presentación subsecuente de la descarga. El

desempeño generado por tal procedimiento es algunas veces interpretado en términos de escape de un

estímulo, la luz, que ha adquirido propiedades aversivas por virtud de su relación con la descarga.

La razón por el descuido relativo del escape en la literatura experimental en reforzamiento negativo es

clara: Respuestas tales como los palanqueos de ratas o los picoteos de pichones que son fácilmente

elevados en frecuencia por reforzamiento positivo son con frecuencia difíciles de afectar por

reforzamiento negativo en procedimientos de escape. Esta diferencia en los resultados de operaciones

de reforzamiento positivo y reforzamiento negativo se debe a que las relaciones temporales entre la

respuesta reforzada y otras respuestas producidas por estímulos reforzantes son diferentes en los dos

casos.

El papel de las respuestas elicitadas




En el reforzamiento positivo el reforzador está ausente en el momento en que la respuesta reforzada

debe ocurrir. Cuando la respuesta ocurre, el reforzador es presentado y pueden entonces seguir otras

respuestas producidas por el reforzador. Por ejemplo, si la respuesta reforzada es el palanqueo de una

rata y el reforzador es alimento, el comer no puede ocurrir sino hasta que el palanqueo es completado y

el alimento ha sido presentado; las respuestas de palanqueo y comer necesariamente ocurren en

sucesión y no compiten directamente la una con la otra.

Sin embargo, en el reforzamiento negativo, el estímulo efectivo está presente en el momento en que la

respuesta reforzada debe ocurrir. Sólo después de que la respuesta ocurre el estímulo es retirado. Por

ejemplo, si la respuesta reforzada es un palanqueo y el reforzador negativo es una descarga, el

palanqueo debe ocurrir en el momento en que la descarga está produciendo otras respuestas, quizás

incompatibles. La descarga puede producir directamente salto, y puede también elevar la probabilidad de

otras respuestas diferentes al palanqueo que reducen la descarga al cambiar el contacto de la rata con la

rejilla electrificada. Estas respuestas permanecen altamente probables mientras la descarga está

presente y por lo tanto reducen la probabilidad de palanqueo. Cuando el palanqueo ocurre, la descarga

termina junto con las respuestas que genera. En este punto, las respuestas producidas por la descarga

ya no compiten con el palanqueo. Sin embargo, en ausencia de la descarga, el palanqueo no puede ya

ser reforzado negativamente porque no puede tener la consecuencia de terminar la descarga.

Esta explicación sugiere que un criterio importante para distinguir reforzamiento positivo y negativo es si

las respuestas producidas por el reforzador pueden ocurrir en un momento cuando pudiesen interferir con

la respuesta reforzada. Por lo tanto, una distinción basada en la operación de presentación o retiro de

estímulos puede ser de utilidad dudosa, porque cada una de esas operaciones es simplemente un

cambio en el ambiente del organismo que pudiese afectar de manera diferente la probabilidad de

diferentes respuestas en momentos diferentes.

Este punto se ilustra con un experimento de escape del frío (Weiss & Laties, 1961). Los palanqueos de

una rata en un cuarto frío fueron reforzados por la operación de una lámpara de calor, y los palanqueos

en el frío aumentaron así en frecuencia. En un aspecto, puede decirse de este procedimiento que es un

reforzamiento positivo, porque involucra la presentación de un estímulo, calor, cuando un palanqueo

ocurre. Por otra parte, a pesar de que el frío no es nada más que ausencia de calor, puede funcionar

como un estímulo a través de su acción en los receptores de temperatura en la piel de la rata. De esta

forma, puede también decirse del procedimiento que es un reforzamiento negativo, porque involucra la

terminación de los efectos de frío del estímulo cuando un palanqueo enciende la lámpara de calor.

La conclusión a que debe llegarse de este ejemplo es que la distinción entre reforzamiento positivo y




negativo es hasta cierto punto arbitrario. Sin embargo, a pesar de que pueden existir casos tales como

escape del frío en el cual es difícil especificar si la operación de reforzamiento involucra la presentación o

el retiro de un estímulo, la distinción puede tener significado comportamental. En este ejemplo, puede ser

importante saber qué sucede con respuestas diferentes al palanqueo durante la operación de

reforzamiento. En el frío, la rata puede temblar, arrinconarse, o engarzarse en otras respuestas que

reduzcan la probabilidad de presionar la palanca; sólo después de que el palanqueo es reforzado,

cuando la lámpara de calor ha sido encendida, es que la competencia entre estas otras respuestas y el

palanqueo termina. Por lo tanto, con respecto a las probabilidades de la respuesta antes y después del

reforzamiento, este caso parece ser mejor descrito como reforzamiento negativo más que positivo.

Reforzamiento y castigo

Hasta el momento hemos considerado los casos en los cuales las consecuencias de una respuesta

elevan la probabilidad de la respuesta. Pero también existen consecuencias de la respuesta que reducen

la probabilidad de la respuesta. De hecho, las consecuencias de la respuesta pueden ser representadas

de manera exhaustiva a lo largo de un continuo que abarca desde aquéllas que elevan significativamente

la respuesta, a aquéllas que tienen poco o ningún efecto en la probabilidad de la respuesta (discutidas

después en la sección sobre estímulos neutrales), hasta aquéllas que reducen significativamente la

probabilidad de la respuesta.

El vocabulario del castigo

La operación de arreglar la consecuencia de una respuesta que reduce la probabilidad de la respuesta es

llamada castigo. El estímulo que es arreglado como una consecuencia es llamado punitivo. Por ejemplo,

si es presentada una descarga eléctrica cada vez que una rata presiona una palanca, se dice que el

palanqueo es castigado y que la descarga es el castigador, porque el efecto de esta operación es una

reducción en la frecuencia de los palanqueos. Así, el vocabulario del castigo es paralelo al vocabulario

del reforzamiento.

Un estímulo punitivo refiere al evento estímulo, y el castigo es una operación. Pero así como el término

reforzamiento ha sido aplicado en algunas ocasiones tanto a procesos como a operaciones, el término

castigo también se le ha usado indistintamente para referir a procesos o a operaciones. Por lo tanto, en

cierta literatura, la declaración de que una respuesta fue castigada puede significar o que la respuesta

produjo un punitivo o que la respuesta disminuyó en frecuencia como resultado de producir un punitivo.

Así como en el reforzamiento, la explicación presente restringirá la aplicación del término castigo al

vocabulario de operaciones, y el proceso resultante será descrito directamente en términos de cambios

en la frecuencia de la respuesta o probabilidad.




Otro paralelo al vocabulario del reforzamiento es que las respuestas, no los organismos, se dice que son

castigados. Así, cuando el palanqueo de una rata produce una descarga, podemos decir que la rata fue

sacudida pero que el palanqueo de la rata fue castigado. Superficialmente, esta distinción puede parecer

tanto conceptualmente como gramaticalmente trivial, pero puede tener un efecto significativo en la

precisión con la que observamos y describimos el comportamiento.

Considere un caso en el cual un niño se porta mal. Un padre llama al niño, y después, cuando el niño

llega, el padre le da una zurra al niño. Es conveniente decir simplemente que el padre castigó al niño.

Pero esta forma de hablar hace muy fácil omitir hacer mención de las respuestas que pueden ser

afectadas por la zurra. La consecuencia del mal comportamiento del niño fue que el padre llamó al niño, y

que el padre administró la zurra cuando el niño obedeció la llamada. Así, a pesar de que la zurra puede

afectar el mal comportamiento futuro del niño, es más importante notar que el padre castigó la

aproximación del niño a la llamada. Este tipo de observación es más probable que sea hecha cuando es

necesario ser explícito acerca de la respuesta castigada (la aproximación del niño al padre fue castigada

por la zurra) que cuando una descripción menos precisa es considerada como aceptable (el niño fue

castigado por la zurra). El vocabulario de reforzamiento y castigo de respuestas no prejuzga los efectos

de estas operaciones sobre el comportamiento; no presupone que los efectos de estas operaciones

estarán restringidos solamente a las respuestas en las cuales las operaciones son ejecutadas. Sin

embargo, los efectos comportamentales de estas operaciones pueden ser descritas fácilmente, y es por

tanto ventajoso trabajar con un vocabulario de operaciones que exprese sin ambigüedad las

consecuencias del comportamiento.

La efectividad del castigo

Ha sido una controversia prolongada el hecho de si el castigo es de hecho efectivo. La delaración de que

el castigo debilitaba la respuesta fue parte de las primeras versiones de la Ley del Efecto de Thorndike,

pero fue abandonada en versiones posteriores. Solamente en años recientes se ha acumulado suficiente

evidencia como para reinstalar el castigo como una operación efectiva para modificar el comportamiento

(e.g., Azrin & Holz, 1966; Solomon, 1964). Las formas en las que el castigo puede afectar la respuesta se

considerarán en detalle en el Capítulo 7; por lo tanto, la explicación presente solamente resume

brevemente algunas características significativas del castigo y su relación con otras operaciones.

La primera dificultad en el análisis del castigo es que, para empezar, una reducción en la frecuencia de la

respuesta solamente puede ser estudiada si la respuesta posee una frecuencia considerable. Una

respuesta que nunca es emitida no puede ser castigada. De esta forma, muchos experimentos sobre

castigo proceden sobreimponiendo esta operación en una respuesta que es mantenida por




reforzamiento. Por tanto, en un experimento dado, los efectos del castigo pueden depender en parte de

cómo es reforzada la respuesta. Por ejemplo, los palanqueos de una rata pueden ser menos afectados

cuando son castigados con descarga eléctrica si la rata está severamente privada y sus palanqueos son

reforzados con bolas grandes de alimento que si la rata está sólo levemente privada y los palanqueos

son reforzados solamente con bolitas pequeñas de alimento.

Una segunda dificultad es que los estímulos efectivos como castigadores pueden afectar el

comportamiento aún cuando no son convertidos en una consecuencia de las respuestas. Por lo tanto,

debe mostrarse que el efecto del castigo depende de la relación entre respuestas y castigadores, y no

simplemente de la entrega de castigadores. Por ejemplo, un pichón puede picotear una tecla con menos

frecuencia cuando se presentan descargas ocasionales aún si las descargas ocurren

independientemente de los picoteos en la tecla. Así, debe ser demostrado que las descargas tienen un

mayor efecto cuando son producidas por picoteos en la tecla que cuando ocurren independientemente de

los picoteos en la tecla (cf. Azrin, 1956).

Una tercera dificultad, y la que posiblemente tuvo las implicaciones mayores para el desarrollo histórico

del análisis del castigo, es que los efectos de esta operación son temporales. Una vez que la frecuencia

de una respuesta ha sido reducida por castigo, es probable que la frecuencia regrese a niveles anteriores

cuando el castigo es descontinuado. Esta transitoriedad del efecto no es una propiedad sorprendente de

un proceso comportamental y tiene su equivalencia en la transitoriedad de los efectos del reforzamiento.

Como veremos después en nuestra discusión de extinción, las respuestas que se han convertido en más

frecuentes a través de reforzamiento se mantienen solamente si el reforzamiento continúa; cuando el

reforzamiento es descontinuado regresan a niveles anteriores.

Sin embargo, en la evolución del análisis del castigo, la transitoriedad de sus efectos fue enfatizada; por

esta razón, el castigo fue por mucho tiempo no reconocido como una operación con propiedades

comportamentales fundamentales. De hecho, los procedimientos de castigo efectivos eran en ocasiones

llamados por nombre diferente, evitación pasiva. Cuando una respuesta era eliminada por castigo, se

decía que el organismo estaba evitando pasivamente al castigador al retener la respuesta castigada. Con

este uso, los procedimientos efectivos de castigo podían ser referidos en términos del vocabulario de

evitación pasiva, mientras que los procedimientos restantes podían ser utilizados para defender la

afirmación de que el castigo era inefectivo.

Pero estas suposiciones han cedido a los hallazgos experimentales. El castigo es paralelo al

reforzamiento, salvo que los efectos de las dos operaciones difieren en signo: El reforzamiento aumenta

la frecuencia de la respuesta reforzada, mientras que el castigo disminuye la frecuencia de la respuesta




castigada. Los efectos de ambas operaciones disminuye con el tiempo después de que las operaciones

son descontinuadas.

Propiedades de los estímulos punitivos

En la mayoría de los experimentos sobre castigo, los estímulos que funcionan como punitivos son

seleccionados por su efectividad confiable con respecto a una variedad de respuestas, porque tales

estímulos revelan muy claramente los efectos del castigo. La descarga eléctrica es un ejemplo de tal

evento, y posee las ventajas adicionales de que puede ser medido adecuadamente y de que puede ser

presentada a niveles que no lastiman al organismo. Sin embargo, tales estímulos representan sólo

ejemplos extremos de estímulos punitivos, y aún estímulos que ordinariamente funcionan como

reforzadores pueden convertirse en punitivos bajo ciertas condiciones. La autoadministración de drogas,

por ejemplo, puede tener consecuencias reforzantes hasta cierto punto, pero las drogas pueden

convertirse en aversivas con la administración continuada (así como cuando demasiados martinis

enferman al bebedor, o cuando una dosis de LSD produce un “mal viaje”).

La implicación de esta observación es que, así como los reforzadores, los estímulos punitivos no pueden

ser definidos en términos absolutos, ni pueden ser identificados en términos de propiedades físicas

comunes. Por el contrario, las propiedades de dichos eventos deben ser evaluadas en términos de las

respuestas que son castigadas y su relación con las respuestas producidas por el estímulo punitivo.

Regresemos una vez más a la caja experimental en donde el correr de una rata en una rueda de

actividad y el tomar agua de un tubo pueden ser controlados. Anteriormente, mostramos cómo estas

respuestas pueden ser utilizadas para ilustrar el principio del reforzamiento de Premack , el cual afirma

que la probabilidad de una respuesta menos probable puede ser aumentada si esta respuesta produce

una oportunidad para participar en una respuesta más probable. Este tipo de análisis, en términos de

probabilidades de respuesta, también ha sido extendido al castigo (Premack, 1971).

La relatividad del castigo

Considere la siguiente modificación en la caja experimental para correr y tomar agua de Premack. La

rueda de actividad está comúnmente bloqueada, pero un motor está unido a ella de tal manera que,

cuando es operada, gira la rueda y así fuerza a la rata a correr. La operación del motor puede entonces

ser convertida en la consecuencia de alguna respuesta, tal como el presionar una palanca o el tomar

agua del tubo.

El primer paso en este experimento es controlar las probabilidades relativas de correr y tomar agua. Se

pueden arreglar dos condiciones: El correr puede ser convertido en más probable que el beber privando a




la rata de una oportunidad de correr pero dándole libre acceso al agua, y el beber puede ser convertido

en más probable privando a la rata de agua pero dándole una oportunidad de correr.

El siguiente paso es convertir la operación de la rueda una consecuencia del beber: Cada vez que la rata

bebe, la rueda empieza a girar y la rata es forzada a correr. Cuando correr es más probable que beber,

el resultado de esta operación es consistente con nuestra discusión anterior del principio del

reforzamiento. La probabilidad de beber aumenta, y es por tanto apropiado describir esta operación como

el reforzamiento de beber por la actividad de correr. Sin embargo, cuando beber es más probable que

correr, la operación tiene un efecto opuesto. La probabilidad de beber disminuye cuando correr es su

consecuencia, y es apropiado describir la operación como el castigo de beber por correr. Así, en este

ejemplo, una única respuesta, beber, es o reforzada o castigada por una única consecuencia, correr

reforzado, dependiendo de las probabilidades relativas de estas respuestas en la jerarquía

comportamental.

La reversibilidad potencial de las consecuencias como reforzadores o punitivos no es evidente en los

estímulos empleados en la mayor parte de los experimentos en reforzamiento y castigo. Los estímulos

reforzantes y punitivos son seleccionados de tal manera que las respuestas que producen estén

representadas en los extremos de la jerarquía comportamental. Es más probable que la rata privada de

alimento coma, si se le presenta la oportunidad, a que participe en otras respuestas; y en el experimento

típico sobre reforzamiento con alimento, comer es convertido en una consecuencia de las respuestas,

tales como palanqueo, que comúnmente son de probabilidad relativamente baja. Por el otro lado, existen

pocas circunstancias bajo las cuales una rata se colocará en posición de participar en respuestas

producidas por una descarga; y en el experimento típico sobre castigo con descarga, el comportamiento

elicitado por descarga es convertido en una consecuencia de respuestas, tales como palanqueo

mantenido por reforzamiento, que comúnmente son de probabilidad relativamente alta. Estos arreglos

experimentales típicos empañan la relatividad de reforzamiento y castigo y la forma en que esta

relatividad está basada en las posiciones de respuestas diferentes en la jerarquía comportamental. Es

por tanto importante reconocer que, a pesar de que las respuestas pueden ser manipuladas al cambiar

las consecuencias ambientales, los efectos de estas consecuencias dependen de sus propiedades

comportamentales. Una explicación adecuada de estas propiedades debe tratar con la relación entre las

respuestas que produce una consecuencia particular y las respuestas que a su vez son producidas por

esa consecuencia.

Estímulos aversivos

En diversos puntos en nuestra discusión, hemos hablado de estímulos aversivos, reforzadores negativos,

y punitivos. Cada uno fue introducido en un contexto diferente. Los estímulos aversivos fueron discutidos




en términos de los efectos de las operaciones de elicitación, los reforzadores negativos en términos de

consecuencias que incrementaban la probabilidad de las respuestas, y los estímulos punitivos en

términos de consecuencias que reducían la probabilidad de las respuestas. Sería conveniente asumir que

cada término identifica un aspecto diferente de una única categoría comportamental de eventos

ambientales. Puede decirse que la descarga eléctrica, por ejemplo, es un estímulo aversivo, un

reforzador negativo, o un estímulo punitivo, dependiendo del contexto experimental dentro del cual

ocurre. Para muchos estímulos llamados aversivos, esta suposición es probablemente correcta, porque

cada clasificación tiene sus orígenes en las relaciones entre las probabilidades de diferentes respuestas

en la jerarquía comportamental. Un estímulo que es efectivo como reforzador negativo puede por lo tanto

esperarse que sea efectivo como estímulo punitivo. Sin embargo, es importante hacer notar que el

supuesto solamente ofrece una categorización práctica. Dado el presente estado de nuestra comprensión

del comportamiento, la correspondencia entre reforzadores negativos y estímulos punitivos permanece

como un tema para comprobación empírica.

Castigo positivo y negativo

Debe hacerse una última distinción antes de cerrar nuestra discusión de la operación de castigo. Así

como con los reforzadores positivos y negativos, es posible distinguir entre estímulos punitivos positivos y

negativos. La presentación de ciertos eventos ambientales, tales como una descarga eléctrica o una

rueda giratoria que fuerza a la rata a correr, pueden funcionar como estímulo punitivo. Pero las

respuestas también pueden ser castigadas por la terminación de un estímulo. Por ejemplo, el retiro de

alimento como consecuencia del palanqueo puede reducir la probabilidad del palanqueo (y los padres

algunas ocasiones castigan el mal comportamiento al retirar privilegios). Por lo tanto, esta operación

puede ser referida como castigo negativo. Sin embargo, los efectos de esta operación no han sido

estudiados directamente, porque es difícil arreglar las condiciones necesarias. Por ejemplo, si el retiro de

alimento es convertido en consecuencia del palanqueo de una rata privada de alimento, es más probable

que la rata coma a que presione la palanca; de esta forma, surgirán muy pocas oportunidades de castigar

el palanqueo. Así como los estudios de reforzamiento negativo se han concentrado más en evitación que

en escape, los estudios de castigo negativo se han concentrado en castigo por tiempo fuera de

reforzamiento positivo (e.g., Ferster, 1958), en el cual una respuesta es castigada por retiro de un

estímulo en presencia del cual las respuestas pueden ser reforzadas más que simplemente por retiro del

propio reforzador positivo.

Estímulos neutrales

Hasta el momento hemos discutido las consecuencias de la respuesta, llamadas reforzadores, que

aumentan la probabilidad de las respuestas, y otras consecuencias de la respuesta, llamadas punitivas,




que disminuyen la probabilidad de las respuestas. Pero tanto los reforzadores como los punitivos deben

ser definidos relativamente, porque una consecuencia que puede funcionar como reforzador para una

respuesta puede funcionar como punitivo para otra respuesta. Hemos visto que los estímulos que

funcionan experimentalmente como reforzadores o punitivos son por lo común seleccionados por sus

efectos dramáticos. Sin embargo, tales estímulos representan solamente extremos a lo largo de un

continuo de efectos comportamentales. Entre estos extremos se encuentra un rango de estímulos que

comúnmente son llamados neutrales, porque su efectividad como reforzadores o punitivos no puede ser

demostrada tan fácil o dramáticamente. Sin embargo, tales estímulos también pueden ser consecuencias

de la respuesta, y como tales pueden afectar el comportamiento subsecuente.

Considere algunos ejemplos. Cuando alcanzamos un objeto en una mesa, una consecuencia de alcanzar

es que nuestra mano entra en contacto con el objeto. Cuando escuchamos mientras alguien habla, una

consecuencia de escuchar es que oímos lo que el hablante dice. Y cuando miramos una página de un

libro, una consecuencia de ver es que podemos leer el texto. Cada una de estas consecuencias puede a

su vez presentar la ocasión para otras respuestas: Una vez que hemos tocado un objeto, podemos

moverlo; una vez que hemos escuchado a un hablante, podemos responder; y una vez que hemos leído

una página de un libro, podemos continuar con la siguiente.

En cada uno de estos casos, podemos describir las consecuencias del comportamiento en el vocabulario

del reforzamiento. Podemos decir que alcanzar es reforzado por tocar, que escuchar es reforzado por oír,

o que mirar es reforzado por ver. Tal aplicación de este vocabulario tiene precedente (Skinner, 1957),

pero será suficiente para nuestros propósitos hablar simplemente en términos de consecuencias. Aquí

estamos interesados no tanto con cómo aumentamos o disminuimos la probabilidad de las respuestas,

sino en cómo la respuesta llega a ser coordinada con eventos ambientales.

Procesos sensoriales como comportamiento

El papel de los procesos sensoriales ha sido una fuente de una controversia sostenida en el estudio del

aprendizaje. Los teóricos tomaron partido en la cuestión de si el aprendizaje era sensorial o motor:

Aprendía un organismo relaciones entre estímulos, o aprendía respuestas? La cuestión no ha sido

todavía resuelta.

Parte de la dificultad es si los procesos sensoriales deben ser tratados como comportamiento. La

explicación presente asume que tal tratamiento es apropiado pues es consistente con el enfoque de que

las propiedades importantes del comportamiento pueden ser tratadas no sólo en términos de estímulos y

respuestas aislados, sino en términos de relaciones entre estímulos y respuestas. Así, a pesar de que ver

y oír no son tan fácil o sin ambigüedad medidos como respuestas discretas como palanqueos o picoteos,




son sin embargo parte del comportamiento de un organismo. Ver y oír dependen respectivamente de

estímulos visuales y auditivos, pero también dependen de lo que el organismo hace. Un organismo no

está pasivo en su ambiente: Ve lo que mira y oye lo que escucha. Tal comportamiento puede también

ocurrir en ausencia de estímulos relevantes, así como cuando hablamos de atender, buscar, imaginar, o

pensar.

Luces, sonidos, y otros eventos ambientales relativamente sencillos han sido con frecuencia descritos

como estímulos neutrales. La etiqueta neutral es práctica, y la empleamos aquí por esa razón. Pero,

como veremos, es un término inapropiado. Los eventos que pueden ser consecuencias del

comportamiento no pueden ser verdaderamente neutrales, porque como consecuencias no es posible

que no tengan ningún efecto en comportamiento subsecuente. Es también difícil concebir situaciones en

las cuales todo lo que un organismo pudiese hacer no tendría consecuencia.

La importancia de los estímulos que una vez fueron considerados neutrales fue demostrado en

experimentos interesados con un fenómeno llamado reforzamiento sensorial (ver Kish, 1966, para un

resumen). Por ejemplo, se sabía que los palanqueos de una rata aumentaban en frecuencia si encendían

brevemente una luz. Este efecto de la luz era tanto pequeña como transitoria, pero era sin embargo

apropiado concluir que la luz era temporalmente efectiva como un reforzador débil. Estos y otros

fenómenos relacionados fueron discutidos en términos de curiosidad o comportamiento exploratorio (e.g.,

Berlyne, 1960), y una variedad de demostraciones fueron añadidas a la literatura experimental. Por

ejemplo, se mostró que un mono en una cámara cerrada presionará un interruptor si las presiones le

ofrecen una oportunidad de ver hacia fuera de la cámara a otros monos (Butler, 1957).

Tales experimentos evalúan el efecto de consecuencias sensoriales de una respuesta elegida por el

experimentador por su facilidad de medición. Pero las inevitables consecuencias del estímulo del

comportamiento en cualquier ambiente pueden afectar la respuesta. Simplemente al moverse, el

organismo cambia la porción de ambiente con el cual entra en contacto; si el organismo se mueve, las

cosas que ve y toca cambian.

La importancia de estas consecuencias del comportamiento se ilustra en un experimento realizado por

Held y Hein (1963). Se criaron parejas de gatitos de tal manera que la estimulación visual a la que un

gatito (activo) se exponía mientras se movía alrededor de un recinto circular era duplicada por un

segundo gatito (pasivo). Sin embargo, la estimulación visual para el gatito activo, era una consecuencia

de su propio movimiento, mientras que para el gatito pasivo dependía de los movimientos del gatito

activo. Esto fue arreglado al añadir un sistema de arnés y polea al gatito activo y conectarlo, a través de

una palanca montada en un punto de apoyo en el centro de la cámara, a un pequeño compartimiento




dentro del cual estaba el gatito pasivo. De esta forma, el gatito pasivo, que era movido como en un

pequeño carrusel, veía los mismos tipos de cambios en estímulos visuales en las mismas secuencias

temporales que aquellos vistos por el gatito activo, pero estos cambios no eran consecuencias de su

propio comportamiento. A pesar de sus exposiciones equivalentes a estímulos visuales, el gatito que

estaba expuesto pasivamente a los estímulos visuales por los movimientos del gatito activo no podía

responder apropiadamente en pruebas subsecuentes de coordinación visual-motora, aunque lo logró

hacer después de que le fue permitido moverse libremente en un cuarto iluminado.

Por lo tanto, debemos concluir que las consecuencias de la respuesta juegan un papel crítico en el

control del comportamiento, podamos o no categorizar de manera práctica estas consecuencias como

estímulos reforzantes o neutrales o punitivos. Y si, cuando hablamos de situaciones en las que un

organismo aprende, no podemos decir que el organismo ha aprendido o estímulos o respuestas,

podemos al menos generalmente decir que el organismo ha aprendido las consecuencias de su

comportamiento.

Aprendizaje latente

Una amplia base para controversias acerca de la naturaleza del aprendizaje provino de un fenómeno

llamado aprendizaje latente (ver Thistlethwaite, 1951, para un resumen). En un experimento sobre

aprendizaje latente, ratas privadas de alimento en cada uno de dos grupos recorrieron un laberinto. Las

ratas en un grupo encontraron alimento en la caja meta del laberinto, y en ensayos sucesivos su tiempo

de recorrido del laberinto y sus entradas a los pasillos ciegos disminuyó gradualmente. Las ratas en el

otro grupo no encontraron alimento en la caja meta, y en el mismo número de ensayos que el primer

grupo sus desempeños no mostraron evidencia de aprendizaje. Entonces las ratas en este grupo fueron

colocadas en la caja meta y se les presentó alimento ahí por primera vez, y los desempeños de los dos

grupos fueron probados de nuevo. Esta ocasión no hubo diferencia considerable entre los grupos. Las

ratas que previamente había recorrido el laberinto sin alimento en la caja meta empezaron a correr tan

rápido y con tan pocas entradas a los pasillos ciegos como las ratas que habían encontrado alimento en

la caja meta en todos los ensayos previos.

Las ratas habían aprendido el laberinto igual de bien con o sin alimento en la caja meta, decía el

argumento, y por lo tanto el aprendizaje no podía ser atribuido al efecto del alimento como reforzador.

Pero, se oponía, el alimento en la caja meta no es el único reforzador posible para el correr de la rata por

el laberinto. Se realizaron entonces experimentos para evaluar si un reforzador efectivo podría ser el

retiro de la rata del laberinto, o su escape del confinamiento de los pasillos ciegos, o su regreso a su caja

hogar, donde es alimentado. Mientras un experimento mostró que un reforzador particular podría ser

efectivo, otro repitió la demostración del aprendizaje latente de modo tal que este reforzador no podía




explicar el fenómeno.

Pero el argumento no podía ser resuelto ni aún en principio, porque la negociación de una rata del

laberinto inevitablemente involucra consecuencias de la respuesta. En un punto particular en el laberinto,

una vuelta es seguida por un pasillo ciego y la otra por una oportunidad de avanzar en el laberinto; en

otro punto, una vuelta es seguida por la entrada a la caja meta, contenga ésta o no alimento. El ver,

olisquear, tocar, y moverse de la rata en el laberinto es comportamiento consecuencial, aún si este

comportamiento no es tan de fácil acceso al experimentador como vueltas correctas y entradas a pasillo

ciegos. Llamar a estas consecuencias reforzadores es quizás nada más que un asunto de preferencia.

Pero sería difícil afirmar que estas consecuencias no son esenciales para el proceso llamado

aprendizaje.

Extinción y superstición

Algunas respuestas tienen consecuencias que permanecen bastante constantes a lo largo de la vida de

un organismo. Alcanzar un objeto en una mesa, por ejemplo, es generalmente seguido por tocar el

objeto. Pero para muchas respuestas, las consecuencias cambian. El comportamiento que es reforzado

en la niñez puede ya no ser reforzado cuando el niño se ha convertido en adulto. Y cuando las

consecuencias de la respuesta cambian, el comportamiento a su vez puede cambiar. Cuando una

respuesta es reforzada, aumenta en frecuencia; pero este efecto no es permanente, porque cuando el

reforzamiento es suspendido, la frecuencia de la respuesta regresa a niveles anteriores.

La suspensión del reforzamiento es llamada extinción, y una respuesta en la cual esta operación se

ejecuta se dice que es extinguida. (La extinción es ocasionalmente confundida con el olvido, pero una

respuesta extinguida no es necesariamente olvidada; simplemente ya no tiene las consecuencias

reforzantes que antes tenía). Como resultado de la operación de extinción, la probabilidad de la

respuesta regresa al nivel previo al reforzamiento. En este respecto, la extinción demuestra simplemente

que la operación de reforzamiento es temporal en su efecto. La disminución en la respuesta durante la

extinción es por tanto solamente una parte del proceso generado por el reforzamiento, en tanto que la

disminución muestra cómo los efectos del reforzamiento persisten en el tiempo (cf. Morse, 1966).

La respuesta durante la extinción fue considerada en un tiempo como una medida fundamental de los

efectos del reforzamiento. Referida como resistencia a la extinción, tales mediciones como el número de

respuestas emitidas durante un período de extinción, o el tiempo transcurrido antes de que la respuesta

disminuyera a un nivel específico, suplementaron otras medidas de la respuesta tomadas durante el

reforzamiento. Así, si un procedimiento de reforzamiento generaba más respuesta después de haber sido




suspendido que otro procedimiento de reforzamiento, se decía que el primer procedimiento de

reforzamiento había producido mayor resistencia a la extinción.

Extinción e inhibición

Pero las cuestiones se complicaron porque los efectos de la extinción no podían ser descritos solamente

como una declinación en la respuesta. Esta declinación era típicamente acompañada por otros efectos.

Uno de los más prominentes era el fenómeno de la recuperación espontánea. Después de que la

respuesta había disminuido a niveles bajos al final de una sesión de extinción, la respuesta se

recuperaba a niveles anteriores altos al inicio de la siguiente sesión. Análisis experimentales de éste y

otros fenómenos de extinción llevaron a una variedad de explicaciones acerca de la extinción, formuladas

en términos de procesos inferidos tales como frustración, interferencia, e inhibición (cf. Kimble, 1961,

Capítulo 10). Estas explicaciones sugerían que la respuesta en la extinción no solamente declinaba

pasivamente, sino que era suprimida activamente por propiedades aversivas o inhibitorias de respuestas

no reforzadas. Fenómenos tales como recuperación espontánea fueron tomados como indicadores de

que la respuesta reducida por la extinción estaba de alguna manera “ahí todo el tiempo pero inhibida” (cf.

Reid, 1958).

Las explicaciones asumieron que la supresión activa de la respuesta extinguida era criticada sobre la

base de que explicaban los fenómenos de la extinción en términos de procesos o eventos que no eran ni

observados ni observables. Cuando se decía que una respuesta extinguida era inhibida, por ejemplo, era

posible medir la respuesta inhibida pero no era posible medir directamente los procesos o eventos que se

decía producían la inhibición. Por lo tanto, fueron formuladas otras explicaciones que no asumieron

procesos supresores o inhibitorios.

Una de tales explicaciones sugirió que el inicio de la sesión tenía propiedades especiales de estímulo,

posiblemente derivadas de la manipulación del animal y otras condiciones pre-experimentales, y que por

tanto, los efectos de la extinción bajo condiciones diferentes durante la sesión podían no transferirse al

inicio de la siguiente sesión de extinción. En una evaluación experimental de esta explicación (Kendall,

1965), las condiciones del estímulo fueron modificadas durante la extinción del picoteo de un pichón. Los

picoteos del pichón en una tecla iluminada habían previamente sido reforzados con grano. Se condujo

entonces la extinción durante períodos de 1 minuto de iluminación de la tecla alternados con períodos de

1 minuto de oscuridad en la cámara, durante los cuales el pichón no picoteaba. Después de que los

picoteos en la tecla iluminada se hicieron poco frecuentes, la tecla se mantenía iluminada continuamente;

en pocos minutos el pichón de nuevo empezó a picotear. De esta forma, la extinción durante iluminación

periódica de la tecla redujo la respuesta, pero este efecto no se transfirió a la iluminación continua

durante la sesión. En este experimento, podía decirse que la recuperación espontánea ocurrió dentro de




la sesión más que en su inicio.

Dependencias estímulo-respuesta y entregas de estímulo

Sin embargo, explicaciones acerca de la naturaleza de la extinción y de los fenómenos que la

acompañan permanecen controversiales. La razón puede ser que la suspensión del reforzamiento tiene

dos efectos: Termina una dependencia entre respuestas y reforzadores, y los reforzadores ya no son

entregados. La diferencia entre estos dos efectos de la operación de extinción pueden ser ilustrados al

comparar la extinción con el procedimiento de saciedad, en la cual la respuesta continúa produciendo un

estímulo pero el estímulo se convierte en inefectivo como reforzador, y un procedimiento de elicitación,

en el cual la entrega del reforzador continúa pero es independiente de la respuesta.

Asuma que los palanqueos de una rata privada de alimento son reforzados con bolitas de alimento, y que

la rata presiona la palanca y come una bolita de alimento una vez cada diez o quince segundos. Si los

palanqueos son entonces extinguidos, ya no producen bolitas y la rata ya no come. Como resultado, el

palanqueo se vuelve menos frecuente.

Si, en su lugar, la dependencia entre los palanqueos y las bolitas de alimento se mantiene pero la rata ya

no está privada de alimento, la rata ya no come aunque los palanqueos continúen produciendo bolitas.

Como resultado de esta operación de saciedad, el palanqueo se vuelve menos frecuente. Sin embargo,

es así, no porque los palanqueos no tengan consecuencias, sino porque las consecuencias ya no son

efectivas como reforzadores.

Considere la tercera posibilidad. La rata permanece privada de alimento y la dependencia entre

palanqueos y bolitas de alimento es suspendida, pero ahora las bolitas se entregan automáticamente

cada 10 o 15 segundos. Como resultado de esta operación de elicitación, el palanqueo de nuevo se hace

menos frecuente. Pero en este caso los efectos de la terminación de la dependencia entre respuestas y

reforzadores, contrarios a aquellos de la operación de extinción, no son acompañados por el efecto de la

suspensión de alimento.

La distinción entre terminar una dependencia y terminar la entrega de reforzadores es importante porque

los efectos de estas dos operaciones no son necesariamente los mismos. La terminación de una

dependencia es seguida por un cambio en la probabilidad de la respuesta para la cual la dependencia fue

arreglada. Sin embargo, la terminación de la entrega de reforzadores, tiene efectos en un rango más

amplio de comportamiento, dependiese o no la entrega de reforzadores de la respuesta. Por ejemplo, si

una rata privada de alimento ha estado comiendo bolitas y las bolitas ya no son de pronto disponibles, la

rata se volverá más activa, probablemente orinará o defecará, y comúnmente morderá la palanca o




atacará objetos de la cámara. Si las bolitas fueron producidas por palanqueos, la rata puede morder la

palanca (e.g., Mowrer & Jones, 1943); si otro organismo se encuentra en la cámara, el otro organismo

puede ser atacado (Azrin, Hutchinson, & McLaughlin, 1965). Tales efectos como éstos no son resultado

directo de la terminación de una dependencia; son efectos colaterales, sobreimpuestos en la declinación

de la respuesta cuando la dependencia es terminada, porque esta terminación está necesariamente

acompañada por la terminación de la entrega de reforzadores.

Existen problemas análogos con respecto a reforzamiento negativo y con respecto a castigo. La extinción

con respecto a reforzamiento negativo en escape por descarga, por ejemplo, pudiera asumirse que

involucra terminación de la dependencia entre respuestas y la descarga durante presentación continua de

descarga (cf. Herrnstein & Hineline, 1966). Sin embargo, con más frecuencia, la simple terminación de la

descarga ha sido referida como una operación de extinción en el caso del reforzamiento negativo. En

este caso, no puede haber dependencia entre respuestas y terminación de descarga, pero tampoco

puede haber un evento reforzador independiente de la respuesta porque la ausencia de descarga puede

sólo reforzar efectivamente si la descarga está en ocasiones presente.

La terminación de castigo es referida en términos de recuperación más que en términos de extinción. Sin

embargo, si las respuestas son castigadas por descarga, la dependencia entre respuestas y descargas

puede ser terminada con la terminación de la entrega de descargas o terminando la dependencia

mientras se entregan descargas independientemente de las respuestas. El primer caso, mas no el

segundo, es análogo al de extinción con reforzamiento positivo, porque los efectos generales de terminar

la descarga pueden sobreimponerse en los efectos específicos de la terminación de la dependencia. (Ni

en reforzamiento negativo ni en castigo positivo está claro cómo es que la dependencia puede ser

mantenida mientras las presentaciones del estímulo son descontinuadas. Una operación análoga a la

saciedad en reforzamiento positivo puede ser la reducción de la intensidad de la descarga a un nivel que

la hace inefectiva como reforzador negativo o como un castigador positivo, mientras mantiene la

dependencia entre respuestas y descarga).

Se ofrece un ejemplo con experimentos interesados con el mantenimiento de la respuesta por descarga

eléctrica (e.g., Kelleher & Morse, 1968). Si se arreglan las condiciones de tal manera que el palanqueo de

un mono produce una descarga al final de intervalos sucesivos de 10 minutos cada uno, el mono puede

llegar a producirse la descarga a sí mismo por palanqueo. Después de cada descarga el mono se

detiene, y entonces responde más y más rápidamente hasta que nuevamente se choca a sí mismo al

final del intervalo siguiente. Si la descarga es descontinuada, el palanqueo del mono cesa. En este

desempeño, la descarga parece funcionar como reforzador: El mono responde cuando sus respuestas

producen descarga pero no cuando sus respuestas no tienen consecuencia. Sin embargo, también es




necesario evaluar lo que el mono hace cuando las descargas son entregadas independientemente de su

respuesta. Las descargas independientes de la respuesta elicitan palanqueo en el mono (e.g.,

Hutchinson, Renfrew, & Young, 1971). La comparación apropiada no es entre descargas producidas por

respuesta y no descargas en absoluto, sino entre descargas producidas por respuesta y descargas

independientes de la respuesta. Si el palanqueo ocurre con menor frecuencia cuando las descargas son

producidas por la respuesta que cuando son independientes de la respuesta, es apropiado concluir que la

descarga es un castigador efectivo. En estas circunstancias, el castigo reduce la respuesta, pero los

efectos elicitadores del estímulo punitivo son tan potentes que el castigo no es suficiente para eliminar la

respuesta; así, tenemos el hallazgo paradójico de que el mono continúa chocándose a sí mismo aún

cuando las descargas ya no serían entregadas si dejase de responder completamente.

Este ejemplo puede tener implicaciones importantes. Podríamos asumir, por ejemplo, que un padre que

trata de lograr que un niño deje de llorar castigando el llanto tendrá dificultad simplemente porque el

estímulo positivo elicita la misma respuesta que el padre está tratando de suprimir. Por lo tanto, en el

castigo, así como en el reforzamiento, debemos observar que las dependencias y las entregas del

estímulo tienen efectos separados.

En todos estos casos, es de interés saber cómo cambia la frecuencia de la respuesta cuando termina una

dependencia entre respuestas y consecuencias. Pero este proceso ha sido comúnmente examinado

durante extinción, cuando los efectos generales de la terminación de las presentaciones del estímulo son

sobreimpuestas en los efectos específicos de la terminación de la dependencia. Es razonable

preguntarse por qué ha sido éste el caso. Para responder a esta cuestión, debemos considerar más

ampliamente los efectos de las presentaciones del estímulo independientes de la respuesta.

Operaciones elicitadoras y superstición

La presentación de un estímulo produce respuesta, pero aún si el estímulo es presentado sin referencia

al comportamiento del organismo, también sigue a las respuestas. Por ejemplo, la entrega de una bolita

de alimento independiente de la respuesta podría ocurrir justo cuando la rata se muerde la cola. Y si

sucede que la bolita es entregada justo después de que la rata presiona una palanca, qué es lo que

puede distinguir esta sucesión, la presión seguida por la bolita, de aquella en la cual la presión

actualmente produce la bolita? La sucesión de respuesta y reforzador puede afectar respuestas

subsecuentes tanto si esta sucesión ocurre accidentalmente como si es arreglada por la operación de

reforzamiento.

La respuesta que es aumentada en probabilidad por la sucesión accidental de respuestas y reforzadores

ha sido llamada respuestas supersticiosas (Skinner, 1948). En la demostración de una superstición




experimental, Skinner le presentó grano a un pichón privado de alimento en intervalos de 15 segundos.

Cualquier respuesta que ocurriese justo antes de la entrega del grano era probable de ser repetida, y por

lo tanto era probable que fuese seguida por todavía otra entrega de grano. Así, a través de esta sucesión

accidental de respuestas y reforzadores, tendía a desarrollarse un patrón estereotipado de respuestas.

Los pichones giraban, saltaban, o picoteaban; las respuestas fueron diferentes para diferentes pichones,

y aún para un solo pichón el patrón cambiaba con frecuencia gradualmente con entregas sucesivas de

grano. A pesar de que era imposible anticipar cuáles respuestas serían afectadas, era posible, después

de que el procedimiento había operado por un tiempo, identificar las respuestas que las habían vuelto

altamente probables.

El desarrollo de la respuesta supersticiosa depende en parte al menos del espaciamiento temporal de las

entregas del reforzador, porque este espaciamiento determina si una respuesta que ha sido hecha más

probable por un apareamiento accidental con un reforzador será más probable que ocurra de nuevo justo

antes de la entrega del siguiente reforzador. El efecto puede también depender de las propiedades

elicitantes del reforzador, porque el reforzador puede directamente cambiar las probabilidades de las

respuestas que ocurren entre entregas sucesivas. Por ejemplo, si el grano hace más probable que los

pichones picoteen aún en ausencia de grano, entonces será más probable que el picoteo se desarrolle

supersticiosamente que otras respuestas no relacionadas con comer grano (cf. Staddon & Simmelhag,

1971).

Las supersticiones generadas por la sucesión accidental de respuestas y reforzadores son un problema

siempre presente en el análisis del comportamiento, porque pueden surgir si los reforzadores son

entregados independientemente de las respuestas o como consecuencia de las respuestas. Por ejemplo,

si una respuesta es seguida por una respuesta diferente que es entonces reforzada, el reforzador puede

afectar ambas respuestas aún cuando su entrega no dependía de esa sucesión particular de respuestas.

Para ilustrar este punto, regresemos al caso que nos llevó a la discusión de superstición: La dependencia

entre respuesta y reforzador es terminada mientras la entrega de reforzadores es continuada. Los

palanqueos de una rata son primero reforzados con bolitas de alimento; entonces, los palanqueos ya no

producen bolitas pero las bolitas continúan siendo entregadas, ahora independientemente del

comportamiento. Bajo estas circunstancias, es probable que la rata continúe presionando la palanca y,

debido a que las bolitas todavía son entregadas, es probable que las presiones sean frecuentemente

seguidas por bolitas. Así, el palanqueo puede declinar solo lentamente, posiblemente para ser

reemplazado eventualmente por otras respuestas, no porque una dependencia tiene efectos perdurables

aún después de que la dependencia es descontinuada, sino porque el efecto supersticioso de sucesiones

accidentales de respuestas y reforzadores contrarresta hasta cierto punto los efectos de la terminación de




la dependencia.

Hemos visto que, a pesar de que la extinción es sencilla como operación experimental, sus efectos son

complejos. Cuando el comportamiento tiene consecuencias, la terminación de estas consecuencias

afecta tanto al espaciamiento de los estímulos en el tiempo como la relación de estos estímulos con el

comportamiento. Un análisis adecuado de la transición del reforzamiento a la extinción debe tomar en

cuenta estos dos efectos.

REFORZAMIENTO DIFERENCIAL Y CONTROL DEL ESTÍMULO

Hemos hablado de formas en las que el comportamiento puede ser modificado por presentaciones del

estímulo en la operación de elicitación y por sus consecuencias en las operaciones de reforzamiento y

castigo. También hemos discutido cómo estas operaciones afectan las posiciones relativas de las

respuestas en la jerarquía comportamental. La jerarquía comportamental es una propiedad de la

respuesta con la cual el organismo llega a nosotros. Puede decirse que el comportamiento del organismo

consiste en un repertorio de respuestas, cada una de las cuales tiene una probabilidad diferente. Sin

embargo, no podemos restringir nuestra atención sólo a estas respuestas, porque una característica

importante de las modificaciones del comportamiento descritas como aprendizaje es que el organismo

llega a responder en formas novedosas. Como resultado del proceso de aprendizaje, el organismo emite

respuestas que no podía emitir antes de que el aprendizaje iniciara. Por lo tanto debemos considerar

cómo estas nuevas respuestas pueden ser añadidas a la jerarquía comportamental o, en otras palabras,

cómo el repertorio de respuestas del organismo puede ser ampliado.

Con frecuencia hemos empleado el palanqueo de una rata o el picoteo de una tecla de un pichón como

ejemplos de respuestas. Pero si simplemente colocamos a una rata en una cámara con una palanca o a

un pichón en una cámara con una tecla, estas respuestas no necesariamente ocurrirán. Y la operación de

reforzamiento no puede tener ningún efecto si la respuesta a ser reforzada no es emitida nunca. Por lo

tanto, más que esperar la respuesta, el experimentador puede emplear un procedimiento llamado

moldeamiento: Produce palanqueos o picoteos de tecla al reforzar comportamiento que se aproxima más

y más a estas respuestas.

Moldeamiento: Reforzamiento diferencial por aproximaciones sucesivas

Considere el palanqueo. Una vez que la rata ha empezado a comer bolitas de alimento a medida que son

entregadas, el experimentador entrega una bolita sólo cuando la rata gira hacia la palanca. Después de

reforzar dos o tres movimientos hacia la palanca con bolitas, el experimentador puede reforzar no




solamente cualquier movimiento hacia la palanca, sino solo aquellos movimientos que incluyen levantar

las patas delanteras. Pero esta ocasión, la rata pasa la mayor parte de su tiempo cerca de la palanca, y

el experimentador pronto tiene la oportunidad de reforzar el contacto con la palanca. Ya no es necesario

reforzar giros hacia la palanca, porque los contactos con la palanca se aproximan más al palanqueo y

serán repetidos una vez que el contacto sea reforzado. El experimentador por lo tanto puede después

empezar a reforzar toques en la superficie superior de la palanca, y pronto ocurre una presión de la

palanca. En este punto, el experimentador puede retirarse, porque el instrumento puede automatizarse

de tal forma que cada palanqueo subsiguiente produzca una bolita de alimento.

El procedimiento de moldeamiento está basado sobre reforzamiento diferencial: En cada etapa, algunas

respuestas son reforzadas pero otras no. Además, los criterios para reforzamiento diferencial cambian,

en aproximaciones sucesivas a palanqueo, así como la respuesta cambia. Dos propiedades del

comportamiento contribuyen a la efectividad de este reforzamiento diferencial de aproximaciones

sucesivas a la respuesta. La primera es que el comportamiento es variable. No existen dos respuestas

idénticas, y el reforzamiento de una respuesta produce un espectro de respuestas que, a pesar de ser

similares a la respuesta reforzada, difieren de ella hasta cierto punto en topografía o forma, y en otras

propiedades tales como fuerza, magnitud, y dirección. De estas respuestas, algunas se aproximarán a la

respuesta a ser moldeada más que otras, y por lo tanto pueden ser seleccionadas para reforzamiento. El

reforzamiento de estas respuestas será seguido a su vez por respuestas adicionales, de las cuales

algunas de ellas se aproximarán más a la respuesta a ser moldeada. Así, el espectro de respuestas

puede gradualmente ser alterado por reforzamiento hasta que ocurra la respuesta a ser moldeada.

Este aspecto del procedimiento de moldeamiento, el cual depende del efecto específico de reforzadores y

respuestas precedentes, puede en ocasiones ser suplementado por un segundo efecto más amplio de

algunos reforzadores en el comportamiento: La entrega de algunos reforzadores, tales como alimento,

tiende a hacer más activo a un organismo (e.g., Blough, 1958). Así, tanto la dependencia entre

respuestas y reforzadores, en su efecto específico en respuestas reforzadas, como la entrega de

reforzadores, en su efecto general en una variedad de respuestas, contribuyen al moldeamiento de

nuevas respuestas. Una respuesta mayor en fuerza o magnitud y con mayor parecido a la respuesta a

ser moldeada que la respuesta reforzada puede ocurrir no sólo porque el reforzamiento hace más

probables las respuestas similares a la respuesta reforzada, sino también porque la entrega del

reforzador hace más activo al organismo. Una vez más, tanto los efectos específicos de la dependencia

entre respuestas y reforzadores como los efectos generales de la entrega de reforzadores deben ser

tomados en consideración.

Operantes: Diferenciación e Inducción




Una rata puede presionar una palanca con su pata izquierda, su pata derecha, o ambas patas.

Ocasionalmente, puede aún presionar la palanca recargándose en su barbilla, mordiéndola, o

sentándose en ella. Cada una de estas respuestas es diferente, y aún dos presiones sucesivas con la

misma pata no serán idénticas. Sin embargo, todas estas respuestas son llamadas palanqueos. La rata

puede también hacer los mismos movimientos en el lado opuesto de la cámara, de tal manera que la

palanca no es presionada. Pero tales movimientos no serían llamados palanqueos.

Es por lo tanto insuficiente hablar del comportamiento sólo en términos de respuestas particulares. Las

respuestas particulares son ejemplos de comportamiento, y debido a que ninguna respuesta es idéntica

en todos sus aspectos, cada respuesta puede ocurrir solamente una vez. El reforzamiento de una

respuesta produce respuestas subsiguientes que se parecen más o menos a la respuesta reforzada, pero

estas respuestas no pueden ser exactamente iguales a la respuesta reforzada. Así, para hablar de

comportamiento efectivamente debemos hablar no de respuestas únicas sino de clases de respuestas

definidas por propiedades comunes.

Clases de respuestas

En los experimentos en donde se trabaja con respuestas a la palanca, la palanca está unida a un

interruptor que opera cada vez que la palanca es lo suficientemente presionada. Así, la propiedad común

de todos los palanqueos es este efecto ambiental de las presiones: Cada respuesta que opera el

interruptor califica como palanqueo. La definición de clases de respuestas en términos de efectos

ambientales comunes ofrece la base para la medición de respuestas en la clase y para las operaciones

experimentales que son impuestas en estas respuestas. Por ejemplo, el experimentador puede medir las

respuestas a la palanca al registrar desde el interruptor y arreglar que todas las respuestas dentro de la

clase definida (respuestas a la palanca) sean reforzadas con bolitas de alimento.

Pero la clase de respuestas medida por el experimentador no tendrá ninguna significación

comportamental a menos que los efectos de las operaciones impuestas sobre la clase sean también

tomadas en consideración. Con respecto a cualquier clase de respuesta es necesario preguntar una

cuestión comportamental fundamental: Puede la probabilidad de las respuestas en esta clase ser

modificada por sus consecuencias? Si es así, la clase es llamada una clase operante; es una clase de

respuestas que es afectada por la forma en la cual opera en el ambiente. Los palanqueos y picoteos son

ejemplos prácticos de tales clases; sin embargo, como veremos, el comportamiento que puede ser

referido en términos de clases operantes es a la vez variado y complejo.

Anteriormente en el estudio del aprendizaje, cuando el comportamiento operante era llamado




comportamiento instrumental o voluntario, se asumía que las clases de respuestas que podían ser

modificadas por sus consecuencias estaban limitadas principalmente a la musculatura esquelética. Otras

clases de respuestas, las respuestas autónomas tales como aquellas de las glándulas y músculos lisos,

no se había mostrado que fuesen modificables por sus consecuencias. Tales respuestas eran elicitadas

por estímulos, y los procedimientos del condicionamiento de Pavlov (ver Capítulo 3) habían mostrado

cómo estímulos nuevos podían llegar a elicitar estas respuestas. No existía evidencia en ese momento

que estas respuestas pudiesen ser modificadas por reforzamiento o castigo.

Sin embargo, este punto de vista ha cambiado, con la demostración de que las respuestas autónomas

pueden ser afectadas por sus consecuencias. La respuesta salival ofrece un ejemplo. Se sabía que la

salivación ocurre espontáneamente también cuando es elicitada por un estímulo tal como alimento en la

boca (e.g., Zener & McCurdy, 1939). Así, era posible arreglar consecuencias para salivación espontánea

o emitida, la cual era medida en gotas de fluido extraído del ducto salival de un perro a un sistema de

registro externo. Pero la consecuencia no podía ser la entrega de alimento, porque un efecto del alimento

como reforzador no sería distinguible de su efecto como un elicitador de salivación. Por lo tanto, Miller y

Carmona (1967) estudiaron la salivación en perros privados de agua con un reforzador (agua) que no

elicita salivación. Encontraron que la salivación decrecía cuando evitaba la entrega de agua (castigo

negativo). En otras palabras, mostraron que esta clase de respuestas, medida en gotas de saliva, podía

ser modificada por sus consecuencias y por tanto podía ser apropiadamente referida como una clase

operante.

Una operante, entonces, es una clase de respuestas que puede ser modificada por sus consecuencias.

Así como los estímulos no pueden ser clasificados independientemente de sus efectos

comportamentales, la definición de clases de respuestas depende de las propiedades comportamentales

de las respuestas y no de sus propiedades físicas o fisiológicas independientes. La operación

experimental en la cual el estudio de estas propiedades comportamentales está basada es llamada

reforzamiento diferencial, o el reforzamiento de solamente aquellas respuestas que caen dentro de una

clase específica. El efecto de esta operación es hacer que las respuestas subsiguientes se conformen a

los límites de la clase específica. Así, la característica esencial de una operante es la correspondencia

entre la clase de respuestas definida por sus consecuencias y el espectro de respuestas generado por

estas consecuencias.

Un ejemplo experimental: Diferenciación de la localización de la respuesta

La naturaleza de esta correspondencia puede ilustrarse con un ejemplo. (Los datos a ser presentados

son hipotéticos, pero Antonitis, 1951, y Gollub, 1966, han reportado experimentos relacionados.) Asuma

que una rata privada de alimento es colocada en una cámara experimental en la cual se localiza en una




pared una rendija horizontal de 30 centímetros de longitud. Detrás de la rendija se encuentra una serie de

fotoceldas que permiten que las respuestas sean registradas por separado en segmentos sucesivos de

2.5 centímetros (más o menos una pulgada) siempre que la rata introduce su nariz en la rendija. (Estos

segmentos serán llamados espacios del 1 al 12, leyendo de izquierda a derecha a lo largo de la rendija.)

En la pared opuesta a la rendija se encuentra una taza en la cual pueden ser entregadas bolitas de

alimento como reforzadores. La entrega de bolitas se acompaña por un chasquido fuerte, y siempre que

una bolita es entregada la rata rápidamente viene a la taza y come. Mientras se mueve en la cámara, la

rata puede ocasionalmente oler la rendija y colocar su nariz en ella. Pero en ausencia de reforzamiento

estas respuestas son bastante poco frecuentes, y no necesariamente tienen una relación sistemática con

los diversos espacios a lo largo de la rendija (ver Figura 2.3 A).

Suponga ahora que las respuestas son reforzadas, pero sólo en los espacios 7, 8, y 9. El efecto

inmediato del reforzamiento (ilustrado en la Figura 2.3 B) puede ser un incremento general en la

respuesta en todos los espacios. Este fenómeno es en ocasiones llamado inducción: El efecto del

reforzamiento no se restringe a la respuesta reforzada, sino que se extiende a otras respuestas similares.

En este caso, el efecto de reforzar una respuesta en los espacios 7, 8, o 9 no se limitó a respuestas en

estos espacios, sino que se extendió a respuestas en otros espacios.

Sin embargo, a medida que el reforzamiento diferencial continúa, de tal forma que las respuestas en los

espacios 7, 8, y 9 son reforzadas mientras que las respuestas en otros espacios no lo son, la respuesta

en los espacios reforzados aumenta mientras que la respuesta en otros espacios disminuye (ver Figuras

2.3 C a 2.3 F). Eventualmente, todas salvo una pequeña proporción de respuestas ocurre en los espacios

7, 8, y 9 (E), y se llega a un punto en el cual la prolongación del procedimiento de reforzamiento

diferencial no produce más cambios importantes en la distribución de respuestas a través de los espacios

(F).

En este ejemplo, la distribución de respuestas viene a conformarse muy de cerca de los límites de la

clase de respuesta que ha sido reforzada. Este proceso es llamado diferenciación, y tal respuesta se dice

que es diferenciada. Ha sido establecida una clase operante que es definida en términos de la

localización de las respuestas.

Sin embargo, ¿Qué puede decirse de las respuestas en los espacios 6 y 10? Con seguridad, están fuera

de los límites de la clase de respuestas que es reforzada, y de acuerdo a la interpretación más estricta de

las propiedades definitorias de las operantes no cuentan como respuestas en la clase operante. Tales

respuestas han sido referidas en ocasiones en términos de inducción; estas respuestas están tan

cercanamente relacionadas con las respuestas reforzadas a lo largo del continuo de los espacios que los




efectos del reforzamiento se extienden a ellas. En este enfoque, las respuestas dentro de los límites de la

clase reforzada son atribuidos a diferenciación, y las respuestas fuera de los límites a inducción. Pero tal

distinción parece inapropiada, porque la respuesta tanto dentro como fuera de estos límites es generada

por las mismas operaciones y es representada por una distribución continua.

Figura 2.3. Datos hipotéticos que ilustran los efectos del reforzamiento diferencial en una distribución de respuestas (introducción de la nariz de una rata en una ranura horizontal de 30 cm. ubicada en la pared). La respuesta no reforzada se muestra en A. De B a F, las respuestas en los lugares 7, 8 y 9 (delimitados por líneas verticales) son reforzadas con pellets. La inducción se muestra en B; los efectos del reforzamiento se extienden a respuestas a todo lo largo de la ranura. La diferenciación se ilustra a medida que la respuesta se restringe mas y mas a los lugares reforzados con reforzamiento diferencial continuo de C a F. En E y F, la distribución de las respuestas se ha estabilizado y corresponde muy de cerca de la clase de respuestas reforzadas.

La solución de esta dificultad radica en reconocer que están involucradas dos diferentes clases de




respuestas. Una de ellas ofrece la base para la operación experimental de reforzamiento (líneas

verticales discontinuas en la Figura 2.3). La otra representa el desempeño que viene como resultado de

estas operaciones (distribución de respuestas en la Figura 2.3). No es necesario asumir que las dos

deben corresponder exactamente. De hecho, para cualquier clase de respuestas reforzadas, la cuestión

fundamental concierne el grado al cual el comportamiento producido se conforma al comportamiento

reforzado.

Considere ahora otro ejemplo. Una vez más, las respuestas pueden ser medidas por separado en

regiones sucesivas de una rendija en una pared de la cámara, pero en esta ocasión la rendija es vertical

en lugar de horizontal. En la medida en que la rata algunas veces coloca su nariz en la rendija mientras

olisquea la cámara en ausencia de reforzamiento, sus respuestas están concentradas en la porción

inferior de la rendija (ver Figura 2.4 A). Por lo tanto, la diferenciación de la respuesta en la porción

superior de la rendija no puede proceder a menos que la respuesta en la parte superior sea moldeada.

A medida que aproximaciones sucesivas a respuestas en niveles superiores son diferencialmente

reforzadas, la distribución de las respuestas cambia, como se ilustra en la Figura 2.4. Al principio, todas

las respuestas en el nivel 5 o más alto son reforzadas (B). Como resultado, la respuesta aumenta en

muchos niveles, y cierta respuesta ocurre en el nivel 7 y arriba por primera vez. En este punto, el límite

para reforzamiento diferencial es trasladado hacia arriba de tal forma que sólo las respuestas a nivel 7 o

más arriba son reforzadas (C). De nuevo, la distribución de respuestas se traslada hacia arriba, y la

respuesta en niveles inferiores empieza a disminuir. El límite para reforzamiento diferencial es entonces

trasladado más arriba de nuevo, a respuestas a nivel 9 o más arriba (D). La distribución de respuestas se

traslada más arriba, y la respuesta en niveles inferiores continúa disminuyendo. Pero la altura que la rata

puede alcanzar es limitada, y a pesar de que el mantenimiento del reforzamiento diferencial a nivel 9 y

superiores produce poco más estrechamiento de la distribución (E), se alcanza eventualmente un punto

en el cual el reforzamiento diferencial continuado en este nivel no produce más cambios importantes en

la distribución de las respuestas (F).

En este caso, la clase de respuestas que tuvo consecuencias (respuestas a nivel 9 y superior, las cuales

fueron reforzadas) fue diferente de la distribución de respuestas producida por estas consecuencias (las

respuestas abarcando hasta el nivel 10, pero con un máximo a nivel 8). La respuesta en esta situación ha

sido claramente modificada por sus consecuencias, pero parece inapropiado decir que el criterio para el

reforzamiento es la propiedad definitoria de la clase operante. Este criterio ofrece la base para una

operación experimental, pero la importancia comportamental de esta operación es dada por la respuesta

que resulta. Así, la propiedad definitoria de la clase operante debe en su lugar ser el comportamiento:

Una vez que la operación consecuencial de reforzamiento ha sido mostrada como afectando la




distribución de las respuestas, esta distribución define la clase operante.

Estos ejemplos han sido hipotéticos. Pero ahora es posible considerar cómo estas relaciones repercuten

en el área tradicionalmente llamada aprendizaje, en la que muchos problemas se reducen a cuestiones

acerca de las correspondencias entre clases de respuesta definidas en términos de sus consecuencias y

clases de respuestas definidas en términos de las distribuciones resultantes.

Propiedades diferenciables del comportamiento

La operación de reforzamiento inevitablemente involucra diferenciación. Respuestas tales como

palanqueo y picoteo de tecla deben estar situadas en una localización adecuada y de una fuerza

suficiente, y los ejemplos hipotéticos de las Figuras 2.3 y 2.4 podrían ser repetidos sustituyendo las

dimensiones de estas respuestas, respectivamente, por las dimensiones de respuesta consideradas en

las figuras. Pero las respuestas pueden variar no sólo en localización y fuerza, sino también en topografía

o forma, en duración, y en dirección. Y como cualquier dimensión de respuesta puede ser la base para

reforzamiento diferencial, cualquier dimensión de respuesta puede ofrecer las propiedades definitorias de

una clase operante.




Figura 2.4. Datos hipotéticos que muestran los cambios en la distribución de respuestas (inserción de la nariz de una rata en una ranura vertical de 30 cm. ubicada en la pared de la cámara) con reforzamiento diferencial de aproximaciones sucesivas a respuestas mas altas (moldeamiento). Las respuestas no reforzadas, concentradas en los niveles mas bajos se muestran en A. En B, las respuestas en los niveles 5 y superiores (a la derecha de la línea vertical) son reforzadas. La distribución resultante incluye algunas respuestas en los niveles 7 y superiores. En C y en D, la clase de respuestas reforzadas cambia a los niveles superiores. Cuando el reforzamiento diferencial de solamente las respuestas en los niveles 9 y superiores se mantienen, en E y F, la distribución de respuestas se estabiliza, pero no corresponde cercanamente a la clase de respuestas que es reforzada. Una dimensión de interés especial es la separación de respuestas en el tiempo. Por ejemplo, en el

reforzamiento de los picoteos de tecla de un pichón, el reforzamiento diferencial puede ser arreglado sólo

para aquellos picoteos precedidos por un período de 10 segundos de no picoteo, o sólo por aquellos

picoteos emitidos tan rápidamente que al menos cinco picoteos ocurran en un período de 5 segundos.

En el primer caso, el picoteo puede disminuir, pero sólo porque la probabilidad de los picoteos precedida

por pausas largas aumenta; la pausa debe de hecho ser tratada como componente de una operante

compleja que consiste en una pausa más un picoteo. En el segundo caso, el picoteo puede aumentar,

pero sólo porque la misma tasa alta ha sido diferencialmente reforzada. La importancia de estos ejemplos




es que la frecuencia o tasa de respuesta algunas veces puede ser tomada como una medida directa de

los efectos del reforzamiento porque, así como otras propiedades de respuesta, también puede ser

diferenciado (cf. Capítulo 6). Por lo tanto, los análisis de la diferenciación de la tasa de respuesta

dependen críticamente del grado al que el espaciamiento temporal de las respuestas se conforma al

espaciamiento temporal que es reforzado.

Si una pausa más un picoteo pueden ser tratados como una clase de respuesta compleja, entonces una

pausa sola puede ser tratada también como una clase de respuesta. Considere, por ejemplo, la clase de

todas las respuestas que consisten de 10 segundos de no picoteos. Si un reforzador es entregado

después de cada 10 segundos sin picoteo, entonces cada picoteo retrasa el reforzamiento al menos por

10 segundos. Pero cuando un picoteo evita o retrasa la entrega de un reforzador, también se dice que el

picoteo es negativamente castigado. Así, el reforzamiento positivo de un período sin respuesta es

equivalente al castigo negativo de la respuesta. El estatus empírico de esta distinción depende al menos

en parte de las propiedades de la “no respuesta”; debería la “no respuesta” ser tratada como

comportamiento, o como ausencia de comportamiento?

Un problema análogo surge en el vocabulario del castigo. Si un palanqueo produce una descarga, se dice

que esta respuesta es castigada positivamente. Pero cada respuesta salvo el palanqueo evita la entrega

de la descarga. Debería decirse que la clase de todas las respuestas excepto los palanqueos son

reforzados negativamente? (mencionamos anteriormente que algunas explicaciones de hecho se refieren

al castigo como evitación pasiva). Por otra parte, si los palanqueos escapan o evitan la descarga,

entonces cada respuesta excepto el palanqueo es seguida por descarga. Debería el reforzamiento

negativo en escape o evitación ser referido en términos de castigo en ausencia de palanqueo?

Es más sencillo hablar en términos de respuestas discretas que en términos de su ausencia, de forma

que la descripción directa de los efectos de respuestas mensurables tales como picoteos de tecla o

palanqueos es probablemente preferible en cada uno de estos casos. Sin embargo, estos ejemplos

ilustran la inevitable complementariedad de las operaciones de reforzamiento y castigo y muestran cómo

la definición de una clase operante puede afectar la forma en la cual hablamos de operaciones y

procesos comportamentales.

Comportamiento complejo: Aprendizaje de laberinto

Hemos comúnmente hablado de respuestas relativamente sencillas, tales como palanqueos y picoteos

de tecla. Pero la explicación anterior indica que secuencias complejas de respuesta pueden también ser

afectadas por reforzamiento diferencial y por tanto pueden también ser tratadas como clases operantes.

Es posible, por ejemplo, tratar el recorrido de un laberinto como una respuesta única pero compleja.




Considere el laberinto más sencillo, el laberinto T, en el cual la caja de inicio lleva a un solo punto de

elección en el cual una vuelta o a la izquierda o a la derecha es seguida por alguna consecuencia. Si la

caja meta a la izquierda está vacía y la caja meta a la derecha contiene alimento, una secuencia de

respuesta de la caja de inicio a la caja meta que incluye una vuelta a la derecha se hará más probable o,

en otras palabras, se diferenciará. (Debería notarse que las secuencias largas también pueden ser

tratadas como una sucesión de diferentes operantes, cada una de ellas teniendo la consecuencia

reforzante de producir una oportunidad de continuar con la siguiente, hasta que la siguiente es terminada

por la entrega del reforzador. Tal tratamiento, el cual se encuentra más allá del enfoque del capítulo

presente, se considera en el Capítulo 5.)

La complejidad de la diferenciación de secuencias de respuestas se ilustra con el problema de doble

alternancia (e.g., Hunter, 1928) en aprendizaje de laberinto. Al final de un pasillo central, un punto de

elección ofreció una oportunidad para una vuelta hacia la izquierda (L) o una vuelta hacia la derecha (R),

pero ambos caminos llevaron de nuevo al inicio del pasillo central. Así, el organismo podía realizar

vueltas sucesivas en el punto de elección sin ser retirado del instrumento. La cuestión era si una

secuencia de doble alternancia (LLRR o RRLL) podía ser aprendida. Los experimentos fueron dirigidos

hacia la cuestión de si el comportamiento del organismo en un momento podía controlar su

comportamiento subsiguiente, y hacia la comparación de comportamiento en especies diferentes. De

hecho, la secuencia fue aprendida con diversos éxitos por diferentes especies y por las mismas especies

en experimentos diferentes. Sin embargo, para los objetivos presentes el punto principal es que la

cuestión trata con la correspondencia entre la secuencia de vueltas que es reforzada y la secuencia que

es producida por la operación de reforzamiento.

Excepto por la longitud y complejidad de la secuencia, difiere como clase de respuesta de los ejemplos

presentados anteriormente principalmente en la forma en que puede ser medida. Las secuencias

posibles pueden ser especificadas, pero no pueden ser ordenadas sin ambigüedad a lo largo de una sola

dimensión (e.g., es la secuencia LLLR, que contiene sólo una transición de L a R, o la secuencia LRLR,

que contiene números iguales de L´s y R´s, relacionada más de cerca de la secuencia reforzada,

LLRR?). Dentro de cada secuencia, la contribución de sus componentes puede también ser evaluada

(e.g., ocurren las R´s con más frecuencia que las L´s sólo porque la última vuelta en la frecuencia

reforzada, LLRR, es inmediatamente seguida por reforzamiento?). Estos problemas tienen paralelos en el

estudio de habilidades motoras en humanos (e.g., Bilodeau, 1969), que algunas veces trata con la

adquisición de secuencias complejas de respuestas.

La estructura del comportamiento

Las cuestiones acerca de las propiedades diferenciables de la respuesta están interesadas con la




estructura del comportamiento, y las técnicas de medición variarán con las respuestas bajo estudio. En

cada caso el interés central está en las dimensiones a lo largo de las cuales la respuesta se conforma a

la clase de respuestas que es reforzada. Cuando estas dimensiones involucran características

estructurales del comportamiento, es difícil definirlas. Por ejemplo, Pryor, Haag, y O´Reilly (1969)

produjeron desempeños novedosos en una marsopa al seleccionar para reforzamiento, en cada sesión

experimental, una clase de respuestas que no había sido reforzada en ninguna sesión previa. La

marsopa llegó a emitir respuestas, al inicio de sesiones sucesivas, que los experimentadores no habían

observado nunca. Este experimento demostró la novedosidad de la diferenciación de la respuesta. Sin

embargo, la especificación de las propiedades de esta clase operante está necesariamente limitada a

una descripción de los criterios para el reforzamiento.

Otro caso igual es la estructura gramatical de las oraciones en el comportamiento verbal humano.

Oraciones gramaticales y no gramaticales pueden sin duda tener diferentes consecuencias para el que

habla, y las oraciones pueden ser diferenciadas en clases gramaticales tales como voces activas vs

voces pasivas, o declarativas vs interrogativas. Los casos son complicados porque la función de una

oración, y por tanto la interpretación de su estructura,, puede depender de las condiciones bajo las cuales

es enunciada (e.g., Skinner, 1957). Sin embargo, hay técnicas disponibles para tratar con las

propiedades formales de la estructura gramatical (e.g., Chomsky, 1963). La paradoja consiste en que el

desarrollo de estas técnicas ha llevado a controversia acerca de la naturaleza del lenguaje humano

(Chomsky, 1959), sobre el fundamento de que las propiedades estructurales de la gramática en el

comportamiento verbal humano son incompatibles con los procesos de reforzamiento diferencial en

comportamiento operante.

Sin embargo el comportamiento verbal es comportamiento consecuencial, y el hallazgo de que algunas

estructuras gramaticales son más fácilmente aprendidas que otras (e.g., McNeill, 1968), o que oraciones

particulares son más o menos fácilmente aprendidas dependiendo de su estructura gramatical (e.g.,

Mehler, 1963), no es más embarazoso para una formulación del comportamiento como el hallazgo de que

la rata puede aprender una secuencia de alternancia simple (LRLR), o que la respuesta de una rata

puede ser más fácilmente diferenciada a lo largo de una rendija horizontal que a lo largo de una vertical.

En cualquiera de estos casos, el problema es empírico: La identificación de las dimensiones a lo largo de

las cuales la respuesta puede llegar a conformarse a la clase de respuestas que tiene consecuencias.

Para un organismo dado, las clases operantes pueden ser establecidas con mayor facilidad a lo largo de

algunas dimensiones que a lo largo de otras (anteriormente, hubiésemos dicho que algunas respuestas

son más fáciles de aprender que otras). Si estas dimensiones son simples o complejas, intensivas o

estructurales, un interés con el análisis de estas dimensiones debe ser distinguido de un análisis de los

procesos que resultan de las consecuencias diferenciales de las respuestas a lo largo de estas




dimensiones. Los dos intereses no son incompatibles; son complementarios, y el análisis del

comportamiento verbal debe ser deficiente si las consecuencias del comportamiento verbal son

ignoradas.

Operantes discriminadas: Discriminación y generalización

Las propiedades con respecto a las cuales las respuestas pueden ser reforzadas diferencialmente no

solamente incluyen las dimensiones de las respuestas sino también las dimensiones de los estímulos en

presencia de los cuales estas respuestas ocurren. Por ejemplo, un picoteo de tecla en presencia de una

luz verde es diferente de un picoteo de tecla en presencia de una luz roja, y el reforzamiento puede ser

arreglado para picoteos en presencia de una luz pero no de otra. Las clases de respuesta que son

establecidas por tal reforzamiento diferencial con respecto a las propiedades de los estímulos son

llamadas operantes discriminadas.

Un ejemplo experimental: Discriminación de la localización de un estímulo

Algunas características de las operantes discriminadas pueden ser ilustradas por un ejemplo hipotético

que se relaciona de cerca con el presentado en la Figura 2.3. Una pared de la cámara experimental de la

rata contiene una rendija horizontal detrás de la cual una serie de lámparas pueden iluminar por separado

segmentos sucesivos de 2.5 centímetros de la rendija. Debajo de la rendija está colocada una palanca, y

un dispensador de bolitas de alimento está colocado en la pared opuesta. Asuma ahora que las lámparas

individuales son iluminadas en un orden irregular, y que los palanqueos son registrados durante la

iluminación de cada segmento. En ausencia de reforzamiento, el palanqueo será poco frecuente y

probablemente no tendrá relación sistemática con el segmento que es iluminado. De hecho, los datos

pueden ser básicamente los mismos a aquellos mostrados en la Figura 2.3 A, siendo la mayor diferencia

que el eje horizontal podría ser etiquetado localización del estímulo en lugar de localización de la

respuesta.

En este punto, puede introducirse reforzamiento para los palanqueos, pero sólo cuando los segmentos 7,

8, y 9 son iluminados. El efecto inmediato del reforzamiento puede ser el incremento del palanqueo

durante la iluminación de todos los segmentos, con un resultado muy parecido al mostrado en la Figura

2.3 B. Pero con reforzamiento diferencial continuado con respecto a palanqueos durante la iluminación de

solamente los segmentos 7, 8, y 9, será probable que el palanqueo aumente durante la iluminación de

estos segmentos y disminuya durante la iluminación de los otros segmentos, casi como la distribución de

las respuestas cambió en las Figuras 2.3 C a 2.3 E. Eventualmente, el reforzamiento diferencial podría

producir un patrón de respuesta bastante estable durante la iluminación de los diferentes segmentos, así

como en las Figuras 2.3 E y 2.3 F, con la mayor parte de los palanqueos ocurriendo durante la




iluminación de los segmentos 7, 8, y 9, y con el palanqueo disminuyendo con el aumento de distancia de

la iluminación de aquellos segmentos correlacionados con reforzamiento.

En el caso del reforzamiento diferencial con respecto a las propiedades del estímulo, como en este

ejemplo, el proceso resultante es llamado discriminación en lugar de diferenciación, y la extensión de los

efectos del reforzamiento de los estímulos correlacionados con reforzamiento a estímulos en otros puntos

a lo largo del continuo es llamada generalización en lugar de inducción. Pero la distinción entre estos

conjuntos de términos es hasta cierto punto arbitraria, porque en ambos casos se involucra la operación

de reforzamiento diferencial y los procesos resultantes de esta operación son similares.

El vocabulario de la diferenciación y la discriminación

Una característica que distingue al reforzamiento diferencial con respecto a las propiedades de la

respuesta, del reforzamiento diferencial con respecto a las propiedades del estímulo es metodológica. En

la primera, el experimentador mide las respuestas en diferentes clases a medida que ocurren; en la

última, el experimentador puede controlar la oportunidad del organismo de emitir respuestas en diferentes

clases al presentar o retirar los estímulos relevantes. Por ejemplo, el experimentador podría establecer

una discriminación con respecto a los espacios 4 y 8 iluminando alternadamente estos dos segmentos y

reforzando palanqueos sólo durante la iluminación del segmento 8, pero nunca iluminando ninguno de los

otros diez segmentos. Por esta razón, se dice que los estímulos involucrados en procedimientos de

discriminación presentan la ocasión para las respuestas: Cuando un estímulo particular es tratado como

una propiedad de las respuestas dentro de una clase dada, las respuestas en esta clase no pueden

ocurrir si el estímulo no ha sido presentado. (Es apropiado añadir el calificativo de que un estímulo puede

presentar la ocasión para la respuesta aún cuando un retraso es impuesto entre estímulo y respuesta;

cuando preguntamos si la respuesta del organismo ahora es ocasionada por algún estímulo en el

pasado, estamos interesados con el estudio de la memoria.)

Pero aún esta distinción metodológica tiene excepciones. Considere, por ejemplo, el reforzamiento

diferencial del espaciamiento de las respuestas en el tiempo, discutido brevemente en una sección

previa. Si los picoteos de tecla de un pichón son reforzados sólo cuando siguen a un período de 5

segundos de no picoteo, el pichón puede llegar a espaciar sus picoteos cada 5 segundos. Este

desempeño puede ser referido como la diferenciación de una operante compleja que consiste de una

pausa más un picoteo. Por otra parte, la duración de la pausa puede ser tratada como una propiedad del

estímulo, y el desempeño puede entonces ser referido como discriminación con respecto a la duración de

la pausa precedente: Los picoteos después de pausas menores de 5 segundos no son reforzados y se

convierten en menos probables, mientras que los picoteos después de pausas mayores de 5 segundos

son reforzados y se convierten en más probables (Catania, 1970).




Aquí la distinción involucra el vocabulario con el que describimos el comportamiento y no las

características de los procesos comportamentales. La operación de reforzamiento diferencial subyace en

cada uno de estos casos. Anteriormente en este capítulo indicamos que respuestas y estímulos tienen

poca significación a menos que sean tratadas en relación unas con otros. Los presentes ejemplos ilustran

la cercanía de estas relaciones entre respuestas y estímulos. No es significativo hablar de respuestas

independientemente del ambiente en el cual ocurren, y aún en los casos en los que el experimentador no

arregla reforzamiento diferencial con respecto a propiedades del estímulo, algunos estímulos en el

ambiente del organismo deben ser relevantes para su desempeño. Los palanqueos no pueden ocurrir en

ausencia de palancas, y los picoteos de tecla no pueden ocurrir en ausencia de teclas. Y aún aquellas

respuestas que no dependen de instrumentos especiales, tales como cambios posturales, ocurren en un

ambiente. Así, los procesos de discriminación y generalización, que son considerados en más detalle en

el Capítulo 4, son similares en su relevancia a los fenómenos de aprendizaje a los procesos de

diferenciación e inducción. La cuestión fundamental nuevamente concierne a la correspondencia entre

las dimensiones en las que el reforzamiento diferencial está basado y en las dimensiones del

comportamiento resultante.

La controversia sobre aprendizaje de lugar vs aprendizaje de respuesta ofrece un ejemplo (e.g., Restle,

1957). Si las vueltas a la derecha son reforzadas pero no las vueltas a la izquierda, en un laberinto T, las

vueltas a la derecha de una rata pueden ser diferenciadas. Es entonces posible preguntarse si esta

diferenciación está basada en una dimensión de respuesta (vueltas a la derecha opuestas a vueltas a la

izquierda), o si está basada en una dimensión de estímulo (discriminación con respecto a la orientación

del laberinto relativo a los estímulos fuera del laberinto). Si la rata siempre se ha aproximado al punto de

elección desde el sur, estas alternativas pueden ser evaluadas modificando el laberinto de tal forma que

la rata se aproxime al punto de elección desde el norte. Si la rata gira a la derecha, y por tanto hacia la

caja meta opuesta a aquella en la que el reforzador había sido previamente entregado, se dice que se ha

demostrado aprendizaje de respuesta. Si en su lugar la rata gira hacia la izquierda, y por tanto hacia la

misma caja meta que en ensayos anteriores, se dice que se ha demostrado aprendizaje de lugar. La

cuestión es si la rata ha aprendido vueltas a la derecha VS vueltas a la izquierda, o vueltas al este VS

vueltas al oeste. De hecho, debido a que el aprendizaje de lugar no puede ocurrir a menos que estímulos

discriminables estén correlacionados con vueltas en una dirección particular, la demostración del

aprendizaje de lugar depende hasta cierto punto de la construcción del laberinto. Si el laberinto es

abierto, de tal forma que los estímulos fuera del laberinto estén disponibles (e.g., ventanas o luces en el

techo del cuarto experimental), el aprendizaje de lugar probablemente será observado; si el laberinto es

cerrado, de tal forma que los estímulos externos no están disponibles, el aprendizaje de respuesta es

predominante. Cualquier resultado puede ser hecho más probable que el otro. Pero en ambos casos, el




interés es si la respuesta producida por reforzamiento diferencial puede ser caracterizada como una clase

operante definida por propiedades del estímulo o una clase operante definida por propiedades de la

respuesta.

Propiedades discriminables de los estímulos

Tal como las propiedades de la respuesta, las propiedades del estímulo que definen la clase de

respuesta de una operante discriminada pueden ser variadas y complejas. Propiedades sencillas de los

estímulos, tales como intensidad o forma visual, pueden ofrecer la base para reforzamiento diferencial.

Por ejemplo, en la plataforma de salto de Lashley (1930), las ratas eran forzadas a saltar de una

plataforma hacia uno de dos tableros (e.g., un triángulo o un círculo). Uno de estos tableros se baja

cuando la rata salta hacia él, y permite a la rata acceso a alimento. Si la rata salta hacia el otro tablero, el

cual está inmóvil, la rata cae en una red bajo la plataforma. Las posiciones de los dos estímulos son

alternados irregularmente de ensayo en ensayo. Así, el reforzamiento diferencial es arreglado con

respecto a los saltos hacia un estímulo, y castigo diferencial con respecto al otro. La cuestión

experimental es si la respuesta se conforma a las consecuencias diferenciales en el sentido de que la

rata llega a saltar solamente hacia el estímulo correlacionado con reforzamiento. En este instrumento, las

propiedades del estímulo que controlan el comportamiento de la rata pueden ser estudiados.

Pero el reforzamiento diferencial puede también ser arreglado con respecto a las relaciones entre

estímulos, y con respecto a propiedades complejas que no son fácilmente cuantificadas. Los pichones,

por ejemplo, pueden ser entrenados a responder al estímulo extraño de varios estímulos si todos salvo

uno de los estímulos son iguales, o a responder a uno de varios estímulos que corresponde a un estímulo

muestra (e.g., Cumming & Berryman, 1965); y en un procedimiento que pudiese decirse demuestra la

formación de conceptos en pichones, pueden ser entrenados a responder a dibujos que contienen forma

humana pero no a dibujos en los cuales la forma humana está ausente (e.g., Herrnstein & Loveland,

1964). Así, las dimensiones complejas de extrañez y correspondencia o del concepto de forma humana

pueden definir operantes discriminadas (cf. Capítulo 4).

Comportamiento complejo: Arreglo de aprendizaje

La forma en la que las relaciones entre las propiedades del estímulo pueden llegar a controlar la

respuesta independientemente de los estímulos específicos involucrados se ilustra en experimentos

sobre un fenómeno llamado arreglo de aprendizaje (Harlow, 1949). El alimento es colocado bajo uno de

dos objetos diferentes presentados a un mono privado de alimento, y el levantar este objeto es por tanto

reforzado diferencialmente. Después de que la discriminación entre estos dos objetos es establecida, un

nuevo par de objetos es presentado, de nuevo con reforzamiento diferencial arreglado con respecto a

uno de ellos. Cuando esta discriminación es establecida, todavía otro nuevo par es presentado, y así




continúa. A medida que la sucesión de nuevos pares de estímulos continúa, son establecidas sucesivas

discriminaciones más y más rápidamente, y eventualmente el mono puede responder consistentemente

al estímulo correlacionado con reforzamiento después de un solo ensayo con un par nuevo. Una

operante discriminada en esta situación no puede ser descrita simplemente en términos de los estímulos

en un par dado. En su lugar, debe estar basada en la dependencia entre estímulos y sus consecuencias

correlacionadas en ensayos sucesivos. Si la respuesta a un estímulo dado es reforzada en el primer

ensayo con un nuevo par, el mono responde a ese estímulo en todos los ensayos subsiguientes. Si esa

respuesta no es reforzada, el mono responde al otro estímulo en todos los ensayos subsiguientes. Estas

relaciones entre estímulos, respuestas, y consecuencias son las propiedades definitorias del

comportamiento que es establecido en el fenómeno del conjunto de aprendizaje y demuestran la

complejidad de las dimensiones que debe tomar en consideración el análisis de operantes discriminadas.

Enfrentamos problemas similares cuando preguntamos acerca de las características críticas de letras y

palabras a medida que un niño aprende a leer (e.g., Gibson, 1965). La facilidad con que un niño aprende

a distinguir letras del alfabeto depende de relaciones entre tales propiedades del estímulo como simetría,

curvatura, y cierre. Pero no podemos simplemente enumerar las propiedades críticas; con respecto a

algunas propiedades, por ejemplo, formas mayúsculas o minúsculas de una sola letra pueden diferir más

de cada una que lo que difieren de otras letras (cf. e, E, y F; o h, n, y N). Una explicación adecuada debe

tratar tanto con las propiedades estructurales de las letras como estímulos como con las formas en las

que el niño se comporta con respecto a las letras (cf. El análisis de los procesos cognitivos: Neisser,

1967). Nombrar las letras en una secuencia es diferente de leer la secuencia como palabra. La diferencia

está en el comportamiento del niño, y no en las letras como estímulos: En un caso, el niño responde a las

letras como unidades; en el otro, el niño responde a una unidad mayor, la palabra, en la que las letras

son componentes. Podemos decir que el niño está listo para leer ya sea letras o palabras. Así, este

ejemplo de nuevo demuestra que la estructura del estímulo no puede ser especificada sin referencia a la

estructura de la respuesta.

La naturaleza del control del estímulo

Hemos enfatizado las propiedades del estímulo como base para reforzamiento diferencial, y la

discriminación como un proceso comportamental. Es ahora apropiado regresar a las operaciones en las

que esta formulación está basada. Consideramos, en una sección anterior, las operaciones

consecuenciales de reforzamiento y castigo: Una respuesta es seguida por una consecuencia. Pero

también hicimos notar más recientemente que el reforzamiento diferencial con respecto a las propiedades

del estímulo depende de la presentación de los estímulos. Así, para tratar de forma más general con

reforzamiento diferencial debemos sobreimponer otra operación, la operación de control del estímulo, en

las operaciones consecuenciales de reforzamiento y castigo: En presencia de un estímulo, una respuesta




es seguida por una consecuencia. En estos tres términos, estímulo-respuesta-consecuencia,

caracterizamos exhaustivamente las relaciones fundamentales del comportamiento operante. Resta por

tanto completar el círculo y regresar a la operación de elicitación, para considerar brevemente su relación

con la operación del control del estímulo.

Respondientes: Elicitación diferencial

Definimos las operantes en términos de sus efectos ambientales, pero las clases de respuestas también

pueden ser definidas en términos de los estímulos que las producen. Tales clases son llamadas

respondientes y corresponden a lo que anteriormente nos referimos como comportamiento elicitado o

reflexivo. Así, la salivación producida por alimento en la boca es una clase respondiente. Esta clase debe

distinguirse de la salivación producida por ácido en la boca, la cual es una clase respondiente diferente, y

de la salivación espontánea, la cual puede ser tratada como una clase operante porque es emitida más

que elicitada.

Hablamos de la producción de respuestas por estímulos como la operación de elicitación. No existe un

procedimiento que corresponda al reforzamiento diferencial de propiedades de respuesta para la

operación de elicitación, porque las propiedades de las respuestas en las clases respondientes son

determinadas por los estímulos elicitadores presentados al organismo. De esta forma, a pesar de que

pueden ser creadas nuevas operantes por moldeamiento, las respondientes son más limitadas en su

potencialidad para modificación.

Existe, sin embargo, un procedimiento correspondiente al reforzamiento diferencial con respecto a las

propiedades del estímulo. Así como la operación del control del estímulo puede ser sobreimpuesta en las

operaciones de reforzamiento y castigo, también así puede ser sobreimpuesto en la operación de

elicitación: Un estímulo discriminativo puede presentar la ocasión en la que un estímulo elicitador es

presentado (Catania, 1971). Podemos llamar tal procedimiento elicitación diferencial; la operación de

elicitación es arreglada sólo en presencia de un estímulo particular.

Condicionamiento respondiente

Los casos más conocidos vienen de la demostración de condicionamiento respondiente de los

experimentos en reflejo condicionado de Pavlov (1927). (El condicionamiento respondiente también ha

sido con frecuencia llamado condicionamiento clásico o Pavloviano, y es explorado en detalle en el

Capítulo 3.) Por ejemplo, un perro es sostenido en una plataforma por un arnés, una campana suena, y

entonces el alimento es colocado en el hocico del perro. El alimento, el cual elicita salivación, es

presentado cuando una campana suena, pero nunca en otras ocasiones. Así, la campana es un estímulo




en presencia del cual la operación de elicitación, la entrega de alimento, es arreglada. La campana es

referida como un estímulo condicionado (o condicional), y el alimento es un estímulo incondicionado (o

incondicional). Como resultado de este procedimiento, el perro puede empezar a salivar al sonido de la

campana, y entonces se dice que un reflejo condicionado (o condicional) ha sido establecido.

Un ejemplo actual que involucra una respuesta motora más que glandular se la ofrecen Brown y Jenkins

(1968). La tecla en una cámara de un pichón es iluminada a intervalos irregulares. Después de varios

segundos de iluminación, el dispensador es operado. Así, la iluminación de la tecla presenta la ocasión

en la que comer es elicitado por alimento. En este procedimiento, los pichones llegan a picotear la tecla

después de varias sucesiones de iluminación de tecla y alimento. Este fenómeno se ha referido como

auto moldeamiento del picoteo de tecla, y se le han dado diversas interpretaciones. Una es que el picoteo

de tecla gradualmente evoluciona como una respuesta supersticiosa; otra es que ocurre porque el

alimento eleva la probabilidad de picoteo aún cuando el alimento está ausente, y esta respuesta por tanto

viene a ser emitida en la presencia del estímulo correlacionado con presentaciones de alimento. El punto

esencial es que estos procedimientos ilustran la operación de elicitación diferencial, elicitación en

presencia de un estímulo discriminativo.

Clases de estímulo en condicionamiento

La sobreimposición de la operación del control del estímulo en la operación de elicitación no necesita ser

restringida a reforzadores como estímulos elicitadores. Puede también ser extendida a estímulos con

propiedades relativamente neutrales y a estímulos con propiedades aversivas. Por ejemplo, en

experimentos sobre el fenómeno de precondicionamiento sensorial (Brogden, 1939), un conjunto de

estímulos presenta la ocasión en la cual un segundo estímulo es presentado; una campana puede ser

tañida sólo en presencia de una luz. Subsecuentemente, es establecido un reflejo condicionado en el que

la campana funciona como estímulo condicionado (e.g., la campana puede presentar la ocasión para

salivar). La luz es entonces presentada para examinar si, por virtud de su relación anterior con la

campana, la luz también controlará la respuesta. Las demostraciones de precondicionamiento sensorial

poseen el mismo tipo de relación con la operación de elicitación diferencial que las demostraciones de

aprendizaje latente poseen con la operación de reforzamiento.

La elicitación diferencial que involucra estímulos aversivos ha sido referida como condicionamiento

defensivo. Por ejemplo, una luz puede presentar la ocasión en la que una descarga es presentada, y las

respuestas en presencia de la luz y su relación con las respuestas elicitadas por descarga pueden

entonces ser examinadas. En un procedimiento relacionado interesado con un fenómeno llamado

supresión condicionada o ansiedad (ver Capítulo 8), los efectos de la luz son examinados sobre una línea

base continua de respuesta reforzada.




Propiedades de la respuesta en condicionamiento

Tanto en elicitación diferencial como en reforzamiento diferencial con respecto a las propiedades del

estímulo, la respuesta llega a concentrarse en presencia de los estímulos discriminativos. En el primer

caso, la respuesta es producida por la operación de elicitación, y en el segundo caso, por la operación de

reforzamiento. Pero en ambos casos la sobreimposición de una operación de control del estímulo tiene

efectos similares; así, los procesos discriminativos generados por esta operación pueden estar

relacionados muy de cerca (cf. Capítulo 3). Muchos experimentos han estado interesados con la relación

entre procesos operantes y respondientes, y el éxito o fracaso de experimentos particulares ha sido

tomado como evidencia de que los procesos operantes son de alguna forma reductibles a procesos

respondientes, o que los procesos respondientes son de alguna forma reductibles a procesos operantes,

o que los dos procesos son completamente independientes. Sin embargo, los resultados de experimentos

particulares pueden depender en forma crítica de la relación entre respuestas elicitadas y reforzadas.

Esta dependencia puede ilustrarse al comparar dos experimentos interesados con las propiedades

operantes o respondientes de la salivación.

En el experimento Pavloviano clásico, la salivación era elicitada por alimento, y la elicitación subsiguiente

de la salivación por un estímulo condicionado que precedía consistentemente al alimento fue tomada

como evidencia de que una nueva clase respondiente, salivación elicitada por el estímulo condicionado,

había sido establecida. Sin embargo, era posible argumentar que la relación entre salivación y el estímulo

condicionado llegó accidentalmente, y que la salivación era subsiguientemente mantenida, así como en

un procedimiento de superstición, porque la salivación en presencia del estímulo condicionado era

consistentemente seguido por alimento (e.g., Smith, 1954). Para evaluar este tipo de posibilidad,

Sheffield (1965) condujo un experimento para determinar si la adición de consecuencias a este

procedimiento podrían modificar la salivación. Específicamente, el alimento era presentado a un perro en

presencia de un estímulo condicionado, pero la presentación de alimento era omitida cada vez que el

perro salivaba en presencia del estímulo condicionado. Este procedimiento, un ejemplo de castigo

negativo referido como entrenamiento por omisión, no eliminó la salivación; la salivación no llegó a estar

bajo el control de su consecuencia, la omisión de alimento. Una vez que la salivación ocurría en

presencia del estímulo condicionado, el alimento era omitido; como resultado la salivación disminuyó en

ensayos subsiguientes. Pero en ensayos sin salivación, el alimento era de nuevo presentado, y así la

salivación era reinstaurada por la sucesión del estímulo condicionado y alimento. Entonces iniciaba un

nuevo ciclo de omisiones de alimento y salivación disminuida.

Sin embargo, en una sección anterior, consideramos un experimento de Miller y Carmona (1967). En ese

estudio, la salivación se reducía cuando tenía la consecuencia de omisión de reforzamiento. La diferencia




era que el reforzador era agua. Por tanto debemos concluir que la efectividad relativa de operaciones

elicitantes y reforzantes debe depender hasta cierto punto de la compatibilidad de las respuestas

reforzadas y las respuestas elicitadas. En el experimento de Sheffield, la ausencia de salivación era

reforzada por la presentación de alimento, el cual entonces elicitaba salivación; la ausencia reforzada de

salivación y la salivación elicitada eran claramente incompatibles, y el reforzamiento no demostró ser

efectivo. Sin embargo, en el experimento de Miller y Carmona la ausencia de salivación fue reforzada por

la presentación de agua, la cual no elicita salivación; así, no existía incompatibilidad entre la respuesta

reforzada (ausencia de salivación) y la respuesta elicitada por el reforzador. En este caso, el

reforzamiento fue efectivo.

Funciones múltiples

Estos ejemplos ilustran un interés general en el análisis del comportamiento: El problema de la función

múltiple. Hemos tratado con estímulos en elicitación, reforzamiento, y control del estímulo. Pero es poco

probable que un estímulo dado en un procedimiento particular posea sólo una de estas funciones. Un

estímulo discriminativo puede también funcionar como reforzador, y un estímulo reforzador puede

también funcionar como elicitador. A pesar de que entendemos algunas de las propiedades de estas

funciones por separado, nuestro entendimiento de sus efectos en combinación es limitado. El progreso

en el análisis de los fenómenos de aprendizaje dependerá por tanto en parte de nuestra habilidad para

caracterizar las interacciones entre funciones de estímulo.

LOS LÍMITES DEL APRENDIZAJE

La explicación previa ha enfatizado la clasificación de fenómenos del aprendizaje en términos de

operaciones comportamentales. Pero cuando un procedimiento experimental es impuesto sobre un

organismo, no existe garantía de que el procedimiento será efectivo. Un procedimiento que lleva a

aprendizaje en un organismo puede no hacerlo con otros organismos, y un organismo que aprende bajo

un procedimiento puede no hacerlo bajo otros procedimientos. Tales hallazgos no invalidan la

clasificación, porque la clasificación es simplemente una forma de nombrar fenómenos y relacionar unos

con otros. Sin embargo, sería de otro modo si se asumiese que el aprendizaje está basado en un solo

proceso que actúa en todos los organismos y en todos los procedimientos.

En su desarrollo histórico, la psicología del aprendizaje examinó los resultados experimentales de

diversos procedimientos comportamentales; a cada procedimiento, a su vez, se le asignó importancia en

proporción a su efectividad demostrable. Los hallazgos experimentales disponibles en diferentes

momentos llevaron a formulaciones teóricas en las que los principios de asociación y contigüidad, las

reglas del condicionamiento respondiente, y las leyes del reforzamiento fueron seleccionados para




papeles dominantes, en ocasiones hasta el punto en que uno u otro era considerado como la base

exclusiva y fundamental para el aprendizaje. Sin embargo, tales formulaciones estaban inevitablemente

abiertas a desafío y controversia, porque un único proceso no podía explicar exhaustivamente los

fenómenos del aprendizaje. Las teorías del aprendizaje se hicieron más precisas, pero los refinamientos

progresivos fueron necesariamente acompañados por restricciones del rango de fenómenos a los cuales

las teorías podían ser aplicadas. El reconocimiento de los límites del aprendizaje estaba implícito en

estas restricciones.

Cuando los límites del aprendizaje pueden ser rastreados con facilidad a las capacidades sensoriales o

motoras de un organismo, no presentan problemas. No nos sorprende, por ejemplo, si ciertos estímulos

son más capaces de controlar respuestas en ciertas especies que en otras. El pichón es capaz de

discriminaciones visuales que son imposibles para el murciélago, y el murciélago es capaz de

discriminaciones auditivas que son imposibles para el pichón, simplemente porque estos organismos

poseen sistemas sensoriales diferentes. Las diferentes capacidades de respuesta no nos preocupan.

Podemos atribuir diferentes modalidades de vuelo en pichones y murciélagos a tales diferencias

anatómicas como la estructura del ala. Los ejemplos son obvios mas no triviales. Ilustran el grado al cual

damos por descontado las limitaciones de las capacidades sensoriales y motoras de un organismo. No es

siquiera probable que preguntemos acerca del vuelo de la rata, como lo haríamos con el murciélago o el

pichón; sabemos bien por qué las ratas no pueden volar.

Así como las capacidades sensoriales y motoras, las capacidades de varios estímulos para reforzar

difieren en las especies. Sin embargo, antes de que la relatividad del reforzamiento fuera reconocido, era

difícil tratar con hallazgos en los cuales reforzadores establecidos para una especie fracasaran en tener

sus efectos característicos. Algunos casos fueron descritos por Breland y Breland (1961). En una

demostración con mapaches, por ejemplo, reforzadores de alimento eran entregados cuando un

mapache recogía monedas del suelo y las depositaba en un depósito. Pero después de que el

procedimiento había continuado por algún tiempo, el mapache empezaba a pasar su tiempo frotando una

moneda con la otra en lugar de soltarlas en el depósito. Este hallazgo no invalidó el principio de

reforzamiento; por el contrario, demostró una propiedad del comportamiento del mapache. Un mapache

comúnmente frota y enjuaga su alimento antes de comerlo, pero las monedas aparentemente ofrecían

una mejor oportunidad para este comportamiento que el alimento que era empleado para reforzar el

desempeño del mapache. En esta situación, frotar era suficientemente más probable que comer ese

alimento que no era un reforzador efectivo; podemos por tanto suponer que una oportunidad para frotar

pudo haber sido empleada para reforzar otras respuestas, posiblemente incluyendo comer.

Cuando la relatividad del reforzamiento fue reconocida, ya no era suficiente simplemente identificar los




reforzadores efectivos para una especie dada. Los reforzadores también tenían que ser definidos en

términos de la respuesta a ser reforzada. En una especie dada, un reforzador efectivo con una respuesta

no es necesariamente un reforzador efectivo con otras. Así, los límites del aprendizaje no pueden ser

especificados por separado en términos de estímulos y en términos de respuestas; también es necesario

considerar las limitaciones de las clases de relaciones que pueden ser establecidas entre estímulos y

respuestas en una especie dada.

Se ofrece un ejemplo con el experimento de aversión al alimento en la rata (Revusky & García, 1970). Si

una rata se enferma después de comer un alimento particular, la rata comúnmente deja de comer ese

alimento; así, comer puede ser castigado por sus consecuencias sistémicas aún cuando esas

consecuencias pueden seguir el comer sólo después de un retraso considerable. Las propiedades de

este tipo de castigo fueron estudiadas al permitir que ratas sedientas bebieran agua endulzada en

presencia de ruido y luz. En un grupo de ratas, beber era seguido por descarga eléctrica. En un segundo

grupo, beber era seguido por niveles de irradiación X que después producía enfermedad. En pruebas

subsiguientes con agua endulzada y no endulzada, las ratas que habían sido irradiadas bebieron menos

agua endulzada estuviesen o no presentes el ruido y la luz. Cuando el estímulo aversivo era descarga,

las ratas aprendieron su relación con eventos externos tales como ruido y luz. Cuando el estímulo

aversivo era el efecto sistémico retardado de la irradiación X, las ratas aprendieron su relación con el

sabor del agua que habían consumido recientemente. En otras palabras, los efectos inmediatos de la

descarga castigaron beber en presencia de ruido y luz, pero los efectos retardados de las irradiaciones X

castigaron beber el agua endulzada. Este ejemplo, el cual es tratado bajo el tópico de atención en el

Capítulo 4, demuestra que las ratas están predispuestas a aprender relaciones diferentes entre estímulos

y respuestas en situaciones diferentes (cf. Seligman, 1970). Así, no es suficiente decir que para una

especie dada algunas respuestas o algunos estímulos son más fácilmente aprendidos que otros; una

explicación de los límites del aprendizaje debe también tratar con las relaciones entre estímulos y

respuestas.

La lista podría extenderse. Investigación reciente ha examinado el papel del reforzamiento y

consecuencias sistémicas retardadas en el desarrollo de preferencias de alimento y de las hambres

específicas que siguen a deficiencias dietéticas (Rozin & Kalat, 1971), el efecto de reacciones de defensa

específicas de la especie que son elicitadas por estímulos aversivos en el desarrollo del desempeño de

evitación (Bolles, 1970), y la naturaleza del comportamiento que no puede ser atribuido a la sucesión

accidental de una respuesta y un reforzador en el desarrollo del desempeño durante un procedimiento de

superstición (Staddon & Simmelhag, 1971). Estos ejemplos, los cuales también son discutidos en el

Capítulo 9, tratan con los límites dentro de los que diversas operaciones son efectivas, pero al serlo no

alteran las propiedades definitorias de los procesos comportamentales. Si un fenómeno viene a ser




menos general de lo que antes creíamos, no se sigue que deberíamos llamarle por diferente nombre.

Si se mantuviese que el principio único del aprendizaje es demostrado por una operación experimental

dada, tal como elicitación o reforzamiento o control del estímulo, entonces el descubrimiento de las

condiciones que limitaron la efectividad de esa operación desafiarían su generalidad como una base del

aprendizaje. Pero hoy es reconocido que las diversas operaciones son todas importantes en sus

diferentes formas. Así, el descubrimiento de las limitaciones de cada una es una parte integral de, más

que un desafío crítico a, el análisis de los fenómenos del aprendizaje.

RESUMEN Y CONCLUSIONES

Hemos presentado los fenómenos del aprendizaje en términos de operaciones experimentales. Primero

consideramos los efectos de la operación más sencilla, la elicitación o presentación de estímulos. Las

respuestas son producidas por estímulos, y la probabilidad de estas respuestas puede ser modificada no

sólo por presentaciones del estímulo sino por el patrón temporal de estas presentaciones. La operación

de elicitación también puede tener otros efectos: Las respuestas elicitadas pueden volverse más

probables aún en ausencia del estímulo elicitador, y las presentaciones del estímulo pueden afectar las

respuestas que les siguen en el fenómeno de la superstición.

Pero así como los estímulos pueden ser seguidos por respuestas, las respuestas pueden ser seguidas

por estímulos, y por tanto el tratamiento de las operaciones consecuenciales de reforzamiento y castigo

trataron con los efectos de las consecuencias de la respuesta. Sobre la base de los efectos de estas

operaciones, distinguimos entre reforzamiento positivo, reforzamiento negativo (o escape y evitación),

castigo positivo, y castigo negativo (o entrenamiento por omisión). En añadidura, el tratamiento de

fenómenos tales como aprendizaje sensorial-motor y aprendizaje latente demostró la importancia de

consecuencias menos dramáticas, algunas veces erróneamente llamadas neutrales, que no son

generalmente clasificadas como reforzadores o punitivos.

El reforzamiento y el castigo fueron distinguidos sobre la base de si las consecuencias de la respuesta

producían aumentos o disminuciones en la respuesta, pero notamos que la distinción entre casos

positivos y negativos de estas operaciones era hasta cierto punto arbitraria. Los casos positivos y

negativos no podían ser tratados consistentemente en términos de si las consecuencias de la respuesta

involucraban la presentación o retiro de estímulos. En su lugar, estos casos fueron tratados en términos

de la relación temporal entre las respuestas reforzadas o castigadas con otras respuestas que fueron

producidas por estas operaciones.




La operación final, control del estímulo, es una operación que puede ser sobreimpuesta tanto en la

operación de elicitación como en las operaciones consecuenciales de reforzamiento y castigo. Cuando es

sobreimpuesta en la elicitación, esta operación genera los procesos que han sido referidos como

condicionamiento respondiente; casos especiales incluyen el precondicionamiento sensorial, en el cual el

estímulo elicitador es neutral, y el condicionamiento defensivo, en el cual el estímulo elicitador es

aversivo. Cuando es sobreimpuesta en operaciones consecuenciales, la operación de control del

estímulo genera procedimientos de discriminación. Consideramos aquí solamente el caso de

discriminación con respecto al reforzamiento positivo, pero el análisis puede ser extendido al castigo, así

como a las consecuencias neutrales del aprendizaje latente.

Estas operaciones agotan las relaciones comportamentales que pueden ser establecidas entre estímulos

y respuestas. Por lo tanto, un interés particular era la caracterización de las dimensiones a lo largo de las

cuales los estímulos y las respuestas pueden variar: Este interés fue tratado en la discusión de los

procesos de diferenciación y discriminación y se mostró que las dimensiones relevantes incluían no

solamente tales dimensiones relativamente sencillas como intensidad, localización, y topografía, sino las

dimensiones complejas de la relación y estructura de estímulo y respuesta. El análisis de la estructura es

diferente del análisis de las funciones de estímulos y respuestas, y es esencial para la definición de las

clases de respuesta.

Una conclusión a ser derivada de esta explicación es que el comportamiento es mejor representado en

términos de un continuo de procesos en lugar de categorías dicotomizadas. Reforzamiento y castigo no

son procesos independientes, sino extremos en un continuo que abarca desde aquellas operaciones

consecuenciales que elevan la probabilidad de las respuestas, a aquellas que no tienen efecto en la

probabilidad de las respuestas, hasta aquellas que disminuyen la probabilidad de las respuestas. Tanto el

reforzamiento positivo como el negativo no son procesos independientes, sino que difieren con respecto

a la magnitud de los efectos elicitadores y discriminativos de los estímulos que están presentes durante la

operación de reforzamiento. La diferenciación y discriminación no son procesos independientes, sino que

sólo difieren con respecto a si la operación de reforzamiento diferencial enfatiza las propiedades de la

respuesta o las propiedades del estímulo. Y los efectos del reforzamiento diferencial y de la elicitación

diferencial no son procesos independientes, sino que están relacionados en tanto que la operación de

control del estímulo modifica la respuesta que es generada por las operaciones de reforzamiento o

elicitación en las cuales está sobreimpuesta.

En todo esto, el término aprendizaje ha retrocedido al trasfondo, y bien puede suceder que ha terminado

su utilidad. Las jerarquías comportamentales pueden ser modificadas, nuevas respuestas pueden ser

moldeadas, y pueden ser establecidas discriminaciones. Estos son fenómenos del comportamiento, y




parte de nuestro entendimiento de estos fenómenos depende de qué tan precisamente podemos hablar

de ellos. El vocabulario actual no carece de ambigüedades, e indudablemente cambiará. Pero en su

énfasis en operaciones comportamentales y procesos comportamentales, se adhiere muy cercanamente

a lo que se hace y se observa en experimentos sobre comportamiento. Y esta adherencia puede ser

esencial a nuestro progreso, porque no es de utilidad decir que un organismo ha aprendido a menos que

también podamos decir lo que ha aprendido, y cómo.

REFERENCIAS

Antonitis, J. J. Response variability in the white rat during conditioning, extinction, and reconditioning. Journal of Experimental Psychology, 1951, 42, 273-281. Azrin, N. H. Some effects of two intermittent schedules of immediate and non-immediate punishment. Journal of Psychology, 1956, 42, 3-21. Azrin, N.H., & Holz, W. C. Punishment. In W. K. Honig (Ed.), Operant Behavior: Areas of research and application. New York: Appleton-Century-Crofts, 1966. Pp. 380-447. Azrin, N. H., Hutchinson, R. R., & Hake, D.F. Extinction-induced aggression. Journal of the Experimental Analysis of Behavior, 1966, 9, 191-204. Azrin, N.H., Hutchinson, R. R., & McLaughlin, R. The opportunity for aggression as an operant reinforcer during aversive stimulation. Journal of the Experimental Analysis of Behavior, 1965, 8, 171-180. Badia, P., Suter, S., & Lewis, P. Rat vocalization to shock with and without a CS. Psychonomic Science, 1966, 4, 117-118. Beale, G. H. Adaptation in paramecia. In R. Davis & E. F. Gale (Eds.), Adaptation in microorganisms. (Third Symposium of the Society for General Microbiology.) Cambridge: Cambridge University Press, 1953. Pp. 294-305. Berlyne, D. E. Conflict, arousal, and curiosity. New York: McGraw-Hill, 1960. Best, J. B. The photosensitization of paramecia aurelia by temperature shock. Journal of Experimental Zoology, 1954, 126, 87-99. Bilodeau, E. A. (Ed.) Principles of skill acquisition. New York: Academic Press, 1969. Bindra, D. Components of general activity and the analysis of behavior. Psychological Review, 1961, 68, 205-215. Blough, D. S. New test for tranquilizers. Science, 1958, 127, 586-587. Bolles, R. C. Species-specific defense reactions and avoidance learning. Psychological Review, 1970, 77, 32-48. Breland, K., & Breland, M. The misbehavior of organisms. American Psychologist, 1961, 16, 681-684. Brogden, W. J. Sensory preconditioning. Journal of Experimental Psychology, 1939, 25, 323-332.




Brown, P. L., & Jenkins, H. M. Auto-shaping of the pigeon´s key-peck. Journal of the Experimental Analysis of Behavior, 1968, 11, 1-8. Butler, R. A. The effect of deprivation of visual incentives on visual exploration motivation in monkeys. Journal of Comparative and Physiological Psychology, 1957, 50, 177-179. Catania, A. C. Glossary. In A. C. Catania (Ed.), Contemporary research in operant behavior. Glenview, Ill.: Scott, Foresman, 1968. Pp. 327-349. Catania, A. C. On the vocabulary and the grammar of behavior. Journal of the Experimental Analysis of Behavior, 1969, 12, 845-846. Catania, A. C. Reinforcement schedules and psychophysical judgments: A study of some temporal properties of behavior. In W. N. Schoenfeld (Ed.), The theory of reinforcement schedules. New York: Appleton-Century-Crofts, 1970. Pp. 1-42. Catania, A. C. Elicitation, reinforcement, and stimulus control. In R. Glaser (Ed.), The nature of reinforcement. New York: Academic Press, 1971. Pp. 196-220. Chomsky, N. Review of B. F. Skinner´s Verbal behavior. Language, 1959, 35, 26-58. Chomsky, N. Formal properties of grammars. In R. D. Luce, R. R. Bush, & E. Galanter (Eds.), Handbook of mathematical psychology. Vol. 2. New York: Wiley, 1963. Pp. 323-418. Cofer, C. N., Appley, M. H. Motivation: Theory and research. New York: Wiley, 1964. Cumming, W. W., & Berryman, R. The complex discriminated operant: Studies of matching-to-sample and related problems. In D. I. Mostofsky (Ed.), Stimulus generalization. Stanford: Stanford University Press, 1965. Pp. 284-330. Falk, J. L. Production of polydipsia in normal rats by an intermittent food schedule. Science, 1961, 133, 195-196. Falk, J. L. The nature and determinants of adjunctive behavior. Physiology and Behavior, 1971, 6, 577-588. Ferster, C. B. Control of behavior in chimpanzees and pigeons by time out from positive reinforcement. Psychological Monographs, 1958, 72, (8, Whole Number 461). Gibson, E. J. Learning to read. Science, 1965, 148, 1066-1072. Goldstein, H., Krantz, D. L., & Rains, J. D. Controversial issues in learning. New York: Appleton-Century-Crofts, 1965. Gollub, L. R. Stimulus generalization of response-position in the rat. Psychonomic Science, 1966, 6, 433-434. Harlow, H. F. The formation of learning sets. Psychological Review, 1949, 56, 51-65. Held, R., & Hein, A. Movement-produced stimulation in the development of visually guided behavior. Journal of Comparative and Physiological Psychology, 1963, 56, 872-876. Herrnstein, R. J. Method and theory in the study of avoidance. Psychological Review, 1969, 76, 49-69.




Herrnstein, R. J., & Hineline, P. N. Negative reinforcement as shock-frequency reduction. Journal of the Experimental Analysis of Behavior, 1966, 9, 421-430. Herrnstein, R. J., & Loveland, D. H. Complex visual concept in the pigeon. Science, 1964, 146, 549-551. Hess, E. H. Imprinting. Science, 1959, 130, 133-141. Hilgard, E. R. Method and procedures in the study of learning. In S. S. Stevens (Ed.), Handbook of experimental psychology. New York: Wiley, 1951. Pp. 517-567. Hogan, J. A. The development of a hunger system in young chicks. Behaviour, 1971, 39, 128-201. Hull, C. L. Principles of behavior. New York: Appleton-Century-Crofts, 1943. Hunter, W. S. The behavior of raccoons in a double-alternation temporal maze. Journal of Genetic Psychology, 1928, 35, 374-388. Hutchinson, R. R., Renfrew, J. W., & Young, G. A. Effects of long-term shock and associated stimuli on aggressive and manual responses. Journal of the Experimental Analysis of Behavior, 1971, 15, 141-166. Jensen, D. D. Experiments on learning in paramecia. Science, 1957, 125, 191-192. Kelleher, R. T., & Morse, W. H. Schedules using noxious stimuli: III. Responding maintained with response-produced electric shocks. Journal of the Experimental Analysis of Behavior, 1968, 11, 819-838. Kendall, S. B. Spontaneous recovery after extinction with periodic time-outs. Psychonomic Science, 1965, 2, 117-118. Kimble, G. A. (Ed.) Hiilgard and Marquis´ Conditioning and Learning. (2nd ed.) New York: Appleton-Century-Crofts, 1961. Kish, G. B. Studies of sensory reinforcement. In W. K. Honig (Ed.), Operant Behavior: Areas of research and application. New York: Appleton-Century-Crofts, 1966. Pp. 109-159. Lashley, K. S. The mechanism of vision. I. A method for rapid analysis of pattern vision in the rat. Journal of Genetic Psychology, 1930, 37, 453-460. McNeill, D. On theories of language acquisition. In T. R. Dixon & D. L. Horton (Eds.), Verbal behavior and general behavior theory. Englewood Cliffs, N. J.: Prentice-Hall, 1968. Pp. 406-420. Meehl, P. E. On the circularity of the law of effect. Psychological Bulletin, 1950, 47, 52-75. Mehler, J. Some effects of grammatical transformations on the recall of English sentences. Journal of Verbal Learning and Verbal Behavior, 1963, 2, 346-351. Miller, N. E. & Carmona, A. Modification of a visceral response, salivation in thirsty dogs, by instrumental training with water reward. Journal of Comparative and Physiological Psychology, 1967, 63, 1-6. Morse, W. H. Intermittent reinforcement. In W. K. Honig (Ed.), Operant Behavior: Areas of research and application. New York: Appleton-Century-Crofts, 1966. Pp. 52-108. Mowrer, O. H., & Jones, H. M. Extinction and behavior variability as functions of effortfulness of task.




Journal of Experimental Psychology, 1943, 33, 369-385. Neisser, U. Cognitive Psychology. New York: Appleton-Century-Crofts, 1967. Pavlov, I. P. Conditioned reflexes. G. V. Anrep (Trans.) London: Oxford University Press, 1927. Peterson, N. Control of behavior by presentation of an imprinted stimulus. Science, 1960, 132, 1395-1396. Premack, D. Toward empirical behavior laws: I. Positive reinforcement. Psychological Review, 1959, 66, 219-233. Premack, D. Reversibility of the reinforcement relation. Science, 1962, 136, 255-257. Premack, D. Catching up with common sense or two sides of a generalization: Reinforcement and punishment. In R. Glaser (Ed.), The nature of reinforcement. New York: Academic Press, 1971. Pp. 121-150. Pryor, K. W., Haag, R., & O’Reilly, J. The creative porpoise: Training for novel behavior. Journal of the Experimental Analysis of Behavior, 1969, 12, 653-661. Reid, R. L. The role of the reinforcer as a stimulus. British Journal of Psychology, 1958, 49, 202-209. Restle, F. Discrimination of cues in mazes: A resolution of the “place-versus-response” question. Psychological Review, 1957, 64, 217-228. Revusky, S., & Garcia, J. Learned associations over long delays. In G. H. Bower (Ed.), The psychology of learning and motivation. Vol. 4. New York: Academic Press, 1970. Pp. 1-84. Rozin, P., & Kalat, J. W. Specific hungers and poison avoidance as adaptive specializations in learning. Psychological Review, 1971, 78, 459-486. Seligman, M. E. P. On the generality of the laws of learning. Psychological Review, 1970, 77, 406-418. Sheffield, F. D. Relation between classical conditioning and instrumental learning. In W. F. Prokasy (Ed.), Classical conditioning: A symposium. Appleton-Century-Crofts, 1965. Pp. 302-322. Sherrington, C. S. The integrative action of the nervous system. New Haven: Yale University Press, 1906. Skinner, B. F. On the conditions of elicitation of certain eating reflexes. Proceedings of the National Academy of Sciences, 1930, 16, 433-438. Skinner, B. F. The concept of the reflex in the description of behavior. Journal of General Psychology, 1931, 5, 427-458. Skinner, B. F. The behavior of organisms. New York: Appleton-Century-Crofts, 1938. Skinner, B. F. “Superstition” in the pigeon. Journal of Experimental Psychology, 1948, 38, 168-172. Skinner, B. F. Are theories of learning necessary? Psychological Review, 1950, 57, 193-216. Skinner, B. F. A case history in scientific method. American Psychologist, 1956, 11, 221-233.




Skinner, B. F. Verbal behavior. New York: Appleton-Century-Crofts, 1957. Smith, K. Conditioning in an artifact. Psychological Review, 1954, 61, 217-225. Solomon, R. L. Punishment. American Psychologist, 1964, 19, 239-253. Staddon, J. E. R., & Simmelhag, V. L. The “superstition” experiment: A reexamination of its implications for the principles of adaptive behavior. Psychological Review, 1971, 78, 3-43. Thistlethwaite, D. A critical review of latent learning and related experiments. Psychological Bulletin, 1951, 48, 97-129. Thorndike, E. L. Animal intelligence: An experimental study of the associative processes in animals. Psychological Monographs, 1898, 2, 109. Thorndike, E. L. The psychology of learning. New York: Teachers College, 1913. Watson, J. B. Psychology from the standpoint of a behaviorist. Philadelphia: Lippincott, 1919. Weiss, B., & Laties, V. G. Behavioral thermoregulation. Science, 1961, 133, 1338-1344. Woodworth, R. S., & Schlosberg, H. Experimental psychology. (Rev. ed.) New York: Holt, Rinehart & Winston, 1954. Figure 2.2: Copyright 1938, 1954 by Holt, Rinehart and Winston, Inc. Copyright 1966 by Mrs. Greta Woodworth Herron, Svenson Woodworth, William Woodworth, and Virginia Woodworth. Reprinted by permission of Holt, Rinehart and Winston, Inc. Zener, K., & McCurdy, H. G. Analysis of motivation factors in conditioned behavior: I. Differential effect of change in hunger upon conditioned, unconditioned, and spontaneous salivary secretion. Journal of Psychology, 1939, 8, 321-350.

la naturaleza del aprendizaje

Documents