repaso logopedia.pdf

76
TEMA 3 Percepción del Lenguaje Así dice uno de los personajes de la espléndida novela de Javier Marías, Tu rostro mañana. Fiebre y Lanza, sobre el habla humana. Era a propósito de la campaña británica durante la Segunda Guerra Mundial que alertaba de los peligros de hablar sin cuidado con los demás, por miedo a los espías nazis. A pesar de su longitud no me resisto a incluirlo (y animar también a leer la novela): De pronto a la gente le fue presentada su propia lengua como enemiga invisible, [...] se la hizo desconfiar de la actividad a la que se entrega y se ha entregado siempre de manera natural, sin reservas, en todo tiempo y en todo lugar, no sólo aquí y entonces; se nos enemistó con lo que más nos define y más nos une: hablar, contar, decirse, comentar, murmurar, y pasarse información, criticar, darse noticias, cotillear, difamar, calumniar y rumorear, referirse sucesos y relatar ocurrencias, tenerse al tanto y hacerse saber, y por supuesto también bromear y mentir. Esa es la rueda que mueve al mundo, Jacobo, por encima de cualquier otra cosa; ese es el motor de la vida, el que nunca se agota ni se para jamás, ese es su verdadero aliento. Y de pronto se le pidió a la gente que lo apagara, ese motor; que dejara de respirar, [...] aquello por lo que vivimos y de lo que todos pueden disfrutar y valerse sin excepción, los pobres como los ricos, los incultos como los instruidos, los viejos como los niños, los enfermos como los sanos, los soldados como los civiles. Si algo hacen o hacemos todos que no sea una estricta necesidad fisiológica, si algo nos es verdad común en tanto seres con voluntad, eso es hablar, Jacobo. [...]" El hombre más sabio del mundo hablará con mayores orden y propiedad y precisión, y con mayor provecho para sus oyentes tal vez, [...] Pero no necesariamente hablará más ni con mayor soltura que el ama de casa semianalfabeta que no calla en todo el día un segundo [...] El hombre más viajado del mundo podrá contar infinitas historias amenas y maravillosas, incontables anécdotas y aventuras de países inauditos, remotos, exuberantes y peligrosos. Pero no necesariamente hablará más ni con mayor desparpajo que el tabernero rudo que nunca ha salido de detrás de su barra y sólo ha visto en su vida las veinte calles y el par de plazas de que se compone su aldea recóndita. (Marías, 2002; pp. 409-410, de la edición de Alfaguara). Este fragmento ilustra brillantemente el valor del habla en la vida cotidiana humana. Aquí, sin embargo, nos vamos a centrar sólo en su percepción y en los procesos que lo hacen posible. Para comprenderlo mejor, conviene entender antes cuáles son los mecanismos básicos de la audición. Al mismo tiempo, debemos conocer cuál es la naturaleza física del estímulo: cómo se genera desde el punto de vista articulatorio y, tratándose de un estímulo sonoro, cuáles son sus bases acústicas.

Upload: nililla

Post on 26-Dec-2015

54 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: REPASO LOGOPEDIA.pdf

TEMA 3

Percepción del Lenguaje

Así dice uno de los personajes de la espléndida novela de Javier Marías, Tu rostro mañana. Fiebre y Lanza, sobre el habla humana. Era a propósito de la campaña británica durante la Segunda Guerra Mundial que alertaba de los peligros de hablar sin cuidado con los demás, por miedo a los espías nazis. A pesar de su longitud no me resisto a incluirlo (y animar también a leer la novela):

De pronto a la gente le fue presentada su propia lengua como enemiga invisible, [...] se la hizo desconfiar de la actividad a la que se entrega y se ha entregado siempre de manera natural, sin reservas, en todo tiempo y en todo lugar, no sólo aquí y entonces; se nos enemistó con lo que más nos define y más nos une: hablar, contar, decirse, comentar, murmurar, y pasarse información, criticar, darse noticias, cotillear, difamar, calumniar y rumorear, referirse sucesos y relatar ocurrencias, tenerse al tanto y hacerse saber, y por supuesto también bromear y mentir. Esa es la rueda que mueve al mundo, Jacobo, por encima de cualquier otra cosa; ese es el motor de la vida, el que nunca se agota ni se para jamás, ese es su verdadero aliento. Y de pronto se le pidió a la gente que lo apagara, ese motor; que dejara de respirar, [...] aquello por lo que vivimos y de lo que todos pueden disfrutar y valerse sin excepción, los pobres como los ricos, los incultos como los instruidos, los viejos como los niños, los enfermos como los sanos, los soldados como los civiles. Si algo hacen o hacemos todos que no sea una estricta necesidad fisiológica, si algo nos es verdad común en tanto seres con voluntad, eso es hablar, Jacobo. [...]"

El hombre más sabio del mundo hablará con mayores orden y propiedad y precisión, y con mayor provecho para sus oyentes tal vez, [...] Pero no necesariamente hablará más ni con mayor soltura que el ama de casa semianalfabeta que no calla en todo el día un segundo [...] El hombre más viajado del mundo podrá contar infinitas historias amenas y maravillosas, incontables anécdotas y aventuras de países inauditos, remotos, exuberantes y peligrosos. Pero no necesariamente hablará más ni con mayor desparpajo que el tabernero rudo que nunca ha salido de detrás de su barra y sólo ha visto en su vida las veinte calles y el par de plazas de que se compone su aldea recóndita. (Marías, 2002; pp. 409-410, de la edición de Alfaguara).

Este fragmento ilustra brillantemente el valor del habla en la vida cotidiana humana. Aquí, sin embargo, nos vamos a centrar sólo en su percepción y en los procesos que lo hacen posible. Para comprenderlo mejor, conviene entender antes cuáles son los mecanismos básicos de la audición. Al mismo tiempo, debemos conocer cuál es la naturaleza física del estímulo: cómo se genera desde el punto de vista articulatorio y, tratándose de un estímulo sonoro, cuáles son sus bases acústicas.

Page 2: REPASO LOGOPEDIA.pdf

2 Psicología del Lenguaje (texto: Julio González)

AUDICIÓN

Para percibir el lenguaje hablado, lo primero que tiene que ocurrir es que el estímulo ingrese en el sistema cognitivo a través del oído, uno de nuestros órganos sensoriales. Veamos antes unas notas generales sobre los mismos y los patrones de energía a los que son sensibles. Energía y órganos sensoriales Los organismos disponen de sistemas especializados en captar patrones de energía que reflejen la estructura del entorno de un modo útil para su supervivencia. Gracias a la evolución biológica, la naturaleza ha dado con diversas soluciones específicas. En la Figura# podemos observar todo el espectro electromagnético de la radiación de la energía, de acuerdo con su naturaleza ondulatoria. Gracias a las ondas, la energía viaja y se transmite en diferentes frecuencias de oscilación. Una oscilación por segundo se conoce como hertzio (Hz) o hercio. Cuanto más rápida es la frecuencia oscilatoria, la longitud de onda, es decir el trayecto que recorre una oscilación en el espacio, es menor. En el caso de las frecuencias visibles, si la luz viaja a unos 300.000 kms por segundo de forma constante, cuantas más oscilaciones presente en un segundo (colores azules y violetas), menos longitud le corresponde a cada oscilación. Si es un color con menos oscilaciones (rojo), la longitud de onda es mayor. La energía con mayor frecuencia oscilatoria son los rayos gamma, que vibran en torno 1024 veces por segundo; o sea un millón de trillones de veces por segundo; ¡se dan mucha prisa por oscilar! Su longitud de onda es cortísima, más pequeña que un átomo y, por tanto, su poder de penetración en los cuerpos es enorme. Los rayos gamma son emitidos por las sustancia radiactivas, como el uranio, el plutonio, etcétera; pero el principal productor de rayos gamma es el Universo.

Un poco más lentos (1 trillón de veces por segundo) oscilan los rayos X, cuya capacidad de penetración les permite atravesar los tejidos blandos, pero no los duros como los huesos, de ahí su aplicación diagnóstica en la medicina. Los gases calientes del universo los emiten.

A continuación, el espectro visible, o la gama de frecuencias que pueden captar nuestros ojos es un margen estrecho que abarca menos de un 2% de todo el espectro electromagnético. Su ventaja es que son ondas emitidas (reflejadas) prácticamente por todos los objetos de nuestro planeta (salvo los transparentes como el aire) y, en consecuencia, muy informativas respecto a la estructura del entorno. Su frecuencia de vibración está en torno a 1015 (1000 billones) veces por segundo y la longitud de onda sobre una milésima de milímetro. Su rango va desde frecuencias rápidas para el color violeta (por encima está el ultravioleta, no visible para nosotros) hasta frecuencias más lentas para el rojo (por debajo está el infrarrojo, tampoco visible, aunque sí perceptible como calor).

Las microndas son más lentas en su vibración (varios millones de veces por segundo) y con una longitud mayor de onda (1 cm). Además de sus aplicaciones culinarias, nos informan de la estructura de la Vía Láctea y de otras galaxias lejanas; en estas frecuencias se sitúa el rádar.

Las siguientes más lentas son las radiofrecuencias, que emiten las estrellas del universo y también las que captan nuestros receptores de radio y TV. Sus vibraciones se cuentan en megahertzios, es decir, sólo millones de ciclos por segundo y su longitud de onda abarca kilómetros.

Y finalmente llegamos a las audiofrecuencias, o energía que vibra con una frecuencia que puede captar nuestro oído: desde tan sólo 20 veces por segundo hasta 20.000 (20-20.000 Hz es nuestro rango auditivo). Estas frecuencias también se pueden medir en kilohertzios (mil hertzios). Por encima de 20.000 Hz están los ultrasonidos, inaudibles para nosotros los humanos.

O sea, de todas las posibilidades que ofrece el espectro electromagnético, nos hemos especializado en "capturar" y procesar sólo unos rangos frecuenciales relativamente estrechos (espectro visible y audible) que han sido claves para nuestra supervivencia como especie. Si durante la evolución como vertebrados y mamíferos, las radiofrecuencias, pongamos por caso, hubieran sido importantes para sobrevivir (localización de alimento, detección de depredadores radioeléctricos, etc.) hoy probablemente dispondríamos de órganos sensibles a las mismas y, tal vez, admiraríamos la arrebatadora belleza de un paisaje eléctrico. En el reino animal las posibilidades se ensanchan. Somos ciegos a la radiación ultravioleta, pero las abejas y otros insectos

Page 3: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 3

ven el "color" ultravioleta en muchas flores. Muchos pájaros perciben el campo magnético terrestre para la navegación migratoria. Gatos y lechuzas ven en la noche con intensidades lumínicas muy bajas. Algunos peces tienen receptores eléctricos. En la actualidad se investiga si algunos animales pueden percibir ondas de bajas frecuencias anticipatorias de terremotos y tsunamis. En el ser humano, es la visión el órgano sensorial más informativo del entorno, en términos físicos. Se habla de que quizá más del 80% de toda la información física que recibimos del exterior entra por los ojos. De hecho, si de pronto perdiéramos un sentido, sería la vista el que, con más probabilidad, nos colocaría en una situación comprometida para nuestra integridad (conduciendo un vehículo, trabajando en un andamio, cruzando una calle, etc.). Lo que no sucedería con el oído y otros sentidos. Pero el sentido de la audición tiene "truco" en los humanos. Por culpa del lenguaje, dentro de ese estrecho canal de información física entra un verdadero torrente de información simbólica, clave para nuestra representación mental del mundo, tanto inmediato como remoto, y, en última instancia, para nuestra supervivencia como civilización.

Page 4: REPASO LOGOPEDIA.pdf

4 Psicología del Lenguaje (texto: Julio González)

Rayos X

Visible

Microondas

Radiofrecuencias

Ultravioleta

Infrarrojo

106 m = 1000 km

105 m = 100 km

103 m = 1km

1m

10-2 m = 1cm

10-6 m

10-10 m

Ultrasonidos

(radar)

(radio, TV)

Agudos

Graves

Audio

Rayos Gamma

1024 Hz

1018 Hz

1015 Hz

109 Hz

20.000 Hz

20 Hz

Frec

uenc

ia d

e os

cila

ción

Longitudde onda(metros)

10-14 m

Figura#. Espectro electromagnético y ubicación de las frecuencias ondulatorias que percibimos los humanos (espectro visible y audible).

Page 5: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 5

Oído El oído es el órgano sensorial responsable de la audición y el equilibrio, aunque sólo nos ocuparemos de la primera. Como hemos visto, nuestro rango de audición abarca frecuencias comprendidas entre 20-20.000 ciclos por segundo, o hertzios (Hz). En realidad, el común de los mortales nos quedamos en torno a los 16.000 Hz o un poco más; sólo gente joven, con muy buen oído, y en condiciones perfectas de escucha, alcanza a percibir un tono agudísimo de 20.000 Hz. Los animales varían ampliamente en sus rangos auditivos; en la Tabla# presentamos algunos. Un ratón es sordo a los sonidos graves; es decir, no percibe cualquier frecuencia inferior a 1000 ciclos por segundo. La chinchilla tiene un rango próximo al humano y su oído es semejante al nuestro, por lo que se la emplea bastante en estudios sobre fisiología auditiva. Murciélagos y delfines nos sobrepasan ampliamente en la capacidad de percibir frecuencias altas. Los primeros utilizan un mecanismo de ecolocalización de presas (insectos voladores) a través de ultrasonidos; los segundos disponen de un sistema de sonar o localización de objetos en medio acuático. El oído humano se compone de tres partes: oído externo, medio, e interno. En la Figura# vemos su esquema general y el recorrido que siguen las vibraciones acústicas del estímulo. Para mayor claridad se muestra al caracol extendido, completamente "desenrrollado". La clave de la audición reside en las "arrugas" que las vibraciones producen en la membrana basilar del caracol. Sobre ella se dispone el verdadero órgano auditivo, u órgano de Corti, como veremos luego. El oído externo está formado por el pabellón auricular (oreja) y el conducto auditivo externo, un tubo de forma irregular de unos 25 milímetros de longitud y tapizado de glándulas secretoras de cera. La oreja, entre otras funciones, nos ayuda a localizar la fuente del sonido; no suena igual un sonido proveniente del frente que de atrás, porque las orejas proyectan una "sombra" sonora. Al contrario que otros mamíferos, no disponemos de control motor sobre los pabellones para una orientación activa. El oído medio consta de la cavidad timpánica, un hueco óseo lleno de aire y ocupado por los huesecillos auditivos, que van desde el tímpano hasta el caracol, en el oído interno. El tímpano es una membrana que recibe las vibraciones de los sonidos que entran en el conducto auditivo. Su sensibilidad es extraordinaria, le afecta cualquier pequeña vibración; si fuera algo más sensible, escucharíamos el movimento browniano de las moléculas del aire, lo cual no sería nada interesante para la audición (un zumbido constante). Los huesecillos forman una cadena articulada de tres piezas, martillo, yunque y estribo, cuya misión es transmitir el sonido desde el tímpano hasta la ventana oval del caracol. Actúan como un sistema de palancas que traducen las vibraciones del tímpano en microvibraciones de menor recorrido pero de mayor impedancia, es decir, percuten con más "fuerza" sobre el caracol. Esto es necesario a causa de los fluidos que contiene el caracol, de modo que las vibraciones tienen que pasar desde un medio áereo a un medio líquido, que ofrece más resistencia. Los huesecillos son controlados por los músculos del estribo y el tensor del tímpano. Gracias al llamado reflejo timpánico o acústico, si recibimos sonidos de gran intensidad (una explosión; el ruido de un martillo neumático), estos músculos se contraen reduciendo la cantidad de energía transmitida y protegiendo, así, al oído interno.

Page 6: REPASO LOGOPEDIA.pdf

6 Psicología del Lenguaje (texto: Julio González)

Tabla# Rangos frecuenciales de audición para distintas especies animales. Hz: hertzios o ciclos por segundo.

Humano: 20 Hz - 20.000 Hz

Chimpancé: 100 Hz - 20.000 Hz

Gato: 30 Hz - 50.000 Hz

Perro: 50 Hz - 46.000 Hz

Chinchilla: 75 Hz - 20.000 Hz

Rata: 1.000 Hz - 60.000 Hz

Ratón: 1.000 Hz - 100.000 Hz

Conejo: 300 Hz - 45.000 Hz

Paloma: 200 Hz - 10.000 Hz

Gorrión: 250 Hz - 12.000 Hz

Rana: 100 Hz - 3.000 Hz

Tortuga: 20 Hz - 1.000 Hz

Murciélago: 3.000 Hz - 120.000 Hz

Delfín: 1.000 Hz - 130.000 Hz

membrana basilar

Figura#. Esquema del oído y de la trayectoría que siguen las vibraciones acústicas. Para mayor claridad gráfica se ha representado al caracol extendido. La audición ocurre gracias a las "arrugas" que se producen en la membrana basilar. Adaptado de Ramirez Camacho (1990).

Page 7: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 7

membrana tectoria

órgano de Corti

membrana basilar

perilinfa

perilinfa

fibras nerviosas

Figura#. Cóclea o caracol. A la derecha, detalle ampliado de un corte transversal de la cóclea. Las fibras nerviosas procedentes del órgano de Corti se reúnen en el nervio auditivo

membrana tectoria

célula ciliada

membrana basilar

membrana tectoria

fibras nerviosas

células ciliadas externas

cilios

células ciliadas internas

Figura#. Estructura del Órgano de Corti. A la derecha se muestra el mecanismo de generación del impulso nervioso al inclinarse los cilios de las células ciliadas.

Page 8: REPASO LOGOPEDIA.pdf

8 Psicología del Lenguaje (texto: Julio González)

El oído interno contiene el aparato sensorial propiamente dicho –órgano de Corti–, encerrado en el caracol o cóclea. La cóclea (Figura#) es una estructura ósea con forma espiral, que recuerda la concha de un caracol después de dar dos vueltas y media sobre sí misma. Un corte transversal de la cóclea nos muestra dos canales amplios, uno superior y otro inferior, rellenos de un fluido fisiológico conocido como perilinfa. Entre ambos, separado por tabiques membranosos, el canal coclear alberga al órgano de Corti sumergido en otro líquido de composición distinta, la endolinfa.

El órgano de Corti (Figura#), así llamado en honor del anatomista Corti (1822-1876) que desarrolló una técnica de tinción reveladora de su estructura interna, se compone de un conjunto de células ciliadas colocadas sobre la membrana basilar y protegidas por encima por un manto o techo membranoso, llamado membrana tectoria (del latín tectum, techo). Estas células se disponen en tres hileras externas (células ciliadas externas) y una hilera interna (células ciliadas internas), separadas entre sí por células de sostén. Las células ciliadas se llaman así porque su parte superior termina en una serie de pelitos, o cilios, conectados a la membrana tectoria. Estos cílios son claves para la audición.

Audición

En esencia, la audición consiste en la transformación de una forma de energía en otra que sea manejable por el sistema nervioso. Concretamente, la transducción de la energía mecánica del sonido en energía eléctrica que conduce el nervio auditivo al cerebro. Su mecanismo íntimo está relacionado, como hemos dicho, con los cilios de las células ciliadas: cada vez que éstos cambian de orientación, es decir, se inclinan hacia un lado u otro, una reacción bioquímica genera un impulso neuroeléctrico que abandona la célula por una fibra nerviosa (Figura#, parte derecha).

Los cilios se inclinan cada vez que la membrana tectoria se desplaza respecto a las células ciliadas, en un movimiento de cizallamiento, como resultado de las vibraciones acústicas. En cada oído, toda la información auditiva es transducida por unas 15.000 células ciliadas, de las cuales juegan un papel esencial las 3.500 células ciliadas internas. Los impulsos nerviosos se canalizan a través de aproximadamente 30.000 fibras nerviosas que se agrupan en el nervio auditivo (octavo par craneal). El 95 % de estas fibras proceden de las células ciliadas internas.

Page 9: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 9

membrana basilar

Frec. Alta

Frec. Media

Frec. Baja

440 Hz

880 Hz

1400 Hz

onda compleja

Figura#. Deformación de la membrana basilar por las ondulaciones del sonido. Los puntos de máxima deformación dependen de la frecuencia vibratoria del estímulo. A la derecha, la membrana basilar actúa como una analizador de frecuencias de un estímulo complejo. Recapitulemos, cuando el sonido alcanza el oído, sus vibraciones se transmiten, vía tímpano y cadena de huesecillos, hasta la membrana basilar del caracol, sobre la que se dispone el órgano de Corti. Las ondulaciones se desplazan a lo largo de la membrana basilar (Figura#), causando la activación de las células ciliadas (no visibles en la figura) al cambiar la posición de éstas y moverse sus cilios. Aquí es importante reparar en un detalle: gracias a las diferencias de elasticidad de la membrana, ésta actúa como un analizador de frecuencias. La onda se desplaza sobre la membrana basilar marcando zonas de máxima deformación, o picos, en las que se produce una activación máxima (más impulsos nerviosos) de las células ciliadas. Estas zonas dependen de la frecuencia vibratoria del estímulo. Si el sonido es muy agudo –tiene una frecuencia alta–, la onda es más marcada al principio de la membrana basilar. Si el sonido es grave –tiene una frecuencia baja–, la onda es más pronunciada al final de la membrana basilar. Con las frecuencias medias, el punto de máxima deformación se localiza entre ambos extremos. Cada parte de la membrana basilar corresponde, así, a una frecuencia distinta; es como si las teclas de un piano se colocaran a lo largo de su recorrido. De hecho, si, de forma artificial, se estimula eléctricamente un punto de la membrana, la persona oye un tono que es más agudo o grave, según la parte estimulada.

Todo esto sucede con los tonos puros, constituidos por una única frecuencia. En la naturaleza y en el lenguaje, los sonidos están formados por ondas complejas que incorporan varias frecuencias distintas a la vez. La membrana basilar actúa así como si fuera un analizador de frecuencias (un analizador de Fourier) presentando simultáneamente varios picos o zonas más pronunciadas que reflejan las frecuencias componentes. Otro rasgo importante de la membrana basilar: las características elásticas del tejido membranoso hacen que los puntos correspondientes a las frecuencias bajas estén más separados entre sí que los de las frecuencias altas. Esto es el origen de nuestra mayor sensibilidad para discriminar frecuencias bajas, frente a las altas (p.e., percibimos como

Page 10: REPASO LOGOPEDIA.pdf

10 Psicología del Lenguaje (texto: Julio González)

distintos dos sonidos de 220 y 225 Hz, pero no de 5.000 y 5.005 Hz). Esto tiene consecuencias en las propiedades generales de nuestra audición y, en particular, del lenguaje: los primeros formantes, que son bandas frecuenciales críticas para percibir las vocales y muchas consonantes, ocupan posiciones bajas en el espectro acústico (por debajo de 2.500 Hz). Toda la información neuroelectrica es transmitida por el nervio auditivo hasta el cortex cerebral. Conviene señalar tres observaciones:

• Dos tercios de las fibras nerviosas procedentes de un oído cruzan hacia el hemisferio cerebral opuesto (contralateral), mientras que un tercio se queda en el hemisferio del mismo lado (ipsilateral). Esto significa que la mayor parte de la información acústica se proyecta inicialmente al hemisferio opuesto; luego pasará inmediatamente al otro hemisferio gracias al cuerpo calloso. En los experimentos con estímulos de lenguaje es habitual encontrar la llamada ventaja del oído derecho, porque la información llega principalmente al hemisferio izquierdo, que es el dominante para el procesamiento lingüístico.

• Los impulsos nerviosos son transmitidos por el nervio auditivo desde el órgano de Corti hasta la corteza cerebral, pero no de forma directa sino a través de 4-5 (dependiendo de si cruzan o no de lado) estaciones de relevo, o núcleos nerviosos donde se establecen sinapsis entre las conexiones. Hay evidencia de que la señal neuroacústica es sometida a ciertas transformaciones en cada núcleo, por lo que ésta llega a la corteza cerebral bastante "trabajada", con cierto nivel de elaboración pre-perceptiva.

• La señal nerviosa se proyecta sobre el área auditiva primaria en la corteza temporal del cerebro. Esta área tiene una organización tonotópica, de manera que las distintas frecuencias o tonos activan diferentes neuronas, dispuestas ordenadamente sobre la corteza de menor a mayor frecuencia. Tonos adyacentes estimulan neuronas (columnas neuronales) adyacentes. Después, la información pasará a las áreas auditivas secundarias para someterse a nuevas transformaciones, que serán claves para interpretar lo oído (identificar objetos sonoros, percibir el lenguaje, crear una representación sonora del entorno, etcétera).

Page 11: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 11

ARTICULACIÓN DEL HABLA

En la producción del habla intervienen de forma coordinada más de un centenar de músculos pertenecientes a grupos musculares distintos y controlados por nervios diferentes. Hablar es un verdadero prodigio de ingenieria biomecánica que requiere una finísima sincronización entre muchos movimientos en secuencias complejas. Desde el punto de vista motor, es tal vez la conducta más complicada del repertorio humano (Fink, 1986). Por ejemplo, la lengua, el órgano más móvil del cuerpo, tiene encerrados en un pequeño espacio diecisiete músculos independientes. Ninguna otra parte del cuerpo, ni siquiera la mano, ejecuta de forma natural movimientos comparables en rapidez y complejidad a la de los órganos del habla. Únicamente la digitación de un pianista experto podría servir de comparación. Probablemente, la responsabilidad central de esta extraordinaria orquestación motora recae en estructuras neurales relacionadas con el área de Broca y determinados circuitos subcorticales. Se pueden distinguir tres funciones fisiológicas que concurren simultáneamente en la producción del habla: a) respiración, que provee la energía mecánica necesaria mediante el suministro de aire a presión, b) fonación, que genera la fuente del sonido o materia prima acústica gracias a las cuerdas vocales, y c) articulación, que "moldea" la materia prima a través de los órganos articulatorios del tracto o conducto vocal (Figura #). Hay órganos articulatorios fijos (paladar duro u óseo, cavidad nasal, dientes) y móviles (labios, lengua, velo del paladar o paladar blando, y la mandíbula). Las cuerdas vocales son dos estructuras anatómicas ubicadas en la laringe que el dueño puede controlar de forma voluntaria. Cuando se respira en silencio, permanecen relajadas y separadas, dejando circular el aire que entra y sale de los pulmones. Para hablar, el hablante tensa determinados músculos que las mantienen próximas y, al pasar el aire a presión a su través, vibran con una frecuencia determinada, en movimientos rápidos de apertura y cierre (Figura#). Mientras hablamos, controlamos los músculos respiratorios (diafragma y músculos intercostales) para ir dosificando tanto la presión como la cantidad de aire que gastamos. Las cuerdas vocales participan en la producción de las vocales y las consonantes sonoras (/b/, /d/, /g/, /m/, /l/, etc.); no intervienen, sin embargo, en las consonantes sordas (/p/, /t/, /k/, /s/, /f/, /θ/, etc., ver el cuadro general de las consonantes castellanas en el capítulo 1) (/θ/ es el símbolo fonológico que representa la z castellana).

Jugando al mismo tiempo con la presión del aire y la tensión que comunicamos a las cuerdas vocales, podemos modificar la frecuencia de vibración y entonar melodías. Así es como generamos, también, la entonación del lenguaje y, con ella, hacemos preguntas, transmitimos emociones, expresamos matices, etcétera, según unas pautas en gran medida universales, pese a la diversidad de lenguas.

El sonido vibratorio por sí solo no es lingüístico, no comunica mensajes ni porta vocales o consonantes; ni siquiera suena a humano. Si nuestras cuerdas vocales estuvieran implantadas en el cuello dando directamente al exterior, sonarían más a una chicharra de verano que a una voz humana. Es a su paso por la garganta, más exactamente, a través del tubo o tracto vocal, cuando el sonido vibratorio adquiere las resonancias propias de la voz y se articula en habla, se modula acústicamente para crear los segmentos fonéticos.

Page 12: REPASO LOGOPEDIA.pdf

12 Psicología del Lenguaje (texto: Julio González)

Teoría de la fuente y el filtro. La producción de habla responde a un modelo físico, ampliamente aceptado por la comunidad científica: la denominada teoría de la fuente y el filtro (Fant, 1960). Aunque su origen es anterior, el desarrollo matemático se debe al sueco Gunnar Fant. En esencia, el modelo considera que el sonido del habla se forma gracias a la conjunción de dos factores: la fuente y el filtro. La materia prima acústica se crea en la fuente, o punto donde se genera el sonido base que luego habrá que filtrar o modelar. Esta fuente se sitúa en las cuerdas vocales si se trata de sonidos sonoros (vocales y consonantes sonoras). En el caso de las consonantes sordas, la fuente está en el punto de la boca donde se produce el ruido consonántico; por ejemplo, en las fricativas es el paso estrecho donde el aire fricciona con fuerza al pasar a su través (entre la lengua y los alveolos, en la /s/; entre los dientes superiores y el labio inferior, en la /f/; etc.).

El sonido generado en la fuente se propaga a través del tracto vocal y, de acuerdo con los principios de la física de tubos, es sometido a sus resonancias, sufre un proceso complejo de filtrado, donde unas frecuencias se refuerzan y otras se atenúan. Es como si una materia prima fuera esculpida acústicamente y recibiera una forma determinada. Son los mismos principios físicos que rigen, por ejemplo, en un órgano musical de tubos, expresables a través de complejas fórmulas matemáticas.

paladar alveolos

velo

úvula

lengua labios

epiglotis

dientes

laringe

cuerdas vocales

glotis

Figura#. Corte esquemático del tracto vocal, con los principales órganos que intervienen en la fonación (cuerdas vocales) y articulación (labios, lengua, dientes, paladar, etc.) de los sonidos del habla.

Page 13: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 13

Desde el punto de vista acústico, el tracto vocal de un varón medio, medido desde las cuerdas vocales hasta los labios, equivale a un tubo recto cilíndrico de 17.5 cm de largo (Pickett, 1999) y 5 cm2 de sección (Figura#). El tracto de la mujer es, en promedio, alrededor de un 15 % más corto (14.75 cm). El hecho de que el tubo sea recto o curvado, como en el caso real, es irrelevante acústicamente. Lo importante de verdad es que el tubo experimente una constricción o estrechamiento en alguna parte de su recorrido. Dependiendo del lugar donde aparezca esta constricción, cambia completamente el juego de resonancias del tubo, o las frecuencias concretas que se potencian y se atenúan, dando lugar a resultados acústicos muy distintos. Precisamente cuando hablamos creamos estas constricciones gracias a nuestros órganos articuladores, sobre todo la lengua. La función de filtro que ejerce el tracto vocal a través de sus resonancias es lo que marca la diferencia entre, verbigracia, una /a/ y una /e/.

En la producción de las consonantes la constricción es más cerrada que en las vocales, hasta el extremo de que en las oclusivas se produce, de hecho, una oclusión o cierre completo. Según el lugar del tracto vocal donde se produce la constricción principal, hablamos de consonantes labiales, dentales, palatales, velares, etc.; es lo que se llama el punto de articulación. La forma en que se crean los fonemas constituye el modo de articulación. Por ejemplo, los sonidos nasales como la /m/, o la /n/, se forman al intervenir un segundo juego de resonancias, gracias a la cavidad nasal; esto ocurre porque voluntariamente abrimos el paso del aire con nuestro velo del paladar.

Cuando el control motor de los músculos implicados falla a consecuencia de un daño neurológico, se articulan mal los fonemas y se obtiene un habla con poca inteligibilidad. Es lo que ocurre en las disartrias (por parálisis cerebral, traumas, accidentes vasculares, o enfermedades neurodegenerativas como: parkinson, esclerosis múltiple, esclerosis lateral amiotrófica, ataxias, etcétera). A diferencia de las afasias, el lenguaje en sentido estricto está preservado, el daño solo afecta al habla en su aspecto motor. El disártrico entiende perfectamente el lenguaje de los demás, y tiene una representación mental clara de lo que quiere decir, su dificultad reside en el envío de las órdenes motoras. También tiene problemas, al reves que el afásico, para imitar gestos con la boca o la lengua y mover músculos individuales; en los casos más gravés se presenta sialorrea (babeo) y dificultad en la deglución. Si en el afásico de Broca estaban dañadas las "partituras" de la orquesta motora, aquí es la ejecución de los instrumentos individuales lo que falla.

Page 14: REPASO LOGOPEDIA.pdf

14 Psicología del Lenguaje (texto: Julio González)

Figura#. Un ciclo vibratorio de las cuerdas vocales durante el habla, en un varón con la voz muy aguda. En un segundo caben 222 ciclos como este.

constricción

17.5 cm

labios

cuerdas vocales

Figura#. Acústicamente, el tracto vocal de un varón medio equivale a un tubo de 17.5 cm de largo. La forma recta o curva es irrelevante; pero una constricción en una parte de su recorrido tiene importantes consecuencias acústicas.

Page 15: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 15

BASES ACÚSTICAS DEL HABLA

Abordar el lenguaje oral desde el punto de vista material, de su realización física o acústica, es referirse al habla; por lo que aquí emplearemos los términos lenguaje o habla humana de forma indistinta. Lo primero que no hay que olvidar es que el lenguaje es sonido y, por consiguiente, participará de todas las propiedades de éste. Para entender esto, hemos de hacer previamente un rápido repaso de las principales características del sonido.

Ondas acústicas El sonido se produce cuando un cuerpo vibra y comunica la vibración a las moléculas del entorno (aire, agua) y esta energía es recibida por el oído. En el vacío no puede escucharse el sonido porque faltan las moléculas que tranportarían la energía vibratoria. Cuando una piedra cae en un estanque de agua, se forman ondas concéntricas que se expanden a través de la superficie tranquila. Si observamos qué ocurre con un corcho de pesca o cualquier otro objeto flotante, vemos que se mueve arriba y abajo, pero no se desplaza en sentido lateral. Lo que se desplaza realmente es la onda, la energía ondulatoria; las moléculas individuales sólo se mueven localmente y comunican el movimiento a las vecinas.

Cuando un objeto vibra en el aire, ocurre algo parecido, pero debemos imaginarlo en tres dimensiones: esferas concentricas que se expanden desde el punto de la vibración. Nuestro cerebro es una maquinaria biológica que, entre otras cosas extrañas y maravillosas, tiene la capacidad de extraer significados a partir estos movimientos moleculares. En ese movimiento vibratorio u ondulatorio, las moléculas se acercan y se separan entre sí, transmitiendo las sacudidas de unas a otras (Figura #). Podemos representar dicho movimiento mediante una onda, o línea ondulante que sube y baja formando "picos" y "valles". Los picos corresponderían a los momentos en que hay una presión positiva y las moléculas se juntan, y los valles a los momentos de presión negativa, en los que las moléculas se separan.

Las piezas básicas del sonido son las ondas puras o simples, que no pueden descomponerse en ninguna otra. También se llaman ondas sinoidales o sinusoidales, porque en su fórmula matemática interviene la función seno. En la naturaleza prácticamente no existen ondas puras (sólo complejas), pero las podemos conseguir por medios electrónicos u ordenadores, y también mediante un dispositivo físico fabricado con ese propósito: el diapasón (Figura 2#). El diapasón sirve para afinar los instrumentos de música, produciendo una onda pura cuya vibración corresponde a la nota La, de 440 hertzios (Hz) o vibraciones por segundo. Al pellizcar los extremos del diapasón, éstos vibran y comunican su movimiento a las moléculas del aire, sonando con un sonido limpio que sirve de referencia a los músicos.

Una onda pura está formada por una sucesión de ciclos o patrones de vibración que se repiten en el tiempo. Cada ciclo lo forman un pico y un valle (Figura 3#) que suben y bajan en torno a un punto central de energía cero. Dependiendo de la velocidad de vibración, las ondas varían en el número de ciclos que caben en un segundo, dando lugar a la dimensión o variable frecuencia. Las ondas que nacen de movimientos vibratorios rápidos, tienen una frecuencia alta, con muchos ciclos por segundo (o hertzios) y se perciben como agudas. Las ondas que nacen de movimientos vibratorios lentos, tienen una frecuencia baja, con pocos ciclos por segundo y se perciben como graves. Cada objeto sólido tiene una frecuencia de

Page 16: REPASO LOGOPEDIA.pdf

16 Psicología del Lenguaje (texto: Julio González)

vibración característica; en igualdad de condiciones un cuerpo largo vibrará más lentamente que uno corto. Así sucede, por ejemplo, con las cuerdas de una guitarra: cuanto más corta es la parte libre dejada por los dedos contra el mástil, más rápida vibra y más agudo es el sonido; cuanto más larga, más lenta es la vibración y suena más grave. En los humanos, las voces masculinas son más graves porque las cuerdas vocales de los varones son más largas que las de las mujeres.

Como se ha dicho, la frecuencia de una onda se mide en ciclos por segundo (cps) o hertzios (Hz). Un hertzio (o hercio), es un ciclo por segundo y debe su nombre en recuerdo del físico alemán Heinrich Rudolf Hertz (1857-1894).

Otra dimensión importante es la intensidad, o

amplitud del desplazamiento de la onda. Si se pellizca el diapasón de forma suave, sus extremos vibrarán con

un recorrido o amplitud pequeña y el sonido se percibirá como de baja intensidad. Si se pellizca el diapasón fuertemente, sus extremos vibrarán con gran amplitud y el sonido se percibirá con gran intensidad. Aunque existen diferencias entre ambos conceptos, a efectos nuestros vamos a considerar intensidad y amplitud como equivalentes. Su unidad de medida es el decibelio (dB), o la décima parte de un belio, así llamado en honor al físico escocés y norteamericano Alexander Graham Bell (1847-1922), inventor del teléfono.

Diapasón: nota LA (440 Hz)

Figura 2#. Diapasón o dispositivo físico construido para emitir una onda pura de 440 ciclos por segundo, equivalente a la nota LA.

Page 17: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 17

amplitud 0

un ciclo Figura 3#. Onda pura o simple, también llamada sinoidal o sinusoidal. En ella se ha marcado un ci-clo y la amplitud entre un pico y un valle. La línea central corresponde a cero energía.

La suma de varias ondas simples da lugar a una onda compleja. En la Figura 4# podemos observar que tres ondas simples, sumadas aritméticamente punto a punto, dan como resultado una onda compleja que también tiene ciclos que se repiten. Estos ciclos tienen una forma más complicada, pero claramente se aprecia un patrón de vibración que también se repite en el tiempo. Como ejercicio, fíjese el lector en las frecuencias y amplitudes de las tres ondas simples: la segunda onda tiene una frecuencia doble que la primera (caben 6 ciclos donde en aquélla hay sólo 3) y, por tanto, suena más aguda; la tercera tiene un frecuencia cuatro veces mayor que la primera (caben 12 ciclos) y suena aún más aguda. Respecto a la amplitud o intensidad, la primera y tercera son iguales, mientras que la segunda tiene la mitad de amplitud y suena, por tanto, más débil. Matemáticamente, pasar de las ondas simples a la compleja es sencillo: se trata simplemente de sumar cada punto con el correspondiente de las otras. El paso inverso, es decir, descomponer una onda compleja en sus ondas simples, es más complejo y el procedimiento matemático se conoce con el nombre de Análisis de Fourier, en honor al ingeniero y matemático francés Jean-Baptiste Joseph Fourier (1768-1830). En la naturaleza lo que existen son ondas complejas, formadas por la suma de muchas ondas simples. Hay dos clases de ondas complejas: periódicas, que tienen ciclos o patrones complejos de vibración que se repiten de forma periódica (como la de la Figura 4#), y aperiódicas, en las que no se pueden apreciar ciclos repetitivos. Perceptivamente son muy distintas: en las primeras oímos un sonido dotado de un tono o tonalidad; es el caso, de las notas musicales, de un silbido, de una sirena, o de las vocales y consonantes sonoras; las segundas se perciben como ruidos, sin tono, como ocurre con los ruidos causados por un soplo, un golpe, una fricción, una explosión, o las consonantes sordas. A modo de resumen, véase el esquema de la Figura 5#.

Unas y otras son la suma de muchas ondas simples; entonces ¿a qué obedece la dife-rencia? Muy sencillo: las ondas periódicas resultan de ondas simples que guardan entre sí una relación armónica; es decir, que todas ellas tienen una frecuencia múltiplo (doble, triple, etcétera) de la más lenta, que es la fundamental. Las ondas aperiódicas resultan de cientos o miles de ondas simples que no guardan esa relación y se rigen simplemente por las leyes del caos.

Volvamos a la figura 4#, las tres ondas simples tienen una relación armónica porque sus frecuencias son múltiplos (doble y cuádruple) de la primera o más lenta. El resultado es una onda compleja con ciclos. A la primera onda simple se le conoce con el nombre de fundamental porque impone su frecuencia al resultado final, o sea, a la onda compleja: obsérvese como ésta tiene también tres ciclos.

Page 18: REPASO LOGOPEDIA.pdf

18 Psicología del Lenguaje (texto: Julio González)

onda compleja

Análisis de Fouriersuma

Figura 4#. Onda compleja (abajo) como resultado de la suma punto a punto de tres ondas simples de distintas frecuencias y amplitudes. El paso inverso, desde la onda compleja a sus componentes simples, se consigue mediante el Análisis de Fourier.

Page 19: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 19

Ondas Complejas

Aperiódicas

Periódicas

Ondas Simples (periódicas)

música silbido sirena ...

vocales consonates sonoras

ruidos: soplo explosión fricción ...

consonates sordas

Figura 5#. Tipos de ondas acústicas y ejemplos de sus sonidos (generales y lingüísticos). En el lenguaje están también los dos tipos de ondas: periódicas, que corresponden a los sonidos sonoros producidos por la vibración de las cuerdas vocales (vocales, y consonantes sonoras como /b/, /d/, /g/, /m/, /n/, /r/, /l/, etc.) y aperiódicas que corresponden a los ruidos o sonidos sordos producidos por el paso del aire a través de un sitio estrecho, o una pequeña explosión causada por su brusca liberación, permaneciendo, en todo caso, inactivas las cuerdas vocales (consonantes sordas como /s/, /f/, /θ/, /p/, /t/, /k/, etc.). En la Figura 6# tenemos en el centro la onda acústica correspondiente a la frase "los médicos salen a la calle" dicha por una mujer joven. Como toda onda lingüística, es de carácter continuo, sólo aparentemente interrumpida por las consonantes oclusivas: /k/ de "médicos" y "calle". También se aprecia la naturaleza esencialmente rítmica del lenguaje humano, formado por una sucesión de elementos silábicos que alternan momentos de menor (consonantes) y mayor energía (núcleos vocálicos). A su vez, la onda acústica tiene segmentos periódicos en los que funcionan las cuerdas vocales y segmentos aperiódicos en los que éstas no participan. Se ha seleccionado un ejemplo ampliado de cada clase. Abajo se observa la onda periódica de la vocal /e/ de "salen", en la que claramente se aprecia una sucesión de ciclos semejantes; su naturaleza periódica es debida a la vibración de las cuerdas vocales, como así sucede en todas las vocales y consonantes sonoras. Arriba puede verse ampliada la onda correspondiente a la /s/ de "médicos", inequívocamente aperiódica, sin que puedan identificarse ciclos en ella. Se produce al pasar el aire a presión por un paso estrecho –formado entre la lengua y los alveolos superiores– y friccionar con los tejidos de las paredes. El aire forma infinidad de turbulencias o microrremolinos, cada uno con una frecuencia propia, sumando un conjunto desordenado de frecuencias que se rigen por las leyes del caos; el resultado es una onda extremadamente compleja pero aperiódica, porque sus componentes no guardan entre sí ninguna relación armónica. Aunque se trata de un sonido lingüístico, acústicamente se halla más próximo al ruido de un soplo o del viento.

Page 20: REPASO LOGOPEDIA.pdf

20 Psicología del Lenguaje (texto: Julio González)

onda aperiódica: /s/

onda periódica: /e/

Figura 6#. Onda acústica (centro) de la frase "los médicos salen a la calle". Arriba: fragmento ampliado de la onda aperiódica correspondiente a la consonante /s/ de "médicos"; en ella no se aprecian ciclos periódicos y se percibe como un ruido. Abajo: fragmento de onda periódica de la vocal /e/ de "salen"; en ella se aprecian claramente los ciclos periódicos.

Parámetros de la voz a partir de la onda. El análisis de las ondas acústicas del lenguaje permite obtener cierta información útil. En un principio su representación visual se conseguía a través de osciloscospios y sus resultantes, los oscilogramas. Hoy la digitalización del sonido en ficheros de audio (WAV, o de otro tipo), y su manejo mediante programas informáticos, hace muy fácil manipular y medir la onda lingüística. Como primeras medidas pueden obtenerse duraciones e intensidades de los distintos segmentos. Además, en las ondas periódicas, la aplicación de determinados algoritmos o fórmulas matemáticas sobre los ciclos permite extraer de forma semiautomática un conjunto de parámetros que han demostrado su utilidad y fiabilidad en el diagnóstico de las voces patológicas (Gonzalez, 2001; Kent,#). De todos los parámetros vocales destacaremos tres, que vemos a continuación.

Page 21: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 21

Frecuencia Fundamental. El parámetro más elemental y, al mismo tiempo, uno de los más importantes es simplemente el número de ciclos por segundo, o lo que se conoce como Frecuencia Fundamental de la voz (Fo). Cada persona tiene un valor promedio característico. En general, Fo es más baja en los varones que en las mujeres, ya que las cuerdas vocales masculinas son más largas que la femeninas y, por tanto, vibran más despacio, generando una voz más grave (Baken, 2000). Los valores promedio normales en varones adultos se sitúan aproximadamente entre 70 y 170 ciclos por segundo o hertzios (Hz); y en las mujeres entre 130-270 Hz. Cuando hablamos, la frecuencia fundamental de la voz sube y baja configurando la entonación prosódica de la frase. Hay rasgos prosódicos universales que son comunes a todas las lenguas del mundo, tal como la entonación ascendente en las preguntas, o la forma de transmitir ciertas emociones. Hoy sabemos que la entonación desempeña un papel relevante auxiliando en el análisis sintáctico del lenguaje por parte del oyente, como paso necesario en los procesos de comprensión (citas#). En ciertas alteraciones neurológicas, como en la enfermedad de Parkinson, algunas disartrias, o en la muy rara del Síndrome del Acento Extrajero, la prosodia se ve afectada y repercute negativamente en la inteligibilidad o en la naturalidad del lenguaje.

La acción agresiva de ciertas sustancias como el humo del tabaco hace descender Fo (Sorensen y Horii, 1982). El consumo del tabaco ejerce una acción irritante continuada que, en los casos más graves, desembocan en el cuadro conocido como edema de Reinke. El espacio de Reinke es un espacio interno de las cuerdas vocales que, cuando hay una agresión sostenida –por el tabaco o por abuso vocal–, se edematiza y se rellena de líquido fisiológico, causando que la cuerda vocal aumente su grosor. Las cuerdas vocales afectadas de este modo tienen más masa y volumen (están como “hinchadas”) y, por pura física, vibran con más lentitud e irregularidad, generando una voz más grave y áspera. De este modo la Frecuencia Fundamental de la voz de los fumadores es, en promedio, varios hertzios por debajo –más grave– que la de los no fumadores. Este efecto es especialmente patente en la voz femenina. En un estudio reciente sobre 134 jóvenes de ambos sexos de 20-25 años de edad, se comprobó que ya en una fase incipiente del hábito tabáquico aparecen diferencias significativas en los valores de Fo y otros parámetros vocales, sobre todo en el grupo de las mujeres (González y Carpi, 2004#)

La Frecuencia Fundamental, al ser característica de cada individuo, viene a ser como su sello o marca de distinción que ayuda en la identificación del hablante. Probablemente, la frecuencia fundamental interviene en el "anclaje" del sistema perceptivo del oyente sobre una voz particular, en situaciones de conversaciones cruzadas y simultáneas (el llamado efecto "coctail-party"). Quizá en la recepción del lenguaje en condiciones naturales, Fo desempeñe un papel importante en la individualización de la voz y contribuya a evitar la "intrusión" de voces competidoras en el proceso perceptivo. Si en una voz manipulamos artificialmente Fo, aumentando o disminuyendo ligeramente el número de hertzios por medios electrónicos, obtenemos un drástico efecto sobre la percepción de la identidad del hablante, causando la impresión de que quien habla es una persona distinta.

Jitter. Otro parámetro de la voz muy utilizado es el Jitter, que mide el grado en que los ci-clos son distintos entre sí en lo que respecta a su duración, o periodo (Figura 7#). Si los ciclos fueran idénticos unos a otros, el jitter sería cero. Esto no ocurre nunca en la voz humana, donde siempre hay pequeñas variaciones de un ciclo a otro. Sin embargo, las variaciones son tan pequeñas que el jitter se mide en microsegundos, o millonésimas de segundo. Cuando los ingenieros sintetizan voz artificial por computador, la voz suena robótica porque, entre otras razones, los ciclos son idénticos unos a otros. Para evitar esto, introducen en sus fórmulas un factor de error aleatorio que crea pequeñas diferencias entre los ciclos y, de este modo, la voz suena más natural. En el otro extremo, las voces patológicas por diversas etiologías (enfermedades neurológicas, pólipos, nódulos, tumores, parálisis de una cuerda vocal, etcétera.) suelen tener jitters altos porque los ciclos son muy

Page 22: REPASO LOGOPEDIA.pdf

22 Psicología del Lenguaje (texto: Julio González)

distintos entre sí a consecuencia de las irregularidades de vibración de las cuerdas vocales. Las voces con jitters altos suenan “ásperas” y desagradables al oído humano. El hábito tabáquico, además de bajar Fo, también ejerce una función sobre el jitter, incrementándolo por encima de sus valores normales.

Parámetro: Shimmer

Parámetro: Jitter

ciclo 3ciclo 2ciclo 1

Figura 7#. Parámetros útiles para diagnosticar voces patológicas: Jitter y Shimmer. El Jitter da una medida de cuán distintos son los ciclos respecto a su duración (periodos). El Shimmer mide cuán distintos son los ciclos respecto a su amplitud máxima, pico a pico.

Técnicamente, el jitter es el promedio de las diferencias entre los periodos medidas ciclo a ciclo. Se calcula de forma semiautomática mediante software específico a partir de una muestra voz que consiste en la fonación sostenida de una vocal (usualmente /a/) durante 1.5 - 3 segundos. El algoritmo de cálculo debe seguir los siguientes pasos:

1. Identificar los ciclos de la voz (es la parte más compleja, porque es fácil que el

software cometa errores). 2. Calcular los periodos, o duración de cada ciclo. 3. Restar cada periodo del anterior y hallar el promedio de las diferencias. El resultado

se da en microsegundos. Un valor en torno a 80 microsegundos se considera un límite superior de normalidad (Deliyski, 1993#). Las voces patológicas tienden a superarlo. En términos relativos, supone aproximadamente un 1% del periodo de un ciclo.

Page 23: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 23

Existen varias versiones del Jitter que consisten en calcular las diferencias, no ciclo a ciclo, sino entre grupos de ciclos consecutivos que se promedian previamente. Dependiendo del número de ciclos que se promedian antes de calcular las diferencias, se obtienen distintos parámetros que miden rasgos específicos de la voz.

Shimmer. El tercer parámetro es el Shimmer, que sería equivalente al jitter, pero esta vez en relación a la amplitud del ciclo, en lugar de su duración. Se calcula a partir de la amplitud máxima de cada ciclo, medida pico a pico, o distancia entre el pico positivo más alto y el negativo más bajo (Figura 7#). Da una idea del grado de disparidad que existe entre las amplitudes de los ciclos consecutivos. De nuevo, si todos los ciclos fueran iguales, el shimmer sería 0 y la voz sonaría poco natural. Las voces humanas siempre tienen pequeñas variaciones entre las amplitudes de sus ciclos que dan lugar a shimmers superiores a cero. El valor que se considera como límite superior de normalidad se sitúa sobre 0,35 decibelios, o, en términos relativos, en torno al 4 % de la amplitud total de un ciclo (Deliyski, 1993). Las voces patológicas tienden a sobrepasar estos umbrales.

También el Shimmer presenta varias versiones si las diferencias se calculan, en vez de ciclo a ciclo, promediando grupos de ciclos consecutivos.

A modo de resumen hay que destacar que, dada la gran varibilidad que la voz humana presenta de forma natural, estos parámetros también están sometidos a grandes variaciones dentro de la normalidad. El diagnóstico de una voz patológica siempre es aproximativo y gana peso cuando son varios los parámetros que confluyen en valores anormales.

Espectrogramas.

Una onda acústica contiene mucha información que no podemos observar directamente mediante la mera inspección de su forma. Sabemos que una onda compleja se compone de muchas otras simples, cada una con su frecuencia e intensidades particulares, por lo que el sonido posee distintos grados de energía en unas frecuencias u otras. ¿No hay alguna forma de visualizar la distribución de esta energía a través de las frecuencias? Dicho en otros términos, ¿existe un procedimiento que nos permita observar la composición espectral del sonido? Esto se consigue gracias a los espectrogramas obtenidos mediante un espectrógrafo. En los años 1940, los estadounidenses Bell Telephone Laboratories construyeron el primer espectrógrafo de sonido; se trataba de una máquina capaz de analizar los sonidos en sus diferentes componentes frecuenciales. Sus desarrolladores, Richard Potter y su equipo (Potter, Kopp y Green, #), deseaban obtener una representación visual del sonido para poder estudiarlo en toda su complejidad. La investigación se aceleró durante la Segunda Guerra Mundial con la idea de que las voces por radio del enemigo pudieran ser analizadas y descifradas mejor mediante espectrogramas generados por el espectrógrafo; pero la guerra acabó antes de que la técnica estuviera a punto.

El principio básico de un espectrógrafo es el mismo que el de un prisma que descompone la luz en sus distintos colores integrantes (Figura 8#). En esencia consistía en una colección de filtros ajustados a diferentes frecuencias específicas que se activaban cuando pasaba a su través energía de esa frecuencia, o próxima a ella. El aparato constaba de un tambor rotatorio sobre el que se colocaba un papel especial encerado que se oscurecía por efecto del calor. Una vez efectuada la grabación del sonido que se desea analizar, ésta se hacía pasar a través de la colección de filtros mientras el tambor giraba una vuelta sobre sí mismo. De

Page 24: REPASO LOGOPEDIA.pdf

24 Psicología del Lenguaje (texto: Julio González)

esta forma, la energía correspondiente a cada banda de frecuencia pasaba a través del filtro respectivo, que terminaba en una aguja apoyada sobre el papel. Cuanto mayor era la energía, más cantidad de corriente eléctrica circulaba por la aguja calentando el papel encerado y oscureciéndolo en mayor medida. De esta manera se obtuvieron los primeros espectrogramas, donde quedan representados gráficamente los tres parámetros o dimensiones fundamentales del sonido: el tiempo, en el eje horizontal, las frecuencias en el eje vertical, y la amplitud en la mayor o menor intensidad del dibujo.

El espectrógrafo de sonido se reveló especialmente útil para el análisis del habla humana y la espectrografía acústica ha sido la técnica reina en su estudio. En realidad, las primeras versiones se construyeron con una única aguja conectada a un filtro que se ajustaba a diferentes frecuencias en sucesivas pasadas o análisis parciales de la misma señal; otras versiones utilizaban un cinturón de fósforo en lugar del papel encerado. El primer es-pectrógrafo comercial lo construyó la casa norteamericana Kay en 1951. Con la llegada de la electrónica de alta integración, se diseñaron aparatos específicos de análisis de gran precisión basados en la tecnología digital; por ejemplo, el analizador FFT 2033 de la casa danesa Brüel Kjaer. Después, este tipo de análisis se ha implementado en hardware específico conectado a plataformas estándar ya existentes: estaciones de trabajo y ordenadores personales. Un ejemplo es el CSL-Computerized Speech Lab de Kay Elemetrics.

El último paso, ha sido la creación de software que funciona en cualquier ordenador personal, como es el caso del sistema Multi-speech, también de Kay, o la SpeechStation de Sensimetrics Corp. Estos son programas comerciales, pero en la actualidad una parte importante de esta clase de software consiste en programas creados desde universidades que los dejan accesibles en internet de forma libre y gratuita, para fines no lucrativos; por ejemplo, el completísimo PRAAT de la Universidad de Amsterdam (Boersma & Weenink, 2001), el TF32 de la Universidad de Wisconsin-Madison (Milenkovic, 1989), o el SFS de la Universidad de Londres (Huckvale et al., 1987).

Ejemplo. Para entender mejor los rasgos principales de un espectrograma, vamos a observar la Figura 9#. En su parte superior tenemos la onda acústica de la frase "¿Quieres más café?" dicha por una mujer. Debajo está su espectrograma alineado temporalmente con la onda; lo que quiere decir que podemos observar las correspondencias entre partes de la onda y del espectrograma. Es práctica común trabajar simultáneamente con ambas representaciones, sobre todo para delimitar mejor los límites de cada segmento fonético. Todo el software que ofrece espectrogramas también puede mostrar las ondas de donde se obtienen. La onda es una variación de energía que se extiende a lo largo del eje del tiempo, y el espectrograma presenta sus tres dimesiones básicas: el eje del tiempo horizontal, el eje de frecuencias vertical y la intensidad, representada por los distintos grados de grises. Aquí el eje de frecuencias se extiende desde 0 a 12.000 hertzios. En muchos estudios centrados en los formantes del habla, se emplean espectrogramas que abarcan un rango más pequeño, generalmente entre 0 y 5000/6000 hertzios.

La onda y el espectrograma de la frase son continuos, sólo interrumpidos por la mo-mentánea oclusión de aire durante la pronunciación de la consonante oclusiva /k/ (c, de "café"). Vemos que las partes periódicas de la onda, que son fonemas sonoros –vocales y consonantes sonoras– en los que intervienen las cuerdas vocales, corresponden a zonas del espectrograma donde se pueden apreciar a modo de estrías verticales, o líneas muy finas separadas por espacios en blanco. Las estrías son el resultado de la rápida sucesión de movimientos de apertura y cierre de la cuerdas vocales; cada línea oscura representa el instante en que las cuerdas vocales están abiertas, liberando energía; mientras que el espacio blanco entre dos estrías corresponde al instante en que están cerradas, sin salida de aire ni energía. En los fonemas sordos como la /s/ o la /f/, las cuerdas vocales no están activas y, por tanto, no se ven estrías.

Para percibir el habla son particularmente importantes los formantes; consisten en las franjas oscuras horizontales de gran concentración de energía que podemos observar en la mitad inferior del espectrograma. Estan numerados desde abajo como F1 (primer formante),

Page 25: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 25

F2, F3, F4, y F5. Los formantes corresponden a las resonancias de la garganta, o frecuencias que resultan potenciadas debido a la forma del conducto o tracto vocal. Esto sucede según los principios físicos de la acústica de tubos. Dependiendo de las formas que el "tubo" vocal adopta durante la articulación de las palabras, los formantes aparecen en diferentes posiciones o frecuencias, y este hecho es clave para identificar los fonemas y entender el lenguaje.

Para hacernos una idea de la importancia que tienen los formantes en la percepción del lenguaje, hay que señalar que podemos entender frases completas basándonos únicamente en dos o tres ondas puras, si éstas siguen la trayectorias de los formantes. Robert Remez y sus colaboradores demostraron que se podía entender una frase a partir de una réplica acústica formada por la suma de dos o tres ondas puras, cuyas frecuencias y amplitudes evolucionan en el tiempo del mismo modo que los formantes (Remez, Rubin, 1981). En la Figura# presentamos el espectrograma de la frase natural "el avión vuela sobre las nubes altas" y de un estímulo acústico formado por 2 ondas simples que siguen las trayectorias del primer y segundo formante (F1 y F2). Con un mínimo entrenamiento, cualquier persona puede oír la frase completa escuchando el estímulo artificial.

Page 26: REPASO LOGOPEDIA.pdf

26 Psicología del Lenguaje (texto: Julio González)

Figura 8#. Espectrograma del sonido (habla). El principio básico es el mismo que el de un prisma que descompone la luz en sus colores integrantes. El sonido pasa a través de un banco de filtros, cada uno especializado en un frecuencia determinada. Cuando los filtros se activan, queman el papel encerado y lo tiznan de negro, mientras va girando sobre un rodillo. Las partes oscuras corresponden a las zonas de mayor energía.

100

400

700

1000

1300

1600

1900

.....

10100

10400

10700

11000

11300

12000

Page 27: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 27

fs

estrías

F4 F5

F1F2 F3 c

é ? s c a fm á se r ie

¿ qu

Fr

ecue

ncia

TiempoFigura 9#. Onda (arriba) y espectrograma (abajo) de la frase: "¿Quieres más café?" pronunciada por una mujer. Obsérvense los formantes (F1, F2, F3, F4, F5), las estrías correspondientes a los movimientos de apertura y cierre de las cuerdas vocales y la oclusión de la consonante c de café. En las consonantes sordas (s, f) no se aprecian estrías.

Page 28: REPASO LOGOPEDIA.pdf

28 Psicología del Lenguaje (texto: Julio González)

F2

F1

Figura 10#. Importancia de los formantes en la percepción del lenguaje. Espectrograma (arriba) de la frase "el avión vuela sobre las nubes altas" dicha por un varón. Réplica acústica (abajo) formada únicamente por dos ondas puras que siguen las trayectorias del primer (F1) y segundo (F2) formante de la frase. Escuchando este estímulo artificial se puede percibir la frase completa. Ejemplo tomado de González y Cervera (2000). Otros ejemplos en: http://www3.uji.es/~gonzalez/frases/frases.html.

Síntesis del Habla.

Mediante el espectrógrafo pasamos de la onda al espectrograma; analizamos el sonido en sus partes. ¿No sería posible el camino inverso? Es decir, a partir de un espectrograma reconstruir artificialmente la onda completa para ser escuchada. En este caso estaríamos hablando de síntesis, o pasar de las partes al todo; justo lo contrario del análisis, que es pasar del todo a las partes. Por ese motivo, el proceso de crear una señal de habla artificial recibe el nombre de síntesis de habla. Pattern Playback. Una década más tarde de la aparición del espectrógrafo, esto fue posible gracias al Pattern Playback o Reproductor de Patrones de los Laboratorios Haskins de Nueva York (hoy en New Haven). Se trataba de un aparato de exploración óptica que transformaba el dibujo de un espectrograma en sonido (ver para más detalle, en castellano: Miller, 1984, pág. 95; en inglés, la página web de los Laboratorios Haskins: http://www.haskins.yale.edu/featured/sentences/ppsentences.html).

El interés inicial consistía en inventar un aparato capaz de leer textos en voz alta a las personas ciegas. Antes se habían puesto a prueba varios códigos o alfabetos sonoros, pero no se halló ninguno que pudiera ser entendido a una velocidad mayor que el alfabeto Morse, siendo que éste se comprende, como mucho, a un ritmo diez veces más lento que el habla normal. Al final, el equipo de los laboratorios Haskins llegó a la conclusión de que habría de ser una máquina que generara ella misma sonidos del habla; cualquier otro código acústico se percibiría más despacio.

Page 29: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 29

Con ese objetivo se construyó el primer modelo de Pattern Playback. Su funcionamiento era, en realidad, semejante al de una pianola. Sobre una hoja transparente de acetato de gran tamaño (Figura 11#) se pintaba a mano un espectrograma de forma estilizada, eludiendo detalles irrelevantes; luego la hoja se hacía pasar por delante de un conjunto de células fotoeléctricas conectadas a generadores de sonidos, cada uno afinado a una frecuencia determinada. Las células fotoeléctricas son dispositivos sensibles a la luz que se activan ante la interrupción de la luz que incide sobre ellas (como en los ascensores). Cuando en una de ellas se interrumpía el paso de la luz a causa del espectrograma, se activaba su generador de sonido particular. Así, en cada momento sonaban simultáneamente las frecuencias acústicas correspondientes a las zonas oscuras del espectrograma. De esta forma se conseguía imitar el habla humana, produciendo un sonido inteligible aunque con una calidad monótona y poco natural.

Hay que decir que el objetivo inicial de construir una máquina lectora para las personas ciegas fracasó por culpa de la variabilidad natural de los fonemas según su contexto fonético. La idea inicial era disponer de una especie de "alfabeto sonoro", un conjunto de plantillas fijas, una por fonema, que al combinarse dieran lugar a cualquier palabra para ser escuchada. Al hacer esto, sin embargo, el resultado era una sucesión de sonidos ininteligibles. ¿A qué se debía esto? En los Laboratorios Haskins pronto comprendieron que cada fonema presenta espectrogramas distintos dependiendo de los fonemas que van delante y los que van detrás. Por tanto, no valdría una única plantilla por fonema. Cuando se juntan plantillas únicas, que no guardan relación de proximidad entre sí, producen una cadena de sonidos que no se entiende. Estos hallazgos pusieron de manifiesto la gran complejidad de los procesos perceptivos del habla y fueron un acicate para emprender su estudio sistemático.

Sin embargo, gracias a esta máquina se pudieron estudiar muchos aspectos relacionados con la percepción del habla. A lo largo de décadas, los laboratorios Haskins fueron pioneros en este campo de investigación. Mediante múltiples pruebas con los dibujos estilizados de espectrogramas se fueron identificando de modo sistemático los rasgos acústicos que son esenciales para percibir el lenguaje.

La investigación perceptiva ha continuado después mediante el uso de estímulos artificiales logrados por medios electrónicos más sofisticados.

Page 30: REPASO LOGOPEDIA.pdf

30 Psicología del Lenguaje (texto: Julio González)

Figura 11#. Ejemplo de espectrograma esquemático pintado sobre papel de acetato (la frase en inglés: "en estos días una pierna de pollo es un plato raro") usado por los Laboratorios Haskins para producir habla artificial en el Reproductor de Patrones (Pattern Playback). Las franjas oscuras corresponden a las zonas de energía de los formantes; las nubes de puntos representan la energía en las consonantes fricativas.

Sintetizador de Klatt. Luego han surgido sistemas de síntesis de voz más perfectos que el Pattern Playback. En los años ochenta hace su aparición un sintetizador que sería, y aún es, muy utilizado para la creación de estímulos artificiales en la investigación perceptiva. Se trata del Sintetizador de Klatt, presentado en 1980 (Klatt, 1980) y luego ampliado con nuevos parámetros unos años más tarde, el Klsyn88 (Klatt y Klatt, 1990). Fue desarrollado por Dennis Klatt, del Instituto Tecnológico de Massachusetts (MIT), y se trata de un software basado en un modelo matemático del tracto vocal humano. Incluye un conjunto de parámetros que simulan matemáticamente dos funciones:

1. La fuente sonora: construye el sonido "materia prima" de las cuerdas vocales, en el caso de fonemas sonoros, o el ruido por fricación, en los fonemas sordos. Con los parámetros se controla la intensidad de la voz, la entonación o frecuencia fundamental, la intensidad y forma del ruido fricativo, y otras variables.

2. La función de filtro que ejerce la garganta o tubo vocal sobre el sonido materia prima procedente de la fuente. Aquí, el sintetizador simula matemáticamente los formantes o resonancias del tracto vocal. Estos parámetros controlan la frecuencia, amplitud y ancho de banda de cada formante, y constituyen su característica más sobresaliente, por lo que se le clasifica como sintetizador basado en formantes.

El usuario establece a priori los valores del conjunto de parámetros –sobre una treintena- a razón de una vez cada 5 o 10 milisegundos; estos valores alimentan un conjunto encadenado de algoritmos o fórmulas matemáticas cuya salida última es la representación numérica de la onda acústica. Si se le programa con suficiente detalle, el resultado puede sonar tan natural que llega a ser prácticamente indistinguible de una voz humana. Pero para lograr esto se requiere una programación laboriosa, casi artesanal, eligiendo cuidadosamente los valores más apropiados en un proceso de ensayo y error. Es como "esculpir" la onda paso paso –en los cursos del MIT, un ejercicio que dura días consiste en sintetizar una frase con acento bostoniano.

Page 31: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 31

El sintetizador de Klatt forma el núcleo de uno de los conversores texto-voz más conocidos, el DECtalk. Se trata de un sistema de habla artificial particularmente útil para las personas imposibilitadas de hablar, como es el caso del físico y matemático de Cambridge, Stephen Hawking, afectado de esclerosis lateral amiotrófica (Figura#). Gracias a este sistema, Hawking puede pronunciar brillantes conferencias ante un público entregado. Figura#. Stephen Hawking, el genial físico de la Universidad de Cambridge, pronuncia conferencias gracias al sintetizador de voz artificial DECTalk.

PERCEPCIÓN DEL LENGUAJE: INTRODUCCIÓN

La naturaleza ha conseguido que el habla humana sea un medio de comunicación excelente: rápido y muy eficaz. Nuestros procesos perceptivos deben ser rápidos porque el lenguaje hablado, al contrario que el escrito, es de naturaleza efímera y evanescente. Rapidez. Comparado con cualquier otro código acústico de comunicación, el habla es 10 veces más rápido que el más veloz de ellos (Liberman, Cooper et al. 1967). Por ejemplo, un experto en código Morse alcanza velocidades de desciframiento a lo sumo diez veces más lentas que cuando escucha una conversación. Nuestra capacidad de resolución temporal acústica es muy limitada. La velocidad más rápida a la que es posible identificar por separado unidades discretas de cualquier clase de sonido se sitúa en torno a las 7 ó 9 unidades por segundo (Miller 1956). Más allá de esa ratio los sonidos se "funden" y se empieza a oír algo así como un "zumbido" indiferenciado que, según aumenta el ritmo, se convierte en un tono. Sin embargo, cuando escuchamos habla, la velocidad a la que se

Page 32: REPASO LOGOPEDIA.pdf

32 Psicología del Lenguaje (texto: Julio González)

transmiten los sonidos durante la comunicación cotidiana se encuentra entre 20-30 segmentos por segundo, sin que haya ningún problema en identificarlos (Lieberman y Blumstein, 1988) (Figura 1#). Pensemos, por ejemplo, en la retransmisión de un partido de fútbol.

sonidos: 7-9 unidades /seg

"... coge la pelota, burla al defensa y chuta a gol..."

sonidos del habla: 20-30 unidades /seg

Figura 1#. Diferencias en nuestra capacidad de resolución temporal entre el habla y el resto de los sonidos. Nuestro límite para identificar sonidos individualmente está en 7-9 unidades por segundo (Miller, 1956); más allá de esa velocidad se "funden" y oímos un "zumbido" indiferenciado. Sin embargo, podemos identificar sin problemas los sonidos del habla a razón de 20-30 unidades por segundo, y aún más (Lieberman y Blumstein, 1988)

Robustez. Además, la percepción del lenguaje es un proceso muy eficaz. Nuestra capacidad de identificar los sonidos del habla es asombrosamente robusta. Podemos mantener con-versaciones en las condiciones de ruido más adversas; es posible someter la onda a in-creíbles alteraciones y mutilaciones y aún así continuar entendiendo el mensaje. Como declaraba Miller (1984), "el oído humano es el mayor capital no declarado de la industria de la telecomunicación; puede extraer un mensaje de cualquier tipo de señal, por degradada que esté" (pág. 89). En sus propias palabras:

Desde los primeros experimentos quedó claro que el habla es sumamente resistente a la de-formación. Mientras sea audible, los cambios de intensidad no tienen ningún efecto sobre su in-teligibilidad hasta que se vuelve tan intensa que provoca dolor. La conversación es posible con tal de que haya tanta energía en la señal hablada como en el ruido enmascarador. No se encuentran dificultades serias hasta que la energía del ruido es unas cuatro veces mayor que la del habla [...] Si cambiamos la configuración de la onda vocal mediante el acortamiento de los "picos", el habla es aún inteligible [...] Otras alteraciones destruyen cualquier vestigio de naturalidad; pero la naturalidad no es importante para la inteligibilidad. [...] Si aumentamos al doble o disminuimos a la mitad la velocidad de emisión, la precisión con que se perciben las palabras tampoco se ve afectada. La resistencia del habla al ruido y a la distorsión es verdaderamente extraordinaria (Miller, 1984, pág. 91).

Sirva de ejemplo la resistencia al "recorte" de los picos del habla. Si en la onda acústica del lenguaje se elimina la energía correspondiente sus picos, la inteligibilidad apenas se resiente (Licklider#, etc.). En la Figura 2# tenemos dos ejemplos de recorte de picos; incluso en su forma más severa (C), el habla es inteligible en más de un 90 % de las palabras.

Page 33: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 33

Figura 2#. Resistencia del habla a la degradación de la señal. Dos ejemplos (B y C) de "recorte" de picos de un fragmento de onda acústica de lenguaje (A). Incluso en la forma más severa (C), se conserva la inteligibilidad de más del 90% de las palabras.

Percepción artificial del habla. La percepción del habla es un proceso complejo y a la vez automático. Apenas vislumbramos su extraordinaria complejidad y la cantidad de neurocomputación que requiere de nuestro sistema nervioso cuando intentamos que las máquinas desempeñen de forma artificial dicho proceso. En los años sesenta se pensaba que hoy, una vez iniciado el siglo XXI, dispondríamos de robots y ordenadores que entenderían nuestro lenguaje y se comunicarían fluidamente con nosotros. Cuando en las décadas siguientes ingenieros y programadores se pusieron manos a la obra, pronto comprendieron la dificultad de simular artificialmente los procesos de percepción del lenguaje –no digamos ya los de comprensión.

Aunque hemos avanzado mucho en los últimos años, todavía el computador más potente con el software más sofisticado no es capaz de emular con fiabilidad el reconocimiento del habla. Gracias a la actual potencia de cálculo y la aplicación de complejos algoritmos matemáticos (principalmente modelos ocultos de Markov combinados con redes neuronales artificiales), conseguimos que un ordenador, dentro de ciertos límites, pueda reconocer lenguaje y pasarlo a un texto. Pero esto ocurre con importantes limitaciones: los sistemas que funcionan con hablantes múltiples sólo pueden manejar un número reducido de palabras; los sistemas que reconocen muchas palabras sólo pueden funcionar con un único hablante, a cuya voz particular han tenido que ser entrenados previamente. El cambio de un hablante a otro supone "desaprender" lo aprendido con el primero y re-entrenarse en la voz del segundo. El reconocimiento dista mucho de ser robusto y fiable al casi 100%, como ocurre en los humanos. Con frecuencia una palabra es confundida con otra semejante; una tos, una puerta al cerrarse, un golpe en la mesa, etcétera, se identifican erróneamente como

Page 34: REPASO LOGOPEDIA.pdf

34 Psicología del Lenguaje (texto: Julio González)

una consonante. Y todo esto en condiciones ideales de audición, sin apenas ruido de fondo u otros sonidos competidores. Es aún casi inimaginable que un ordenador haga lo que nosotros hacemos todos los días sin dificultad: seguir una conversación en un contexto de conversaciones paralelas; es decir, discernir el habla de un hablante particular y evitar la "invasión" del sonido de otras personas que hablan al mismo tiempo en la proximidad. Se trata del llamado efecto "coctail-party".

¿Quiere decir esto que las máquinas nunca podrán iguarlar nuestra capacidad de percibir el lenguaje? En absoluto; es probable que llegue el día en que esto sea así. Pero no se olvide de que estamos hablando de percibir lenguaje, no de comprenderlo, lo cual es una cuestión que se aborda en otra parte. Es seguro que, en los próximos años, se perfeccionarán los actuales sistemas de reconocimiento de habla y pronto se inaugurará una nueva era global en la que nuestra "interface" o forma de comunicación con las máquinas cambiará radicalmente, al pasar a un primer plano el uso de órdenes verbales (con ordenadores, ascensores, electrodomésticos, puertas, teléfonos, etc.). Pero alcanzar la robustez y flexibilidad humana, y el manejo del efecto "coctail-party" tendrá que esperar algo más. Complejidad. Se ha expuesto la dificultad de lograr la percepción artificial del habla mediante máquinas para poner de manifiesto la enorme complejidad del proceso natural. La investigación sobre el habla, que empezó en los años 50 en los Laboratorios Haskins y luego se extendió a otros, está lejos de comprender la verdadera naturaleza de estos procesos, después de medio siglo de actividad ininterrumpida. La complejidad del proceso nace de la necesidad de ser robusto, resistente a muchas formas de degradación de la señal y, al mismo tiempo, ser extraordinariamente flexible y adaptativo a la enorme variabilidad de la señal de entrada. Automática. A pesar de su complejidad, la mayor parte de los subprocesos implicados en la percepción del habla son de naturaleza automática, y los llevamos a cabo sin apenas es-fuerzo y sin conciencia de ellos. En palabras de Ryalls (1996), es como si la madre naturaleza hubiera ocultado su complejidad para permitir concentrarnos al cien por cien en la meta principal: la construcción del significado. Si tuviéramos que emplear cons-cientemente nuestra atención en las operaciones necesarias para percibir los sonidos lingüísticos, no nos quedarían recursos cognitivos disponibles –ni tiempo- para procesar los significados. Diferente. En algunos aspectos, el habla se percibe de modo distinto al de los sonidos en general. Hemos visto que una diferencia importante es que los sonidos del habla (fonemas) pueden identificarse a razón de 20-30 unidades por segundo, frente a las 7-9 unidades de cualquier otra clase de sonidos. Hay otra diferencia que tenemos que señalar: el comportamiento anómalo del habla en lo que se refiere a las tareas de discriminación e identificación (Lieberman y Blumstein, 1988). En cualquier ámbito de la percepción, no sólo en la modalidad sensorial auditiva, también en la visual, nuestra maquinaria cognitiva está construida de tal modo que nos resulta mucho más fácil discriminar entre estímulos que identificarlos. En el habla sucede al revés. Vamos a explicarlo en detalle.

La discriminación exige comparar dos estímulos presentes al sistema perceptivo y determinar sin son iguales o distintos. La identificación implica la comparación entre un único estímulo y una representación mental que tenemos almacenada en nuestra mente. Por ejemplo, somos muy sensibles a pequeñas variaciones de color –de longitud de onda– entre dos estímulos visuales. Percibimos el más ligero cambio en el matiz entre dos colores parecidos. Pero si vamos a la droguería a comprar exactamente el color de pintura que tenemos en nuestro salón y hemos olvidado llevar una muestra, estamos condenados a

Page 35: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 35

equivocarnos. Ahora no estamos discriminando, sino identificando un color; es decir, comparando el estímulo que nos ofrece el droguero con una representación mental del color de casa. Podemos hacer miles de discriminaciones entre tonos cromáticos, pero sólo identificamos con fiabilidad unos pocos colores –¿no nos recuerda esto a un mágico número siete, mas menos dos? (Miller, 1956#).

En el dominio auditivo pasa algo semejante; está demostrado que cualquiera puede discriminar entre unos 350.000 tonos puros distintos (Stevens y Davis, 1938), pero sólo identifica 4 o 5 de ellos. Imaginemos que alguien de espaldas a nosotros toca una nota en un piano, y debemos decir algo así como "fa de la tercera octava". Incluso un músico experimentado y con muchos años de solfeo no pasa de identificar unas pocas notas aisladas, si no cuenta con el apoyo de una escala musical –de nuevo nos vuelve a rondar el número "mágico". Sólo unos pocos individuos están dotados de lo que se llama "oído absoluto", al tener la capacidad de efectuar muchas identificaciones tonales diferentes; pero estos son casos extraordinarios, muy raros, como ocurre con los individuos de memorias prodigiosas.

Sin embargo, la percepción del habla sigue una pauta diferente: somos peores en dis-criminación que en identificación (Figura 3#). Hay sonidos fonéticos, particularmente las consonantes oclusivas, difíciles de discriminar entre sí cuando pertenecen a la misma categoría: por ejemplo, es difícil distinguir entre variaciones distintas de /p/, o entre variaciones de /b/, o de /k/; nos suenan todas del mismo modo. Los japoneses no diferencian entre /l/ y /r/ porque en su idioma pertenecen a la misma categoría fonológica (o sea, ambos sonidos forman una única consonante en japonés y no existen palabras que se diferencien sólo por ese matiz, como "palo" y "paro", en castellano). Todas esas variaciones son físicamente distintas, como así lo revelan los espectrogramas; las mismas variaciones entre tonos puros las percibiríamos inmediatamente, pero en un contexto de habla somos "sordos" a las mismas.

Por el contrario, somos muy eficientes identificando los sonidos del habla; o si no ¿qué otra cosa hacemos cuando percibimos lenguaje a razón de 20-30 fonemas por segundo? En ese momento comparamos los estímulos de entrada con representaciones mentales almacenadas en nuestra memoria. En cierto modo, es como "ir a la droguería" veinte o treinta veces por segundo.

Discriminación Identificación

Discriminación Identificación

Percepción en general

(tonos, colores, etc.) Percepción del Habla

Figura 3#. Diferencias entre la percepción en general y la percepción del habla respecto a las tareas de discriminación e identificación de estímulos. Se han destacado las tareas más eficientes en cada caso.

Page 36: REPASO LOGOPEDIA.pdf

36 Psicología del Lenguaje (texto: Julio González)

En resumen, la percepción del habla es:

Rápida: diez veces más veloz que cualquier otro código acústico (p.e. Morse). Robusta: resistente al ruido y a la degradación de la señal. Compleja: flexible y adaptativa a la extrema variabilidad de la señal acústica. Automática: sin apenas esfuerzo ni participación de la conciencia. Diferente aparentemente a la de otros sonidos: mayor resolución temporal, distinta

relación entre discriminación e identificación, y otras propiedades que luego veremos.

La ausencia de invarianza Podríamos definir la percepción del lenguaje como un proceso complejo por el cual una señal acústica continua y altamente variable es emparejada y activa representaciones mentales discretas y estables de los fonemas de una lengua. (Figura 4#)

Con este proceso hay un problema que aún no hemos sabido resolver: la ausencia de invarianza. Hemos dicho que es un proceso robusto y al mismo tiempo muy flexible y adaptativo, porque el estímulo de entrada es extraordinariamente variable. Somos capaces de identificar, por ejemplo, cientos de /a/ distintas dichas por cientos de personas en diferentes situaciones –en voz alta, susurrando, con la voz disimulada, con ruido de fondo, a velocidades y tonos distintos, etcétera (Figura 5#). Además la variabilidad intrasujeto del habla es prácticamente tan amplia como la variabilidad intersujeto (de ahí la dificultad de las pruebas forenses). Nuestra voz y nuestra forma de pronunciar puede cambiar asombrosamente de unas situaciones a otras, tanto involuntaria como deliberadamente. A eso se une el hecho de que la señal es muy dependiente del contexto fonético: el mismo fonema puede tener ondas muy distintas por la influencia de los fonemas precedentes y posteriores, aunque no seamos perceptivamente conscientes de ello –pero los análisis acústicos lo atestiguan.

En definitiva, podemos escuchar cientos de /a/ distintas, con voces agudas, graves, masculinas, femeninas, infantiles, nasales, impostadas, disártricas, susurradas, etcétera, y somos capaces de, por encima de todas esas variaciones, oír algo común a todas ellas que hace que nos suene como la vocal /a/, y diferenciarla de otras cientos de ondas que suenan a /e/, /u/, /p/ ó /m/. Las ondas que suenan /a/ tienen que tener algo en común que no tienen las ondas que suenan /e/. Ese algo común es lo que sabe "capturar" nuestro sistema perceptivo sin caer en error por las enormes variaciones de unas ondas a otras; y ese algo común es lo que cuesta tanto de hacer entender a los ordenadores en los programas de reconocimiento de habla. Ese algo común es lo que se ha bautizado con el nombre de invarianza fonética (o si se prefiere, invariancia, invariante, o constancia).

Page 37: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 37

Figura 4#. En la perceactiva representacione

Figura 5#. Alta variabperciben como /a/. ¿Q

/a/

pción del habla, una señal acústica continua y altamente variable se empareja y s mentales estables y discretas de los fonemas de una lengua.

ilidad de la señal del habla. Todas esas ondas acústicas, y otras cientos más, se ué tienen en común?

Page 38: REPASO LOGOPEDIA.pdf

38 Psicología del Lenguaje (texto: Julio González)

Ahora bien, ¿dónde está físicamente la invarianza en las ondas de la /a/? Tal vez está "camuflada" dentro de la información de la onda y sólo podemos acceder a ella a través de algún tipo de análisis más sofisticado que la mera inspección de la onda. En cierto modo esto es así cuando hablamos de vocales: los análisis espectrográficos –espectrogramas– revelan que la invarianza acústica podría estar en los formantes, como más adelante veremos.

El problema, y a eso aludíamos al principio, es que hay sonidos del habla –sobre todo las consonantes oclusivas– que por mucho que busquemos y rebusquemos con toda clase de análisis, la invarianza no acaba de aparecer en la señal acústica. Es el tantas veces citado problema de la ausencia de invarianza del estímulo del habla. Y "haberla, hayla"; en alguna parte tiene que estar porque nuestro sistema perceptivo sí la encuentra; de lo contrario no podríamos identificar el mismo fonema. Trataremos esto más adelante al abordar la percepción de las consonantes.

La cuestión central: ¿un mecanismo especial o general?

Hemos visto que la percepción del habla presenta unas características llamativas que la se-paran de la percepción de otros sonidos. Además de las mencionadas sobre la rapidez y eficiencia en la identificación de los sonidos lingüísticos, o la ausencia de invarianza, hay que añadir otras propiedades como la percepción categórica y la transmisión paralela de información, que veremos más adelante. Desde los comienzos de la investigación experimental en los años 50, y aún antes, ha habido una pregunta básica que ha planeado sobre la comunidad científica y que continúa sin una respuesta definitiva:

- ¿Existe en nuestro cerebro un mecanismo perceptivo especializado en

procesar los sonidos del lenguaje, aparte del mecanismo general de la audición?

El hecho de que esta pregunta no tenga hoy una respuesta definitiva significa que la evidencia empírica, obtenida en medio siglo de experimentación, se ha ido repartiendo a favor y en contra de dicho mecanismo especial (Bowers y Davis, 2004 Trends cog; Diehl, Lotto y Holt, 2004). Y los autores y grupos de investigación se han ido posicionando en torno a dos polos con algunas variantes intermedias:

Quienes defienden que, probablemente por evolución, el ser humano ha desarro-

llado en su cerebro un mecanismo especial, distinto de la percepción general de los sonidos, que se encarga de procesar una clase muy particular de sonidos: el habla humana. En su formulación más radical, esta hipótesis considera que el mecanismo actuaría como un verdadero módulo de funcionamiento rápido, automático, encapsulado y blindado a la influencia externa de otras partes del sistema perceptivo. Se activaría inevitablemente en cuanto estuviera expuesto a sonidos del lenguaje y se impondría por encima del mecanismo general de la percepción auditiva. Este módulo formaría parte de un módulo o sistema más amplio, correspondiente al lenguaje en su conjunto.

Quienes consideran que lo especial es el estímulo (habla), no el mecanismo per-

ceptivo. El lenguaje se percibe con el mismo mecanismo general con que

Page 39: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 39

percibimos cualquier sonido. Si se observan algunas características especiales es porque el habla humana es un tipo de estimulación sonora sobreaprendida, a la que estamos expuestos de forma continua y prácticamente ininterrumpida desde que nacemos hasta la muerte. Nuestro sistema perceptivo general tiene un nivel de entrenamiento extraordinario en esta clase de sonidos.

PERCEPCIÓN DE LAS VOCALES

Podríamos definir el lenguaje humano como una sucesión de movimientos de apertura y cierre de la boca. Las aperturas corresponderían a las vocales y los cierres a las consonantes. En las consonantes se produce un estrechamiento o restricción en la cavidad bucal muy importante, a veces completa como en las oclusivas. En las vocales, el sonido se produce sin dificultad, con una restricción mucho más suave. Las vocales forman el núcleo de las sílabas, y son posibles sílabas formadas sólo por una vocal; lo cual no sucede con las consonantes. Todas las lenguas del mundo tienen ambas clases de sonidos; generalmente menos vocales que consonantes. En la base de 317 lenguas de Maddieson (1984), el número de vocales que contienen va desde 3 (p.e. tagalo) hasta 24 (p.e. lak), siendo 5 el número de vocales más común (p.e. en idiomas tan dispares como español, japonés o suahili). Las vocales más extremas, que ocupan los vértices del triángulo vocálico, son las más comunes: /i/, /a/, /u/. Probablemente porque son las más distinguibles entre sí desde el punto de vista perceptivo. En la Figura# observamos el triángulo articulatorio de las vocales castellanas, según la posición que adopta la lengua al pronunciar cada vocal (Quilis, 1993). De acuerdo con el eje horizontal, las vocales pueden ser anteriores (lengua en posición delantera), como la /i/, y, en menor medida la /e/; centrales como la /a/; y posteriores (lengua en posición trasera) como la /o/ y sobre todo la /u/. Según el eje vertical, la lengua puede estar en una posición alta, media, o baja. Esta posición determina también el grado de apertura de la boca; siendo la /a/ la vocal más abierta, /e/ y /o/ semiabiertas, y las vocales /i/ y /u/, cerradas.

anterior central posterior

ui

e o

a

alta

med

ia

baja

Figura#. Triángulo articulatorio de la vocales castellanas, según la posición de la lengua. Adaptado de Quilis (1993)

Page 40: REPASO LOGOPEDIA.pdf

40 Psicología del Lenguaje (texto: Julio González)

Papel de los Formantes.

Las distintas posiciones de la lengua y otros órganos móviles (labios, mandíbula, velo del paladar) hacen que cambie la forma general del conducto vocal, variando sus resonancias acústicas o formantes. Como hemos dicho en otros apartados, los formantes son las resonancias naturales del tracto vocal que se rigen por la acústica de tubos. Corresponden a las frecuencias que son reforzadas a consecuencia de la forma que adopta el tubo vocal en cada momento. En los espectrogramas aparecen como franjas oscuras horizontales de mayor energía.

Es precisamente en los formantes donde reside la clave de la percepción de las vocales. Las fuentes de evidencia proceden de:

a) La síntesis de vocales artificiales demuestra que cuando se alteran los formantes, el sonido resultante suena a una vocal distinta.

b) El análisis de las vocales naturales mediante espectrogramas permite visualizar y medir los formantes. Los espectrogramas muestran que a vocales distintas les corresponden formantes distintos; es decir, localizados en distintos niveles de frecuencia.

En la Figura 6# podemos ver el espectrograma de la palabra /dios/ pronunciada por una mujer. Obsérvese el "movimiento" de los formantes en el diptongo al pasar de la vocal /i/ a la vocal /o/.

si

d o

Figura 6#. Espectrograma de la palabra /dios/ en un rango frecuencial de 0-6.000 Hz. Obsérvese cómo cambian las posiciones de los formantes al pasar de la vocal /i/ a la vocal /o/.

De todos los formantes, los dos primeros (contando desde abajo) son los más importantes. La investigación con estímulos artificiales demuestra que la mayor parte de las vocales pueden ser identificadas sólo con los dos primeros formantes, F1 y F2. De manera que F1 y F2 son esenciales para la inteligibilidad de las vocales. Los siguientes formantes, F3, F4 y F5, cuando se incorporan al estímulo artificial añaden naturalidad, haciendo que el

Page 41: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 41

resultado final se parezca más a la voz humana (Figura 7#). La importancia de los dos primeros formantes resultó ya evidente en los trabajos pioneros de los Laboratorios Haskins durante los años cincuenta (Delattre et al, 1952).

F5 F4 F3 F2 F1 inteligibilidad

naturalidad

Figura 7#. Papel de los formantes en la percepción de las vocales. Los dos primeros son esenciales para su inteligibilidad. Los restantes añaden naturalidad al habla; cuando se incorporan en la síntesis de voz artificial, ésta suena más humana.

De esta forma, cada vocal tiene un patrón característico de F1 y F2. Si examinamos los espectrogramas de las cinco vocales castellanas, ordenadas desde la más anterior, /i/, –la estrechez causada por la lengua ocurre en la parte delantera de la boca–, a la más posterior, /u/ (Figura 8#) podemos observar dos principios:

a) F2 es más alto cuanto más anterior es la vocal. Esto es debido a que el espacio que

queda delante del estrechamiento causado por la lengua es más corto cuanto más anterior se sitúa la lengua. Ese espacio es el principal responsable de la segunda resonancia, o F2; cuanto más corto, más alta será la resonancia.

b) F1 es más alto cuanto más abierta es una vocal. La primera resonancia, o F1, depende principalmente de la abertura del tubo vocal. La vocal más abierta, /a/, tiene el F1 más alto de todos. A medida que las vocales son más cerradas, F1 ocupa posiciones más bajas. Así, en las vocales semiabiertas (/e/, /o/), F1 está más bajo que en /a/; y en las vocales cerradas (/i/, /u/), F1 baja todavía más.

Por otra parte, el abocinamiento que se produce en la /u/ – redondeamiento y prolongación de los labios– tiene el efecto de alargar todo el tubo vocal y, por tanto, el de bajar ambos formantes.

Page 42: REPASO LOGOPEDIA.pdf

42 Psicología del Lenguaje (texto: Julio González)

F1

F2

e a o u i Figura 8#. Espectrogramas de las cinco vocales castellanas ordenadas desde la más anterior, /i/, a la más posterior, /u/. Los dos primeros formantes, F1 y F2, están marcados con líneas claras. Según Quilis y Esgueva (1983), unos valores típicos para un varón adulto podrían ser: /i/ (F1=260 Hz, F2=2300 Hz); /e/ (450, 1900); /a/ (650, 1200); /o/ (470, 900); /u/ (280, 650). Pruebe el lector a sintetizarlas artificialmente en: www.asel.udel.edu/speech/tutorials/synthesis/vowels.html

Variabilidad de los Formantes. Según lo visto, cada vocal queda definida por la frecuencia de sus formantes; particularmente de F1 y F2.

Ahora bien, como los formantes dependen del tamaño y la forma del tracto vocal, existen importantes diferencias individuales a través de los hablantes de distintas edades y sexo. Como toda resonancia de tubos, las frecuencias de los formantes son inversamente proporcionales a la longitud del tubo, en este caso, del conducto vocal medido desde las cuerdas vocales a los labios. De manera que una misma vocal difiere considerablemente en los valores absolutos de sus formantes, dependiendo de si es pronunciada por una mujer, un varón o un niño; y, dentro de cada grupo, también hay diferencias según los tamaños individuales. En promedio, las mujeres adultas tienen un tracto vocal más corto (14.75 cm.) que los varones (17.5 cm.) y sus formantes son un 20 % más altos o agudos. Los niños tienen tractos vocales aún más cortos (8.75 cm.) y sus formantes vienen a tener una frecuencia doble que en los varones adultos (Pickett, 1999). Un estudio clásico, y muy citado, sobre las vocales inglesas es el de Peterson y Barney (1952) llevado a cabo sobre producciones de un total de 66 hablantes: 33 hombres, 28 mujeres y 15 niños. El trabajo ha sido actualizado con valores más recientes por Hillenbrand et al. (1995). Cuando los valores formánticos de cada vocal se representan en un diagrama de dispersión F1 x F2 (F1 en un eje y F2 en otro; ver Figura 9#), aparecen nubes o conglomerados de puntos ampliamente extendidos a lo largo de grandes zonas señaladas por óvalos, uno por cada clase de vocal. Cada punto representa una vocal individual pronunciada por un hablante concreto. La gráfica demuestra dos cosas:

- Alta variabilidad de los formantes: La misma vocal articulada por diferentes

hablantes da lugar a una gran variedad de valores formánticos; es decir, los puntos que representan a la misma vocal se extienden por una amplia región del plano F1 x F2.

- Solapamientos entre las áreas vocálicas: vocales diferentes, dichas por hablantes distintos, coinciden a veces en el plano y tienen los mismos, o muy parecidos, valores para F1 y F2; aunque los oyentes no las confunden entre sí. Probablemente

Page 43: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 43

esto no ocurre para el castellano, que cuenta con un sistema vocálico menos abigarrado: 5 vocales frente a las 10-12 del inglés

Sin embargo, a pesar de la amplia variedad de valores formánticos para una misma vocal o del solapamiento de formantes entre algunas vocales distintas, los oyentes no tienen dificultad en entender el lenguaje y perciben correctamente cada vocal. Parece que cuentan con un mecanismo perceptivo que les hace distinguir entre, por ejemplo, una /e/ dicha por un niño y una /i/ dicha por un adulto, aunque ambas tengan los mismos F1 y F2. Probablemente se apoyan en otras claves acústicas que difieren entre los hablantes, como la frecuencia fundamental (Fo) u otras, para establecer alguna diferencia de escala. Esto nos lleva al concepto de normalización.

F2 (kHz)

F1 (kHz)

Figura 9#. Peterson y Barney (1952). Distribución de las 10 vocales inglesas en el plano F1 x F2 de los dos primeros formantes. Los hablantes fueron varones, mujeres y niños.

Normalización de la vocales.

Si todos los hablantes fueran del mismo tamaño y tuvieran el mismo tracto vocal, una vez que el oído ha llevado a cabo el análisis y la extracción de los formantes, el cerebro podría relacionar directamente las frecuencias de éstos con una vocal particular. Dicho de otro modo, el cerebro podría consultar una especie de tabla de valores archivada para encontrar qué vocal concreta corresponde a unos formantes determinados.

Page 44: REPASO LOGOPEDIA.pdf

44 Psicología del Lenguaje (texto: Julio González)

Pero, como hemos visto, los hablantes son muy distintos entre sí; no solo por las dife-rencias de sexo y edad, sino por las fuertes disparidades individuales en tamaños del tracto vocal, formas, masas, elasticidad de los tejidos, y otras propiedades que tienen consecuencias acústicas. Estas diferencias físicas entre hablantes resultan en diferencias considerables en los formantes para una misma vocal. Como un niño tiene las cavidades de resonancia mucho más pequeñas, sus formantes para, pongamos por caso, la /a/, serán mucho más altos que los formantes de un adulto para la /a/. ¿Qué operaciones perceptivo-cognitivas debe efectuar un oyente para interpretar ambos sonidos, muy distintos en sus frecuencias absolutas, como la misma vocal? De alguna manera, debe llevar a término algún proceso de estandarización o normalización que transforme los valores formánticos a una escala común que admita la comparación entre sí. Una primera explicación fue la teoría de la Razón entre Formantes, según la cual, la identificación de la vocales no depende de los valores absolutos de los formantes, sino de la razón o proporción entre ellos. Por ejemplo, las vocales anteriores y cerradas, como la /i/ o la /e/, tienen F1 muy bajo y F2 muy alto, por lo que la proporción F2/F1 es grande. En contraste, las vocales abiertas, como la /a/, tienen F1 alto y F2 bajo, por lo que F2/F1 es pequeña. Según esto, la razón F2/F1 para la /i/ de un niño sería muy semejante a la razón F2/F1 de la /i/ de un adulto. Cuando esta teoría se aplica sobre los datos reales, parece que funciona razonablemente bien para muchos casos, pero no los explica todos. Hay algunas vocales que son distintas y, sin embargo, presentan la misma razón F2/F1; por ejemplo, /ae/, /U/ y /u/ arrojan la misma proporción de 2.43 (Pickett, 1999). Por tanto, aunque la proporción entre F2 y F1 podría jugar un papel importante en la percepción de las vocales, debe haber información adicional que los oyentes usan para el proceso de normalización.

Si la razón F2/F1 no es suficiente para explicar todos lo casos, se han propuesto otras hipótesis adicionales sobre la normalización vocálica. Éstas se dividen entre:

1. Los llamados modelos de normalización intrínseca, que consideran que cada vocal porta suficiente información acústica en sí misma para permitir la normalización.

2. Los modelos de normalización extrínseca, que defienden que los oyentes necesitan información externa a la vocal para establecer "un marco de referencia" sobre las características del hablante (su edad, sexo, tamaño de su tracto vocal, etc.).

Para los partidarios de la normalización intrínseca es importante la proporción F2/F1, pero, además, la vocal contiene información adicional que permite resolver la ambigüedad cuando ésta se produce; en concreto, formantes superiores –particularmente F3– y la frecuencia fundamental de la voz, o Fo (Miller, 1989; Syrdal y Gopal, 1986). Johnson (1990) entiende que la frecuencia fundamental es una pista perceptiva importante para identificar el hablante, su edad, su sexo, etcétera, y así poder hacer inferencias acerca del tamaño del tracto vocal necesarias para una correcta interpretación de los formantes. La evidencia experimental con estímulos artificiales ha mostrado que la percepción de las vocales se ve influenciada por los valores que adopta Fo, y también por los de F3. Para los defensores de la normalización externa, los oyentes interpretan los formantes en referencia a un contexto más amplio de habla. Es decir, las vocales individuales se perciben en relación al inventario completo de vocales de un hablante determinado (Joos, 1948), y este inventario se extrae de los fragmentos de habla precedentes. Aquí, el trabajo de referencia, también muy citado, son los experimentos de Ladefoged y Broadbent (1957). Los autores examinaron la identificación de un conjunto de vocales inglesas sintetizadas

Page 45: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 45

artificialmente dentro de un contexto silábico /b-vocal-t/. Las vocales se daban a escuchar dentro de una frase que servía de contexto precursor, cuyos valores promedios de F1 y F2 fueron manipulados experimentalmente. Los resultados enseñaron que la identificación de las vocales se veía influida por los cambios formánticos de la frase. Así, cuando F1 fue bajado experimentalmente en la frase precursora, la sílaba /bit/ fue percibida más a menudo como / bEt/; es decir, como si, por contraste, el F1 vocálico fuera más alto. Y al contrario, al subir el valor de F1 en la frase, la sílaba /baet/ fue en realidad percibida más veces como /bEt/, que tiene un F1 más bajo. Estos cambios en la identificación de la vocal estaban en línea con lo predicho por la hipótesis: el oyente evaluaba los formantes de la vocal en rela-ción con el rango de valores contenidos en la frase precursora. Dependiendo de ello, se escuchaba una vocal u otra, a pesar de que el estímulo físico era el mismo. También Dechovitz (1977) encontró resultados semejantes utilizando frases naturales, en lugar de artificiales; y Nearey (1989) obtuvo datos en la misma línea utilizando listas de palabras.

En resumen, la investigación sobre normalización de las vocales pone de manifiesto que, para identificar las vocales, los oyentes utilizan tanto información intrínseca –F3 y Fo–, como información extrínseca sobre el rango de formantes del contexto en que aparece la vocal. Ahora bien, como concluye Pickett (1999), el hecho de que las vocales producidas de forma natural son a menudo altamente identificables, incluso estando aisladas y sin presencia de información extrínseca, sugiere que hay suficiente información dentro de ella a pesar de la ambigüedad en los valores de F1 y F2. Probablemente esto se aplica aún mejor para el castellano, donde quizá las confusiones son aún más raras al tratarse de un sistema vocálico de sólo cinco elementos.

Percepción continua de las vocales.

Al contrario que algunas consonantes, como veremos después, las vocales se perciben de forma continua. Cualquier variación en las frecuencias de los formantes es percibida por el oyente. Y cambios continuos y graduales de los valores formánticos se perciben también de forma continua. Si sintetizamos un conjunto de vocales artificiales cuyos formantes tengan valores que vayan desde los típicos de una vocal a los de otra, todos los estímulos intermedios se perciben como vocales intermedias entre ambas. Por ejemplo si entre una /i/ (F1= 260 Hz, F2=2300 Hz) y una /e/ (F1= 440 Hz, F2=1850 Hz) creamos con un sintetizador de vocales 8 estímulos intermedios en pasos iguales de F1 y F2 (Figura 10#):

(280, 2250), (300, 2200), (320, 2150), (340, 2100), (360, 2050), (380, 2000), (400, 1950), (420, 1900)

estos estímulos sonarán como vocales intermedias entre ambas. Si los escuchamos se-cuencialmente oiremos sonidos de vocal /i/ que son cada vez más abiertos y se van transformando en una /e/. Esto, por ejemplo, no pasa con las consonantes oclusivas, que son percibidas de forma categórica y no continua. El lector puede hacer la prueba con el sintetizador de voz de tipo Klatt, disponible on-line gracias a la Universidad de Delaware en: www.asel.udel.edu/speech/tutorials/synthesis/vowels.html

Page 46: REPASO LOGOPEDIA.pdf

46 Psicología del Lenguaje (texto: Julio González)

ei

F2

F1

Figura 10#. Percepción continua de las vocales. Cambios continuos y graduales de las frecuencias de los formantes se perciben de forma continua. En el ejemplo se han sintetizado 8 estímulos con valores de F1 y F2 comprendidos entre los típicos de una /i/ y los de una /e/. En ese orden se perciben como una /i/ que se va transformando progresivamente en una /e/.

Percepción de vocales y cerebro.

Es poco lo que se conoce sobre los mecanismos neurales que subyacen a la identificación de las vocales. Sabemos que el oído, más concretamente, el órgano de Corti, lleva a cabo un análisis frecuencial de la onda; es como si realizara un "espectrograma" neural del sonido (cocleograma), en el que las frecuencias bajas están más separadas entre sí que las altas. A partir de aquí, es probable que se active algún mecanismo de extracción de formantes (F1 y F2) y su posterior representación en alguna forma de mapa neural bidimensional (Makëla et al, 2003; Obleser et al., 2003; Ohl y Scheich, 1997).

La primera descodificación de la señal acústica es seguro que tiene lugar en el órgano de Corti del oído, gracias a su capacidad de filtrar y separar los componentes frecuenciales del sonido. En esta primera etapa tendría lugar un análisis auditivo primario periférico que permitiría identificar los formantes como las zonas del espectro de mayor densidad de energía. Teniendo en cuenta que la resolución del órgano de Corti es mejor en las frecuencias bajas, se explicaría la importancia y la posibilidad de separación de los dos primeros formantes de la vocal. Estos formantes serían codificados en el nervio auditivo (8º par) a través de la tasa de descarga de poblaciones de fibras auditivas, como así se ha demostrado en estudios de modelo animal (May, 2003). La información sobre los formantes es transmitida y probablemente transformada a través de las sucesivas estaciones de relevo neural (núcleos) antes de llegar a la corteza auditiva.

Estudios recientes con técnicas de neuroimagen sugieren que el córtex cerebral izquierdo en el área auditiva (lóbulo temporal) exhibe patrones de activación e inhibición diferenciados dependiendo de la estructura de formantes de la vocal. Makëla et al. (2003) aplicaron recientemente en la Universidad de Helsinki las técnicas de magnetoencefalo-grafía (MEG) en el registro de la actividad de la corteza auditiva del hemisferio izquierdo mientras se percibían la vocales finesas /a/, /o/ y /u/. Encontraron que la activación magné-tica en torno a los 100 milisegundos de presentación del estímulo, lo que se llama respuesta N1m, presentaba una distribución espacial que reflejaba las similitudes formánticas entre vocales. En la medida en que la distancia acústica entre las vocales en el plano F1 x F2 era mayor, las activaciones neurales presentaban centros de gravedad más separados. Aunque no se trata de una prueba definitiva, estos y otros datos sugieren que quizá la categorización de las vocales podría ser explicada, al menos en parte, por una representación espacial (tonotópica) de F1 y F2, o alguna transformación de los mismos, sobre la corteza cerebral.

Page 47: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 47

PERCEPCIÓN DE LAS CONSONANTES

Las consonantes son producidas por rápidos movimientos o gestos articulatorios que se imponen sobre los más lentos de las vocales. La coordinación de gestos para las conso-nantes con los gestos vocálicos se organiza en las unidades silábicas, cuyo núcleo es la vocal. Al contrario que las vocales, las consonantes no pueden formar el núcleo de una sílaba. No existen sílabas constituidas sólo por una consonante, como sí puede ocurrir con una vocal. De hecho, no es posible pronunciar algunas consonantes de forma aislada, sin la ayuda de una vocal: /p/, /t/, /k/, /b/, /d/, /g/. Algunos autores consideran que las sílabas en esencia son vocales alteradas por delante o detrás por consonantes; o sea, como si las consonantes fueran los "márgenes" de las vocales. La percepción de las consonantes es, sin embargo, esencial para entender el lenguaje y obedece a procesos más complejos que las vocales. Como veremos, presenta características particulares que han sido objeto de estudio durante décadas; en especial, la percepción categórica. Transiciones formánticas Existen múltiples pistas perceptivas en la señal del habla para la identificación de los sonidos consonánticos: por ejemplo, la composición del ruido en las fricativas como la /s/ o la /f/, los formantes propios de algunas consonantes como /m/, /n/, /l/, etcétera. Pero, por encima de todas las pistas, destaca una por ser la más importante: las transiciones de los formantes vocálicos. Cuando pronunciamos una vocal de modo aislado (p.e. /a/), sus formantes presentan una apariencia estable, más o menos plana en dirección horizontal. Si la pronunciamos precedida o seguida de una consonante (p.e. /pa/), la trayectoria formántica se ve alterada hacia arriba o hacia abajo, por influencia de esa consonante (Figura 11#). Esto ocurre en la transición consonante-vocal, si es una sílaba directa, o vocal-consonante, si es una sílaba inversa. Estas rápidas inclinaciones formánticas causadas por la presencia de una consonante se conocen como transiciones de los formantes y constituyen una pista clave para su identificación. Esto es especialmente evidente en las consonantes oclusivas. En particular, las transiciones de F1 y F2 son cruciales para percibir las consonantes; sobre todo las de F2 (Figura 11b#). Nuestro sistema perceptivo se vale de ellas para identificar con gran rapidez los distintos sonidos consonánticos que van apareciendo en el habla fluida. En unos casos las transiciones son hacia arriba, más o menos pronunciadas, en otros, son hacia abajo; depende de cada consonante, y ¡ojo! también de la vocal. No hay una relación simple del tipo: todas las /d/ darán lugar a una transición hacia arriba, todas las /k/ causarán transiciones hacia abajo. La relación es mucho más compleja, pero nuestro sistema per-ceptivo se encuentra cómodo en esa complejidad porque no se equivoca.

Page 48: REPASO LOGOPEDIA.pdf

48 Psicología del Lenguaje (texto: Julio González)

apa

Figura 11#. Espectrograma de /apa/. Transiciones de los formantes vocálicos por influencia de las consonantes. Compárese el espectrograma de /a/ con el de /pa/. En este último, la porción inicial de los formantes son "empujados" hacia abajo por influencia de /p/.

ga daba

Figura 11b#. Las transiciones formánticas son clave para identificar las consonantes.

Veamos el ejemplo que siempre se cita en todos los manuales sobre percepción del lenguaje. En la Figura 12# se presentan arriba dos espectrogramas naturales de las sílabas /di/ y /du/, y abajo dos espectrogramas esquemáticos donde sólo aparecen F1 y F2. Son representaciones muy estilizadas obtenidas a partir de los espectrogramas naturales. Cuando se pasan por el sintetizador de voz Pattern Playback, u otro similar, suenan sin lugar a dudas como /di/ y /du/, respectivamente; eso sí, con una voz "robótica" poco natural. La parte estable de los formantes da lugar a la percepción de las vocales: F1 y F2 muy separados para la /i/, y juntos para la /u/. Son las transiciones las que nos hacen escuchar la consonante /d/ en los dos casos. ¿Qué tienen en común las transiciones para que oigamos lo mismo? Aquí hay un problema, porque la transición de F2 es hacia abajo en la primera sílaba, mientras que en la segunda es hacia arriba; pero en los dos casos suena igual: /d/ (si se escucha junto con F1).

Page 49: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 49

No encontramos un patrón de energía común que sea responsable de la percepción de /d/. Este ejemplo ilustra el problema teórico principal sobre la percepción del habla, que mencionábamos al principio: la ausencia de invarianza acústica. Es decir, la falta de algo constante en la representación espectrográfica que corresponda con una consonante. Es un problema que causó perplejidad en los estudios pioneros y ha traído de cabeza a los investigadores durante varias décadas; porque no olvidemos que ese "algo constante" nuestro sistema perceptivo sí lo encuentra (si no, no oiríamos la misma consonante). De la diversidad de explicaciones propuestas se han derivado diferentes teorías sobre la percepción del lenguaje, que luego veremos.

di du

di du

Figura 12#. Ejemplo de ausencia de invarianza acústica. En las dos sílabas (/di/, /du), el primer sonido suena /d/ a pesar de que las transiciones formánticas son distintas. Arriba: espectrogramas naturales. Abajo: versiones estilizadas de los dos primeros formantes.

La relación compleja entre la señal acústica y la percepción puesta de manifiesto por la falta de invarianza tiene otras consecuencias, como la dificultad de segmentar la señal en fonemas separados y la transmisión paralela de información. Al principio se pensó que las

Page 50: REPASO LOGOPEDIA.pdf

50 Psicología del Lenguaje (texto: Julio González)

unidades del habla se disponían como eslabones de una cadena, como las perlas de un co-llar. Así es como lo representamos en la escritura mediante letras, unas detrás de otras. Pero el lenguaje no funciona de este modo debido a un fenómeno que es habitual cuando habla-mos: la coarticulación, que luego definimos. Para el lingüista Charles Hockett, el habla es más parecida a una sucesión de huevos de Pascua de distintos colores y espachurrados por un rodillo; de manera que éstos se mezclan entre sí y pierden su carácter discreto e indi-vidualizado. Así, la señal acústica del habla no es una ventana transparente a los fonemas; al contrario, al oyente le corresponde la ardua y complicada tarea de volver a reconstruir y separar los huevos a partir del amasijo. Pero esto lo hace con naturalidad y sin esfuerzo.

Coarticulación. A causa de la coarticulación los rasgos o características de los sonidos vecinos se mezclan y se funden entre sí. Cuando articulamos un fonema anticipamos movimientos o gestos articulatorios de los fonemas futuros y arrastramos movimientos residuales de los precedentes. Hay un solapamiento de movimientos articulatorios que es como si articuláramos más de un fonema a la vez; de ahí la denominación. Podríamos definirla como el hecho de que el estado del tracto vocal –y por tanto la señal acústica– refleja en cada instante no sólo el segmento que se está pronunciando en ese momento, sino también segmentos anteriores y posteriores. A veces la influencia proviene de fonemas situados hasta 6 unidades más allá. La coarticulación es más patente cuando los órganos articulatorios que intervienen en dos fonemas vecinos son distintos; en esos casos el solapa-miento es más fácil. Por ejemplo, cuando pronunciamos la sílaba /su/, el abocinamiento de los labios característico de la /u/ se anticipa y se produce ya mientras articulamos la /s/, "tiñiéndola" de /u/; escuchando sólo la /s/ "adivinamos" prácticamente sin error que la vocal siguiente es la /u/.

Este hecho, aparentemente anodino, es fundamental para que el habla se descodifique a una velocidad muy alta. En definitiva la coarticulación tiene una doble consecuencia: a) por una parte, complica la señal acústica y hace que la relación sonido-percepto sea compleja; b) por otra, y esta es la cara buena de la moneda, permite que el sistema perceptivo descifre los fonemas a una velocidad impensable para cualquier otra clase de sonido. Como efecto de la coarticulación los sonidos se mezclan y hay dificultad en segmentar la señal en fonemas independientes. Así, la figura 12# nos indica que la parte estable de los formantes corresponde a la vocal (/i/ ó /u/), mientras que las transiciones corresponden a la consonante inicial (/d/ en los dos casos); pero es imposible segmentar el estímulo en dos partes, de manera que en una suene sólo la /d/ y en otra sólo la vocal. Si el "corte" lo damos demasiado pronto (a la izquierda), el primer fragmento no suena a habla (ni a /d/ ni a vocal), sino a una especie de "chirp" que nada tiene que ver con el lenguaje. Si el corte se sitúa lo suficientemente a la derecha para poder oír la /d/, será inevitable "adivinar" u oír el comienzo de la vocal siguiente. A este fenómeno se le ha referido también como transmisión de información en paralelo. Mientras oímos la /d/ también oímos la vocal que le sigue; en el ejemplo anterior de la sílaba /su/, mientras percibimos la /s/, también percibimos la /u/. Y esto es común en la señal del habla humana porque ha sido coarticulada en origen. Este fenómeno no sucede en otros tipos de códigos acústicos, donde la transmisión es serial; en Morse una señal, sea larga o corta, no transmite información sobre la señal siguiente o anterior.

Page 51: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 51

PERCEPCIÓN CATEGÓRICA

Hemos visto que las vocales se perciben de modo continuo: cambios graduales y continuos de las frecuencias de los formantes se perciben de forma continua. Por el contrario, las consonantes, en concreto las oclusivas (/p/, /t/, /k/, /b/, /d/, /g/), se perciben de forma categórica: Cambios continuos y graduales a lo largo de una dimensión del estímulo no son percibidos de modo continuo, sino de forma discreta o por categorías.

El estudio seminal que primero lo puso de manifiesto experimentalmente se debe a Liberman, Harris, et al. (1957) de los Laboratorios Haskins. Sintetizaron una serie de 14 estímulos formados por representaciones esquemáticas de F1 y F2 para ser escuchados por el Pattern Playback (Figura 13#). Todos los estímulos eran iguales salvo en la transición de F2, que variaba de forma gradual desde un inicio bajo hasta un inicio alto (un ejemplo de estímulo completo es el 14). Al pasarlos por el sintetizador de voz, la mayoría de los participantes escuchaban ejemplos claros de /be/, /de/ y /ge/; pero no lo hacían de modo continuo, sino categorial. Vamos a explicarlo. La parte estable de los formantes corresponde a la vocal, /e/, mientras que las transiciones son debidas al efecto de la consonante. Según la inclinación de F2 se oye una consonante u otra; eso ya era algo sabido. Cuando F2 tiene un inicio bajo, se oye /b/ (estímulo 1); si el inicio es intermedio, en el mismo plano que la vocal, se oye /d/ (estímulo 8); si el inicio es alto (estímulo 14) se oye /g/. Pero ¿qué ocurre con los estímulos intermedios? Aquí está el meollo de la cuestión; si la percepción fuera continua como en las vocales, se escucharían formas intermedias de las tres consonantes, pero no sucede así. Los estímulos 1, 2, 3, y 4 se oyen /be/, y siempre con la misma consonante, sin diferencias entre ellos; los estímulos 5, 6, 7, 8, y 9 se oyen como ejemplos idénticos de /de/; y los restantes, 10, 11, 12, 13, y 14, como ejemplos idénticos de /ge/. O sea, es como si existieran valores críticos o fronteras en la dimensión estudiada –transición de F2- que al cruzar de un lado a otro pasáramos de una categoría de sonido a otra, y ¡atención! sin diferencias internas dentro de cada categoría. Así al pasar del estímulo 4 al 5, pasamos de la categoría de la B a la D, pero dentro de cada categoría todos los estímulos suenan indistinguibles entre sí: no notamos diferencia entre por ejemplo el 2 y el 3. Al pasar del estímulo 9 al 10, cruzamos desde la categoría D a la G, pero en el interior de cada una todos los estímulos suenan igual. Esto es un ejemplo claro de percepción categórica o por categorías.

Page 52: REPASO LOGOPEDIA.pdf

52 Psicología del Lenguaje (texto: Julio González)

Figura 13#. Percepción categórica de las consonantes. Los estímulos 1-4 se oyen como /be/; los 5-9 como /de/ y los 10-14 como /ge/. Dentro de cada grupo no se perciben diferencias. Un ejemplo de estímulo completo es el 14. (Liberman, Harris et al# (1957)

Los experimentos que estudian la percepción categórica utilizan dos tipos de pruebas o tareas, cuyos resultados se comparan entre ellas: tareas de discriminación y tareas de identificación:

1. En las tareas de discriminación los estímulos se comparan entre sí. Hay varios paradigmas experimentales posibles. Así, en el paradigma llamado AX se presenta un estímulo y a continuación otro, que puede ser el mismo estímulo repetido, u otro distinto; la tarea del oyente consiste en responder igual o diferente. En un diseño ligeramente más complejo, ABX, se presentan dos estímulos sucesivos que siempre son distintos (y así se le dice al oyente en las instrucciones); a continuación se presenta un tercer estímulo que siempre es uno de los dos anteriores: el oyente debe decidir cuál de los dos es este tercer estímulo. La tarea puede resultar más fácil o difícil manipulando ciertas variables, entre ellas el tiempo que media entre los estímulos.

2. En la tarea de identificación se presenta un único estímulo en cada ensayo y el oyente debe identificarlo indicando la etiqueta o nombre del estímulo; en este caso, de qué consonante se trata.

Por supuesto, tanto en una prueba como en otra los estímulos se presentan en ensayos aleatorios, para evitar cualquier efecto de orden. Cuando la percepción es de tipo categórico, la identificación es constante dentro de una categoría (casi el 100% de los oyentes identifican todos los estímulos con la misma etiqueta) y al cambiar de categoría, ésta cambia también bruscamente.

La discriminación guarda relación con la identificación: dentro de una misma categoría los estímulos son difícilmente discriminables entre sí y las repuestas rozan el nivel de azar (50%); cuando los estímulos que se comparan pertenecen a categorías distintas la discriminación es casi perfecta (próxima al 100%). Es decir hay una dicotomía o discontinuidad en los resultados: error dentro de la misma categoría, y desempeño casi perfecto entre categorías distintas. Este todo-o-nada no aparece en la percepción continua, donde los resultados son proporcionales a la distancia entre los estímulos –cuanto más distintos mejor se discriminan.

Page 53: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 53

¿Por qué los sonidos del habla, en concreto las consonantes oclusivas, se perciben de forma discontinua o categórica, al contrario que otros muchos sonidos, que son percibidos de modo continuo (p.e. tonos)? Mucho se ha discutido sobre la cuestión y los autores defensores de un mecanismo especial para la percepción del lenguaje han visto en ello una manifestación de su existencia. Retomaremos la cuestión al tratar las distintas teorías sobre la percepción del habla. Lo cierto es que la percepción categórica se ha hecho evidente no sólo respecto a las transiciones de F2, sino también en relación a otras dimensiones acústicas relevantes para la distinción entre consonantes. La dimensión más estudiada y la que, con mucho, más volumen de investigación ha generado es el archimencionado VOT o Voice Onset Time.

Contraste sordo-sonoro (VOT) El parámetro estrella en la investigación psicolingüística sobre percepción del lenguaje es, sin duda, el conocido como VOT o Voice Onset Time. El témino se ha traducido al castellano de múltiples formas: tiempo hasta el inicio de la voz, tiempo de emisión de voz, TEV, tiempo de emisión vocálica, intervalo de inicio de sonoridad, etcétera; pero aquí conservaremos su denominación original, el acrónimo VOT, por la universalidad de su uso. De su valor depende que escuchemos una oclusiva sorda o una sonora. Prácticamente todas las lenguas del mundo tienen consonantes oclusivas, aunque su distribución varía de unas a otras. En la Figura #, tenemos las seis oclusivas del castellano, organizadas según su punto de articulación (labial, dental, velar) y sonoridad (sorda, sonora).

labiales dentales velares sordas: / p / / t / / k / sonoras: / b / / d / / g /

Figura#. Consonantes oclusivas castellanas agrupadas por parejas de sorda-sonora.

Para entender cómo afecta el VOT a la percepción, hay que conocer antes la mecánica articulatoria de las consonantes oclusivas. Cuando pronunciamos una de ellas, por ejemplo en posición inicial de sílaba, hay una secuencia de los siguientes movimientos articulatorios (Figura 14#):

Movimiento 1:. Oclusión o interrupción completa, durante varias decenas de mili-

segundos, de la salida de aire de la boca y, por tanto, de la energía acústica. La oclusión se realiza con los labios, en las consonantes labiales /b/ y /p/; con la lengua contra los dientes, en las dentales españolas /t/ y /d/; o con la parte posterior de la lengua contra el velo del paladar, en las velares /g/ y /k/.

Movimiento 2: Liberación del aire. Los órganos obstruyentes se separan bruscamente liberando el aire a presión y dando lugar a una pequeña explosión o “burst”.

Page 54: REPASO LOGOPEDIA.pdf

54 Psicología del Lenguaje (texto: Julio González)

Movimiento 3: Comienzo de vibración de las cuerdas vocales para el inicio de la vocal que sigue a la oclusiva.

Los estudios demuestran que existe una sincronización temporal muy fina, de milisegundos, entre estos tres movimientos a pesar de que pertenecen a grupos musculares y nervios craneales distintos. Esta perfecta coordinación, cuyo mecanismo responsable probablemente se ubica en el área de Broca de la corteza cerebral, puede verse alterada en ciertas patologías del habla. La diferencia perceptiva entre /b/ y /p/, o entre /d/ y /t/, o /g/ y /k/ viene dada por la relación temporal entre los movimientos 2 y 3. Son pares de fonemas que son iguales en todos sus rasgos, salvo en el de la sonoridad. El VOT es la distancia temporal entre los movimientos 2 y 3. Es decir, los milisegundos que trancurren desde el burst, o liberación bruca del aire, y el inicio de la vibración de las cuerdas vocales. Tomando el movimiento 2 como cero, el VOT puede ser positivo o negativo. Por ejemplo, un VOT de +45 milisegundos significa que primero tiene lugar el movimiento 2 (liberación de aire y "burst") y 45 mseg. más tarde ocurre el movimiento 3. Un VOT de 0 mseg indica que ambos movimientos coinciden en el tiempo. Cuando el orden se invierte y el movimiento 3 precede al 2, lo cual es muy frecuente en algunos idiomas como el español o el tai, se habla de un VOT negativo. Un VOT de -25 mseg. indica que primero ocurre el movimiento 3 y 25 milisegundos más tarde ocurre 2; en este caso, las cuerdas vocales comienzan a vibrar antes de la liberación del aire.

/s/ /a/ /k/ /o/

1

2 3

VOT = 45 mseg

Figura 14#. Espectrograma de la palabra "saco". Obsérvense los tres movimientos articulatorios de la consonante oclusiva (/k/): 1. Oclusión completa de la salida de aire (y de la energía acústica). 2. Liberación brusca del aire que produce una pequeña explosión o burst. 3. Inicio del funcionamiento de las cuerdas vocales en la producción de la vocal siguiente. El parámetro VOT viene dado por el tiempo que media entre los movimientos 2 y 3 (45 milisegundos en este caso).

Las oclusivas sordas (/p/, /t/, /k/) se diferencian de las sonoras (/b/, /d/, /g/) en que tienen un VOT más largo que éstas. En la mayoría de las lenguas existe una distinción entre

Page 55: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 55

oclusivas sordas y sonoras en base al valor del VOT. De todos los valores numéricos que podría adoptar el VOT en un continuo temporal, hay límites críticos que sirven de frontera entre las categorías (Lisker y Abramson, 1964). En este sentido, el inglés se comporta de distinta manera que el español (Figura 15#). Por ejemplo, en inglés la frontera de las labiales se sitúa en torno a 25-30 milisegundos: la consonante sorda (/p/) tiene un VOT superior a ese límite, y la sonora (/b/) inferior. En español, el límite se sitúa en torno a un VOT= 0 milisegundos. Algunas lenguas, como el tai, tienen tres categorías distintas: a las categorías de sorda y sonora se añade una tercera llamada pre-sonora.

INGLÉS: sonoras sordas

ESPAÑOL: sonoras sordas

TAI: pre-sonoras sonoras sordas

-50 -40 -30 -20 -10 0 +10 +20 +30 +40 +50 Figura 15#. Valores límite del parámetro VOT (Voice Onset Time) que marcan la separación entre categorías de oclusivas labiales en tres lenguas distintas. Los números indican milisegundos.

Experimento pionero. Desde el punto de vista de perceptivo, uno de los estudios más citados es el trabajo pionero de Abramson y Lisker (1967), también de los Laboratorios Haskins. Los autores crearon una serie de 31 estímulos artificiales para ser escuchados a través del Pattern Playback iguales en todo, salvo en el valor del VOT. Éste variaba en pasos de 10 milisegundos desde –150 hasta +150 milisegundos. Los resultados mostraron que la percepción era claramente categórica. Las respuestas en la tarea de identificación se distribuían de acuerdo con la gráfica de la Figura 16#. Cuando el VOT era inferior a 25-30 milisegundos casi el 100 % de las respuestas identificaban los estímulos como la consonante /b/; cuando el VOT era superior a ese límite, casi el 100% de las identificaciones eran para la consonante /p/. Sólo en las inmediaciones del límite aparecía una estrecha zona de incertidumbre, en la que las respuestas se repartían entre ambas categorías. Por otra parte, los datos de la tarea de discriminación indicaban que los oyentes tenían dificultades en distinguir entre pares de estímulos dentro de una categoría, mientras que las discriminaciones correctas subían espectacularmente cuando los estímulos cruzaban la frontera, es decir, pertenecían a categorías distintas.

Se ha discutido mucho sobre si hay percepción categórica en otros sonidos que no sean del habla; y, de hecho, bajo ciertas condiciones, algunos estímulos de no-habla se perciben de forma discontinua, como veremos luego (Miller et al., 1976; Pisoni, 1977, en Diehl2004). Por otra parte, trabajos más recientes indican que los oyentes sí pueden percibir diferencias entre los estímulos de una misma categoría fonética y que ésta cuenta en su interior con una rica estructura interna organizada en torno a representaciones prototípicas (Allen y Miller, 2001; Miller, 1994; Miller JL, O'Rourke TB, Volaitis L, 1997).

Parece que la percepción categórica confiere al oyente la ventaja de centrarse en los as-pectos de la señal que son importantes para identificar los fonemas e ignorar variaciones no esenciales dentro de la categoría fonética (Werker, 1989, en Ryalls). En palabras de Ryalls (1996, pág. 54):

Page 56: REPASO LOGOPEDIA.pdf

56 Psicología del Lenguaje (texto: Julio González)

La percepción categórica es característica de ciertas distinciones de sonidos del habla y generalmente no se la encuentra en la mayoría de los sonidos de no-habla. Se piensa que representa uno de los caminos en los que el sistema perceptivo humano se ha adaptado de modo especial a la percepción del habla. Representa una forma de manejar la enorme cantidad de variación entre las diferentes producciones del mismo sonido que típicamente encontramos en el habla humana. Nos da un medio de manejar esta variación en tiempo real –diferencias irrelevantes entre distintas producciones del mismo sonido de habla se ignoran con el fin de acelerar el proceso de reconocimiento. De otro modo, podríamos emplear mucho tiempo en decidir qué fonemas asignamos a ciertos sonidos que suenan ambiguos. La percepción categórica evita así una gran cantidad de trabajo potencial para hacer conjeturas, ya que [gracias a ella] normalmente no oímos los sonidos como ambiguos.

Esto descargaría de trabajo al sistema perceptivo y permitiría concentrar casi todos los recursos cognitivos en lo que verdaderamente importa en el lenguaje: la extracción del significado.

Figura 16#. Respuestas en una tarea de identificación (consonante B versus P) de estímulos artificiales de habla, cuyo VOT varía desde –150 a +150 mseg., en incrementos de 10. Las respuestas presentan una distribución claramente categórica con una estrecha zona de incertidumbre en torno al límite de VOT= +25-30 mseg. Datos basados en Abramson y Lisker (1957).

PERCEPCIÓN DEL HABLA EN LA INFANCIA

Muchos autores, partidarios de la existencia de un mecanismo especializado para percibir el lenguaje, vieron en la percepción categórica una prueba a su favor, ya que ésta surgía como una propiedad "especial" y típica de los sonidos del habla. Su argumentación cobró fuerza cuando a comienzos de los años 70 apareció en Science el paradigmático trabajo de Peter Eimas y su equipo de la Universidad de Brown, en el que se demostraba que la percepción categórica de algunos fonemas era innata en el ser humano y se manifestaba desde los primeros meses de vida (Eimas et al. 1971).

Hasta ese momento había una creencia extendida de que los bebés, igual que tienen que aprender a hablar, vienen al mundo sin la habilidad de percibir los sonidos del habla y tienen que adquirirla a medida que se ven expuestos al lenguaje. Pero aquel estudio y otros que

Page 57: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 57

vinieron después demostraron que, en lo que se refiere a la percepción del habla, los seres humanos no nacen como una hoja en blanco.

Experimento de Eimas. El experimento de Peter Eimas y sus colaboradores se llevó a cabo con bebés de tan sólo 1 a 4 meses de edad (ver una revisión, en castellano, escrita por Eimas en el número 105 de Investigación y Ciencia, marzo de 1985). Los autores emplearon tres conjuntos de estímulos de habla con distintos valores de VOT. Según los trabajos previos con adultos (Lisker y Abramson, 1957), se sabía que un VOT de 25-30 milisegundos marca una frontera crítica para las consonantes oclusivas del inglés; de manera que por debajo de ese valor los estímulos se identifican como /b/ (sonora), y por encima, como /p/ (sorda). Dos estímulos distintos, uno a cada lado de esa frontera, se discriminan fácilmente entre sí por personas adultas. Sin embargo, dos estímulos que estén ambos en el mismo lado de esa frontera, es decir dentro de la misma categoría fonética, son difícilmente discriminables entre sí, "suenan" igual. Sabiendo esto, Eimas puso a prueba la capacidad de los bebés para discriminar entre pares de estímulos formados por una consonante más la vocal /a/. Había tres tipos de pares:

a) Un par estaba formado por un estímulo con un VOT= 20 mseg. (por debajo del límite crítico) y otro con VOT= 40 mseg. (por encima del límite crítico).

b) Otro par lo componían dos estímulos cuyos VOT eran 0 y 20 mseg., res-pectivamente. O sea, ambos dentro de la misma categoría (los dos suenan como /ba/ a los oyentes adultos).

c) Y otro par con VOT respectivos de 60 y 80 mseg, también pertenecientes a la misma categoría (/pa/ para los adultos).

La idea era administrar primero un estímulo del par y a continuación el otro, para poder observar si el bebé los percibe como iguales o distintos.

Ahora bien, ¿cómo podría comunicar un bebé lo que oye en un experimento perceptivo? Con los adultos es sencillo, no tienen más que decirlo o pulsar un botón, pero un bebé de 1-4 meses no es capaz de ninguna de esas respuestas (ni de entender las instrucciones). Eimas y sus colegas emplearon un ingenioso método que luego se ha utilizado mucho por otros investigadores. Se basaron en la respuesta natural de los bebés llamada de succión no nutritiva. Comprobaron que podrían medir el número de succiones que un bebé ejerce en un chupete si se le acopla un dispositivo sensible a la presión, conectado a un instrumento de registro (Figura 17#). Normalmente los bebés succionan sobre 20 a 40 veces por minuto. Durante el experimento, cada vez que se registraba una respuesta de succión se administraba un estímulo. El bebé descubría la contingencia y succionaba a un ritmo rápido durante varios minutos hasta que se acostumbraba al estímulo. Cada vez que el bebé percibe

un estímulo nuevo, su ritmo se incrementa otra vez hasta que vuelve a habituarse a ese estímulo y su tasa de succión recobra la línea base. En las sesiones experimentales, después de escuchar durante varios minutos un estímulo del par, se le sustituía por el otro y se

Page 58: REPASO LOGOPEDIA.pdf

58 Psicología del Lenguaje (texto: Julio González)

observaba qué ocurría con la tasa de succión: si ésta aumentaba bruscamente era señal de que el bebé percibía este segundo estímulo como nuevo; si la tasa continuaba bajando, significaba que el bebé no percibía la diferencia. De este modo, los investigadores podían saber si dos estímulos eran discriminados entre sí por el bebé. Un resumen de los resultados principales se presenta en las gráficas de la Figura 18#. En cada una, observamos el número de respuestas de succión por minuto ante la presentación de un par sucesivo de estímulos. Durante los primeros 5 minutos se presenta el primer estímulo del par, y, a partir del minuto 0, se presenta el segundo estímulo. En la condición A, los dos estímulos tienen respectivamente un VOT de 20 y 40 milisegundos, pertenecientes a categorías fonéticas distintas; de las respuestas se desprende que el bebé los percibe como distintos y, por esa razón, la tasa de succión sube bruscamente al cambio estimular. En la condición B, los dos estímulos pertenecen a la misma categoría; en unas sesiones se trataba del par de VOT= 0 y 20 mseg., en otras, del par de VOT= 60 y 80 mseg. Aparecen juntos los datos de ambas sesiones porque el resultado es semejante: el bebé no percibe la diferencia entre el primer y el segundo estímulo, por lo que su tasa de succión sigue bajando hasta regresar a la línea base. En la condición de Control no hay cambio de estímulo, y la tasa de succión también desciende.

A pesar de que todas las parejas de estímulos tienen la misma distancia de 20 mseg entre sus VOT, sólo la que cruza la frontera crítica de 25-30 mseg es discriminada por el bebé como sonidos distintos; de forma semejante a como sucede en los oyentes adultos. La percepción del bebé era, pues, también de tipo categórico, sin discriminar diferencias dentro de la misma categoría y sólo entre sonidos de categorías distintas. Sorprendentemente, un bebe sin experiencia lingüística se comportaba perceptivamente como un adulto.

Como el lector puede imaginar, el impacto del trabajo de Eimas sobre la comunidad científica fue enorme. Venía a dar una visión opuesta a las suposiciones más arraigadas: los bebés no nacen como una hoja en blanco que luego se tiene que rellenar, sino que, desde el principio, vienen al mundo dotados de los principios básicos para la percepción del lenguaje, antes de haber tenido ninguna experiencia significativa con el mismo. De hecho, resultados similares se hallaron en bebés incluso menores de 1 mes (Bertoncini et al.#, en Ryalls). Dada la edad de los sujetos, sería difícil explicar estos datos como producto del aprendizaje. En palabras de Eimas (1974, pag. 49), "una visión más simple es que la categorización ocurre porque el niño ha nacido con los mecanismos perceptivos afinados a las propiedades del habla".

Page 59: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 59

15

30

45

60

75

5 4 3 2 1 0 1 2 3 415

30

45

60

75

5 4 3 2 1 0 1 2 3 415

30

45

60

75

5 4 3 2 1 0 1 2 3 4

Minutos

A B Control

Figura 18#. Resultados del experimento de Eimas et al. (1971) con bebés de 1-4 meses de edad. Respuestas de succión por minuto ante la presentación de un par de estímulos. Durante los primeros 5 minutos se presenta el primer estímulo del par; a partir del minuto 0 se presenta el segundo estímulo. En (A) los dos estímulos tienen VOT de 20 y 40 milisegundos, pertenecientes a categorías fonéticas distintas. En (B) los dos estímulos pertenecen a la misma categoría (VOT= 0 y 20 mseg.; o bien VOT= 60 y 80 mseg.). En la condición de control no hay cambio de estímulo. Pronto nuevos estudios obtuvieron resultados semejantes para otros contrastes fonéticos distintos del VOT. Los datos indicaban una percepción categórica en los bebés semejante a la observada en los adultos (Eilers et al., 1980; Kuhl et al, 1979; Lasky et al., 1975; Stretter, 1976; ver Jusczyk, 1994, para una revisión). Métodos. Al procedimiento de Eimas se le conoce como paradigma basado en la succión no nutritiva, o también HAS-High Amplitude Sucking o de respuesta de succión de amplitud alta. Otro procedimiento parecido se basa en la tasa cardiaca del bebé –ésta aumenta ante estímulos nuevos (Lasky, Klein, et al. 1975). Una diferencia importante es que la tasa cardiaca no es una conducta que el bebé realiza voluntariamente para recibir más estímulos, sino una respuesta autónoma ante la novedad estimular. Para bebés algo mayores, entre 6 y 18 meses, que ya pueden mantenerse sentados en el regazo de un adulto, se emplea preferentemente el paradigma HD-Head Turn o de giro de cabeza; también conocido como VRISD -Visually Reinforced Infant Speech Discrimination (Figura 19#). Aquí primero se condiciona al niño a girar la cabeza cada vez que detecta un cambio en un sonido de fondo (p.e. una sílaba repetida) para ver cómo se ilumina una caja con un muñeco dentro. Mientras oye el mismo sonido repetido, la caja permanece oscura; en el momento en que se administra un estímulo nuevo, la caja se ilumina y el muñeco se mueve por activación eléctrica. Esto se repite varias veces durante una fase previa hasta lograr el condicionamiento. Una vez que el niño se ha condicionado, se puede pasar a la fase

Page 60: REPASO LOGOPEDIA.pdf

60 Psicología del Lenguaje (texto: Julio González)

experimental, en la que se emplean los estímulos que se queren estudiar. De este modo se sabe cuándo un estímulo se percibe como igual o distinto a otro, según la respuesta de giro. Todos los adultos que intervienen en la sesión, tanto la madre que sostiene al niño, como el experimentador, escuchan música a través de auriculares para no oír los estímulos y evitar cualquier señal involuntaria, por pequeña que sea, que pudiera captar el bebé.

Figura 19#. Paradigma experimental del giro de cabeza para bebés de 6 o más meses de edad. En la fase de entrenamiento, se condiciona al bebé a girar la cabeza para ver un muñeco que se activa cada vez que hay un cambio en el estímulo de fondo. De esta manera, en la fase experimental se puede saber si el bebé discrimina entre dos estímulos distintos. Todos los adultos que participan en el experimento escuchan música por auriculares, para no oír los estímulos.

Capacidades perceptivas de los bebés. Con todos estos metodos descritos se hicieron importantes observaciones durante los años setenta y siguientes. Resultó sorprendente comprobar que los bebés podían discriminar, incluso, contrastes fonéticos que los adultos de su entorno eran incapaces. Así, los hablantes adultos del inglés tienen dificultades para

Page 61: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 61

distinguir las consonantes españolas /b/ con VOT = –20 mseg., de las /p/ con VOT = +20 mseg., porque para ellos todas suenan como /b/ inglesa (ver los límites para las distintas lenguas en la Figura 15#). Pero los bebés nacidos en ambiente inglés sí son capaces durante los primeros meses (Aslin, Pisoni, en Ryalls). Los bebés japoneses, como todos los bebés del mundo, pueden discriminar entre /r/ y /l/, pero sus padres no.

Parece como si los bebés nacieran con la capacidad natural universal de percibir todos o casi todos los contrastes fonéticos existentes en las lenguas del mundo, y luego conservaran sólo los propios de la suya.

Esto quiere decir que en algún momento del paso de bebé a adulto, éste pierde su capacidad para percibir ciertos contrastes fonéticos que no existen en su lengua. El trabajo de los canadienses Janet Werker y Richard Tees (Werker y Tees, 1984, y reeditado en 2002), demostró que este periodo es asombrosamente corto: durante el primer año de vida. En un experimento muy citado, estos investigadores estudiaron un grupo de bebés de 6-8 meses de edad criados en ambiente inglés, a través del método del giro de cabeza. Comprobaron que a esa edad eran capaces de percibir dos contrastes propios de otras lenguas, inexistentes en el inglés; en concreto, uno era de la lengua amerindia salish y el otro del hindi. Sin embargo, las pruebas repetidas a los 8-10 meses y a los 10-12 meses de edad, evidenciaron que esta capacidad iba declinando hasta casi desaparecer al cumplir su primer año de vida. Por el contrario, como muestra la Figura 20#, otros niños criados respectivamente en ambientes salish e hindi, conservaban la capacidad de percibir tales contrastes presentes en sus lenguas. Parece que el entorno lingüístico ejerce un efecto selectivo potenciando la capacidad de percibir los contrastes existentes en la lengua nativa e inhibiendo los ajenos. Estudios con bebés japoneses también apuntan al mismo periodo corto en la pérdida del contraste /r/-/l/ (Kuhl, Kiritani, 1997) ¿Se pierde esta capacidad para siempre? ¿Se produce una atrofia definitiva de la misma? Probablemente no; pero su recuperación en muchos casos sólo es posible tras un arduo y prolongado entrenamiento; como así ocurre con los adultos japoneses respecto al contrate /r/-/l/. Tampoco es seguro que todos los individuos lo consigan, ni que se generalice a todas las condiciones de audición –por ejemplo, en habla conectada y rápida. Para Werker (2003), no es casual que el periodo durante el cual declinan las habilidades perceptivas hacia los contrastes no-nativos coincida con el momento en que aparecen las primeras palabras en la lengua nativa (primer año). El hecho de que en tan corto periodo permanezcan prácticamente sólo los contrastes nativos, probablemente guarda relación con la detección y aprendizaje de palabras en el entorno estimular. Tal vez los bebés usan y se basan sólo en las categorías fonéticas establecidas durante su primer año de vida como guía para identificar y adquirir las primeras unidades léxicas de un lenguaje.

Page 62: REPASO LOGOPEDIA.pdf

62 Psicología del Lenguaje (texto: Julio González)

0

20

40

60

80

100

6- 8 meses 8-10 meses 10-12 meses . 11-12 meses

hindi salish

bi

ambi

ambi

Figura 20#. Resultados del estudio de Werker y Tees (1984). Porcentaje de respuestas correctas en la percepción de dos contrastes fonéticos ajenos al inglés y pertenecientes a la lenguas hindi y salish, respectivamente. Los bebés criados en ambiente inglés tienen a los 6-8 meses de edad la capacidad de percibir dichos contrastes, pero la van perdiendo a lo largo de su primer año de edad. Por el contrario, los bebés criados en ambientes respectivos hindi y salish la conservan.

Un campo todavía poco estudiado son las habilidades perceptivas del bebé cuando éste pertenece a un ambiente bilingüe. En un trabajo reciente, llevado a cabo en la Universidad de Barcelona, se analizó el impacto de la exposición bilingüe sobre la percepción de contrastes fonéticos nativos; en concreto, el contraste catalán entre la vocal e-abierta y e- cerrada, inexistente en castellano. Se estudió a bebés de 4 y 8 meses de edad críados en tres tipos de ambientes: castellano-monolingüe, catalán-monolingüe y castellano/catalán-bilingüe (Bosch y Sebastián-Gallés, 2003). Como se esperaba, todos los bebés más pequeños eran capaces de establecer este contraste fonético, independientemente de su entorno lingüístico. Pero a la edad de 8 meses sólo conservaron esta habilidad los críados en ambiente catalán monolingüe, no así los castellano-monolingües ni, inesperadamente, los bilingües. Un experimento adicional a los 12 meses de edad reveló que los bilingües recuperaban finalmente esta habilidad discriminatoria. Los resultados parecen indicar que existe un patrón específico de desarrollo y organización de las capacidades perceptivas ante una exposición bilingüe. Se trata de un dominio que apenas empieza a ser explorado.

Percepción temprana de la Prosodia.

Todo lo visto hasta ahora se refiere a la capacidad infantil de percibir contrastes entre segmentos fonéticos, tales como los sonidos consonanticos o vocálicos. Nada se ha dicho en relación a las variables de naturaleza suprasegmental, o prosodia del lenguaje; es decir, su estructura rítmica y entonacional. Cuando nace un ser humano, le espera por delante la compleja tarea de desarrollar todo un sistema lingüístico completo. En palabras de Bloomfield (1933), le aguarda la hazaña intelectual más grande a la que se enfrenta cualquier ser humano. Aún no se conocen en detalle los mecanismos que permiten al bebé identificar las palabras a partir de la corriente del habla, pero está claro que antes de llegar a establecer un repertorio de consonantes y vocales en su lengua materna, los niños deben ser capaces de descubrir su propia lengua materna en un mundo de ruidos y sonidos (Carreiras, 1997). Parece que los bebés están capacitados desde un principio para percibir la estructura rítmica y prosódica de una lengua, como así lo demuestran varios trabajos experimentales basados

Page 63: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 63

en el paradigma de la succión no nutritiva. Uno de los más citados es el dirigido por Jacques Mehler en el CNRS o Centre National de la Recherche Scientifique en París. Él y su equipo descubrieron que los bebés de tan sólo 4 días eran capaces de discriminar su lengua materna de otra lengua extranjera. Se trataba de bebés nacidos en Francia que, a través de sus respuestas de succión, demostraban su preferencia por escuchar estímulos en francés, en lugar de estímulos en ruso, ambos pronunciados por una misma persona bilingüe franco-rusa (Mehler, Jusczyk, Lambertz et al., 1988). Esta preferencia se mantenía incluso después de filtrar los estímulos y eliminar todas las frecuencias superiores a 400 Hz o ciclos por segundo. Con esta operación el habla ya no es inteligible porque pierde la información sobre los segmentos fonéticos individuales, pero conserva prácticamente intacta su estructura rítmica y entonacional (es como escuchar a una persona hablando con una almohada en la cara). Sin embargo, si los estímulos completos se administraban en sentido inverso; es decir, de atrás a adelante, empezando por el final, en cuyo caso la estructura prosódica y entonacional específica de una lengua queda alterada, los bebés no discriminaban las lenguas.

Esta preferencia temprana por la lengua materna es un hallazgo robusto que se ha repetido en otros estudios (por ejemplo, Moon et al. 1993, con bebés de dos días). Parece, por tanto, que la habilidad del bebé para discriminar su lengua materna descansa fundamentalmente sobre una representación de su prosodia. Es muy probable que esta preferencia nazca de su experiencia previa dentro del útero materno. De hecho, el filtrado que permite pasar sólo las frecuencias graves, inferiores a 400 Hz, deja una señal acústica bastante parecida a la que llega al feto a través del líquido amniótico. Algunos trabajos muestran que la exposición prenatal a los sonidos del habla tiene una influencia considerable sobre la percepción posterior del recién nacido. De Casper y Fifer (1980) descubrieron que los recién nacidos prefieren escuchar la voz de la madre frente a otras voces femeninas. En un conjunto de 10 recién nacidos, los autores grabaron las voces de sus madres inmediatamente después del parto para ser usadas en un experimento perceptivo. El primer paso consistió en examinar el ritmo propio de succión de cada bebé, midiendo los tiempos de succión ininterrumpida y los intervalos o pausas entre succio-nes; se obtuvo, así, la "línea base" de cada uno. Luego se seleccionaron 5 bebés al azar y se les hizo escuchar la voz de su madre cuando sus intervalos inter-succión eran superiores al promedio; si los intervalos eran más cortos se les hacía oír la voz de otra madre distinta. Para los otros 5 bebés las condiciones fueron las inversas. Se consideró como indicador de preferencia por la voz materna el que los bebés ajustasen la duración de sus intervalos inter-succión –ya sea alargándolos o acortándolos, dependiendo de la condición experimental– a la requerida para oírla más frecuentemente. Los datos indicaron que 8 de los 10 bebés modificaron sus respuestas para escuchar con más frecuencia la voz de su madre.

En otro estudio se observó que los bebés prefieren oír un pasaje particular que había sido repetidamente leído en voz alta por sus madres durante el tercer trimestre de embarazo (De Casper y Spence, 1986). Los bebés también pueden discriminar entre dos lenguas extranjeras si sus estructuras prosódicas son muy distintas. Por ejemplo, Nazzi et al. (1997) informan que recién nacidos en Francia pueden discriminar entre inglés y japonés; aunque no entre inglés y alemán, dos lenguas más parecidas desde el punto de vista rítmico. Ramus et al. (2000) observan que recién nacidos franceses pueden discriminar entre frases sintetizadas en japonés y holandés. Por otra parte, si las prosodias son semejantes, la discriminación entre la lengua materna y una lengua extranjera sólo tiene lugar a partir de varios meses de vida. Así, los bebés ingleses de 2 meses no diferencian entre inglés y holandés (Christophe y Morton, 1998); pero a los 4 meses de edad sí pueden hacerlo (Nazzi, 1998). En España, las autoras Laura Bosch y Nuria Sebatián-Gallés, de la Universidad de Barcelona, comprobaron que bebés de

Page 64: REPASO LOGOPEDIA.pdf

64 Psicología del Lenguaje (texto: Julio González)

4 meses criados en familias monolingües en español o en catalán, pueden discriminar ambos idiomas a pesar de su proximidad lingüística (Bosch y Sebastián-Gallés, 1997). En el mismo estudio se comprobó que bebés de la misma edad criados en ambientes bilingües no mostraron evidencia de discriminar ambas lenguas.

PERCEPCIÓN DEL HABLA EN ANIMALES

El descubrimiento de que los recién nacidos perciben los sonidos del habla de forma categórica, como lo hacen los adultos, supuso un fuerte apoyo a la tesis de los "especialistas", que abogan por un mecanismo perceptivo específico para el lenguaje, frente a los "generalistas", defensores del mecanismo general de la percepción auditiva. Pero, como dijimos al principio, la evidencia empírica se ha ido repartiendo a favor de ambas posiciones teóricas y la euforia de los especialistas fue corta. Cuatro años más tarde del trabajo de Eimas con los bebés, Patricia Kuhl y James Miller demostraron que la percepción categórica también se da en sujetos tan poco sospechosos de tener lenguaje humano como las chinchillas (Kuhl y Miller, 1975). La chinchilla (Chinchilla laniger) (Figura 21#) es un pequeño mamífero, cuyo oído presenta importantes similitudes con el humano, y, por este motivo, se utiliza bastante en experimentos sobre audición. En su trabajo, publicado en Science, Kuhl y Miller (1975) pusieron a prueba cómo percibían estos animalitos sílabas formadas por una oclusiva dental (/t/ o /d/) y la vocal /a/. Los estímulos fueron sintetizados artificialmente y formaron una serie que variaba en VOT desde 0 milisegundos (que se percibe como una /d/ inglesa) hasta 80 milisegundos (que se percibe como una /t/ inglesa), en pasos sucesivos del mismo tamaño. El experimento consistió en dos fases:

1. En la fase de entrenamiento, las chinchillas fueron divididas en dos grupos y se utilizaron sólo los dos estímulos extremos de la serie. Un grupo aprendió a responder ante los estímulos de VOT=0 mseg. cruzando una barrera que dividía la jaula para evitar una descarga eléctrica suave y un sonido molesto; y a permanecer en el mismo lado ante los estímulos de VOT=80 mseg., en cuyo caso eran recompensadas con bebida de agua. El otro grupo recibió el mismo entrenamiento, pero con los estímulos al revés.

2. Cuando las respuestas de ambos grupos a los dos estímulos extremos fueron perfectas, se pasó a la fase de prueba. Ahora los animales eran enfrentados a toda la serie completa de estímulos, con todos los grados intermedios de VOT entre 0 y 80 milisegundos. Los dos estímulos extremos fueron castigados o recompensados como antes, pero los intermedios fueron siempre recompensados.

Este diseño mimetizaba bastante bien los experimentos típicos de identificación con humanos, donde hay dos respuestas posibles y los estímulos presentan toda la gama de posibilidades intermedias. También la chinchilla tenía dos respuestas de donde escoger: cruzar la barrera o permanecer en el mismo lado.

Lo sorprendente del experimento es que las respuestas de las chinchillas fueron muy semejantes a las humanas ante los mismos estímulos. La percepción resultaba también categórica y el límite o punto intermedio de cruce entre las dos categorías se situó en VOT=33 mseg., mientras que en humanos (nativos del inglés) era en torno a 35 mseg. Además, en un trabajo posterior (Kuhl y Miller, 1978), los mismos autores comprobaron

Page 65: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 65

que las fronteras entre categorías variaban igual que en las personas, dependiendo del punto de articulación de las consonantes. En las labiales (/b/ vs /p/) el límite estaba en torno a un VOT=25 mseg., tanto en humanos como en las chinchillas; y en las velares (/g/ vs /k/) sobre un VOT=42 mseg., también para ambos.

Con los mismos estímulos, Dooling et al. (1988) encontraban años más tarde resultados parecidos en periquitos (Melopsittacus undulatus). Con otros estímulos lingüísticos, se han hallado así mismo paralelismos entre las respuestas humanas y las de codornices japonesas (Coturnix coturnix japonica) (Kluender, 1991), y monos macacos (Macaca mulata y M. Muscata) (Kuhl y Padden, 1983).

Se asestaba así un duro golpe a la percepción categórica como manifestación o prueba de un mecanismo especial humano. Algunos de sus máximos partidarios habían declarado con anterioridad (Liberman et al, 1972, pág. 324 en Diehl2004): "Presumiblemente, a ellos [los animales] les falta el procesador necesario para decodificar la señal de habla. Si es así, su percepción del habla debe ser muy diferente de la nuestra. Ellos, por ejemplo, no deberían oír categóricamente".

Los resultados procedentes de los animales no invalidan per se la posible existencia de un mecanismo especial en las personas, pero restan peso al argumento que había sido su buque insignia: la percepción categórica. Ésta podría explicarse como una propiedad general del sistema de audición de mamíferos y aves (vertebrados), que presentaría discontinuidades o diferencias de sensibilidad en su capacidad de discriminar eventos temporales, como los que están implícitos en el VOT de las oclusivas.

Figura 21#. Chinchilla (Chinchilla laniger). Un individuo poco sospechoso de tener lenguaje humano, pero cuya percepción de los sonidos del habla es también categórica y se asemeja a la humana (Kuhl y Miller, 1975, 1978).

Page 66: REPASO LOGOPEDIA.pdf

66 Psicología del Lenguaje (texto: Julio González)

Si en su momento causó asombro la capacidad de los bebés recién nacidos para discriminar su lengua materna de otras lenguas, o para discriminar dos lenguas extranjeras de estructura rítmica muy distinta, hallazgos recientes con animales no han sido menos sorprendentes. Un trabajo realizado en la Universidad de Barcelona y publicado en la influyente Journal of Experimental Psychology: Animal Behavior Processes, ha causado cierto revuelo en los me-dios internacionales por su impacto teórico (Toro, Trobalón y Sebastián-Gallés, 2005). Se trata de una extensión de un estudio anterior (Toro, Trobalón y Sebastián-Gallés, 2003). Los autores comprobaron que mamíferos tan alejados evolutivamente de los primates como las ratas tienen la capacidad de discriminar lenguas por su estructura rítmica y entonacional. Como estímulos se usaron frases artificiales sintetizadas en japonés y holandés, dos lenguas de estructuras prosódicas muy distintas. Se emplearon un total 64 ratas del tipo Long-Evans. En una primera fase, un grupo fue entrenado para apretar una palanca cada vez que oía una frase en japonés y a no hacerlo cuando era en holandés. Otro grupo fue entrenado a la inversa. En una segunda fase (fase de prueba), la ratas fueron expuestas a un conjunto nuevo de frases que no habían escuchado previamente. Los datos mostraron que los roedores eran capaces de generalizar su aprendizaje a través de frases distintas, reconociendo las peculiaridades rítmico-prosódicas de cada lengua. En otra condición se comprobó que si las frases se administraban en sentido inverso (habla inversa), de atrás a adelante, en el que se pierde la estructura prosódica de cada lengua, las ratas no discriminaban correctamente entre japonés y holandés. La discriminación también era posible si, en vez de estímulos artificiales, se usaban frases naturales grabadas a partir de un único hablante, pero no cuando intervenían hablantes distintos en una misma lengua.

Estos resultados son semejantes a los obtenidos en experimentos anteriores con monos tamarinos (Ramus et al. 2000), pero nunca se había explorado esta cuestión en un mamífero tan filogenéticamente distante. Parece que existen habilidades que los humanos usamos para percibir el lenguaje que son compartidas por todos los mamíferos. Por supuesto, las ratas no han desarrollado su capacidad de captar señales prosódicas por razones lingüísticas, como los humanos, sino que probablemente es el subproducto de otras capacidades auditivas que sí tienen valor adaptativo en su repertorio comportamental. Algunos autores, desde un enfo-que generalista, defienden que tal vez el lenguaje surgió y se aprovechó de ciertas capa-cidades perceptivas pre-existentes comunes a todos los mamíferos y quizá a otros verte-brados.

En esta línea van también ciertos resultados experimentales con sonidos no lingüísticos, como vemos a continuación.

PERCEPCIÓN DE SONIDOS DE NO-HABLA

Uno de los argumentos a favor de la posición teórica generalista es el hecho de que se ha observado percepción categórica en estímulos de no-habla. En general, la percepción de sonidos distintos del habla, como los tonos puros, es de tipo continuo, pero, bajo determinadas condiciones, su percepción puede ser categórica. David Pisoni, del Instituto Tecnológico de Massachusetts, comprobó que ciertas tareas perceptivas con tonos simples presentaban fronteras semejantes a las del VOT de las oclusivas (Pisoni, 1977). Los estímulos estaban formados por dos tonos simultáneos, uno agudo y otro grave, cuyos respectivos comienzos variaban entre sí de unos estímulos a otros. Pisoni creó una serie de once pares tonales con diferencias entre sus comienzos que iban desde -50 mseg. (el tono grave comenzaba 50 milisegundos antes que el agudo), hasta +50 mseg. (el tono grave comenzaba 50 milisegundos después que el agudo), en incrementos de 10 mseg. (Figura 22#). Sometió primero a los participantes durante dos días a una fase de entrenamiento para que aprendieran a categorizar (identificar) los dos estímulos extremos de la serie (-50 y +50 mseg.). Se trataba de asignarles una etiqueta o nombre distinto a cada

Page 67: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 67

uno de ellos. Una vez conseguido un buen desempeño, los oyentes se enfrentaron a la serie completa de los once estímulos en una tarea de identificación y otra de discriminación. La discriminación se basó en el paradigma ABX, que, como ya se ha explicado, consiste en la presentación sucesiva de tres estímulos, de los cuales, los dos primeros son distintos, y el tercero siempre es uno de los dos anteriores; la tarea consiste en determinar cuál de ellos.

Los resultados indicaron que la identificación había sido más de tipo categórico que continua. Por lo que se refiere a la tarea de discriminación, lógicamente, cuanto más separados estén dos estímulos entre sí a lo largo de la serie, es esperable que sean mejor discriminados. Sin embargo, los datos no mostraron una función continua, sino que aparecía un brusco incremento en torno a diferencias temporales de –20 mseg. y +20 mseg. Estos límites coinciden con las fronteras que el parámetro VOT presenta en muchas lenguas entre consonantes oclusivas. La interpretación de Pisoni es que tales resultados son congruentes con el hecho de que 20 milisegundos es la diferencia mínima necesaria para poder identificar el orden temporal de dos eventos (Stevens y Klatt, 1974): estímulos con diferencias entre sus comienzos mayores a 20 mseg. son percibidos como sucesivos, mientras que los estímulos con asincronías inferiores a ese límite se perciben como simultáneos.

Para este autor, la percepción categórica sería un reflejo de una limitación del sistema auditivo en discriminar intervalos temporales por debajo de ese umbral psicofísico. Desde este punto de vista, compartido por algunos autores actualmente (Diehl, Lotto y Holt, 2004), asincronías de menos de 20-25 mseg. entre rasgos acústicos del habla harían que se juzgaran como simultáneos, mientras que asincronías mayores harían percibir a los rasgos como ordenados en el tiempo, bien en un sentido (rasgo 1 antes que el rasgo2), u en el otro (rasgo2 antes que el rasgo1). Lo cual concordaría bien con las tres categorías fonéticas existentes en las lenguas del mundo respecto al VOT (ver Figura 15# para la lengua tai).

Recientemente, Mirman, Holt, McClelland (2004), en un trabajo sobre sonidos de no-habla más complejos que tonos puros, observan que la percepción de los estímulos depende de su naturaleza acústica. Si los estímulos tienen una estructura con frecuencias rápidamente cambiantes –como sucede en el habla a las consonantes oclusivas- se perciben de modo más claramente categórico, que cuando tienen una estructura con frecuencias más estables, más parecida a la de las vocales.

Frec

uenc

ia

-50 mseg. +50 mseg.0 mseg. Tiempo (asincronías entre inicios)

Figura 22#. Ejemplos de estímulos del experimento de Pisoni (1977). Consisten en un par de tonos puros, uno alto y otro bajo, cuyos comienzos varían entre sí de unos estímulos a otros. La serie completa comprendía once estímulos con las siguientes asincronías entre los tonos: -50, -40, -30, -20, -10, 0, +10, +20, +30, +40, +50 milisegundos. (Adaptado de Pisoni, 1977)

Page 68: REPASO LOGOPEDIA.pdf

68 Psicología del Lenguaje (texto: Julio González)

TEORÍAS SOBRE LA PERCEPCIÓN DEL HABLA

La forma en que los oyentes consiguen pasar de una señal acústica continua y extre-madamente variable a representaciones estables y discretas, es algo que ha recibido ex-plicaciones distintas desde diversas posiciones teóricas. El principal escollo a salvar es la aparente ausencia de invarianza acústica que, como vimos, presentan muchos sonidos del habla. Expondremos a continuación las tres perspectivas teóricas más influyentes, de acuerdo con la última revisión del Annual Review of Psychology sobre percepción del habla (Diehl, Lotto, y Holt, 2004).

Teoría Motora.

Es la teoría más antigua de todas y, bajo distintas versiones, sigue teniendo vigencia hoy. Se propuso en los años 50 por Alvin Liberman, Franklin Cooper, Pierre Delattre y otros investigadores de los Laboratorios Haskins, en un intento de explicar la ausencia de invarianza acústica del habla (Liberman, Delattre y Cooper, 1952 en Bascuas). Sí retomamos como ejemplo la Figura 12#, es sorprendente que en ambos estímulos el primer sonido suene /d/, pese a que los espectrogramas no tienen aparentemente nada en común. En uno la transición del segundo formante (F2) es hacia la abajo, y en el otro es hacia arriba. Sin embargo, "algo" hay en común que nuestro sistema perceptivo es capaz de capturar al percibir la misma oclusiva dental en ambos casos. Para esta teoría, ese "algo" co-mún no hay que buscarlo en el plano acústico de las ondas o los espectrogramas, sino en el plano motor, de los movimientos articuladores que son origen de los sonidos del habla. Aunque /di/ y /du/ son estímulos sin energía acústica común, los dos tienen en común el hecho de que se han pronunciado del mismo modo; es decir, los movimientos y las órdenes motoras emanadas del cerebro han sido los mismos básicamente: por unos breves instantes, la lengua obstruye firmemente el paso del aire presionando contra los dientes superiores y lo libera retirándose bruscamente en busca de una nueva posición para producir la vocal siguiente (/i/ en un caso, /u/ en el otro).

De este modo, según la teoría motora, el verdadero objeto de la percepción no es la señal acústica en sí, sino los movimientos articulatorios y los comandos u órdenes motoras que el cerebro envía a los órganos articuladores para producir el habla (Liberman, versión 1985). Estas órdenes motoras serían invariantes para cada fonema y tendrían la constancia que no aparece en la señal. Los oyentes dispondrían de un módulo o decodificador especializado en reconstruir los gestos motores a partir de la señal acústica. No hay que olvidar que los oyentes son también hablantes y, por tanto, disponen en su cerebro de toda la maquinaria neural necesaria para producir lenguaje. Ellos podrían utilizar toda o parte de esta maquinaria para la reconstrucción de los gestos articulatorios. Esta teoría plantea que los oyentes se sirven de sus mecanismos de producción para percibir el lenguaje.

Según sus defensores, la capacidad humana para percibir los sonidos del habla no puede ser explicada en términos de un mecanismo general de audición o de aprendizaje perceptivo, sino que depende de un decodificador especializado en lenguaje que es único y propio de los humanos. En palabras de Liberman & Mattingly, 1985, p. 26; en Diehl 2004), este decodificador "incorpora información completa sobre las características anatómicas y fisiológicas del tracto vocal y también sobre las consecuencias acústicas y articulatorias de los gestos lingüísticamente significativos".

Page 69: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 69

Teoría motora revisada. Cuando se planteó la teoría motora, los investigadores dirigieron sus miradas a los aspectos invariantes de los movimientos articulatorios y las órdenes motoras que los dirigen. Una forma de hacerlo fue mediante el registro directo de los impulsos nerviosos enviados a los músculos, a través de electrodos aplicando las incipientes técnicas electromiográficas. Sin embargo, a pesar de que estas técnicas eran aún rudimentarias, pronto fue evidente que los registros electromiográficos eran casi tan variables como la señal acústica, como consecuencia de la coarticulación del lenguaje. Este hecho obligó a reconsiderar el verdadero objeto de la percepción, trasladándolo a un plano más central y abstracto: no se trataba tanto de los movimientos u órdenes motoras individuales lo que era invariante en el lenguaje, sino la representación mental de los gestos articulatorios, o sea, los gestos fonéticos ideales o gestos "intentados" (revisión de la teoría motora , Liberman 1985). Algunas de las evidencias a favor de la teoría motora se sitúan en la innegable relación que existe entre los procesos de producción y percepción del lenguaje. Por ejemplo, como señala Ryalls (1996), no es difícil ver a un extranjero mover sus labios mientras intenta comprender las palabras de un lenguaje que no le es familiar. O el hecho de que muchas personas con sordera profunda pueden "leer" el habla a partir de los gestos visibles articulatorios de los demás. Otra evidencia a favor de la unión entre la producción y la percepción es el conocido efecto McGurk, nombrado así a partir de uno de los autores que lo observó por primera vez (McGurk y MacDonald, 1977). En virtud de este efecto, los oyentes combinan información visual sobre la producción del habla con información auditiva. Si se muestra un vídeo con la cara de una persona pronunciando de forma repetida la sílaba velar /ga/ y simultáneamente por el altavoz se presenta la sílaba labial /ba/, lo que ocurre es que el oyente no percibe /ba/, sino un fonema con un punto de articulación intermedio entre ambos: el dental /da/. Es decir, integra en una representación común información procedente de modalidades distintas, visual y auditiva. Para la teoría motora esta representación común estaría en un plano neuromotor. Teoría Realista-Directa. En los años 80 se planteó una alternativa a la teoría motora, referida como la teoría realista-directa. Esta teoría, desarrollada por Carol Fowler (Fowler, 1981, 1986, 1996), también investigadora –y directora– de los laboratorios Haskins, plantea igualmente que el objeto de la percepción es de tipo articulatorio o motor, pero se diferencia de aquélla en que no supone que el oyente deba tener acceso a su sistema de producción para reconstruir los gestos fonéticos. Así mismo, niega la existencia de un módulo especializado en decodificar el lenguaje. Su base es la perspectiva ecológica de la teoría de la percepción directa desarrollada por Gibson (1966, 1979). El enfoque gibsoniano ha tenido una gran influencia en la Psicología de la Percepción y se dirige a todas las modalidades sensoriales. Al contrario que el resto de las teorías de la percepción, que presuponen una secuencia de estadios de procesamiento a partir del estímulo de entrada, Gibson considera que la propia estructura del estímulo ya incorpora toda la información necesaria para percibir los objetos y eventos del entorno. Los animales –y las personas– perciben de forma directa todos los elementos de su medio ecológico que son relevantes para su supervivencia. La percepción es un proceso “directo”, sin necesidad de pasos intermedios, y no fruto de una “construcción” o elaboración como propugnan el resto de teorías (Neisser, 1980). Gracias a la evolución, los sistemas sensoriales ya están, según Gibson, perfectamente calibrados para captar el mundo físico en que se desenvuelven. La obra de Gibson, especialmente su libro de 1979 The

Page 70: REPASO LOGOPEDIA.pdf

70 Psicología del Lenguaje (texto: Julio González)

Ecological Approach to Visual Perception, ha causado un gran impacto en la comunidad científica pero tampoco ha estado exenta de críticas.

Fowler entiende que la percepción del lenguaje puede caracterizarse en los mismos términos que, por ejemplo, la percepción visual de las superficies de objetos. Así, en el caso de la visión, la luz reflejada por las superficies de los objetos sirve de estímulo cercano o proximal, cuya propia estructura ya proporciona información directa sobre los objetos del entorno, o estímulos distales. De la misma forma, la señal acústica es un estímulo proximal que proporciona información sobre los estímulos distales, o gestos articuladores que la han producido. Cuando un oyente escucha el lenguaje capta de forma directa los movimientos articulatorios que lo han producido; pero no gracias a un mecanismo especial para el lenguaje, sino del mismo modo en que percibe el origen de otros sonidos de su entorno. La principal crítica que ha recibido la teoría realista-directa se dirige contra la suposición de que los objetos propios de la percepción del lenguaje sean los gestos articulatorios. Este reparo procede principalmente de quienes defienden la teoría auditiva general. Por otra parte, muchos autores contraponen ejemplos en los que existen percepción sin conocimiento directo de las causas distales; así, alguien puede escuchar música, percibir la melodía de, por ejemplo, un violín, sin conocer dicho instrumento, su estructura o material del que está hecho.

Teoría Auditiva General Como hemos visto, varios hallazgos pusieron en cuestión la teoría motora de la percepción del habla y la existencia de un mecanismo específico. Los principales se han mencionado anteriormente; nos referimos a la evidencia de percepción categórica por parte de animales no humanos (Kuhl y Miller, 1975, 1978), así como en ciertos estímulos de no-habla (Pisoni, 1977). Estos y otros autores mantienen que los mecanismos perceptivos generales de la audición son los responsables de la percepción del lenguaje. En contraste con la teoría motora, no se presupone la existencia de mecanismos específicos o un módulo decodificador especial. Se asume como hipótesis de trabajo que los sonidos del lenguaje se perciben y dependen del sistema general de audición y de los principios del aprendizaje perceptivo; los mismos que han evolucionado en los humanos para manejar otras clases de sonidos del entorno.

Por otra parte, la percepción del lenguaje no está mediada ni se basa en la percepción de gestos articuladores. La paradoja de las sílabas /di/ y /du/ (Figura 12#) se explica por la capacidad general del oyente de hacer uso de múltiples señales acústicas imperfectas para categorizar estímulos complejos, como así sucede en la percepción de muchos patrones estimulares complejos. Del mismo modo que Brunswik (1956) propone que la constancia de los objetos en la visión es el resultado de combinar múltiples atributos visuales, el oyente puede mantener la constancia perceptiva fonética haciendo uso de múltiples pistas acústicas. Para esta teoría, la percepción de la constancia o invarianza no requiere la recuperación de gestos articuladores o el concurso de ningún módulo especial. En apoyo de esta posición teórica, Kluender et al (1987) demostró que los pájaros podían ser entrenados a responder a estímulos naturales que comenzaban por el fonema /d/ seguido de distintas vocales y no responder a otros que comenzaban por los fonemas /b/ o /g/. O sea, estos sujetos no lingüísticos también eran capaces de percibir la invarianza o constancia fonética de, por ejemplo, /di/ y /du/.

Page 71: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 71

Una derivación de la teoría general es la hipótesis de la potenciación auditiva, según la cual, los sistemas de sonidos de las distintas lenguas se han adaptado para convertirse en robustas señales que explotan las características generales del sistema auditivo. De esta manera, las lenguas desarrollan un inventario de fonemas que optimiza la distintividad fonética entre ellos, de acuerdo con las capacidades auditivas generales.

No se agotan aquí todas las teorías sobre la percepción del habla. Dado que no es nuestra intención detenernos en detalle en ellas, mencionaremos sólo de pasada los enfoques basados en el análisis por síntesis (Stevens, 1960; Stevens y Halle, 1967), o la naturaleza cuántica del habla humana (Stevens, ), el modelo de lógica difusa (Massaro, 1987, 1989, 1994), y los enfoques eclécticos (Kuhl, 1991; 1995; Jusczyk, 1997). Aconsejamos la lectura en castellano del artículo de López-Bascuas (1996), el capítulo de Yeni-Komshian (1999), y el capítulo de Sebastián-Gallés, Bosch, y Costa (1999). Hay que destacar también toda una línea de investigación que niega la ausencia de invarianza acústica en el habla y entiende que cada fonema, pese a la gran variabilidad física, presenta unos rasgos fijos y característicos (Blumstein y Stevens, 1979; Stevens y Blumstein, 1978; ). Estos rasgos acústicos no son fácilmente observables a través de un simple examen visual del espectrograma, pero se obtendrían mediante ciertos análisis y cálculos matemáticos (v.g., ecuaciones del locus). Hay que señalar que no todos los autores consideran al fonema como unidad perceptiva. Así, Klatt (1979) desarrolló su Modelo de Acceso Léxico desde el Espectro, según el cual, la composición espectral de la señal del habla conduce directamente a la activación de las palabras. Este modelo hace "by-pass" respecto a los fonemas, rasgos fonéticos, o cualquier otro tipo de representación intermedia. En la mima línea, cobra fuerza en los últimos tiempos el enfoque de la percepción directa de Pisoni y colaboradores (revisión en Pisoni, 1996) que defienden un acceso directo al léxico mental desde el estímulo, sin la mediación de unidades subléxicas.

Además, el modelo conexionista TRACE de reconocimiento de palabras (McClelland y Elman, 1986) puede considerarse también un modelo de identificación de fonemas, por lo que remitimos a su lectura, en el tema dedicado al reconocimiento de palabras.

Page 72: REPASO LOGOPEDIA.pdf

72 Psicología del Lenguaje (texto: Julio González)

EFECTO DEL CONTEXTO EN LA PERCEPCIÓN DEL LENGUAJE

El fin último de la percepción del lenguaje es extraer significados del sonido (o de patrones gráficos); pero, como vimos al principio, en esta operación hay en realidad dos fuentes de información que fluyen al mismo tiempo (Figura 23#). Una, la más evidente, es la informa-ción acústica (visual) del estímulo que alimenta al sistema perceptivo-cognitivo desde fuera hacia dentro o, como se representa convencionalmente, desde abajo hacia arriba; son los procesos referidos como bottom-up. La otra información fluye en sentido contrario y procede de los niveles superiores de procesamiento; es decir, desde las representaciones de naturaleza sintáctica, semántica y pragmática, que tienen que ver con la construcción sobre la marcha del significado de lo que escuchamos o leemos. Este es el conocido efecto del contexto y corresponde a procesos de arriba-abajo o top-down. Los modelos artificiales de procesamiento computacional pueden simular razonablemente bien los primeros, pero tienen serias dificultades con los segundos, porque para ello tendrían que llevar a cabo verdaderos procesos de compresión artificial. Aquí reside, precisamente, una de la principales potencialidades de los sistemas naturales o humanos.

Significado

Procesos de alto nivel

P. arriba-abajo (top-down)

P. abajo-arriba (bottom-up)

Procesos perceptivos Estímulo

Figura 23#. Procesamiento abajo-arriba (bottom-up) y procesamiento arriba-abajo (top-down), dentro de la arquitectura general del sistema perceptivo-cognitivo.

El efecto del contexto tiene lugar no sólo en el lenguaje oral, sino también en el escrito. Así, la palabra "pincel" se identifica más rápidamente si aparece en un texto sobre pintura, que si la leemos de forma aislada, o en un texto sobre, pongamos por caso, los juegos olímpicos. Por el mismo motivo, leemos mejor y más deprisa un texto con estructura y significado coherente, que un conjunto desordenado de palabras o sílabas. A título ilustrativo, compare el lector los tiempos de lectura de los dos textos de la Figura 24#, teniendo en cuenta que ambos tienen exactamente las mismas sílabas. En el primer texto, la representación del significado que vamos construyendo al leer suministra información (de

Page 73: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 73

arriba-abajo) que nos permite anticipar sobre la marcha hipótesis acerca de las palabras que nos vamos a encontrar. El estímulo escrito nos va corroborando esas hipótesis y, en la mayor parte de los casos, no necesitamos realizar un análisis exhaustivo de todo el estímulo –identificar todas y cada una de las letras. En cierto modo, la lectura se convierte en la confirmación de hipótesis sucesivas. Dicho de otro modo, la naturaleza del estímulo (un texto organizado, con significado coherente) permite que aprovechemos información de arriba-abajo y necesitemos, en consecuencia, menos información estimular de abajo-arriba. Esto no ocurre en el "texto" 2, donde todo el procesamiento debe descansar de modo exclusivo en la información del estímulo (abajo-arriba) y éste debe ser analizado exhaustivamente. Cuando lo leemos, lo hacemos sin construir ningún significado, de modo semejante a como hacen algunos programas de ordenador especializados en reconocer lenguaje.

Texto 1: ¿Son perjudiciales para la salud las antenas de telefonía móvil? El tema es preocupante desde el punto de vista de la alarma social; lo cual no significa que exista una peligrosidad real. Con los conocimientos que se tienen hoy en día, nadie ha podido demostrar que exista una correlación entre posibles efectos perjudiciales para la salud y las antenas de telefonía móvil. No obstante, por un principio de precaución, conviene seguir investigando, por si se descubrieran nuevos efectos aún desconocidos. "Texto" 2: ¿Fecmo avilalpo aun bleste ca an cauci precicia que nenen? Raco los coque concu percualdad porte u toción denatade desu es diju ma diladie; do lasdos era e pael el enfec enes sonfi se foxis. Gan toslud groguir ha tena injuse dilanodi sitos lani lasdole vieles les lilocolud, y tadeta na desmien atemos cialción ninía deno la no nuelar obspa e panpe cuperpio po an preci. Prinpun ciaque, con deno hoy deenas ran rerre sase si sigso tande nastebrie porte mosi titie tosnitrar sa trema unves levil a vistevos xisfo. Figura 24#. Efecto del contexto en la percepción del lenguaje. Compare el lector los tiempos de lectura de ambos textos, teniendo en cuenta que los dos tienen exactamente las mismas sílabas, aunque en distinto orden.

Podríamos plantear el siguiente principio con carácter general:

cuanta más información de contexto (arriba-abajo) dispongamos, menos información entrante necesitaremos del estímulo (abajo-arriba).

Una palabra manuscrita aislada necesita ser más perfecta desde el punto de vista caligráfico –suministrar más información visual sobre sus letras-, que en el contexto de una frase, donde muchas veces un simple garabato, con muy poca información visual, puede ser reconocido. (Figura 25#).

Page 74: REPASO LOGOPEDIA.pdf

74 Psicología del Lenguaje (texto: Julio González)

Inf. abajo-arriba (estímulo)

Inf. arriba-abajo (contexto)

Sistema cognitivo

Inf. abajo-arriba (estímulo)

Inf. arriba-abajo (contexto)

Sistema cognitivo

Figura 25#. Cuanta más información de contexto (arriba-abajo) hay disponible, se necesita menos información física del estímulo (abajo-arriba) para su reconocimiento. Así, la palabra "tobogán" presentada en un contexto apropiado requiere menos información visual (izquierda) para su identificación que si se presenta de forma aislada (derecha).

Esto también tiene implicaciones clínicas (Ryalls, 1996). Durante años no estuvo claro por qué muchos niños con hipoacusia o sordera tenían problemas no sólo para percibir el habla, sino también para leer, siendo con frecuencia lectores muy pobres. Dado que no tenían problemas visuales, la razón no estaba clara. Recientemente, hemos empezado a comprender que su dificultad sensorial hace más difícil aprovechar información no sólo del estímulo hablado (abajo-arriba), sino también información de tipo arriba-abajo, o del contexto. A causa de su sordera, son niños que desde el nacimiento han estado menos expuestos a las palabras del idioma y, en consecuencia, tienen vocabularios mucho más restringidos. Debido a esta experiencia lingüística más pobre, les resulta más difícil construir los significados durante la lectura y aprovecharse, así, de la información de tipo arriba-abajo. Es importante ser conscientes de la influencia de este tipo de información procedente de los procesos superiores, a la hora de diseñar los programas de rehabilitación y tratamiento.

Algo semejante sucede en algunos niños normo-oyentes con dificultades lectoras. Los niños que arrastran un largo historial disléxico también tienen, como consecuencia, una experiencia lectora muy reducida; adolecen de un vocabulario lector muy pobre y escasa familiarización con las estructuras sintácticas de los textos. De manera que su problema es doble: a su dificultad perceptiva en el desciframiento de los grafemas (información abajo-arriba) se añade el hecho de que no pueden compensarla aprovechándose de información de arriba-abajo, dada su escasa experiencia lectora.

En el lenguaje oral, la percepción del habla en situaciones naturales de comunicación se ve fuertemente apoyada por los efectos del contexto. Los primeros estudios dejaron claro que las palabras presentadas en un fondo de ruido se identifican mejor en el contexto de una frase, que cuando se presentan de forma aislada (Miller, Heise y Lichte, 1951 en Berko). En

Page 75: REPASO LOGOPEDIA.pdf

3. Percepción del Lenguaje 75

otros trabajos (Pollack y Pickett, 1963, 1964) (Figura 26#), los investigadores grabaron conversaciones y narraciones de las cuales se extrajeron algunas palabras que presentaron posteriormente de forma aislada y desordenada. Los resultados demostraron que sólo la mitad de las palabras aisladas se reconocían correctamente, mientras que en el contexto de la frase se identificaban prácticamente en su totalidad.

Figura 26#. Los primeros estudios pusieron de manifiesto la importancia del contexto en la percepción del lenguaje. Si de una narración grabada se cortan y se desordenan las palabras, sólo el 50% de éstas se perciben correctamente de forma aislada.

Restauración fonémica. La demostración más contundente del efecto del contexto sobre la percepción del lenguaje es el conocido fenómeno de la restauración fonémica (Warren, 1970).

En un trabajo ya clásico y muy citado, publicado en Science, Richard Warren hizo escuchar frases completas en las que se había sustituido un segmento fonético, por ejemplo el fonema /s/ de la palabra "legislatura", por un sonido no lingüístico de intensidad seme-jante, tal como un golpe de tos o un zumbido. Cuando se les preguntó a los sujetos después de escuchar las frases, estos afirmaron que habían percibido todas las palabras intactas y muchos ni siquiera habían sido conscientes de la presencia del ruido intruso. Este efecto se mantenía incluso al repetir la grabación y una vez que los oyentes eran informados de las condiciones experimentales. O sea, la información cognitiva procedente de procesos superiores (información top-down o de arriba-abajo) era capaz de suplir la información física ausente en la señal de habla y restaurar el fonema que faltaba. Este efecto no ocurría cuando se trataba de estímulos no-palabras (supongamos, "teliscura"). Además, cuando detectaban el ruido intruso, los participantes no podían ubicar correctamente el lugar de la frase en que había sido insertado.

Por el contrario, si el fonema era reemplazado por un silencio en lugar del ruido, entonces no se producía la restauración fonémica y el silencio era detectado fácilmente. Parece como si el proceso de restauración fonémica necesitara algún "material de entrada" (ruido) sobre el que apoyarse para "reconstruir" perceptivamente el fonema ausente, y no funcionara desde la nada estimular (silencio).

Otro experimento claramente demostrativo de la restauración fonémica (Warren y Warren, 1970) consistió en la presentación de frases como las siguientes:

Page 76: REPASO LOGOPEDIA.pdf

76 Psicología del Lenguaje (texto: Julio González)

a) It was found that the *eel was on the orange [Se encontró que la *eel estaba en la naranja].

b) It was found that the *eel was on the axle [Se encontró que la *eel estaba en el eje]. c) It was found that the *eel was on the shoe [Se encontró que el *eel estaba en el

zapato]. d) It was found that the *eel was on the table [Se encontró que la *eel estaba en la

mesa].

Todas la frases fueron idénticas excepto en la última palabra. De hecho, la parte común fue exactamente la misma grabación, a la que se le insertó acústicamente la palabra última; de este modo se evitaba que diferencias sutiles en la entonación o en la pronunciación pudieran influir en los resultados. La palabra *eel tenía el primer fonema reemplazado por una tos, que representamos aquí con el asterisco. Cuando los participantes escuchaban las frases, tenía lugar una restauración fonémica dependiente del contexto y percibían el fonema que era congruente con cada frase: peel (pela o cáscara), wheel (rueda), heel (talón), y meal (carne), respectivamente. Los sujetos afirmaban que en cada caso habían oído la palabra completa.

La pregunta es si los oyentes realmente perciben el fonema ausente o simplemente lo "adivinan" sin oírlo. Dicho en otras palabras, ¿se trata de un efecto genuinamente perceptivo o es postperceptivo? Hay evidencia de que en determinadas condiciones la restauración fonémica es un efecto verdaderamente perceptivo (Samuel, 1981, 1987, 1990). Los datos parecen indicar que la influencia de las palabras en la percepción de los fonemas es perceptiva, mientras que la influencia de la frase es principalmente de tipo postperceptivo. Para estudiar esto, Samuel (1997) combinó la técnica de la restauración fonémica con la técnica de la adaptación selectiva de Eimas y Corbit (1973). Esta última se basa en un efecto innegablemente perceptivo ya establecido veinte años atrás. Sus resultados indicaban que el fonema ausente tenía un efecto adaptativo, influyendo en la clasificación fonética de estímulos ambiguos; es decir, se trataba de un fenómeno en el plano perceptivo.

Técnica del sombreado. En otra línea de investigación, los trabajos con sombreado (shadowing) de frases, llevados a término por el equipo de Marslen-Wilson, ponen también de manifiesto el efecto del contexto. Sombrear una frase es "seguirla como una sombra", es decir, repetir sus palabras lo más rápido posible, según se van escuchando. Los resultados muestran que los oyentes pueden repetir las frases de forma más rápida cuando éstas están bien formadas desde el punto de vista sintáctico y semántico (Marslen-Wilson y Welsh, 1978). La repetición es mucho más lenta si hay que seguir secuencias desordenadas de palabras. Se trata, por tanto, de la influencia ejercida por información procedente de los niveles superiores de procesamiento, o procesos arriba-abajo (top-down).

Los datos indican que los oyentes pueden seguir las frases con latencias muy cortas, del orden de 250 milisegundos, equivalente a la duración de una sílaba. Esto quiere decir que, en los vocablos polisilábicos, son capaces de reconocer una palabra incluso antes de que sea presentada completamente. Según muchos autores, ésta es una de las evidencias más convincentes sobre el efecto de la información de tipo arriba-abajo en la percepción del lenguaje (Ryalls, 1996).