kertes gábor: subida de clíticos en corpus electrónicos: análisis automático de textos en...

71
KERTES GÁBOR · SUBIDA DE CLÍTICOS EN CORPUS ELECTRÓNICOS

Upload: kertes-gabor

Post on 27-Jul-2015

406 views

Category:

Documents


1 download

DESCRIPTION

http://subidadecliticos.blogspot.com/La tesina analiza el fenómeno llamado subida de clíticos. Para poder realizar un fiable análisis cuantitativo de este fenómeno se necesita un corpus inmenso (por su frecuencia relativamente baja en el castellano moderno). Durante la exposición de la tesina intentamos formar una metodología automatizada del reconocimiento de las situaciones de subida, crear una herramienta buscadora, y sacar las consecuencias de los resultados para conocer mejor la naturaleza de la subida.En la tesina comprobamos que sí, existen verbos que atraen los clíticos del verbo no finito en situaciones de subida, y existen otros que parecen aceptar la subida con menor frecuencia. Verificamos que hay construcciones que nunca permiten la subida de clíticos. Añadimos datos sobre la frecuencia de la subida de clíticos en construcciones con gerundio. Comprobamos que la proporción de los casos de subida es significativamente mayor en la lengua hablada que en la lengua escrita. También demostramos que la frecuencia de la subida se ha aumentado durante el siglo pasado.Presentamos datos sobre la concordancia de las características del verbo matriz y la frecuencia de subida, no presentados en la literatura hasta la presente tesina. Demostramos que hay relación entre el número y persona del verbo flexionado y la voluntad de promover el clítico. También afirmamos unas hipótesis sobre la relación entre la frecuencia de la subida y los atributos de la secuencia de clíticos.

TRANSCRIPT

Page 1: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

KERTES GÁBOR · SUBIDA DE CLÍTICOS EN CORPUS ELECTRÓNICOS

Page 2: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

Kertes Gábor

SUBIDA DE CLÍTICOS EN CORPUS

ELECTRÓNICOS

ANÁLISIS AUTOMÁTICO DE TEXTOS

EN ESPAÑOL PENINSULAR MODERNO

Tesina de filología española

Director: Dr. Berta Tibor

SZEGEDI TUDOMÁNYEGYETEM

(UNIVERSIDAD DE SZEGED), SZEGED, HUNGRÍA 2002

Page 3: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

Índice

INTRODUCCIÓN 4

La subida de clíticos 4

El objetivo de la tesina 7

La estructura de la tesina 8

La selección del corpus 9

DESCRIPCIÓN Y TEORÍA 12

Complicaciones 13

Elementos intercalados 13

La «bajada» de clíticos 17

Superioridad del verbo matriz 18

Discontinuidad de acción 19

Secuencias de clíticos 20

Leísmo, laísmo, loísmo 21

Situaciones adicionales 22

El caso del español antiguo 22

Cambios en las reglas de colocación 24

La subida de clíticos 25

Análisis problemático 28

Teorías existentes 29

El modo en los complementos verbales 29

Regla de reestructuración 32

TRATAMIENTO AUTOMÁTICO 35

Preparación 36

Análisis léxico 37

Ambigüedades 38

Casos problemáticos 40

Análisis suplementario 41

Estructuras de datos 42

El algoritmo 43

La herramienta 45

RESULTADOS 48

Variación por verbos 49

Verbos [+SC] 50

Modalidad de habla 57

Variación por otros factores 59

Clíticos 59

Constituyente precedente 60

CONCLUSIÓN 61

Posibles mejoramientos 62

BIBLIOGRAFÍA 63

Page 4: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

Introducción

TESINA analizará el fenómeno llamado subida de clíticos. La mayoría de las obras

que versan sobre este fenómeno investigan teóricamente cuáles son las condiciones

que permiten la subida de los pronombres átonos (y cuáles la impiden), pero pocos artí-

culos tratan de presentarnos un panorama sobre la frecuencia efectiva de la subida en el

caso de verbos concretos.

Para poder realizar un fiable análisis cuantitativo de este fenómeno se necesita un

corpus inmenso (por su frecuencia relativamente baja en el castellano moderno). Duran-

te la exposición de la tesina intentaremos formar una metodología automatizada del re-

conocimiento de dichas situaciones, y sacar las consecuencias de los resultados para co-

nocer mejor la naturaleza de la subida.

La subida de clíticos Antes de definir el fenómeno a tratar, nos ocupamos un poco de la posición relativa de

los pronombres átonos y los verbos a los que pertenecen sintácticamente. Primero, en el

español moderno el clítico siempre aparece adyacente al verbo, solamente otro clítico

puede intervenir entre los dos, según ciertas reglas. Así los pronombres átonos modernos

parecen afijos verbales.

(1) (a) María quiere mucho la cerveza.

(b) *María quiere mucho la.

(c) María la quiere mucho.

E STA

Page 5: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

INTRODUCCIÓN – LA SUBIDA DE CLÍTICOS

• 5 •

Si el verbo está en forma de infinitivo, gerundio (los que llamaremos formas no finitas) o

imperativo, el clítico ha de seguirlo pospuesto, formando una palabra gráfica.

(2) (a) *Me conviene los envolver en papel.

(b) Me conviene envolverlos en papel.

(c) *Sigo le amando.

(d) Sigo amándole.

(e) *Se lo devuelva a ella.

(f) Devuélvaselo a ella.

Pero si el verbo está en una forma conjugada (de modo indicativo o subjuntivo), el clítico

lo antecede siempre.

(3) (a) *María quiere la mucho.

(b) María la quiere mucho.

Aunque las formas del imperativo de respeto morfológicamente coinciden con las del

presente del subjuntivo, ya que tales formas pertenecen al imperativo, exigen los clíticos

en posición pospuesta (claro, en una palabra gráfica). Cuando estas formas pertenecen al

modo subjuntivo, es obligatoria la anteposición. La forma de primera persona del plural

también acepta las mismas reglas.

(4) (a) *Me lo diga, por favor.

(b) Dígamelo, por favor.

(c) ¡Ojalá me lo diga Usted!

(5) (a) *¡Nos lo comamos!

(b) ¡Comámonoslo!

(c) Dicen que nos lo comamos.

La subida de clíticos es un proceso mediante el cual los pronombres átonos se separan

del infinitivo o gerundio al que sintácticamente pertenecen (como objeto directo u objeto

indirecto), y se unen al verbo conjugado de la oración principal, al verbo regente o verbo

matriz.

Page 6: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

INTRODUCCIÓN – LA SUBIDA DE CLÍTICOS

• 6 •

El clítico subido se coloca delante del verbo flexionado.

(6) (a) Consuelo quiere tomar la medicina.

(b) Consuelo quiere tomarla.

(c) Consuelo la quiere tomar.

(7) (a) Consuelo sigue amando su tortuga.

(b) Consuelo sigue amándola.

(c) Consuelo la sigue amando.

Como lo declara Berta (2000: 86-87): «Las dos soluciones –la SC y la no SC– son grama-

ticalmente correctas y sintácticamente sinónimas, es decir, son elegibles libremente. […]

entre las variantes libres normalmente hay al menos diferencias estilísticas, y parece que

en este caso es así también. […] cuando las condiciones de la SC se dan, es la preferencia

del hablante lo que determina la elección entre ellas». Gill afirma las diferencias estilísti-

cas en su mensaje de ESPAN-L 1. Parece contradecirles parcialmente Fish (1961: 137):

«The two patterns are neither equivalent nor optional. Each is required in a number of

definable situations […]» 2. Sin embargo, su visión del fenómeno es notablemente única.

En la mayoría de los casos la subida de clíticos se produce con un cierto grupo de

verbos auxiliares (de forma finita), modales, aspectuales, de movimiento, de voluntad o

de opinión. Pizzini (1982) y Bok-Bennema y Croughs-Hageman (1980) opinan que el

verbo conjugado y el verbo de forma no finita deben ser adyacentes 3.

1 Deborah Jean Gill tratando de dos ejemplos, el primero de subida, el segundo de no subida

dice que «In the first sentence, the focus has moved away from the speaker and is now on the inter-

locutor and object, whereas in the second one, the focus is still on the speaker and less emphasis on

the receiver of the action and/or the “thing” the speaker is talking about.» (Cruz Piñol, 1999).

2 Fish menciona algunas situaciones que parecen atraer subida, como cuando todo precede los

verbos. Su interpretación de se impersonal la veremos en la página 17.

3 Hay que tratar el asunto de verbos adyacentes con cierta complacencia. En muchos casos, si el

verbo conjugado tiene un significado perifrástico, una preposición o la partícula que pueden interca-

larse entre los verbos. Otros investigadores señalan que el criterio no es la adyacencia de los dos ver-

bos, sino la formación de un verbo complejo, una unidad sintáctica.

Page 7: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

INTRODUCCIÓN – EL OBJETIVO DE LA TESINA

• 7 •

Trataremos del fenómeno detalladamente más tarde, en la primera parte.

El objetivo de la tesina Como ya lo hemos mencionado, son muchas las obras que presentan teorías sobre la su-

bida de clíticos, que a veces se quedan en estado de hipótesis sin suficiente apoyo de aná-

lisis de corpus. También hemos señalado que para recoger información fiable sobre la

ocurrencia del fenómeno, y sobre los verbos que participan en las situaciones que se con-

sideran subida de clíticos, se necesita un corpus enorme y –más importante– el análisis de

ese corpus.

Sin las perspectivas que provee la lingüística computacional, el investigador se queda

con los textos impresos para repasar, y buscar apariciones del fenómeno investigado.

Aunque existen colecciones electrónicas de corpus y herramientas generales, que pueden

ayudar al profesional, por ser generales, siguen exigiendo la participación interactiva del

investigador.

Orientarse a un solo fenómeno, desarrollar una herramienta específica para analizar

las evidencias, esta es la nueva perspectiva que puede ofrecer la lingüística informática. Y

es este el camino que elegimos nosotros. Desarrollamos un programa que, sin análisis

sintáctico profundo, trata de encontrar todas las situaciones que las teorías señalan de

subida potencial, o que son efectivamente de subida. A consecuencia del carácter leve del

análisis sintáctico la herramienta equivoca a veces, pero lo que es mucho más importante

en nuestro caso, no necesitamos un corpus etiquetado sintácticamente, cualquier texto

electrónico nos servirá.

Durante la exposición de las características encontraremos problemas, que en parte

podremos resolver por vías informáticas automatizadas, en parte no, pero nuestros obje-

tivos son:

Reconocimiento de situaciones • El objetivo más importante es desarrollar un progra-

ma que encuentre con exactitud situaciones con y sin subida. Que identifique las irregu-

laridades de las formas verbales, reconozca los tiempos compuestos, los pronombres áto-

nos enclíticos, partículas intercaladas entre los verbos, etc.

Page 8: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

INTRODUCCIÓN – EL OBJETIVO DE LA TESINA

• 8 •

Presentación de estadísticas • Las estadísticas son los frutos directos de un programa

efectivo. Buscaremos las respuestas a las preguntas siguientes:

1. ¿Qué verbos permiten la subida de clíticos?

2. ¿Cuál es la proporción de los casos de subida, comparada a los de no subida por cada verbo?

3. ¿Qué preposiciones no impiden la subida?

4. ¿Hay concordancia entre la frecuencia de subida y el modo, número o persona del verbo matriz

o del tipo de los clíticos?

5. ¿Hay concordancia entre la frecuencia de subida y el número de pronombres átonos afijados?

6. ¿Hay diferencias de frecuencia entre diferentes modalidades de habla o diferencias dialectales?

7. ¿Afecta la subida el elemento que precede el verbo conjugado (todo, conjunciones, etc.)?

Pensamos comparar nuestros resultados con otros, encontrados en los artículos acce-

sibles, como el de Colburn (1928) o el de Bolinger (1949) y de mayor importancia, el de

Davies (1995b).

Sin embargo, no es objetivo de esta tesina la invención de teorías sintácticas genera-

tivas sobre la naturaleza de la subida de clíticos, debido al carácter de nuestro análisis.

La estructura de la tesina En la primera parte analizaremos detalladamente las condiciones que influyen en la su-

bida de clíticos, casos que parecen a la subida pero no lo son (dificultándonos alcanzar

nuestras metas). Presentaremos unos resúmenes de las teorías que han aparecido sobre

el fenómeno, y un esquema sinóptico sobre las diferencias entre el estado de los pro-

nombres átonos en el español antiguo y en el moderno.

La segunda parte versará sobre el diseño y desarrollo de la herramienta del busca-

dor de situaciones de subida y no subida. Especificaremos los requisitos, los casos pro-

blemáticos para el algoritmo de búsqueda, diseñamos el algoritmo y planteamos las es-

tructuras de datos para usar.

En la parte final incluiremos un pequeño ejemplo de la producción del programa.

En esta sección abundarán las cifras y los diagramas justificando o refutando hipótesis

escogidas, acompañados de nuestras conclusiones. Discutiremos los errores más frecuen-

tes cometidos por el algoritmo, y posibles soluciones algorítmicas.

Page 9: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

INTRODUCCIÓN – EL OBJETIVO DE LA TESINA

• 9 •

La selección del corpus En el corpus tratado escogimos textos de una gran diversidad para que podamos encon-

trar las respuestas a las cuestiones de la página 8. Sin embargo, tuvimos que seleccionar

de los textos disponibles a descargar de Internet, que consideramos una fuente conve-

niente para lograr nuestros objetivos.

Intentamos buscar textos de gran tamaño para que los resultados sean más fiables,

textos de géneros variados, de teatro, ensayos, novelas, novelas dialogadas, textos jurídi-

cos y técnicos, etc. Para asegurar la homogeneidad de los textos en una categoría, prefe-

rimos escoger varios textos del mismo autor. Esperamos sacar resultados interesantes del

análisis de textos transcritos de habla, ya que la lengua hablada parece menos autocon-

trolada que la escrita. Excluimos obras de teatro poético y de poesía por ser afectados

por preocupaciones de rima y métrica.

Corpus escrito • Sorprendentemente no es muy fácil encontrar textos contemporáneos

de gran tamaño disponibles en Internet. Una de nuestras fuentes más importantes para

conseguir textos electrónicos será la Biblioteca Virtual Cervantes. Para obtener textos más

recientes recurrimos a editores y autores independientes también.

La Antología del Ensayo Ibero e Iberoamericano contiene 31 ensayos escritos entre 1906 y

1994 por autores españoles como Rafael Barrett, Ignacio Ellacuría, Juan López-Morillas,

José Ortega y Gasset, Leonardo Polo, Miguel de Unamuno, Xavier Zubiri. Los ensayos

contienen más de 150.000 palabras en total. Completamos el corpus con 19 ensayos críti-

cos de José María Martínez Cachero y dos de Rinaldo Froldi, todos disponibles en la bi-

blioteca virtual, de 85.000 palabras.

El corpus novelístico español consiste en dos novelas de Roger Galofré (110.000 pa-

labras), una de María Covadonga Mendoza Abad (320.000 palabras), una de Patricio

Chamizo (60.000 palabras) y dos novelas y un cuento de Francisco Romero (70.000 pala-

bras). Los cuatro son autores contemporáneos. La biblioteca virtual añade cinco novelas

de Felipe Trigo (370.000 palabras en total) y una de Benito Pérez Galdós y de Joaquín

Dicenta (90.000 y 12.000 palabras respectivamente), lamentablemente estos autores re-

presentan la época inicial del siglo XX.

Los textos jurídicos y políticos constan de la Constitución Española de 1978 y los 19 Es-

Page 10: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

INTRODUCCIÓN – EL OBJETIVO DE LA TESINA

• 10 •

tatutos de las comunidades autónomas (200.000 palabras) acompañados de los Programas

y manifiestos electorales del Partido Socialista Obrero Español 4 (45.000 palabras).

Utilizamos una selección de los textos teatrales –recogidos en la Biblioteca de textos tea-

trales de la Universidad de Huelva– de varios autores contemporáneos españoles, como

Carlos Ruiz, Carlos Etxeba, David Barbero y Salvador Enríquez (16 obras, 115.000 pala-

bras). Complementan la colección siete obras teatrales y siete guiones cinematográficos

de Francisco Romero (75.000 y 130.000 palabras respectivamente). Los textos son de la

segunda mitad del siglo XX. Comprobaremos si las características del texto de teatro están

más cerca a las de la novela o de la lengua hablada.

En el corpus de textos técnicos incluimos dos libros y tres tesis doctorales (de 1996 a

2002) sobre la probabilidad matemática, de 550.000 palabras.

Así, la composición de nuestro corpus (con el porcentaje de representatividad): ensa-

yos (10%), novelas (43%), textos jurídicos y políticos (10%), obras de teatro (14%), textos técnicos

(23%), aproximadamente 2.400.000 palabras en total.

Corpus oral • Davies (1995b) demuestra que hay una correlación importante entre el

carácter escrito o hablado del corpus analizado y la frecuencia de la subida. Nosotros

tampoco podemos pasar por alto este resultado, la importancia de un análisis comparati-

vo es incuestionable.

El corpus de la lengua hablada se basa en el Corpus oral de referencia de la lengua espa-

ñola contemporánea, una «transliteración de textos grabados en cintas de audio del registro

oral. 1.100.000 de palabras transliteradas en soporte informático», producto de la Cáte-

dra de Lingüística General de la Universidad Autónoma de Madrid. La base de datos

comenzó a elaborarse en enero de 1991, finalizando su realización en febrero de 1992, el

dialecto es centropeninsular.

En el corpus encontramos textos de los tipos textuales siguientes: administrativos y po-

líticos (5,6%), científicos (3,3%), conversacionales o familiares (24,5%), educativos (5,3%), huma-

nísticos (5,6%), instrucciones (0,6%), jurídicos (3,2%), lúdicos (5,6%), periodísticos (de varios ti-

4 Quisimos incluir los programas del Partido Popular también para mantener el equilibrio, pero

su sitio fue inaccesible el 17 de abril de 2002.

Page 11: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

INTRODUCCIÓN – EL OBJETIVO DE LA TESINA

• 11 •

pos) (38,3%), publicitarios (2,8%), religiosos (1,1%), técnicos (3,9%). Así será posible comparar

los resultados de diferentes modalidades de habla.

Completamos el corpus de textos hablados con el Corpus oral de profesionales de la len-

gua castellana en Barcelona. Se trata de once entrevistas realizadas en Barcelona en 1999

para un estudio empírico en el marco de la tesis doctoral de Carsten Sinner. Las entre-

vistas no están clasificadas por tipos textuales, son once textos transcritos, aproximada-

mente 170.000 palabras en total. A pesar del tamaño menor del corpus y de las reglas

dudables de transcripción que dificultan un poco el tratamiento automático, trataremos

de utilizar este corpus para comprobar las potenciales diferencias dialectales entre el

habla de Madrid y Barcelona.

Page 12: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

PARTE I

Descripción y teoría

Page 13: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

HEMOS presentado una descripción a grandes rasgos del fenómeno que es el

tema de esta obra, en los capítulos siguientes le prestaremos más atención, lo des-

cribiremos extensivamente. Cabe en esta parte un resumen de algunas de las teorías co-

nocidas y una reseña de la condición de la subida de clíticos en el español antiguo.

Complicaciones La forma fundamental de la subida, demostrada en el ejemplo (6) no presenta complica-

ciones algunas. No obstante, hay casos que parecen no caber entre los límites rígidos que

marcan los modelos descritos en la introducción.

Elementos intercalados En algunos casos se puede intercalar una preposición entre los verbos finito y no finito

no impidiendo la subida 5.

(8) (a) Comienzo a freírlo.

(b) Lo comienzo a freír.

5 Los autores sugieren que sólo las preposiciones a y de y la partícula que –en tener que– permiten

la subida, pero no siempre parecen muy convencidos. «I have not seen […] any cases of anteposition

where the infinitive is introduced by a preposition other than a or de.» (Colburn, 1928: 425). «DL with

the prepositions a and de is practically as free as when there is no intervening element.» (Bolinger,

1949: 256).

A UNQUE

Page 14: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

DESCRIPCIÓN Y TEORÍA – COMPLICACIONES

• 14 •

Otras veces la preposición claramente bloquea la subida de los clíticos.

(9) (a) Insistió en llevarme a casa.

(b) *Me insistió en llevar a casa.

La presencia de otros constituyentes como la negación o adverbios siempre impiden la

subida. Luján (1993) demuestra con una prueba sencilla, que efectivamente son estas

partículas que bloquean la subida. Cuando se mueven dichos elementos, la subida se po-

ne posible 6.

(10) (a) Quisiera no verte más.

(b) *Te quisiera no ver más.

(c) No quisiera verte más.

(d) No te quisiera ver más.

6 Sorprendentemente Beaven (1992: 33) opone, «The clitic is capable of climbing over any ad-

verbs or negation […]», y presenta los siguientes ejemplos como gramaticales. En la literatura se con-

sideran –por lo menos– problemáticos los ejemplos (b), (c) y (f).

(1) (a) Quiero poder no verla.

(b) Quiero poderla no ver.

(c) La quiero poder no ver.

(d) Quiero no poder verla.

(e) Quiero no poderla ver.

(f) La quiero no poder ver.

(2) (a) Quiero poder siempre verla.

(b) Quiero poderla siempre ver.

(c) La quiero poder siempre ver.

(d) Quiero siempre poder verla.

(e) Quiero siempre poderla ver.

(f) La quiero siempre poder ver.

Sin embargo, el autor considera inaceptables los ejemplos siguientes (p. 27, (2.9)d, (2.9)g).

(3) (a) *Te lo siempre dijo.

(b) *Te lo no dijo.

Page 15: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

DESCRIPCIÓN Y TEORÍA – COMPLICACIONES

• 15 •

Volvamos otra vez a las preposiciones que parecen permitir la subida de clíticos en unas

situaciones, y bloquearla en otras. Luján introduce las categorías complementante preposi-

cional y preposición verdadera, de las cuales la preposición verdadera incondicionalmen-

te impide la subida. Pizzini (1982) apoya esta teoría de Luján y formula las diferencias en

dos puntos.

1. Si cambiamos las oraciones subordinadas de infinitivo a sustantivo el complementante desapa-

rece, la preposición no.

2. Si cambiamos el cítico a un pronombre tónico, el complementante desaparece y la preposición

no.

(11) (a) Comienzo el trabajo.

(b) Lo comienzo.

(c) *Comienzo a ello.

(12) (a) Insistió en sus derechos.

(b) *Lo insistió.

(c) Insistió en ellos.

Pizzini y Luján arguyen que los complementantes que no bloquean la subida no son

constituyentes verdaderos sino partes de la unidad léxica del verbo matriz. Pizzini com-

pleta la teoría citando varios ejemplos y concluye que así su punto de partida, la necesi-

dad de adyacencia de los verbos es esencial. Luján formula una partícula opcional de su

análisis sintáctico para representar el complementante.

Ahora volvamos a las complicaciones. La intercalación de otro verbo en forma no

finita resulta en la subida múltiple, en que los pronombres átonos pueden colocarse en va-

rias posiciones. Eso significa que la subida puede ser iterativa, un clítico puede seguir su-

biendo, supuesto que las condiciones mencionadas estén presentes.

(13) (a) La madre quiere evitarlo.

(b) La madre quiere poder evitarlo.

(c) La madre quiere poderlo evitar.

(d) La madre lo quiere poder evitar.

Page 16: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

DESCRIPCIÓN Y TEORÍA – COMPLICACIONES

• 16 •

Tampoco es excepción a la regla el infinitivo compuesto.

(14) (a) El tiempo tampoco pudo haberlo destruido.

(b) El tiempo tampoco lo pudo haber destruido.

La unión léxica del verbo conjugado y la preposición resultaría en la agramaticalidad de

(15)c, pero construcciones semejantes son consideradas gramaticales casi unánimemen-

te 7. No hay discordancia en el caso de (15)b, que es agramatical para todos los analiza-

dores.

(15) (a) La madre quiere comenzar a freírlo.

(b) *La madre quiere comenzar a lo freír.

(c) (?) La madre quiere comenzarlo a freír.

(d) La madre lo quiere comenzar a freír.

Cuando el verbo tiene más de un afijo, es decir dos o tres pronombres átonos, los clíticos

siempre suben juntos en caso de la subida de clíticos. Aunque, existen autores, que por lo

menos tratan el asunto de la continuidad obligatoria de los clíticos con cierta incertidum-

bre 8.

(16) (a) Quisiera comprármela.

(b) Me la quisiera comprar.

(c) *Me quisiera comprarla.

(d) *La quisiera comprarme.

7 Luján (1993) presenta Quiero volverte a ver y Dikken (2000) Puedo irlo a ver como gramaticales.

Esta construcción no es aceptable para Pizzini (1982), ya que en su teoría las preposiciones que no im-

piden la subida de clíticos forman una unidad con el verbo auxiliar al que pertenecen (volver e ir res-

pectivamente en estos casos).

8 Bolinger (1949: 253, 255) hace la pregunta: «Can there be discontinuity between two pro-

nouns that are objects of the same verb?», y mas tarde dice: «Our data offer no evidence that when

both of two pronouns are objects of the infinitive, one may precede while the other follows.». Tenemos

que comformarnos con eso, no vamos a buscar evidencia de la subida separada.

Page 17: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

DESCRIPCIÓN Y TEORÍA – COMPLICACIONES

• 17 •

La «bajada» de clíticos Davies (1997) en su trabajo presenta varios datos sobre la subida de clíticos, basados en

un análisis automático de un corpus enorme de textos antiguos españoles. No duda en

señalar en la nota final de su artículo que el cálculo simple de la proporción de subida y

no subida saldrá falso, ya que es frecuente el uso impersonal del pronombre se («se pue-

de fumar») en posición antepuesta 9.

Davies juzga tales situaciones de subida falsa: «[…] these are not true cases of clitic

climbing […]». Al contrario, Fish cita esta situación como un importante ejemplo de su-

bida, y Bolinger (1949: 258) en su punto 6. menciona que del se impersonal brota otro

fenómeno vecino de la subida, la «bajada» de clíticos (clitic descending), «DR» en su artícu-

lo. Dice que cuando se siente una contaminación (existe una forma enclítica muy fre-

cuente y común), ese se impersonal puede covertirse en postfijo del verbo no finito. He

aquí unos de sus ejemplos, que –según el autor– no pueden entenderse, sólo como

ejemplos de bajada (se empezaba a penetrar, en el caso (a) y se pudiera creerles en el caso (b)).

(17) (a) […] que tan pronto como empezaba a penetrarse dentro de él aparecían sus

perfecciones.

(b) […] aunque a la simple vista pudiera creérseles felices.

Otras subidas falsas • Una característica importante de la subida de clíticos es que los

pronombres átonos subidos sintácticamente pertenecen al infinitivo, y el verbo matriz

tiene un carácter auxiliar. Gómez Torrego (1988: 25-27) cita los ejemplos siguientes.

(18) (a) Lo echa a perder.

(b) *Echa a perderlo.

(19) (a) Me lo dio a entender.

(b) *Dio a entendérmelo.

El ejemplo (18)a parece ser situación de subida. Pero en este caso el clítico lo complemen-

ta al verbo echar y no a perder, así, como echa lleva complementos propios, no puede ser

9 Davies utiliza un cálculo de compensación, incluye sólo el 30% de los casos con se.

Page 18: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

DESCRIPCIÓN Y TEORÍA – COMPLICACIONES

• 18 •

auxiliar. Por esta razón (18)b no se considera correcto. Parecidamente en los ejemplos

(19)a-b me y lo son complementos de dio, así (b) es agramatical.

Berta (2000: 83) excluye de los casos de subida «[…] las causativas y perceptivas en

las que el pronombre átono, que aparece en la superficie como objeto directo (o indirec-

to) de VR, en realidad se refiere al sujeto del infinitivo» En su nota señala que «[…] en

estos casos el infinitivo es un verbo intransitivo, que no tiene objeto directo o indirecto

como argumento interno» 10. En estas situaciones el pronombre tampoco puede bajar a

posición enclítica del infinitivo, (20)b es incorrecto, en consecuencia (20)a no es una si-

tuación de subida de clíticos.

(20) (a) Me mandó salir.

(b) *Mandó salirme.

Superioridad del verbo matriz Pizzini (1982: 55) y Gómez Torrego (1988: 130-131) acentúan el carácter gramaticaliza-

do de los gerundios en construcciones de subida de clíticos. Gómez Torrego dice: «[…]

los gerundios de las perífrasis verbales constituyen el verbo principal o auxiliado, su va-

lor adverbial es escaso o nulo, por lo que no suelen responder a la transformación inter-

rogativa con el adverbio cómo». Las diferencias entre una construcción que permite la su-

bida y otra que no, las ilustramos en (21) y (22) (el ejemplo (22)a es de Pizzini).

(21) (a) Llevo diciéndotelo dos horas.

(b) Te lo llevo diciendo dos horas.

(22) (a) Juan murió desconociéndola.

(b) *Juan la murió desconociendo.

10 Sin embargo, Berta incluye entre las situaciones de subida aquellas construcciones factitivas y

perceptivas «[…] en las que el clítico representa un argumento interno del infinitivo que depende del

VR». Sí, son gramaticales (a) y (b), y el primer ejemplo representa una situación de subida.

(1) (a) Juan la mandó escribir.

(b) Juan mandó escribirla.

Page 19: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

DESCRIPCIÓN Y TEORÍA – COMPLICACIONES

• 19 •

La prueba de adverbialidad parece refutar el carácter adverbial de la construcción (21) y

afirmar el carácter adverbial de desconociendo en (22).

(21) (c) –*¿Cómo llevo? –Diciéndotelo…

(22) (c) –¿Cómo murió Juan? –Desconociéndola.

Pizzini arguye sobre estas construcciones que la estructura de las oraciones (21) y (22) es

diferente. En (21) llevar es superior a decir, ya que las categorías que dominan llevar tam-

bién dominan decir.

(21) (d) [O Llevo [diciéndotelo] dos horas].

(22) (d) [O Juan [SV murió] [ADV desconociéndola]].

Sin embargo, en (22) la categoría SV que domina murió (el verbo matriz) no domina des-

conociéndola. Eso se puede demostrar explotando la relativa libertad de orden en el caso

de (22) 11.

(21) (e) *Diciéndotelo, dos horas llevo.

(22) (e) Desconociéndola, Juan murió.

(f) Juan, desconociéndola, murió.

Discontinuidad de acción Sobre la subida de clíticos con gerundio, Bolinger (1949: 259) propone una interesante

hipótesis, basada en pruebas con hispanohablantes. Dice que, como verbos matrices, ge-

neralmente admiten la subida con gerundios los verbos que tienen un significado durati-

11 Existe un par de oraciones que son influidos por la hipótesis de Pizzini, aquí citamos su (24)a-b.

(1) (a) Juan llegó a visitarla.

(b) Juan la llegó a visitar.

(1)a tiene un significado ambiguo. El de movimiento (Juan efectivamente llegó para visitar, digamos, a

su hermana), y otro, un significado perifrástico (Juan consiguió visitarla). Sin embargo el significado

de (1)b es inequívoco, ya que según el autor, la superioridad de llegar a visitar es requisito para realizar

una subida de clíticos. El ejemplo (b) no posee el significado de movimiento.

Page 20: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

DESCRIPCIÓN Y TEORÍA – COMPLICACIONES

• 20 •

vo, «[…] that may be interpreted as continuous motion in one direction, in addition to

continuing state […]». Estar, quedar(se), seguir, continuar, andar, venir, ir, pasar. Pero lo que

es sumamente importante no son los verbos mismos –se aprobarían las pruebas de supe-

rioridad–, sino las diferencias de significado.

Estas diferencias –según la proposición de Bolinger– son más marcadas en el caso de

los gerundios que en el de infinitivos, aunque lo que describimos en la nota 1 sobre el

foco, parece ser válido aquí también. La novedad importante es que la discontinuidad en

sintaxis (la subida del clítico, perteneciente al gerundio) implica discontinuidad en acción

también 12.

Secuencias de clíticos Para reconocer las situaciones de subida tenemos que formalizar en qué secuencias pue-

den ocurrir los clíticos. Qué limitaciones existen considerando el orden de dos o tres

pronombres, y qué mecanismos afectan este orden.

Pizzini (1982: 48) formula una regla sencilla, una serie de clíticos es agramatical si

no ocurre en el orden se II I III, donde II representa un pronombre de segunda perso-

na, I un pronombre de primera y III un pronombre de tercera que no sea se 13. Según

su teoría, si el verbo finito tiene su objeto indirecto, el clítico subido siempre se coloca a la

derecha de dicho pronombre 14. Añade también que un grupo de clíticos siempre sube

como una unidad. Sus ejemplos (27)a-d demuestran cómo su modelo explica la agrama-

ticalidad de nuestro (23)d, por la secuencia incorrecta *I II.

12 «Lo fue llamando suggests repeated action, while Fue llamándolo suggests a single act; […] Lo pasó

mirando suggests a concentrated effort, while Pasó mirándolo refers to a casual momentary act. Lo estoy

haciendo suggests something that might be interrupted and then resumed, while Estoy haciéndolo sug-

gests something done in a single session.» Bolinger (1949: 259)

13 Gómez Torrego (1988: 58) parece soportar estas reglas: «Los pronombres me y te nunca pue-

den preceder al pronombre se.», «El pronombre te siempre precede a me.».

14 Luján (1993: 251) añade una condición interesante. Dice que un clítico dativo de un verbo ma-

triz impide la subida de clíticos, si los clíticos que suben son personales. Así la autora juzgaría agrama-

tical el ejemplo (23)b.

Page 21: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

DESCRIPCIÓN Y TEORÍA – COMPLICACIONES

• 21 •

(23) (a) Juan me hizo besarla.

(b) (?) Juan me la hizo besar.

(c) Juan me hizo besarte.

(d) *Juan me te hizo besar.

Bok-Bennema y Croughs-Hageman (1980: 85) nos presentan un sistema esencialmente

diferente. Citando a Groos definen las reglas de gramaticalidad de orden y coocurrencia

en las secuencias de clíticos como:

1. Uno de los clíticos tiene el rasgo distintivo [+R]. Esta categoría contiene todos los clíticos re-

flexivos, se impersonal y el llamado spurious o falso se (este se es la forma que adquiere le(s)

cuando va seguido de lo(s) o la(s)),

2. y/o uno de los clíticos es lo(s), la(s),

3. el clítico [+R] va en primera posición, y lo(s), la(s) en última posición.

Definimos las clases siguientes de los clíticos:

[+R]: me, te, se, nos, os.

[−R]: me, te, le, nos, os, les.

[α fem]: los, la, los, las.

Así en la oración, delante de la forma conjugada del verbo, lo que puede impedir la

subida de un clítico es el hecho que su posición ya está ocupada por otro clítico (del ver-

bo matriz) de la misma categoría. Nuestro ejemplo (23)d resulta agramatical, porque me

ocupa la posición de [−R], y te también aspira a tomar este sitio.

Leísmo, laísmo, loísmo Estos fenómenos consisten en el empleo erróneo de los pronombres personales átonos

en ciertas situaciones. El leísmo, en la aplicación de le y les en vez de lo y los respectivamen-

te, en función de objeto directo. (La única variedad admitida de leísmo es el uso de le re-

ferido a personas del sexo masculino.) El laísmo es la utilización de los pronombres la, las

en función de objeto indirecto. El loísmo es el uso de lo, los como objeto indirecto.

Estos usos no dificultan mucho el acierto de las situaciones de subida, pero sí su in-

terpretación. En general, no cambian nada, como la subida puede ocurrir con objetos

Page 22: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

DESCRIPCIÓN Y TEORÍA – EL CASO DEL ESPAÑOL ANTIGUO

• 22 •

directos e indirectos (aunque las condiciones delicadas sobre las categorías [−R] y [α

fem], mencionadas bajo el punto Secuencias de clíticos (p. 20) no toleran ninguno de es-

tos -ísmos). Lo que hemos de tener en cuenta es que estos fenómenos pueden falsificar

nuestros cálculos sobre la concordancia de la frecuencia de subida con el tipo de los clíti-

cos.

Situaciones adicionales Hasta este punto hemos persistido en que para una subida de clíticos se necesita un infi-

nitivo o gerundio al que sintácticamente pertenecen unos clíticos (como objeto directo u

objeto indirecto), y un verbo conjugado al que esos clíticos suben. Pero existen otros fe-

nómenos similares, los cuáles algunos investigadores clasifican como casos de subida de

clíticos. Consideremos los ejemplos siguientes:

(24) (a) No pudiendo aceptar el premio, se ha marchado.

(b) No pudiendo aceptarlo, se ha marchado.

(c) No pudiéndolo aceptar, se ha marchado.

(25) (a) Tengo la intención de ir a verla.

(b) (?) Tengo la intención de irla a ver.

Se observa que poder e ir están en formas no finitas, de gerundio y de infinitivo respecti-

vamente, pero parecen estar sujetos a subida de los clíticos lo y la, que sintácticamente

pertenecen a los infinitivos aceptar y ver. Nosotros consideramos estos casos como claros

ejemplos de subida, pero nada más, no reconstruimos las reglas del fenómeno y tampoco

incluiremos estos casos entre las situaciones para ser reconocidas por nuestro algoritmo.

El caso del español antiguo Antes de repasar las teorías lingüísticas dedicadas a la subida de clíticos en el español

moderno, hacemos una excursión al mundo del español antiguo en este capítulo. El re-

sumen sobre el estado de los pronombres personales átonos será puramente descriptivo.

La colocación de los pronombres átonos en el español antiguo permitía una libertad

Page 23: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

DESCRIPCIÓN Y TEORÍA – EL CASO DEL ESPAÑOL ANTIGUO

• 23 •

aparente comparada al caso moderno. «Si bien, en general, aparecen al lado de una for-

ma verbal, no ocupan una posición fija respecto de la misma, sino que se anteponen o se

posponen, sin que su posición parezca motivarse por la forma o función del verbo […]»

(Nieuwenhuijsen, 1999: §1.1). Los ejemplos de Nieuwenhuijsen demuestran esta liber-

tad:

(26) (a) Fue fambre en toda la tierra de Egipto e non fallavan pan e rencuraronse

toda la tierra a Pharaon por pan e el enbiolos a Josep […]

(b) […] e quando lo oyo Hercules ouo grand pesar […]

(c) […] e por que era liger e corredor mas que otro omne, e tomaua las cabeças

de los omnes e de las bestias que mataua, e colgaualas a la puerta de parte

de fuera, cuydauan que comie los cuerpos de los omnes tan bien cuemo de

las bestias […]

(d) E Dios omnipotent te bendiga […]

(e) E yo esto, sennor, non lo digo por me escusar del trabajo nin por pauor del

pelygro que en ello a mi podria venir […]

(f) Los griegos yendoles mal con Diomedes e sabiendo de las bien andanças de

Hercoles enbiaron por el.

(g) E non se pagando aun deste pleyto el senado ni el comun de Roma, uino de

cabo sobrel el consul Mario […]

(h) Despues estas compannas fueron se tendiendo por las tierras e poblaron to-

da Espanna […]

Se ve claramente que los clíticos pueden colocarse delante o detrás de un verbo conjuga-

do ((b), (d) y (a), (c) respectivamente), delante o detrás de un verbo no finito ((e), (g) y (f),

(h)).

Además, la autora cita ejemplos en que los pronombres no se colocan inmediata-

mente delante del verbo, lo que sugiere que eran constituyentes sintácticamente más li-

bres que en el español moderno. Sus ejemplos (12) y (13) acompañados de los (1)a-b de

Fontana (1993: 11) muestran constituyentes intercalados, pronombre personal, adver-

bio, partícula negativa y sujeto respectivamente.

Page 24: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

DESCRIPCIÓN Y TEORÍA – EL CASO DEL ESPAÑOL ANTIGUO

• 24 •

(27) (a) […] pero penso commo la ynduziese a ello a a lo que le el queria, […]

(b) […] deziendo: «Mio sennor Hercoles, prometido me ovistes vos a mi de me

nunca desanparar […]

(c) pero que lo non fallamos en toda la estoria.

(d) assi como les dios auie prometido.

Cambios en las reglas de colocación Los ejemplos citados parecen indicar que en el español antiguo los pronombres átonos

no funcionaban como afijos, tenían cierta libertad de movimiento, cierta independencia

sintáctica, se parecían más a los sintagmas nominales 15. Al contrario, los clíticos actuales

se distinguen de los sintagmas nominales, son afijos dependientes de los verbos. ¿Cómo

se ha desarrollado este cambio sintáctico durante los siglos?

Según Nieuwenhuijsen (1999: §7) en el siglo XIII «[…] la colocación del PA en parte

de las oraciones principales era variable y obedecía a las necesidades comunicativas del

hablante». En el siglo XIV la variabilidad de la colocación declina, la posición del clítico

será determinada por el elemento delante del verbo en caso de los verbos finitos. Sin

embargo, con las formas no finitas sigue rigiendo el principio de complejidad 16.

Desde el siglo XV el carácter de los pronombres átonos empieza a acercarse al actual,

pierden su independencia sintáctica, se colocan cada vez más inmediatamente al lado del

verbo, y entonces ya es el verbo su apoyo fonológico. A partir del siglo XVI «[…] se va ob-

servando una clara división entre las formas finitas y no finitas […]», el porcentaje de la

anteposición de los pronombres átonos en caso de verbos no finitos se reduce dramáti-

camente.

15 No obstante, fonológicamente los clíticos eran dependientes, siendo átonos necesitaban otro

elemento tónico en el que podían apoyarse. Este elemento no era obligatoriamente el verbo.

16 «Según éste se prefieren colocar los constituyentes a base de su complejidad, apareciendo los

constituyentes relativamente menos complejos antes en la secuencia lineal que los más complejos con

una función parecida.» (Nieuwenhuijsen 1999: §4.6.2)

La autora cita el concepto de complejidad de Dik: clítico < pronombre < SN < frase aposicional <

cláusula subordinada.

Page 25: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

DESCRIPCIÓN Y TEORÍA – EL CASO DEL ESPAÑOL ANTIGUO

• 25 •

La forma moderna aparece a finales del siglo XVII, la anteposición de los clíticos con

las formas no finitas desaparece por completo, ya no cuenta la presencia de otro elemen-

to delante de formas finitas. Salvo el caso del imperativo –caso altamente funcional–, la

anteposición entra en vigor.

Tabla 1ª REGLAS DE COLOCACIÓN Y NATURALEZA DE CLÍTICOS

Nieuwenhuijsen (1999: §7.1.3) en su figura 7.1 presenta un resumen de las diferentes

reglas de colocación del clítico con las formas finitas y no finitas a través de los siglos

examinados, y la descripción de la naturaleza de los pronombres.

La subida de clíticos Volvamos otra vez al español antiguo y el fenómeno de la subida de clíticos. Consideran-

do la libertad de la posición de los pronombres átonos en el sistema antiguo, es de supo-

ner que las construcciones de subida son más libres que las del español moderno. Ade-

formas finitas formas no finitas naturaleza del clítico

siglos XIII-XIV principio pragmático: anteposición, posposición y principio de complejidad anteposición

posposición original y principio de complejidad: anteposición

sintácticamente libre y fonológicamente dependiente de la palabra precedente

siglo XV presencia de un elemento delante del verbo: anteposición

posposición original y principio de complejidad anteposición

sintácticamente y fonológicamente dependiente del verbo

siglo XVI presencia de un elemento delante del verbo: anteposición

principio de complejidad anteposición y forma/función del verbo: posposición

sintácticamente y fonológicamente dependiente del verbo

a partir del siglo XVII

forma/función del verbo: anteposición (y posposición)

forma/función del verbo: posposición

sintácticamente y fonológicamente dependiente del verbo

Page 26: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

DESCRIPCIÓN Y TEORÍA – EL CASO DEL ESPAÑOL ANTIGUO

• 26 •

más de poder aparecer antepuestos inmediatamente al verbo matriz, los pronombres

átonos pueden colocarse entre las dos formas verbales. Los ejemplos son de Berta

(2000: 87-89), su (11)a, (11)d y (12)b-c.

(28) (a) Et sus conpanneros lo deuen auer todo.

(b) pues que nos fazemos somir la tierra que es tan dura & tan fuerte quales co-

sas otras nos podran sofrir […]

(29) (a) Amjgo dicho te he lo que me mandaron que te dixiesse & de oy mas qujero

me yr.

(b) E los capdiellos marauillaron se entonçes. & mandaron los buscar mas non

los fallaron.

Berta remite a la Ley de Wackernagel 17, «[…] según la cual un clítico (o elemento átono)

nunca aparece en posición inicial sino que siempre sigue inmediatamente al primer ele-

mento tónico de la frase». Según el autor, la posposición del clítico en los casos de (29) se

debe a la posición inicial del verbo matriz en la proposición.

Berta en sus (13)a y (13)c presenta un fenómeno del español medieval –

completamente desconocido en el español moderno–, en el cuál el infinitivo, al que per-

tenece el clítico sintácticamente, precede inmediatamente al clítico promovido mismo.

(30) (a) ca de partir vos quiero yo lo que nos demuestra este ssigno.

(b) Et si saluar non se quisiere deue gela pechar.

(c) […] agora enbiele dezir que nos mejorassen los tuertos & los daños que nos

oujeron fechos mas ssemejame que doblar nos los quieren.

En el ejemplo (30)b el adverbio de negación se intercala entre el clítico y el infinitivo, eso

parece demostrar que estos han subido separadamente. Confirma la independencia de

17 Fontana (1993) parte de otra, más general, la Ley Tobler-Mussafia, ya que esta no especifica la

posición de los pronombres átonos en la posición segunda: «Unstressed object pronouns cannot stand

in absolute initial position in the sentence». Ya que nosotros no creemos extendernos en explicaciones

teoréticas sobre el caso antiguo, remitimos al lector curioso a la obra de Fontana.

Page 27: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

DESCRIPCIÓN Y TEORÍA – EL CASO DEL ESPAÑOL ANTIGUO

• 27 •

los pronombres átonos que pueden aparecer varios elementos entre el clítico antepuesto

y ambos verbos. Citamos el (14) de Berta:

(31) (a) Amigo yd dezir al conde que le non mejorare ninguna cosa de quanto me el

enbia dezir.

(b) Ca el dizie quel non quiere obedeçer. […]

En el español antiguo la intercalación de una preposición entre el verbo matriz y el verbo

en forma no finita tampoco bloquea la subida. Sin embargo, las reglas que definen la po-

sición del clítico promovido cuando el verbo finito está en posición inicial de la proposi-

ción resultan en construcciones desconocidas en el español moderno (Berta, 2000: 90).

Los ejemplos de (32) muestran la situación cuando el clítico se coloca delante del verbo,

los de (33) presentan unas oraciones en que el clítico se intercala entre el verbo matriz y

la preposición 18.

(32) (a) amigos dexad vos a mis sobrinos ca si menester fuere yo les yre a ayudar.

(b) ca meteredes grandes duelos & grandes Roydos en la tierra los muertos a

los biuos por que los han de enbargar.

(33) (a) El conde non pudo yr de bestia por la montaña & ouose de apear […]

(b) E pues que fue çerca de la uilla de antiocha. salieron le a reçebir con proçes-

sion.

El constituyente intercalado entre los dos verbos no es obligatoriamente preposicional en

el caso del español antiguo. Las construcciones aceptan el sujeto, adverbios, una combi-

nación de ellos o una combinación del sujeto y una preposición.

(34) (a) Et deuel el Rey justificar el cuerpo por este fecho.

(b) E el rey mandole luego tirar delos fierros & que le fiziessen buen lecho […]

(c) deuel luego el alcalle conjurar quel omne que vinie luego ante el alcalle […]

18 El hecho que esté permitida la intercalación de un clítico entre verbo y preposición indica que

–en español antiguo– no debemos considerar estos dos como una unidad. Berta añade: «Este hecho

parece indicar que la adyacencia de los dos verbos no es condición de la SC en el español moderno.».

Page 28: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

DESCRIPCIÓN Y TEORÍA – EL CASO DEL ESPAÑOL ANTIGUO

• 28 •

Berta luego formula cinco construcciones que nunca admiten la subida de clíticos y dice:

«[los] datos sugieren que en el español antiguo la SC se produce obligatoriamente si el

VR la admite y las relaciones tanto semánticas como sintácticas de la frase no la impi-

den».

Análisis problemático Hemos preparado este esquema sinóptico sobre las características de la subida de clíticos

en diferentes épocas del español antiguo con la intención de demostrar por qué escogi-

mos como objetivo de la tesina el análisis de textos modernos. Sin especificar cómo fun-

ciona el algoritmo analizador de nuestra herramienta (véase Tratamiento automático, p.

36), trataremos de señalar los puntos problemáticos del análisis automático de corpus

antiguos.

Escritura variada • La identificación de las formas verbales en textos antiguos o medie-

vales es una tarea mucho más complicada que en el caso de textos modernos. La ortogra-

fía de los verbos –sobre todo en sus formas flexionadas– puede variar según autores en la

misma época y también según épocas. La falta de un diccionario estándar de formas an-

tiguas tampoco facilita el análisis automático.

En el español antiguo la enclisis de los pronombres átonos no se limita a las formas

no finitas y los casos del imperativo. Además, la vocal final del pronombre enclítico pue-

de apocoparse, dificultando aún más el reconocimiento del verbo.

Libertad sintáctica • Los ejemplos han demostrado que la posición relativa de los pro-

nombres átonos y los verbos a los que pertenecen sintácticamente cambió durante los si-

glos, y no era fijo en algunas épocas. Si consideramos que los pronombres no siempre se

colocaban inmediatamente delante o detrás del verbo, podemos sacar la conclusión que

el número de situaciones de subida para reconocer es incomparablemente mayor en el

lenguaje antiguo que en el actual. Por consecuencia, el riesgo de errar es mayor también.

Así nos parece obvio preparar una herramienta que sea capaz de reconocer situacio-

nes de subida en corpus de español moderno, y acercarse al problema del análisis de tex-

tos antiguos después.

Page 29: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

DESCRIPCIÓN Y TEORÍA – TEORÍAS EXISTENTES

• 29 •

Teorías existentes Como ya lo hemos señalado, no es objetivo de la presente tesina formular teorías sobre

los porqués del fenómeno tratado. No proponemos reglas que expliquen todas las cons-

trucciones que permiten la subida, tampoco creamos interpretaciones de los casos que

parecen contradecir a las teorías.

No obstante, además de dar un panorama descriptivo de la subida de clíticos –que

hemos intentado cumplir en los capítulos anteriores–, pensamos que es preciso resumir

algunas de las teorías sintácticas, presentadas hasta hoy día sobre el fenómeno. Tratamos

de recopilar teorías que intentan interpretar cómo funciona la subida de clíticos –a propó-

sito, ¿por qué es posible?–, teorías con reglas que producen oraciones gramaticales, así

bloquean la producción de resultados agramaticales.

Citaremos dos mayores teorías generativas sobre el fenómeno, que marcan dos ten-

dencias en la investigación teórica del asunto, una de la escuela de adyacencia, y otra de la

escuela de verbo complejo. Una de ellas parte de la hipótesis que los clíticos sí, pueden

atravesar lindes oracionales, si no están presentes unos tales constituyentes (fonéticamen-

te evidentes o no) que lo impidan (Luján, 1993). La otra mantiene la restricción del atra-

vieso de lindes oracionales, pero introduce una regla de reestructuración, que cambia la

estructura de la oración-proposición creando una oración sola, así permitiendo el movi-

miento de los clíticos (Rizzi, 1982).

El modo en los complementos verbales Luján parte de la teoría de Rivero, que declara que la Elisión del SN Equivalente (EQUI)

resulta en la poda del nudo O del complemento. Este tipo de reducción en el comple-

mento verbal produce una estructura oracional que facilita la subida de los clíticos. Luján

demuestra que la presencia o ausencia del nudo O no es explicación suficiente para la

subida, existen casos cuando el nudo O no está presente pero la subida de clíticos resulta

en oraciones agramaticales. Declara que «[…] cuando se considera la subida de clíticos, es

fundamental tener en cuenta el modo del complemento. […] La Subida de Clíticos no se

aplica cuando hay algún elemento estructural que no sea un complementante entre el

Page 30: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

DESCRIPCIÓN Y TEORÍA – TEORÍAS EXISTENTES

• 30 •

par de verbos sobre los cuales se define la operación. Para que tal principio se mantenga,

debemos suponer que los elementos en indicativo difieren estructuralmente de los que

van en subjuntivo. Esta diferencia consiste en que sólo los de indicativo contienen la ca-

tegoría Tiempo en su estructura básica» (Luján, 1993: 236).

En el complemento verbal de (35) el nudo O está presente impidiendo la subida. En

(36) vemos cómo reduce la Elisión del SN Equivalente la estructura del complemento

oracional, como borra el nudo O, así propiciando a la subida. (Luján, 1993: 240)

(35) (a) Quiero que te lo dé ahora.

(b) *Te lo quiero que dé ahora.

(36) (a) Quiero dártelo ahora.

(b) Te lo quiero dar ahora.

Sin embargo, la autora demuestra que la hipótesis del nudo-O no es suficiente, cita algu-

nos contraejemplos con complementos infinitivos que no permiten la subida. El comple-

mento en (37) también deriva de la aplicación de EQUI, así podemos suponer que ha

perdido su nudo O de la estructura original. No obstante, no permite la subida de clíti-

cos, refuta la hipótesis del nudo-O 19.

(37) (a) Insistió en llevarme a casa.

(b) *Me insistió en llevar a casa.

Luján clasifica las construcciones según el modo del complemento. «[…] los complemen-

tos que impiden la subida de clíticos se caracterizan por el hecho de que se les aplica

EQUI opcionalmente y que requieren indicativo cuando la matriz no está negada». A los

complementos de la otra clase se les aplica EQUI obligatoriamente y requieren subjunti-

vo cuando la matriz no está negada.

(38) (a) Creo {que lo hago/hacerlo} bien.

(b) *Lo creo hacer bien. 19 Como ya lo hemos mencionado en la página 15, en este caso la preposición en intercalada entre

los verbos es lo que bloquea la subida.

Page 31: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

DESCRIPCIÓN Y TEORÍA – TEORÍAS EXISTENTES

• 31 •

(c) Parece {que lo sabe/saberlo} poco.

(d) *Lo parece saber poco.

(39) (a) Queremos {*que nos vayamos/irnos} pronto.

(b) Nos queremos ir pronto.

Luján sugiere que los complementos «[…] que muestran el modo indicativo se diferen-

cian de las que van en subjuntivo en que su estructura básica contiene Tiempo». Después

de la aplicación de EQUI, esta categoría Tiempo es la que se queda presente entre los

dos verbos de la situación de subida. Es la regla de adyacencia que por la presencia de

cualquier elemento estructural –que no sea un complementante– entre los dos verbos

impide a los clíticos el atravieso de lindes oracionales 20.

Otros complementos infinitivos • No todos los complementos infinitivos derivan de la

Elisión del SN Equivalente. Luján (1993: 249) menciona dos otros tipos de derivación, la

aplicación de Ascenso del SV (40), y Ascenso del Sujeto (41).

(40) (a) Él me hizo que lo {dijera/*dije}.

(b) Él me hizo decirlo.

(c) Él me lo hizo decir.

(41) (a) Parece que Consuelo la {conoce/*conozca}.

(b) Consuelo parece conocerla.

(c) *Consuelo la parece conocer.

Se observa en estos ejemplos que los complementos de base requieren subjuntivo e indi-

cativo respectivamente. Por un lado, después de la aplicación de Ascenso del SV la es-

tructura no contiene la categoría Tiempo, la subida de lo está permitida. Por otro lado al

aplicar Ascenso del Sujeto, el infinitivo que va con parecer contiene Tiempo, la subida de

la está bloqueada.

20 Luján demuestra que la aplicación de EQUI en el caso de los complementos que van en indica-

tivo no borra el nudo O, lo que parece apoyar la hipótesis del nudo-O. Sin embargo nuestro (37)

muestra que la presencia del nudo O no es el factor decisivo.

Page 32: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

DESCRIPCIÓN Y TEORÍA – TEORÍAS EXISTENTES

• 32 •

Además de los dos tipos de complementos infinitivos (derivados de subjuntivo y de

indicativo), existe un tercer tipo, generado directamente en el complemento por las re-

glas de estructura de frase. Los ejemplos son del (36) de la autora.

(42) (a) Piensa {verte/*que te vea} mañana.

(b) Te piensa ver mañana.

(43) (a) Sabe {distinguirlas/*que las distinga}.

(b) Las sabe distinguir.

Estos infinitivos básicos –que no pueden aparecer con cláusulas plenas– «[…] no tienen,

por definición, Tiempo, así […] será posible la subida de clíticos, siempre que no estén

separados de verbo matriz por [algún] elemento» (Luján, 1993: 254).

Luján sigue con la explicación estructural de algunos aparentes contraejemlos de la

teoría descrita, pero –por consideración de espacio– dejamos esa parte. Con su análisis la

autora demuestra la importancia del constituyente intercalado entre los dos verbos, que

en este caso es la categoría de Tiempo. Luján añade otra condición de la subida. Para

explicar por qué verbos impersonales como haber que, convenir, importar, etc. bloquean la

subida, aunque deberían permitirla –por exigir normalmente el modo subjuntivo en la

oración subordinada–, introduce la necesidad de que el verbo matriz tenga sujeto. «[…]

el verbo que atrae a los clíticos debe llevar un SN sujeto cuando se aplica la subida» (Lu-

ján, 1993: 247).

Regla de reestructuración Rizzi (1982) ve el caso de la subida de clíticos de modo diferente. Según su teoría los

pronombres átonos no pueden atravesar los lindes oracionales –la subida de clíticos solo

se produce en una oración simple–, así, antes del movimiento de los clíticos, ha de des-

arrollarse una reestructuración en la oración que elimine el límite oracional, posibilite la

subida entre los límites de la oración 21.

La eliminación del límite oracional se efectúa sólo con una restrictiva clase de verbos

–modales, aspectuales y de movimiento (Vx)–. La reestructuración resulta en un verbo

complejo del verbo matriz y del verbo no finito. Con las palabras de Rizzi: «This rule […]

Page 33: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

DESCRIPCIÓN Y TEORÍA – TEORÍAS EXISTENTES

• 33 •

will […] transform an underlying bisentential structure into a simple sentence, creating a

unique verbal complex consisting of the main and the embedded verb».

La regla de reestructuración reanaliza una estructura como la de (44), creando un

solo complejo verbal .

(44) (a) SN Vx (Comp) V.

(b) SN Vcomplejo.

Rizzi declara que las construcciones (45)a-b se diferencian radicalmente en estructura 22,

además de diferir en la colocación del clítico.

(45) (a) Juan quiere [O darlo a Enrique].

(b) Juan [V lo quiere dar] a Enrique.

Afirmando a Rizzi, Moore 23 (1998) –citando a Aissen y Perlmutter– enumera construc-

ciones sintácticas que parecen apoyar la hipótesis del carácter de oración simple de (45)b.

La mayoría de los fenómenos tratados en su (4) no deberían pasar lindes oracionales, o

no deberían pasar tantos. Los ejemplos son: subida de clíticos (a), pasiva larga (b), re-

flexiva larga (c), movimiento tough largo (d).

(46) (a) Tei losj quiero [mostrar ecj eci].

(b) Las casasi fueron acabadas de [pintar ei ayer].

(c) Curroi se hizo [afeitar ei].

(d) Estas galletasi son casi imposibles de [dejar de [comer ei]].

21 La teoría de Rizzi se basa en fenómenos sintácticos del italiano moderno, pero la mayoría de

estos fenómenos se puede aplicar también al español moderno.

22 Bok-Bennema y Croughs-Hageman (1980: 83) rechazan esta diferencia radical : «[…] no nos

parece muy plausible que dos sentencias que contienen la misma información y los mismos elementos

lexicales, difieran tanto en su estructura.».

23 Moore añade otra clase de verbos, causativos y de percepción, que también facilitan la reduc-

ción. Verbos de esta clase se distinguen de la otra en que en su caso el sujeto matriz es diferente del

sujeto del complemento.

Page 34: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

DESCRIPCIÓN Y TEORÍA – TEORÍAS EXISTENTES

• 34 •

Una explicación sería decir que esta clase de verbos tiene doble caracterización. Por un

lado puede ser verbo matriz, controlando un complemento oracional (a), por otro lado

puede ser verbo auxiliar, introducido en el complejo verbal según una regla de base (b).

Rizzi refuta esta hipótesis.

Page 35: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

PARTE II

Tratamiento automático

Page 36: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

olvidarnos de que nuestro propósito más importante fue desarrollar

una herramienta que sea capaz de reconocer las situaciones de subida y de no

subida, y de sacar consecuencias de los casos reconocidos. ¿Qué base de datos necesita-

mos, cómo nos figuramos el algoritmo de búsqueda y de interpretación, cómo resolve-

mos los casos problemáticos para el algoritmo, qué salidas del programa nos convienen?

Trataremos de contestar todas estas preguntas.

No formalizaremos métodos teóricos para cualquier tipo de análisis automático de

textos, no presentaremos una metodología general, nos concentramos en nuestra he-

rramienta, sin embargo, con alusiones de carácter universal.

Preparación Cabe preguntarse por qué rompimos lanzas en favor del análisis no sintáctico de un fe-

nómeno, que es tema importante y frecuente para la teoría generativa de sintaxis. Ade-

más de que hasta hoy día no se ha presentado una teoría válida para todas las situaciones

conocidas, un análisis sintáctico requiere un apoyo léxico y algorítmico mucho más com-

plejo que el análisis no sintáctico, sin prometer resultados substancialmente superiores

en este caso concreto.

Como nuestro intento es desarrollar un programa para analizar corpus enormes,

debemos escoger métodos más rápidos y sencillos. Sin embargo, nuestro análisis tampoco

puede omitir las reglas sintácticas, preferimos llamar nuestro método análisis sintáctico

parcial o local.

N O DEBEMOS

Page 37: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

TRATAMIENTO AUTOMÁTICO – PREPARACIÓN

• 37 •

Análisis léxico Como Subirats Rüggeberg y Ortega Gil (1998: 1) escriben, el primer paso del análisis

sintáctico –y del no sintáctico también– es la etiquetación, el análisis léxico del texto, «[…]

que consiste en la identificación de los elementos léxicos y la especificación de sus pro-

piedades morfológicas flexivas y/o categoriales». Debemos identificar los elementos léxi-

cos simples y compuestos, y especificar sus formas canónicas (potencialmente más de

una), las propiedades morfológicas.

Para efectuar un análisis sintáctico completo, tendríamos que cumplir la etiquetación

de todos los constituyentes encontrados en el texto. En este caso, ya que enfocamos un

solo fenómeno, es suficiente reconocer los constituyentes que son relevantes en nuestro

análisis, a saber, las formas verbales, los clíticos y –para ejecutar un estudio más comple-

to–, las preposiciones (con otras partículas como no y que). No nos ocuparemos de sustan-

tivos, adjetivos o adverbios.

Diccionario • La base del análisis léxico es un diccionario electrónico que se basa en más

de 11.000 verbos en total (del D.R.A.E.). El diccionario contiene las formas de infinitivo,

gerundio y participio pasivo (irregulares y dobles también), formas flexionadas de imperativo

y de los tiempos verbales simples de indicativo y subjuntivo 24. El reconocimiento de for-

mas compuestas 25 será tarea del algoritmo.

Otra sección del diccionario se ocupa de las preposiciones de español: a, ante, bajo,

con, contra, de, desde, en, entre, hacia, hasta, para, por, según, sin, sobre, tras y trata de manera

equivalente las partículas que y no. No queremos discriminar positivamente ninguna de

las preposiciones, uno de los objetivos de esta tesina es observar la frecuencia de las pre-

posiciones intercaladas.

24 Indicativo presente, indicativo pretérito imperfecto, indicativo pretérito indefinido, indicativo

futuro simple, indicativo condicional simple. Subjuntivo presente, subjuntivo pretérito imperfecto,

subjuntivo pretérito imperfecto 2, subjuntivo futuro.

25 Indicativo pretérito perfecto, indicativo pretérito pluscuamperfecto, indicativo pretérito ante-

rior, indicativo futuro compuesto, indicativo condicional compuesto. Subjuntivo pretérito perfecto,

subjuntivo pretérito pluscuamperfecto, subjuntivo pretérito pluscuamperfecto 2. Infinitivo compuesto

(de forma: haber+participio pasivo) y gerundio compuesto (habiendo+participio pasivo).

Page 38: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

TRATAMIENTO AUTOMÁTICO – PREPARACIÓN

• 38 •

También hemos de identificar las secuencias de clíticos –tanto en posición enclítica

como en posición promovida–, generadas según la regla de Bok-Bennema y Croughs-

Hageman, citado en la página 21. (Para resolver algunos casos de ambigüedad nues-

tro algoritmo va a identificar otros elementos como el, del, al y un.)

Así nuestro diccionario contiene más de 300.000 formas. Las formas verbales in-

tegradas en el diccionario van acompañadas de la forma canónica del verbo (el infini-

tivo), el modo verbal, la persona y el atributo de pluralidad, en su caso. Nuestro punto

de partida es que «[…] etiquetar consiste en asociar a los elementos léxicos de un texto

la información que de ellos se tiene en un diccionario electrónico» (Subirats Rüggeberg y

Ortega Gil, 1998: 3).

Tokenización • Cabe preguntar cuáles son los límites de un elemento léxico en cualquier

texto analizado. Como nosotros nos ocupamos de textos simples, hemos de delimitar las

unidades léxicas sin previa etiquetación léxica.

Son muchos los elementos –caracteres– delimitadores además de los espacios (espa-

cio en blanco, tabulador, retorno, etc.), nunca juzgamos parte de un elemento léxico los

signos de puntuación, signos matemáticos, signo de porcentaje. Así, la forma tokenizada

de (47)a será (47)b, los elementos léxicos llevan corchetes, los delimitadores están omiti-

dos. Los códigos suscritos en (47)c son los resultados de una consulta del diccionario.

(47) (a) *Eché a perderlo.

(b) [Eché], [a], [perderlo].

(c) [V-IND-PIND-1-S-ECHAR Eché], [PREP a], [ ? perderlo].

El caso de perderlo demuestra que el análisis léxico no puede conformarse con una bús-

queda simple del elemento tokenizado. Volveremos al caso en la página 40.

Ambigüedades El mayor problema del análisis léxico es el de la ambigüedad. Como nuestra etiquetación

es limitada, los casos de ambigüedad son limitados también.

Homonimia de diferentes formas verbales • Es de saber que en todas las conjugaciones

las formas flexionadas de primera persona, singular y de tercera persona, singular son

Page 39: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

TRATAMIENTO AUTOMÁTICO – PREPARACIÓN

• 39 •

homónimas, cuando tratamos del presente de subjuntivo. También, el singular del impe-

rativo y la tercera persona, singular del presente de indicativo coinciden –salvo los casos

irregulares. Tenemos que aceptar que no podremos diferenciar siempre inequívocamen-

te entre diferentes formas, aunque con la ayuda de un análisis local de contexto podre-

mos excluir en algunos casos, por ejemplo, el imperativo (cuando el elemento léxico va

precedido de un clítico).

Existen formas verbales homónimas de varios verbos. Viva puede ser segunda, sin-

gular de imperativo y tercera, singular, presente de indicativo de vivar. Y puede ser pri-

mera o tercera, singular, presente de subjuntivo de vivir. Lo mismo vale para los pares

parar-parir, crear-creer, etc. Con algunos verbos menos frecuentes presentamos ejemplos

más interesantes de homonimia: sería es, por un lado primera o tercera, singular, condi-

cional simple de indicativo o una forma flexionada de seriar. Podría, de poder, está en la

misma forma que sería, o es una forma de pretérito imperfecto de podrir.

Homonimia de formas verbales y de otros constituyentes • Las situaciones de homoni-

mia de formas verbales finitas no ofrecen mayor dificultad para el análisis de subida de

clíticos, ya que todas las formas ambiguas son formas finitas. Tampoco nos molestan los

diferentes significados que llevan los verbos de formas homónimas.

No obstante existe otro grupo de homonimia, en el que uno de los homónimos no es

un verbo, sino un sustantivo, adjetivo, adverbio o una preposición. Así la preposición pa-

ra podrá ser reconocido por el algoritmo como una forma flexionada de parar o parir, el

sustantivo historia como historiar, y el adjetivo humana como humanar.

Aunque podemos excluir unos casos, como el de los sustantivos de género masculino

precedidos de un artículo determinado o indeterminado –en el caso de «un brazo» brazo

no puede entenderse como primera singular del presente de indicativo–, no podemos

extender tal restricción al caso de los sustantivos femeninos, siendo homónimos el artícu-

lo determinado femenino y el pronombre personal átono femenino de complemento di-

recto. El artículo indeterminado femenino coincide con una forma finita de unar. Es ne-

cesario añadir también que la exclusión descrita requiere un análisis local por el algorit-

mo.

Los problemas generados por estas situaciones de homonimia pueden ser suavizados

Page 40: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

TRATAMIENTO AUTOMÁTICO – PREPARACIÓN

• 40 •

a través de reducir el número de verbos reconocidos en sus formas finitas. Sin embargo,

en muchos casos la identificación falsa no produce problema alguno para nuestro análi-

sis, ya que el elemento falsamente reconocido no es parte de una construcción de subida.

También, si queremos verificar las estadísticas sobre el grupo de verbos que admiten la

subida, no debemos excluir ningún verbo del análisis inicial.

Casos problemáticos Como lo hemos visto con perderlo, hay unidades léxicas que son resultados del algoritmo

tokenizador y necesitan análisis posterior para identificar sus atributos.

Pronombres átonos enclíticos • Las formas verbales no finitas, el imperativo y el subjun-

tivo –cuando pertenece al imperativo de cortesía– en tercera singular, primera o tercera

plural, llevan los clíticos obligatoriamente en posición pospuesta, en una palabra gráfica.

Nuestro algoritmo debe identificar estos elementos también, tanto las formas verbales

como los pronombres átonos.

Guardar todas las formas verbales con todas las secuencias requeriría un espacio

enorme. Si consideramos que las reglas sobre las secuencias pronominales de Bok-

Bennema y Croughs-Hageman (1980: 85) generan 53 secuencias, incluir todas las posi-

bles unidades léxicas de las formas verbales mencionadas arriba (por ejemplo matar, ma-

tarlo, matarla, matarlos, matarlas, matárselo, etc.) necesitaría una cantidad irracional de me-

moria (la diferencia depende de las estructuras de datos utilizadas).

Así, en estos casos tenemos que analizar los elementos léxicos morfológicamente. Sin

embargo, este análisis es bastante sencillo.

1. Si el elemento no se encuentra en el diccionario, examinamos si termina en alguna de las se-

cuencias, empezando con las más «largas» (por ejemplo: perdérselo y no perdérselo, pero cui-

dado: cómelo vs. cómelo).

2. Si encontramos una secuencia, la podamos de la unidad léxica, y buscamos en el diccionario el

restante. Si los clíticos pospuestos no generan cambio del acento gráfico esto es suficiente.

3. Si no encontramos la unidad en el diccionario, efectuamos algunos cambios del acento gráfico y

rebuscamos en el diccionario.

Dichos cambios del acento para las formas no finitas son: -ár > -ar, -ér > -er, -ír > -ir;

Page 41: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

TRATAMIENTO AUTOMÁTICO – PREPARACIÓN

• 41 •

-ándo > -ando, -iéndo > -iendo. Las formas finitas proveen más dificultad. Cuando com-

probamos tercera de subjuntivo o singular de imperativo, borramos el acento de la pe-

núltima vocal: cómetelo > cóme > come, pruébensela > pruében > prueben. La prueba de plu-

ral de imperativo consta de los cambios siguientes: -é -e > -ed, -í -i > -id, -á -a > -ad. En el

caso de la primera, plural de subjuntivo, los cambios son: -ámo > -amos, -émo > -emos.

Según este método buscamos varias formas de una unidad léxica en nuestro diccio-

nario, pero si la búsqueda es bastante rápida, solucionamos la tarea de etiquetación sin

mayor necesidad computacional.

Análisis suplementario Ya hemos señalado en la sección de homonimia que para resolver las ambigüedades ne-

cesitamos un análisis que trasciende de los límites del análisis léxico. En ciertos contextos

necesitamos alguna verificación de relaciones entre elementos.

Tiempos compuestos • El etiquetador descrito hasta ahora identifica las formas verbales

de tiempos compuestos erróneamente.

(48) (a) Se me ha empezado a caer.

(b) {CL-R Se} {CL-I-1-S me} [V-IND-PRES-3-S-HABER ha] [ ? empezado] [PREP a]

[V-INF-CAER caer].

(c) {CL-R Se} {CL-I-1-S me} [V-IND-PP-3-S-EMPEZAR ha empezado [PREP a]]

[V-INF-CAER caer].

(49) (a) El tiempo tampoco pudo haberlo destruido.

(b) [V-IND-PIND-3-S-PODER pudo] [V-INF-HABER haber]{CL-D-1-S-M lo} [ ? destruido].

(c) [V-IND-PIND-3-S-PODER pudo] [V-INFCO-DESTRUIR haber destruido]{CL-D-1-S-M lo}.

(48) demuestra un ejemplo de subida de clíticos, el verbo matriz es empezar a, en (49) el

verbo de forma finita es poder. En el primer caso, sin reconocer la forma compuesta el

análisis pierde una construcción de subida (caso (b)). En el segundo caso la situación de

subida está identificada, pero el clítico sintácticamente pertenece a un verbo diferente del

identificado.

Tenemos que modificar el etiquetador. Cuando encuentre una forma verbal de haber

Page 42: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

TRATAMIENTO AUTOMÁTICO – PREPARACIÓN

• 42 •

(con excepción de hay y de las formas del imperativo), tendrá que esperar hasta la

próxima unidad léxica para decidir si se trata de un tiempo verbal compuesto o no.

Casos perdidos • Existen situaciones cuando nuestro análisis no podrá captar una subi-

da de clíticos por la elipsis del verbo no finito.

(50) Lo quiero y lo puedo leer 26.

Se puede formalizar un algoritmo que reconozca tal situación como dos subidas, una con

el verbo matriz querer, otra con el verbo matriz poder. No obstante, para no sofisticar de-

masiado el autómata, nos quedamos con nuestro algoritmo bastante sencillo, que sólo

reconoce la subida segunda en estas situaciones.

Ya hemos mencionado más arriba que no nos ocuparemos de los casos de subida

cuando el verbo matriz esté en forma no finita (página 22), sólo en subidas múltiples.

Estructuras de datos Efectivamente, si hablamos de las estructuras de datos utilizados por el algoritmo,

hablamos del diccionario presentado en los capítulos anteriores.

1. El diccionario contiene más de 300.000 formas verbales con sus atributos morfológicos.

2. El diccionario no se cambia durante el uso de la herramienta.

3. El espacio de disco y de memoria está limitado.

4. El diccionario debe responder a una demanda lo más rápido posible.

Tenemos que buscar una estructura para guardar cadenas de caracteres, una cantidad

impresionante, comprimida. No es absolutamente necesaria la inserción rápida de un

elemento nuevo. La estructura debe determinar rápidamente si contiene una cadena o

no, y debe facilitar el establecimiento de nudos entre las formas verbales y su descripción.

Escogimos la estructura llamada árbol de letras o trie [traı] (de las letras centrales de

retrieval), que fue desarrollada especialmente para fines de consulta de diccionarios. Esta

26 Aparentemente en este caso «y lo puedo» se intercala entre el verbo matriz querer y el verbo de

forma no finita leer, lo que parece contradecir a la regla de la adyacencia de los dos verbos. Por su-

puesto, de punto de vista generativo la situación es completamente diferente.

Page 43: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

TRATAMIENTO AUTOMÁTICO – EL ALGORITMO

• 43 •

estructura consiste en un árbol en que la información de cada nodo es común a todos sus

sucesores. Para buscar una palabra se procederá carácter a carácter de manera descen-

dente en el árbol. La inicial de la palabra estará en la raíz del árbol, y en el nodo terminal

un indicador de final de palabra. Esta representación supone que cada camino de la raíz

hasta un nodo terminal corresponde a una palabra.

El algoritmo Aunque nuestro análisis debe basarse en la teoría de autómatas, evitaremos la formaliza-

ción excesiva del algoritmo. No entraremos en la teoría de lenguajes formales tampoco.

Diseñamos cinco estados básicos:

1. Neutro. No ha aparecido nada que señale una situación de subida de clíticos.

2. Clítico. Se ha reconocido una secuencia de clíticos, probablemente subidos.

3. Verbo matriz. Se han reconocido un verbo matriz potencial (o una secuencia de clíticos y un

verbo matriz potencial) y cero o más preposiciones, pertenecientes al verbo matriz.

4. Verbo no finito. Se han reconocido todo descrito en el estado 3., y uno o más verbos finitos

(más anuncia subida múltiple), con cero o más preposiciones cada uno.

5. Fin. Se ha reconocido una construcción de subida de clíticos.

Figura 1ª AUTÓMATA DE SUBIDA DE CLÍTICOS

En el gráfico se observa otro estado secundario, el Artículo, Este estado es para resolver

los casos de homonimia de sustantivos masculinos y verbos finitos de indicativo, presente,

primera, singular (brazo, contacto, objeto, etc.). Los semi-estados Compuesto? son sub-

Ø Clítico V matriz

Artículo

V no finito Fin = Ø

Compuesto? Compuesto?

otros

un, el, del, al

CL V+fin ~(ind, pres, 1, s)

V+fin CL

CL prep V-fin

otros V-fin

haber+fin haber-fin

otros

otros

Page 44: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

TRATAMIENTO AUTOMÁTICO – EL ALGORITMO

• 44 •

estados de Verbo matriz y de Verbo no finito. Hemos demostrado el autómata capaz de re-

conocer situaciones de subida en la figura primera.

Las flechas marcan las transformaciones posibles. Las etiquetas de las flechas descri-

ben qué elementos efectúan la transformación entre dos estados. Por ejemplo, si el au-

tómata está en el estado Clítico y el elemento siguiente es un verbo flexionado, el nuevo

estado será Verbo matriz. En el gráfico omitimos el papel de los delimitadores, aunque, un

carácter delimitador que no sea espacio transforma el autómata al estado Neutro (o al es-

tado Fin desde el estado V no finito).

Las figuras siguientes demuestran cómo analiza el algoritmo el texto de los ejemplos

(49) y (50).

(49) Lo quiero y lo puedo leer.

(50) El tiempo tampoco pudo haberlo destruido.

Figura 2ª EJEMPLO DE ANÁLISIS

Las estadísticas serán completadas cuando el autómata llegue al estado Fin. Después del

cálculo, el análisis continúa desde el estado Neutro. La herramienta la desarrollamos utili-

zando el lenguaje Java.

Aunque usamos el término etiquetación, nuestro algoritmo no prepara ni guarda

indexación sobre los textos. Etiqueta y analiza los corpus en un paso, calcula y presenta

los resultados al fin de este paso único.

Ø Clítico V matriz V no finito Fin = Ø

2-quiero5-puedo

1-Lo 4-lo

7-¶ 6-leer

3-y

Ø V matriz

Artículo

V no finito Fin = Ø

2-tiempo

1-El

4-pudo 7-¶ 5a-haberlo

5b-haberlo

3-tampoco

Compuesto?

6-haberlo destruido

Page 45: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

TRATAMIENTO AUTOMÁTICO – EL ALGORITMO

• 45 •

La herramienta Nuestra herramienta es un programa relativamente pequeño (menos de 4.000 líneas, no

contando las clases del trie), pero sofisticado. No tiene interfaz de usuario, lo desarrolla-

mos nosotros para nosotros. Su entrada es un archivo de texto o un directorio. Sus sali-

das son varios ficheros de formato html.

1. Un fichero que lista todos los verbos encontrados en situación de subida en el texto.

Lista las proporciones de subida clasificadas por tipo del verbo no finito (infiniti-

vo/gerundio) y verbos matrices, secuencias de clíticos, tiempo, modo, número y per-

sona del verbo matriz, y constituyente precedente.

2. Un fichero que guarda todas las situaciones de subida, con enlaces a la estadística

correspondiente en el fichero 1 (Opcional).

3. Un fichero que guarda todo el texto analizado, marcando todas las situaciones de

subida, con enlaces a la estadística correspondiente en el fichero 1 (Opcional).

He aquí un fragmento del resultado del análisis de un texto transcrito de habla

[OC: dep/edep007a.asc]:

Figura 3ª SALIDA DE TIPO 3

La transcripción de tipo 2 del texto [OC: eadm/eadm004a.asc] consta de las situaciones

de subida, cada párrafo con construcciones de subida del texto original resulta en un

Ostrosky... eh... Daniel... Hay falta personal de Martín, segunda... España sesentaisiete,

Francia cincuentaicuatro. Cumplidos ya los siete minutos de la segunda parte... Vuelve

Orenga, se va a sentar Andreu. Tiros libres para... el hombre del antifaz. Vean el ojo

derecho de... Daniel, que después ya de cuatro días, esto se lo hicieron el martes, todavía

luce ese aparatoso... golpe, codazo de Rusconni. Jofresa ..

Nuevo cambio defensivo de los franceses, ahora es hombre a hombre, defensa

individual...

Ahora no tenían muy claro ninguno de los dos árbitros para donde indicar y uno ha

tomado la decisión de que juegue España.. Jofresa, metiendo el balón hacia

Villacampa... Epi... Se acaba la posesión. Francamente... se había acabado. No se acaba.

El reloj ha llegado al cero y ha vuelto a empezar en el treinta sin que sonara ningún tipo

de sirena ni de... ni de bocina ni de nada, entonces el arbitro nunca se podrá enterar

de que se han acabado los treinta segundos.

Page 46: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

TRATAMIENTO AUTOMÁTICO – EL ALGORITMO

• 46 •

renglón del fichero, como se ve en la figura siguiente. Este extracto facilita el repaso de

todas las situaciones encontradas, y ayuda a filtrar las construcciones identificadas falsa-

mente, como «es que encontrarlo» o «me gustaría tener».

Figura 4ª SALIDA DE TIPO 2 CON SU RELACIONADO TIPO 3

Las elipsis son hiperenlaces que apuntan a la ocurrencia de la situación en el texto de ti-

po 3, si tal salida existe. Los hiperenlaces en negrita apuntan a la estadística correspon-

diente al verbo (+preposición, en su caso) como verbo matriz 27. Los en cursiva apuntan

a la estadística de la secuencia de clíticos.

Este ejemplo demuestra una desventaja del tratamiento automático, un error tipo-

gráfico le impide al algoritmo que identifique una subida: «no te [l]o puedo confirmar».

También se nota que en el caso de «se pongan a buscarlo» podemos excluir se y conside-

rar la situación como no subida, por la presencia de lo.

El fichero de tipo 1 contiene las estadísticas verdaderas. Será la base de los diagra-

mas y tablas presentados en la parte tercera. Nos quedamos con el texto anterior.

27 Si una forma verbal finita puede pertenecer a diferentes verbos, en las estadísticas esa situación

cuenta varias veces, figura en las estadísticas de cada verbo. Sin embargo, el enlace solo apunta a uno

de los infinitivos en la tabla.

Lo deberíais encontrar... |

es que encontrarlo... | te puedes poner en ... |

puedo hacerlo... |

me gustaría tener... |

hay que ir a meterlo .....

Vamos a intentar encontrarlo... nos tenemos que mirar ...

me importa esperar ...

se pongan a buscarlo ...

Que me imagino que hay algo de irregularidad,(o sea) me gustaría

tener alguna prueba para poder.

No, no no, mire, o sea la única irregularidad que parece que existe a

primera vista, aunque no te o puedo confirmar, es que nosotros... eh no lo

hemos metido en el ordenador. La razón no la sé. Pero a la vista de esto,

quiere decir que la alta se ha presentado ... ; la empresa no era una

empresa nueva, ¿no?

Page 47: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

TRATAMIENTO AUTOMÁTICO – EL ALGORITMO

• 47 •

Figura 5ª SALIDA DE TIPO 3 Y FRAGMENTOS DE TIPO 1

Para los tests utilizamos un ordenador que se considera bastante flojo en 2002, su proce-

sador es un Intel Pentium 200 MMX, tiene 96 MBytes de memoria. Usamos la máquina

virtual de Java 1.3.1 en el plataforma Windows NT 4.0. La inicialización del diccionario

tarda 15 segundos, la memoria necesaria para cargarlo es 24 MBytes. La herramienta

procesa aproximadamente 300 palabras en un segundo, su demanda de memoria es mí-

nima, no más que 10 MBytes. Es un instrumento muy humilde.

Presentamos el formato de los resultados de un análisis cumulativo de los textos

[OC: ent] en Internet en la página siguiente: <http://tesina.galleus.com/index.html>.

Que me imagino que hay algo de irregularidad,(o sea) me gustaría

tener alguna prueba para poder.

No, no no, mire, o sea la única irregularidad que parece que existe a

primera vista, aunque no te o puedo confirmar, es que nosotros... eh no lo

hemos metido en el ordenador. La razón no la sé. Pero a la vista de esto,

quiere decir que la alta se ha presentado ... ; la empresa no era una

empresa nueva, ¿no?

deber 100,00% 2/2

dejar+a 100,00% 2/2

gustar 100,00% 1/1

haber+que 0,00% 0/1

importar 100,00% 1/1

intentar 0,00% 0/1

ir+a 0,00% 0/2

le 50,00% 1/2

lo 37,50% 6/16

me 100,00% 4/4

melo 100,00% 1/1

nos 100,00% 1/1

se 100,00% 1/1

selo 0,00% 0/1

Page 48: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

PARTE III

Resultados

Page 49: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

DESCRITO minuciosamente el fenómeno de la subida de clíticos, y lo hemos

intentado formalizar en la segunda parte. Tenemos desarrollada una herra-

mienta que aplica la búsqueda formalizada a cualquier texto pleno, y produce unas sali-

das que podemos utilizar para presentar estadísticas sobre el fenómeno.

En los capítulos siguientes intentaremos contestar todas las preguntas de la página 8,

seguiremos otras obras que se basen en análisis de corpus –como el artículo de Davies

(1995b) o el de Colburn (1928)–, completaremos sus puntos de observación, añadiendo

nuevos estudios. Presentaremos los resultados en una forma clara y precisa.

Calcularemos las frecuencias necesarias para poder presentar una visión sobre la su-

bida de clíticos, y sobre nuestro método de tratamiento automático también. Usamos un

corpus escrito de 2.400.000 palabras y un corpus oral de 1.270.000 palabras, textos de

escritores y hablantes contemporáneos peninsulares. Hemos organizado el corpus de

textos disponibles en Internet. Los hemos convertido de formatos Portable Document For-

mat (pdf), Word for Windows (doc) y Hypertext Markup Language (html) utilizando pequeños

programas desarrollados por nosotros en Java y Visual Basic for Applications.

Creemos importante enunciar que prestamos considerable atención a las construc-

ciones en las cuales la forma no finita es gerundio. Esta categoría de la subida de clíticos

fue marginada frecuentemente en otras obras.

Variación por verbos Colburn (1928) examina 12 verbos: dejar, hacer, ir a, haber de, soler, volver a, poder, querer,

H EMOS

Page 50: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

RESULTADOS – VARIACIÓN POR VERBOS

• 50 •

saber, tener que, deber (de), venir a. Davies (1995b) omite hacer, creemos que por su carácter

problemático (cf. p. 18) o por ser causativo, pero añade otros 21: acabar de, terminar de,

empezar a, llegar a, comenzar a, aprender a, lograr, necesitar, salir a, pensar, desear, tratar de,

pasar a, preferir, procurar, intentar, resolver, esperar, insistir en, soñar con, haber que.

Verbos [+SC] Uno de nuestros objetivos ha sido confirmar que son estos los verbos matrices más im-

portantes en el fenómeno de subida de clíticos, o, preferiblemente encontrar otros verbos

que permitan la subida con una frecuencia considerable. Esto pretendemos lograrlo con

un análisis inicial, en el cual no excluimos ningún tipo de verbos, ningún tipo de clíticos.

Sin embargo, este análisis nos provee la conclusión inequívoca, que no se puede usar

las estadísticas sin una consulta detallada y analizadora de los resultados. Las causas más

importantes de equivocación son los verbos reflexivos, el se impersonal y verbos que lle-

van clíticos de su objeto directo o indirecto. Los ejemplos siguientes no demuestran casos

verdaderos de subida de clíticos.

(51) (a) Subcomités especiales se dedicaron a impulsar la introducción de la estadística

en las escuelas, […]. [DE: 4] REFLEXIVO

(b) Este problema se suele soslayar, […]. [DE: 44] SE IMPERSONAL

(c) Esto nos autoriza a estudiar (al menos con prudencia) la relación entre estos

enunciados y las actividades […]. [PR: 131] OI DEL V MATRIZ

No obstante, el algoritmo encuentra todas las situaciones de subida de clíticos, entre ellas,

algunas muy interesantes.

(52) (a) Se presenta al alumno dos luces […] que se irán encendiendo intermitente y

aleatoriamente, […]. [DE: 70] V NO FINITO REFLEXIVO

(b) […] la diferencia entre los dos tipos de alumnos no ha sido tan grande en el

cuestionario como podría esperarse. [CS: 209] BAJADA, SE IMPERSONAL

(c) […] la estadística no es una forma de hacer sino una forma de pensar que

nos puede ayudar a resolver problemas. [DE: 115] OI DEL V NO FINITO

Page 51: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

RESULTADOS – VARIACIÓN POR VERBOS

• 51 •

Según los datos, podemos afirmar la existencia de la bajada de clíticos, hemos encontra-

do varios ejemplos con la bajada del impersonal se. Mayoritariamente la bajada ocurre

con el verbo matriz poder, pero puede encontrarse ejemplos con soler también.

(53) (a) Sin embargo, por lo general, suele observarse una concepción dominante,

bien porque sea la que […]. [PR: 99]

(b) […] por lo que suele elegirse la inicial de la palabra. [PR: 231]

Complemento infinitivo • Pero volvamos a nuestro objetivo de encontrar verbos bastan-

te frecuentes que permitan la subida y no estén en la lista de Davies. Además del hacer

problemático, entre los más frecuentes vemos gustar, ocurrir, poner a, permitir, atreverse a,

parecer, obligar a, disponer, ver, ayudar a, costar, decidir, apetecer, creer, conseguir, tocar, etc.

Nos parece claro que la mayoría de estos verbos o lleva sus propios objetos, o es de la cla-

se reflexiva, algunos prefieren el uso del se impersonal. Los que nos pueden quedar son

obligar a, que es causativo, pretender y conseguir.

(54) (a) –¿En dónde lo pretendéis colocar? –dijo Paco. [NA: 63]

(b) Sí, pero lo que te pretendo decir… que […] [OC: conv/ccon031b.asc]

(55) (a) […] que ha dado la opción de lo 20 puntos, creo que psicológicamente lo

han conseguido superar. [OC: dep/adep008a.asc]

(b) […], pero que después que la consiga echar o no la consiga echar, esa ya es

otra (cosa). [OC: jur/ajur016a.asc]

Estos son ejemplos claros de la subida de clíticos, y ambos verbos alcanzan el límite de

frecuencia mínima para dar estadísticas fiables. Sin embargo, los dos pueden llevar sus

propios objetos, será necesario tratarlos con cuidado.

En la tabla siguiente resumimos los datos colegidos, en una forma sencilla, exacta-

mente como Davies presenta sus resultados (1995b: 374). Mostramos el porcentaje de

subida y el número total de situaciones de subida para cada verbo. Para comprobar la

teoría que el fenómeno es más frecuente en la lengua hablada, presentamos los datos del

corpus hablado y del corpus escrito juntos. Las cifras vienen directamente de la salida de

la herramienta, los casos pueden incluir situaciones con se impersonal.

Page 52: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

RESULTADOS – VARIACIÓN POR VERBOS

• 52 •

Tabla 2ª FRECUENCIA DE SUBIDA DE CLÍTICOS (INFINITIVO)

Concentrémonos en las diferencias entre nuestros resultados y los de Davies. Es aparente

que tenemos dos verbos –esperar y haber que– con que Davies no encuentra casos de subi-

da, pero nosotros sí. Haber que es aún más importante, porque siendo impersonal, teoré-

ticamente no debería aceptar la subida 28.

28 «El verbo matriz debe tener sujeto.» (Luján, 1993: 280)

Verbo Total Hablado Escrito

48,56% (15637) 69,77% (5379) 37,44% (10258) ir a 78,05% (2533) 84,28% (1495) 69,08% (1038) poder 55,77% (5783) 79,45% (1820) 44,89% (3963) tratar de 53,09% (307) 84,38% (32) 49,45% (275) soler 52,41% (166) 65,57% (61) 44,76% (105) volver a 48,08% (495) 76,84% (95) 41,25% (400) llegar a 47,01% (134) 62,50% (40) 40,43% (94) acabar de 44,61% (204) 82,81% (64) 27,14% (140) tener que 42,49% (1191) 60,62% (551) 26,88% (640) querer 36,78% (1346) 60,55% (436) 25,38% (910) empezar a 33,17% (202) 59,46% (74) 17,97% (128) aprender a 30,77% (13) 33,33% (3) 30,00% (10) deber (de) 30,40% (1079) 52,54% (177) 26,05% (902) haber de 27,81% (525) 40,00% (20) 27,33% (505) saber 27,60% (192) 38,60% (57) 22,96% (135) pasar a 25,00% (28) 20,00% (5) 26,09% (23) pensar 22,41% (58) 50,00% (12) 15,22% (46) intentar 18,88% (143) 26,98% (63) 12,50% (80) terminar de 18,52% (27) 40,00% (5) 13,64% (22) comenzar a 17,86% (84) 25,00% (4) 17,50% (80) venir a 17,68% (164) 88,24% (17) 9,52% (147) conseguir 17,65% (51) 37,50% (16) 8,57% (35) salir a 15,00% (20) 50,00% (2) 11,11% (18) dejar de 14,68% (109) 40,00% (20) 8,99% (89) lograr 14,49% (69) 13,33% (15) 14,81% (54) desear 6,80% (103) 0,00% (2) 6,93% (101) procurar 6,06% (33) 0,00% (2) 6,45% (31) necesitar 4,76% (63) 0,00% (8) 5,45% (55) esperar 3,85% (26) 25,00% (4) 0,00% (22) preferir 3,08% (65) 4,35% (23) 2,38% (42) haber que 0,49% (407) 0,78% (255) 0,00% (152) resolver 0,00% (6) – (0) 0,00% (6) insistir en 0,00% (11) 0,00% (1) 0,00% (10)

Page 53: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

RESULTADOS – VARIACIÓN POR VERBOS

• 53 •

He aquí un ejemplo de subida con esperar y uno con haber que, ambos se encuentran

en el corpus de lengua hablada, así (56)b puede considerarse coloquial.

(56) (a) Más que nada porque un montón de gente que nos esperábamos encontrar allí

no ha venido […] [OC: lud/alud005a.asc]

(b) Y luego, le hay que decir y entonces quien lo… lo haya dicho bien pues…

[OC: edu/cedu022a.asc]

Las proporciones las reunimos en una figura comparativa, en el gráfico se presentan los

datos de Davies, Colburn y los nuestros. En ambos casos completos se nota una transición

desde ir a, el «más [+SC]», hasta insistir en, el verbo «menos [+SC]».

Figura 6ª FRECUENCIA DE SUBIDA DE CLÍTICOS (INFINITIVO)

Sin embargo, se observan diferencias. En algunos casos significantes. Las más notables

son de tratar de, haber de, pasar a y necesitar. Los segundos dos son menos frecuentes, por

eso ignoramos las diferencias, pero tratar de, haber de podrían ser interesantes, merecen

un repaso manual. Las diferencia en la proporción de haber de es aún más llamativa, ya

que este verbo es el pico en la serie de Colburn también.

Comparamos las frecuencias relativas de cada verbo en el corpus total (número de

0,00%

10,00%

20,00%

30,00%

40,00%

50,00%

60,00%

70,00%

80,00%

90,00%

ir a

pode

r

trata

r de

sole

r

volv

er a

llega

r a

acab

ar d

e

tene

r que

quer

er

empe

zar a

apre

nder

a

debe

r (de

)

habe

r de

sabe

r

pasa

r a

pens

ar

inte

ntar

term

inar

de

com

enza

r a

veni

r a

cons

egui

r

salir

a

deja

r de

logr

ar

dese

ar

proc

urar

nece

sita

r

espe

rar

pref

erir

habe

r que

reso

lver

insi

stir

en

Colburn Davies Kertes Kertes (se descontado a 30%)

Page 54: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

RESULTADOS – VARIACIÓN POR VERBOS

• 54 •

ocurrencias del verbo en situación de subida o no subida dividido por el número de to-

das las situaciones), para ver si coinciden con las de Davies.

Tabla 3ª PROPORCIÓN DE OCURRENCIA DE CADA VERBO

El tamaño de los dos corpus es casi igual, 3 millones 500 mil palabras, el nuestro es un

poco más grande. Observamos que ni las frecuencias, ni los números de ocurrencia difie-

ren mucho (tenemos menos ocurrencias de tener que e ir a, pero mucho más de haber de).

Verbo Kertes Davies

100,00% (15637) 100,00% (14626) poder 36,98% (5783) 32,57% (4764) ir a 16,20% (2533) 23,39% (3421) querer 8,61% (1346) 8,65% (1265) tener que 7,62% (1191) 8,41% (1230) deber (de) 6,90% (1079) 4,88% (714) haber de 3,36% (525) 0,92% (134) volver a 3,17% (495) 2,59% (379) haber que 2,60% (407) 3,32% (485) tratar de 1,96% (307) 1,48% (216) acabar de 1,30% (204) 0,98% (143) empezar a 1,29% (202) 2,59% (379) saber 1,23% (192) 1,12% (164) soler 1,06% (166) 0,41% (60) venir a 1,05% (164) 1,62% (237) intentar 0,91% (143) 0,36% (52) llegar a 0,86% (134) 1,21% (177) dejar de 0,70% (109) 0,45% (66) desear 0,66% (103) 0,27% (39) comenzar a 0,54% (84) 1,50% (219) lograr 0,54% (69) 0,83% (121) preferir 0,42% (65) 0,35% (51) necesitar 0,40% (63) 0,43% (63) pensar 0,37% (58) 0,67% (98) conseguir 0,33% (51) (?) procurar 0,21% (33) 0,25% (37) pasar a 0,18% (28) 0,08% (11) terminar de 0,17% (27) 0,16% (23) esperar 0,17% (26) 0,12% (18) salir a 0,13% (20) 0,12% (17) aprender a 0,08% (13) 0,16% (24) insistir en 0,07% (11) 0,04% (6) resolver 0,04% (6) 0,09% (13)

Page 55: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

RESULTADOS – VARIACIÓN POR VERBOS

• 55 •

Complemento gerundio • Ni Davies, ni Colburn, ni la literatura en general suele ocu-

parse del caso de la subida de clíticos con complementos gerundios. Así, nos toca la tarea

de nombrar los verbos matrices más importantes que rigen gerundio. Esta clase es mu-

cho más restringida que la de complementos infinitivos. Si partimos de las perífrasis de

gerundio que enumera Gómez Torrego (1988: 31), incluiremos tanto estar, andar, ir, se-

guir, venir, llevar, continuar como acabar, quedar, empezar y salir. Nuestros datos confirman

que algunos de estos verbos son los más frecuentes que permitan la subida. Ver, pasar y

terminar son frecuentes y pueden exigir gerundio, pero su complemento gerundio en la

mayoría de los casos tiene carácter adverbial, por eso excluimos estos verbos del análisis.

Tabla 4ª FRECUENCIA DE SUBIDA DE CLÍTICOS (GERUNDIO)

En la tabla vemos que en las construcciones más frecuentes con verbos matrices que ri-

gen gerundio y permiten la subida de clíticos, van con estar, ir y seguir. Es interesante que

quedar y seguir son más frecuentes en el corpus escrito.

Pero lo que más nos interesa es que en este caso también se observa una transición

desde el verbo estar, que parece atraer más la subida, hasta continuar, que permite la su-

bida menos frecuentemente. Tampoco podemos clasificar los verbos en dos clases distin-

tas, de los verbos que siempre rigen la subida, y de los que nunca lo hacen. Es aún más

importante poder señalar que la diferencia entre la frecuencia de la subida en la lengua

hablada y la escrita existe en las construcciones con gerundio también.

Verbo Total Hablado Escrito

82,01% (2551) 91,17% (1110) 74,95% (1441) estar 91,25% (1474) 94,76% (764) 87,46% (710) ir 81,23% (602) 86,92% (237) 77,53% (365) quedar 79,23% (130) 100,00% (9) 77,69% (121) venir 76,09% (46) 82,61% (23) 69,57% (23) llevar 58,33% (12) 80,00% (5) 42,86% (7) seguir 48,47% (196) 71,93% (57) 38,85% (139) andar 41,67% (12) 100,00% (1) 36,36% (11) acabar 24,00% (25) 55,56% (9) 6,25% (16) continuar 15,22% (46) 75,00% (4) 9,52% (42) salir 0,00% (6) 0,00% (0) 0,00% (6) empezar 0,00% (2) 0,00% (1) 0,00% (1)

Page 56: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

RESULTADOS – VARIACIÓN POR VERBOS

• 56 •

Figura 7ª FRECUENCIA DE SUBIDA DE CLÍTICOS (GERUNDIO)

Otros atributos 29 del verbo matriz • Tenemos estadísticas preparadas sobre el modo del

verbo matriz, pero por la ambigüedad homonímica de las formas verbales, no queremos

decidir si uno u otro atrae más la subida de clíticos.

El tiempo verbal del verbo matriz merece más atención. El teatro y la novela antigua

son los más ricos en tiempos verbales (pretérito perfecto, pretérito imperfecto, pretérito plus-

cuamperfecto, indefinido, presente, condicional simple, futuro), les sigue el habla oral.

Tabla 5ª FRECUENCIA DE SUBIDA DE CLÍTICOS (TIEMPOS VERBALES)

29 En este capítulo hablaremos del modo, tiempo, persona y número del verbo matriz flexionado.

Desde luego estas estadísticas no incluyen las situaciones de subida de clíticos cuando el verbo matriz

está en una forma verbal no finita (en construcciones de subida múltiple).

0,00%10,00%20,00%30,00%40,00%50,00%60,00%70,00%80,00%90,00%

100,00%110,00%

esta

r ir

qued

ar

veni

r

lleva

r

segu

ir

anda

r

acab

ar

cont

inua

r

salir

empe

zar

Lengua escrita Lengua hablada

Tiempo Total pretérito perfecto 55,17% (928) pretérito imperfecto 2 47,40% (154) pretérito pluscuamperfecto 45,24% (84) pretérito indefinido 43,82% (3108) pretérito pluscuamperfecto 2 42,42% (33) presente 41,19% (19141) condicional simple 39,70% (1083) pretérito imperfecto 39,26% (3436) futuro simple 30,00% (10)

Page 57: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

RESULTADOS – VARIACIÓN POR VERBOS

• 57 •

Tabla 6ª FRECUENCIA DE SUBIDA DE CLÍTICOS (NÚMERO Y PERSONA)

A pesar de las diferencias de frecuencia de subida según el número y la persona del suje-

to del verbo matriz, tampoco queremos marcar tendencias. Aunque parece preciso enun-

ciar que la subida es más frecuente con verbo matriz en plural. Según personas, la subida

es más frecuente con segunda, luego con tercera y por último con primera.

Preposiciones complementantes • Prácticamente no hemos encontrado casos de cons-

trucciones de gerundio en las cuales el verbo matriz llevara preposición alguna. Tampo-

co hemos encontrado construcciones de infinitivo con complementantes distintos de a, de

y que. Sin embargo, hemos reducido la búsqueda para repasar situaciones con verbos que

la literatura señale parcialmente aceptados por hablantes nativos, como acabar por, pensar

en y tardar en.

Modalidad de habla ¿Cómo ha cambiado la frecuencia de la subida de clíticos durante el siglo pasado, qué

diferencias hay entre la lengua hablada y otras modalidades? Nuestro corpus y análisis

parecen adecuados para contestar tales preguntas.

Se ha visto en la figura 6 que los porcentajes presentados en Colburn, 1928 son más

bajos en general. Teniendo dos sub-corpus de nuestro corpus escrito, uno de la novela

contemporánea (560.000 palabras), uno de la de los principios del siglo XX (472.000 pa-

labras) podemos presentar un gráfico comparativo también, para marcar las tendencias

durante el siglo pasado en la lengua escrita. No es sorprendente observar un aumento

visible de la proporción de subida, aunque el tamaño menor de los corpus produce

gráficos un poco dispersos.

Número y persona Total primera 39,88% (12110)

singular segunda 50,86% (9725) tercera 44,66% (20652)

primera 53,65% (1765) segunda 66,17% (334)

plural

tercera 58,43% (4044)

Page 58: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

RESULTADOS – VARIACIÓN POR VERBOS

• 58 •

Figura 8ª CAMBIO EN LA FRECUENCIA DURANTE EL SIGLO XX

El volumen del corpus teatral resulta en la heterogeneidad de la figura 9 también, pero

nos atrevemos a declarar que la subida es más frecuente en la lengua de teatro que en la

lengua novelística, pero menos frecuente que en la lengua hablada.

Figura 9ª TEATRO ENTRE LA NOVELA Y LA LENGUA HABLADA

0,00%

10,00%

20,00%

30,00%

40,00%

50,00%

60,00%

70,00%

80,00%

ir a

pode

r

trata

r de

sole

r

volv

er a

llega

r a

acab

ar d

e

tene

r que

quer

er

empe

zar a

apre

nder

a

debe

r (de

)

habe

r de

sabe

r

pasa

r a

pens

ar

inte

ntar

term

inar

de

com

enza

r a

veni

r a

cons

egui

r

salir

a

deja

r de

logr

ar

dese

ar

proc

urar

nece

sita

r

espe

rar

pref

erir

habe

r que

reso

lver

insi

stir

en

Novela contempornánea Novela de principios del siglo XX

0,00%

10,00%

20,00%

30,00%

40,00%

50,00%

60,00%

70,00%

80,00%

90,00%

100,00%

ir a

pode

r

trata

r de

sole

r

volv

er a

llega

r a

acab

ar d

e

tene

r que

quer

er

empe

zar a

apre

nder

a

debe

r (de

)

habe

r de

sabe

r

pasa

r a

pens

ar

inte

ntar

term

inar

de

com

enza

r a

veni

r a

cons

egui

r

salir

a

deja

r de

logr

ar

dese

ar

proc

urar

nece

sita

r

espe

rar

pref

erir

habe

r que

reso

lver

insi

stir

en

Lengua hablada Teatro+Cine Novela

Page 59: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

RESULTADOS – VARIACIÓN POR OTROS FACTORES

• 59 •

Diferencias dialectales • No hemos podido verificar las diferencias entre dialectos geo-

gráficos del español peninsular, porque nuestro corpus de habla barcelonesa ha resultado

ser demasiado pequeño. Sin embargo, no creemos que esto haya sido la cuestión central

de la tesina.

Variación por otros factores Además de las características del verbo matriz, la literatura menciona otros factores que

parecen influir en la frecuencia de la subida de clíticos. Nosotros examinamos dos tipos

de constituyentes, las secuencias de clíticos y la partícula precedente a la situación de su-

bida. En las tablas presentamos los resultados de los casos con gerundio y con infinitivo

resumidos.

Clíticos Hemos formalizado dos preguntas sobre los pronombres átonos promovidos en la subi-

da. Queremos ver si hay mayor probabilidad de subida si la secuencia de clíticos consta

de más pronombres (objetos del verbo no finito). Coincidiendo con Bolinger (1949) Da-

vies confirma que dos clíticos (ambos objetos del verbo no finito) parecen preferir más la

posición promovida que un solo clítico.

Tabla 7ª FRECUENCIA DE SUBIDA DE CLÍTICOS (CLÍTICOS)

Nuestros datos confirman de modo inequívoco que tanto en la lengua hablada como en

la lengua escrita la subida de dos clíticos es más frecuente que la subida de un solo

pronombre.

Hemos preguntado también si hay concordancia entre el tipo del clítico y la propor-

Clíticos Total Hablado Escrito dos 66,38% (1181) 87,47% (407) 55,30% (774) uno 51,75% (27770) 68,16% (7955) 45,17% (19815) animado 52,74% (18946) 72,91% (3344) 48,42% (15602) inanimado 40,70% (5594) 53,77% (1845) 34,28% (3749)

Page 60: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

RESULTADOS – VARIACIÓN POR OTROS FACTORES

• 60 •

ción de subida. Davies (1995b) examina el efecto de los rasgos reflexivo y animado. Noso-

tros no nos ocuparemos de la clasificación por el rasgo de reflexividad pero incluimos en

la tabla las estadísticas clasificadas según la animación del clítico. Consideramos anima-

dos: me, nos, te, os, le y les, inanimados: lo, los, la y las, dejamos los casos de clíticos múlti-

ples. También podemos afirmar que los clíticos animados suben más frecuentemente que

los inanimados.

Constituyente precedente El elemento que precede una construcción que permite la subida fue un factor importan-

te durante los siglos XIII-XIV. Davies (1995b: 377) apunta la posibilidad que huellas de tal

regla han sobrevivido hasta hoy día. Nosotros hemos escogido arbitrariamente siete ele-

mentos que muestran bastante frecuencia para presentar resultados fiables. Los adver-

bios ya, sólo, nunca, cuando y donde, las conjunciones coordinantes y, o y pero, y la conjun-

ción subordinante que.

Tabla 8ª FRECUENCIA DE SUBIDA DE CLÍTICOS (CONSTITUYENTE PRECEDENTE)

Los resultados son bastante confusos. Aquí no nos arriesgamos a declarar nada más que

todo sí, parece atraer la subida, cuando y ya aún más, pero sobre y y que, las partículas a

que se dedica Davies, no podemos confirmar, tampoco nos atrevemos a rechazar sus re-

sultados.

Constituyente Total Hablado Escrito

53,25% (18188) 73,43% (6489) 42,06% (11699) cuando 79,61% (103) 96,67% (30) 72,60% (73) ya 76,40% (89) 78,57% (42) 74,47% (47) todo 65,52% (29) 85,71% (7) 59,09% (22) y 62,95% (556) 68,35% (139) 61,15% (417) nunca 58,33% (36) 100,00% (2) 55,88% (34) o 56,67% (30) 50,00% (18) 66,67% (12) que 52,85% (4127) 62,31% (1499) 47,45% (2628) donde 50,00% (48) 71,43% (14) 41,18% (34) pero 48,42% (95) 73,53% (34) 34,43% (61) sólo 32,81% (64) 77,78% (9) 25,45% (55)

Page 61: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

Conclusión

PARTE final hemos presentado los resultados concretos del análisis que hemos

cumplido. En suma podemos decir que nuestros datos parecen afirmar algunas de

las hipótesis formuladas por investigadores anteriores.

Sí, existen verbos que atraen los clíticos del verbo no finito en situaciones de subida,

y existen otros que parecen aceptar la subida con menor frecuencia. Hemos verificado

que hay construcciones que nunca permiten la subida de clíticos, aunque hemos encon-

trado ejemplos del uso coloquial en los cuales la subida es aceptada en caso de verbos

que se consideran bloquear la promoción de los pronombres. Hemos alcanzado nuestro

objetivo de añadir datos sobre la frecuencia de la subida de clíticos en construcciones con

gerundio.

Hemos comprobado que la proporción de los casos de subida es significativamente

mayor en la lengua hablada que en la lengua escrita, tanto con construcciones de infiniti-

vo como de gerundio. También hemos demostrado que la frecuencia de la subida ha

aumentado durante el siglo pasado. Nuestro corpus no nos ha servido para examinar

diferencias dialectales, esto podría ser tema de otra obra.

Hemos presentado datos sobre la concordancia de las características del verbo matriz

con la frecuencia de subida, no presentados en la literatura hasta la presente tesina.

Hemos demostrado que hay relación entre el número y persona del verbo flexionado y

la voluntad de promover el clítico. No hemos hallado complementantes nuevos que

permitan la subida con frecuencia, eso exigiría una investigación más minuciosa.

También hemos afirmado unas hipótesis sobre la relación entre la frecuencia de la

subida y los atributos de la secuencia de clíticos. Nuestros datos parecen comprobar que

E N LA

Page 62: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

CONCLUSIÓN

• 62 •

las secuencias de más de un pronombre suben con mayor frecuencia, y que los clíticos

que se refieren a objetos animados aceptan la promoción más frecuentemente que los

inanimados. No nos hemos ocupado del rasgo reflexivo. Sobre la influencia del constitu-

yente precedente no hemos desarrollado ninguna hipótesis además de atrevernos a decir

que todo parece atraer la subida.

En suma podemos declarar que la herramienta preparada por nosotros ha sido apta

para alcanzar nuestros objetivos, formulados en el primer capítulo de la tesina.

Posibles mejoramientos Durante el procesamiento de la salida de nuestra herramienta ha quedado evidente que

es necesario un procesamiento de los resultados para eliminar algunos casos reconocidos

erróneamente.

Es posible mejorar el potencial del programa a través de guardar más información

sobre los verbos en el diccionario. Aunque el descuento de los casos de se promovido en

las estadísticas puede compensar el predominio falso de este pronombre, el reconoci-

miento del se reflexivo e impersonal sería un gran avance.

También sería posible extender el autómata de la herramienta para reconocer casos

de subida, en los cuales el verbo matriz no esté en una forma flexionada. Sería interesan-

te descubrir qué situaciones permiten tal subida. La identificación de las construcciones

en que el verbo no finito está eliminado (lo puedo y lo quiero hacer) podría conducir al de-

sarrollo de teorías interesantes. En conclusión podemos decir que la herramienta prepa-

rada es una buena base para apoyar a los investigadores, y tiene reservas de posibilida-

des.

Corpus • En nuestra tesina hemos limitado el corpus procesado a textos en español pe-

ninsular moderno. La herramienta desarrollada sólo es capaz de reconocer casos de su-

bida con seguridad en el lenguaje moderno, pero en textos hispanoamericanos (o baleá-

ricos o canarios) también. La extensión del corpus puede conducir a resultados más fia-

bles y más reveladores.

Page 63: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

Bibliografía

Page 64: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

Obras consultadas

BEAVEN, JOHN LUIS (1992). Lexicalist Unification-Based Machine Translation [en línea]. Edinburgh: Uni-

versity of Edinburgh. <ftp://ftp.dai.ed.ac.uk/pub/daidb/papers/pt9210.ps.gz> [Consulta: 18 en-

ero 2001]

BERTA TIBOR (2000). «La subida de clíticos en español medieval y en español moderno». En: ANDERLE

ÁDÁM (ed.). Acta Hispánica, Tomo V. Szeged: Universidad de Szeged. Pp. 83-95.

— (2001). Contribución a la historia de la promoción de clíticos en español y portugués. Budapest: Eötvös Ló-

ránd Tudományegyetem. Manuscrito, tesis doctoral.

BOK-BENNEMA, REINEKE; CROUGHS-HAGEMAN, ANS (1980). «La subida de clíticos en castellano». En: Diá-

logos hispánicos de Amsterdam. Los clíticos en el español actual. Amsterdam: Universiteit von Amster-

dam. Pp. 63-92.

BOLINGER, DWIGHT L. (1949). «Discontinuity of the Spanish Conjunctive Pronoun». Language. 25. Pp.

253-260.

BORDELOIS, IVONNE (1980). «Hacia una gramática universal : Clíticos romances y la condición de fron-

tera». En: Diálogos hispánicos de Amsterdam. Los clíticos en el español actual. Amsterdam: Universiteit

von Amsterdam. Pp. 51-62.

COLBURN, GUY BLANDIN (1928). «The Complementary Infinitive and its Pronoun Object». Hispania. 11.

Pp. 424-429.

CRUZ PIÑOL, MAR (1999). «ESPAN-L, un “foro de debate” en Internet sobre la lengua española» [en

línea]. Estudios de Lingüística Española (ELiEs). Volumen 1, Conversación editada 17. <http://elies.

rediris.es/elies1/42_17.htm> [Consulta: 7 marzo 2001]

Page 65: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

BIBLIOGRAFÍA – OBRAS CONSULTADAS

• 65 •

DAVIES, MARK (1995a). «Parameters, Passives, and Parsing: Explaining Diachronic Shifts in Spanish

and Portuguese» [en línea]. En: K. BEALS, et al. (ed.). Variation and Linguistic Theory. Vol. 2. Chi-

cago: CLS. Pp. 46-60. <http://mdavies.for.ilstu.edu/papers/cls.htm> [Consulta: 5 abril 2002]

— (1995b). «Analyzing Syntactic Variation with Computer-Based Corpora: The Case of Modern Spa-

nish Clitic Climbing». Hispania. 78. Pp. 370-380.

— (1997). «A Corpus-Based Approach to Diachronic Clitic Climbing in Portugese» [en línea]. Hispanic

Journal. 17. <http://mdavies.for.ilstu.edu/papers/hispj.htm> [Consulta: 14 marzo 2001]

DAVIS, J. C ARY (1961). «Más Sobre “Puede Hacerlo”, “lo Puede Hacer”». Hispania. 44. Pp. 708-710.

DIKKEN, MARCEL DEN; BLASCO, MARIVÍ (2000a). Clitic climbing in Spanish imperatives [en línea]. [New

York:] The City University of New York. <http://web.gc.cuny.edu/linguistics/dendikken/spanish.

pdf> [Consulta: 4 abril 2002]

— (2000b). Restrictions on clitic climbing and the nature of restructuring [en línea]. [New York:] The City

University of New York. <http://unsupported.usc.edu/~hayashis/abstracts/Dikken2.pdf> [Con-

sulta: 25 diciembre 2000]

FISH, GORDON T. (1961). «“Lo Puede Hacer” vs. “Puede Hacerlo”». Hispania. 44. Pp. 137-139.

FONTANA, JOSEP M. (1993). Phrase Structure and the Syntax of Clitics in the History of Spanish [en línea].

Philadeplphia: University of Pennsylvania. <ftp://ftp.cis.upenn.edu/pub/ircs/tr/93-24.ps.Z>

[Consulta: 18 marzo 2001]

GÓMEZ TORREGO, LEONARDO (1988). Perífrasis verbales : Sintaxis, semántica y estilística. Madrid: Ar-

co/Libros.

KULICK, SETH (1998a). Clitic Climbing in Romance [en línea] : “Restructuring”, Causatives, and Object-Control

Verbs. Philadeplphia: University of Pennsylvania. <ftp://ftp.cis.upenn.edu/pub/ircs/public_html/

mol/papers/kulick.ps> [Consulta: 18 marzo 2001]

— (1998b). Clitic Climbing and Tree Adjoining Grammar [en línea]. Philadeplphia: University of Pennsyl-

vania. <ftp://ftp.cis.upenn.edu/pub/ircs/public_html/mol/slides/cc-tut.ps> [Consulta: 18 marzo

2001]

LAW, PAUL (2001). Clitic climbing in Romance [en línea] : a case of syntax-morphology-semantics mismatch. Ber-

lin: Freie Universität. <http://ling.uni-konstanz.de/pages/home/geuder/law-cliticclimbing.

pdf> [Consulta: 18 marzo 2002]

LUJÁN, MARTA. (1993). «La subida de clíticos y el modo en los complementos verbales del español». En:

OLGA FERNÁNDEZ SORIANO (ed.). Los pronombres átonos. Madrid: Santillana. Pp. 235-281.

MOORE, JOHN (1998). Object Controlled Restructuring in Spanish [en línea]. San Diego: University of Cali-

fornia. <http://ling.ucsd.edu/~moore/papers/permit.pdf> [Consulta: 18 marzo 2001]

— (1999). Judgement Types and the Structure of Causatives [en línea]. San Diego: University of California.

<http://ling.ucsd.edu/~moore/papers/spanish.pdf> [Consulta: 18 marzo 2001]

Page 66: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

BIBLIOGRAFÍA – CORPUS SELECCIONADO

• 66 •

NIEUWENHUIJSEN, DORIEN (1999). «Cambios en la colocación de los pronombres átonos en la historia

del español» [en línea]. Estudios de Lingüística Española (ELiEs). Volumen 5. <http://elies.rediris.es/

elies5/index.htm> [Consulta: 7 marzo 2001]

PIZZINI, QUENTIN A. (1982). «The Positioning of Clitic Pronouns in Spanish». Lingua. 57. Pp. 47-69.

RIZZI, LUIGI (1982). Issues in Italian Syntax. Dordrecht/Cinnaminson: Foris Publications.

SUBIRATS RÜGGEBERG, CARLOS (1998). «Automatic Extraction of Textual Information in Spanish» [en

línea]. Language Design. Journal of Theoretical and Experimental Linguistics. 1. <http://seneca.uab.es/

csubirats/Automatic.ps> [Consulta: 2 febrero 2001]

—; ORTEGA GIL, MARC (1998). «Extracción automática de información de grandes corpus» [en línea].

En: J. DE KOCK; C. GÓMEZ (eds.). La lingüística de corpus: aplicaciones. Salamanca: Ediciones Uni-

versidad de Salamanca. <http://seneca.uab.es/csubirats/Extraccion.ps> [Consulta: 2 febrero

2001]

Corpus seleccionado

Por consideraciones de espacio, no enumeramos todas las obras utilizadas como entradas para las cal-

culaciones de nuestra herramienta. Si podemos referir a varios textos en una dirección en Internet, los

concentramos en un título.

Corpus de lengua hablada.

OC: MARCOS MARÍN, FRANCISCO. Corpus oral de referencia de la lengua española contemporánea [en línea].

Madrid: Universidad Autónoma de Madrid, 1992. <http://www.lllf.uam.es/corpus/corpus_oral.

html> [Consulta: 11 abril 2002]

OB: SINNER, CARSTEN. Corpus oral de profesionales de la lengua castellana en Barcelona [en línea]. Potsdam:

Universidad de Potsdam, 2001. <http://www.carstensinner.de/castellano/corpusorales/index.

html> [Consulta: 11 abril 2002]

Novela en los siglos XX y XXI.

LB: GALOFRÉ, ROGER. Lunas Blancas [en línea]. S. l. : s. n., 1999. <http://www.lunasblancas.com/indice.

htm> [Consulta: 17 febrero 2002]

TI: —. Timoneles [en línea]. S. l. : s. n., 2001. <http://www.lunasblancas.com/indicet.htm> [Consulta:

17 febrero 2002]

RI: MENDOZA ABAD, MARÍA COVADONGA. Regina Irae [en línea] : Novela On Line. S. l. : s. n., 2000.

<http://www.iespana.es/reginairae/index.htm> [Consulta: 17 abril 2002]

Page 67: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

BIBLIOGRAFÍA – CORPUS SELECCIONADO

• 67 •

N1: CHAMIZO, PATRICIO. Paredes, un campesino extremeño [en línea] : novela. Alicante: BIMICESA, 2001.

<http://www.cervantesvirtual.com/servlet/SirveObras/68082752445466917121279/index.htm>

[Consulta: 17 abril 2002]

N2: DICENTA, JOAQUÍN. «El hampón» [en línea]. En: Novelas. Madrid: Sucesores de Rivadeneira,

1915?. Pp. 243-317 <http://www.cervantesvirtual.com/servlet/SirveObras/

90260631212103973111191/index.htm> [Consulta: 17 abril 2002]

N3: PÉREZ GALDÓS, BENITO. El audaz: historia de un radical de antaño [en línea]. Madrid: Est. Tip. de la

Viuda e Hijos de Tello, 1907. <http://www.cervantesvirtual.com/servlet/SirveObras/

26822849765637206484457/index.htm> [Consulta: 17 abril 2002]

N4: TRIGO, FELIPE. El médico rural [en línea]. Barcelona: Turner, 1974. <http://www.cervantesvirtual.

com/servlet/SirveObras/02715285545706094867035/index.htm> [Consulta: 17 abril 2002]

N5: —. Los abismos [en línea]. Moheda de la Cruz: s. n., 1913. <http://www.cervantesvirtual.com/

servlet/SirveObras/02826285657927106088146/index.htm> [Consulta: 17 abril 2002]

N6: —. Así paga el diablo [en línea]… Madrid: Biblioteca Renacimiento, 1911. <http://www.

cervantesvirtual.com/servlet/SirveObras/09142753299144809657857/index.htm> [Consulta: 17

abril 2002]

N7: —. Del frío al fuego [en línea] : (ellas a bordo) novela. Madrid: Librería de Fernando Fé, [ca. 1905].

<http://www.cervantesvirtual.com/servlet/SirveObras/15813846456847292902268/index.htm>

[Consulta: 17 abril 2002]

N8: —. La Altísima [en línea]. Madrid: Librería de Pueyo, 1907. <http://www.cervantesvirtual.com/

servlet/SirveObras/24615096445131573454502/index.htm> [Consulta: 17 abril 2002]

N9: ROMERO, FRANCISCO. Querida Hija: [en línea]. S. l. : s. n., s. a. <http://www.manchanet.es/personal/

pacoromero/index.html> [Consulta: 18 abril 2002]

NA: —. Las aventuras del ilustre caballero Graznarín el trovador y de su escudero pendenciero [en línea]. S. l. :

s. n., s. a. <http://www.manchanet.es/personal/pacoromero/index.html> [Consulta: 18 abril

2002]

NB: —. Memorias de un paraguas [en línea]. S. l. : s. n., s. a. <http://www.manchanet.es/personal/

pacoromero/index.html> [Consulta: 18 abril 2002]

Ensayo en el siglo XX.

E0: Antología del Ensayo Ibero e Iberoamericano [en línea] : Siglo XX: España. S. l. : s. n., s. a.

<http://ensayo.rom.uga.edu/antologia/XXE/index.htm> [Consulta: 12 marzo 2002]

Page 68: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

BIBLIOGRAFÍA – CORPUS SELECCIONADO

• 68 •

E1: MARTÍNEZ CACHERO, JOSÉ MARÍA. «Rafael Cansinos Asséns, crítico militante» [en línea]. En: Home-

naje al Excmo. Sr. D. Emilio Alarcos García. Vallladolid: Universidad de Valladolid, 1965. Tomo II.

Pp. 317-328. <http://www.cervantesvirtual.com/servlet/SirveObras/79182774778575262210380/

index.htm> [Consulta: 17 abril 2002]

E2: —. «Sobre algunos formantes de la expresión azoriniana» [en línea]. En: Estudios de Literatura y

Arte dedicados al profesor Emilio Orozco Díaz. Granada: Universidad de Granada, 1979. Tomo II.

Pp. 361-376. <http://www.cervantesvirtual.com/servlet/SirveObras/79171641445574939321380/

index.htm> [Consulta: 17 abril 2002]

E3: —. «La actitud anti-modernista del crítico “Clarín”» [en línea]. Anales de Literatura Española. Nº 2

(1983). Pp. 383-398. <http://www.cervantesvirtual.com/servlet/SirveObras/

57956288653415039053346/index.htm> [Consulta: 17 abril 2002]

E4: —. «Más sobre novela española en la década de los cuarenta: narrativa de humor» [en línea]. En:

FERNÁNDO LÁZARO CARRETER. Serta Philologica. Madrid: Cátedra, 1983. Pp. 339-346. <http://

www.cervantesvirtual.com/servlet/SirveObras/01587302032029618210213/index.htm> [Consul-

ta: 17 abril 2002]

E5: —. «El septenio 1940-1946 en la bibliografía de Camilo José Cela» [en línea]. Cuadernos Hispanoa-

mericanos. Nº 337-338 (1978). Pp. 34-50. <http://www.cervantesvirtual.com/servlet/SirveObras/

45704419104458406500080/index.htm> [Consulta: 17 abril 2002]

E6: —. «“Con permiso de los cervantistas” (Azorín, 1948): examen de “un libro de melancolía”» [en

línea]. Anales Cervantinos. Vol. 25-26 (1987-88). Pp. 305-314. <http://www.cervantesvirtual.com/

servlet/SirveObras/34626631104781517611191/index.htm> [Consulta: 17 abril 2002]

E7: —. «Rafael Altamira como crítico literario» [en línea]. Cuadernos Hispanoamericanos. Nº 229 (enero

1969). Pp. 64-77. <http://www.cervantesvirtual.com/servlet/SirveObras/

31475067590292194111157/index.htm> [Consulta: 17 abril 2002]

E8: —. «“Entre obispos cursis y clérigos patanes…” el componente católico de La voluntad» [en lí-

nea]. Ínsula. Nº 556 (1993). Pp. 31-32. <http://www.cervantesvirtual.com/servlet/SirveObras/

24612844214526106775568/index.htm> [Consulta: 17 abril 2002]

E9: —. «Novelistas jóvenes y panorama editorial en la década de los cuarenta» [en línea]. En: Estudios

ofrecidos a Emilio Alarcos Llorach. Oviedo: Universidad de Oviedo, 1979. Tomo IV. Pp. 479-494.

<http://www.cervantesvirtual.com/servlet/SirveObras/01365180810028386098213/index.htm>

[Consulta: 17 abril 2002]

EA: —. «Seis novelistas en busca de una ciudad» [en línea]. En: Oviedo en el recuerdo. Oviedo: Instituto

de Estudios Asturianos, 1992. Pp. 167-181. <http://www.cervantesvirtual.com/servlet/SirveObras/

19259408601381703002268/index.htm> [Consulta: 17 abril 2002]

Page 69: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

BIBLIOGRAFÍA – CORPUS SELECCIONADO

• 69 •

EB: —. «Las seis vidas de Roque Fernández» [en línea]. Saber/Leer. Nº 5 (1987). Pp. 8-9.

<http://www.cervantesvirtual.com/servlet/SirveObras/12815402118962501978513/index.htm>

[Consulta: 17 abril 2002]

EC: —. «Cincuenta referencias bibliográficas españolas “sobre” Azorín en la década de los cuarenta»

[en línea]. Anales Azorinianos. Nº 1 (1983-84). Pp. 32-48. <http://www.cervantesvirtual.com/

servlet/SirveObras/12704280999060382089624/index.htm> [Consulta: 17 abril 2002]

ED: —. «Todos los cuentos de Medardo Fraile» [en línea]. Saber/Leer. Nº 62 (1993). Pp. 6-7.

<http://www.cervantesvirtual.com/servlet/SirveObras/05708342188491563006746/index.htm>

[Consulta: 17 abril 2002]

EE: —. «Dolores Medio, noveno premio “Nadal” (1952)» [en línea]. Archivum. Tomo 34-35 (1984-

1985). Pp. 55-67. <http://www.cervantesvirtual.com/servlet/SirveObras/

05707231088480463006746/index.htm> [Consulta: 17 abril 2002]

EF: —. «Una especie literaria ambigua: los cuentos-crítica de Azorín» [en línea]. En: Actes du Premier

Colloque International “José Martínez Ruiz (Azorín)”. Pau: Université de Pau, 1986. Pp. 219-228.

<http://www.cervantesvirtual.com/servlet/SirveObras/04696120999479374117857/index.htm>

[Consulta: 17 abril 2002]

EG: —. «Veinticinco años de novela española (1941-1966) en la crítica de Melchor Fernández Alma-

gro» [en línea]. En: Homenaje al profesor Antonio Gallego Morell. Granada: Universidad de Grana-

da, 1989. Tomo II. Pp. 315-325. <http://www.cervantesvirtual.com/servlet/SirveObras/

03587231088488254106746/index.htm> [Consulta: 17 abril 2002]

EH: —. «Visita a Azorín» [en línea]. Monte Arabí, Ateneode Yecla. Pp. 23-26. <http://www.

cervantesvirtual.com/servlet/SirveObras/01698411924460508210324/index.htm> [Consulta: 17

abril 2002]

EI: —. «Necrologías sobre “Clarín”» [en línea]. Los Cuadernos del norte. Nº 7 (1981). Pp. 2-7.

<http://www.cervantesvirtual.com/servlet/SirveObras/01143960818807276098102/index.htm>

[Consulta: 17 abril 2002]

EJ: FROLDI, RINALDO. «La crítica de “El Censor” a las apologías de España» [en línea]. En: La seculari-

zación de la cultura española en el Siglo de las Luces. Wiesbanden: Harrassowitz, 1992. Pp. 91-111.

<http://www.cervantesvirtual.com/servlet/SirveObras/01920633127792721432324/index.htm>

[Consulta: 17 abril 2002]

EK: —. «La visión de Italia de Blasco Ibáñez: el país del arte» [en línea]. En: JUAN OLEZA; JAVIER

LLUCH. Vicente Blasco Ibañez: 1898-1998: la vuelta al siglo de un novelista. València: Consellería de

Cultura i Educació, 2000. Vol. I. Pp. 107-114. <http://www.cervantesvirtual.com/servlet/

SirveObras/01254073119911619321102/index.htm> [Consulta: 17 abril 2002]

Page 70: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

BIBLIOGRAFÍA – CORPUS SELECCIONADO

• 70 •

Teatro y cine en los siglos XX y XXI.

GR: ROMERO, FRANCISCO. Guiones cinematográficos [en línea]. S. l. : s. n., s. a. <http://www.manchanet.

es/personal/pacoromero/index.html> [Consulta: 18 abril 2002]

TR: —. Obra teatral [en línea]. S. l. : s. n., s. a. <http://www.manchanet.es/personal/pacoromero/index.

html> [Consulta: 18 abril 2002]

TE: Selección de obras de teatro [en línea]. Huelva: Universidad de Huelva, 2002. <http://www2.uhu.es/

pcultural/biblioteca.htm> [Consulta: 18 abril 2002]

Textos jurídicos y políticos.

CO: Constitución Española de 1978 [en línea]. Madrid: Centro de Información Administrativa, 1992.

<http://www.igsap.map.es/docs/cia/dispo/constitu.htm> [Consulta: 17 abril 2002]

ET: Estatutos de autonomía [en línea]. Madrid: Centro de Información Administrativa, s. a.

<http://www.igsap.map.es/docs/cia/dispo/estatutos.htm> [Consulta: 17 abril 2002]

PS: Programas y manifiestos electorales del PSOE [en línea]. Madrid: PSOE, 2000. <http://www.psoe.es/

NuevasPoliticas-NuevosTiempos/Documentos/indice_programas.htm> [Consulta: 17 abril 2002]

Textos técnicos.

DE: BATANERO, CARMEN. Didáctica de la Estadística [en línea]. Granada: Grupo de Investigación en

Educación Estadística, 2001. <http://www.ugr.es/~batanero/ARTICULOS/didacticaestadistica.

zip> [Consulta: 19 abril 2002]

PR: ORTIZ DE HARO, JUAN JESÚS. La probabilidad en los libros de texto [en línea]. Granada: Grupo de In-

vestigación en Educación Estadística, 2002. <http://www.ugr.es/~batanero/ARTICULOS/tesisjj.

PDF> [Consulta: 17 abril 2002]

SI: SERRANO ROMERO, LUIS. Significados institucionales y personales de objetos matemáticos ligados a la

aproximación frecuencial de la enseñanza de la probabilidad [en línea]. Granada: Universidad de Gra-

nada, 1996. <http://www.ugr.es/~batanero/ARTICULOS/TESISSERRANO.zip> [Consulta: 17

abril 2002]

RA: ROA GUZMÁN, RAFAEL. Razonamiento combinatorio en estudiantes con preparación matemática avanzada

[en línea]. Granada: Universidad de Granada, 2000. <http://www.ugr.es/~batanero/

ARTICULOS/TesisRoa.zip> [Consulta: 17 abril 2002]

CS: TAUBER, LILIANA MABEL. La construcción del significado de la distribución normal a partir de actividades

de análisis de datos [en línea]. Sevilla: Universidad de Sevilla, 2001. <http://www.ugr.es/~batanero/

ARTICULOS/Tesisliliana.zip> [Consulta: 17 abril 2002]

Page 71: Kertes Gábor: Subida de clíticos en corpus electrónicos: análisis automático de textos en español peninsular moderno

BIBLIOGRAFÍA – CÓMO CITAR

• 71 •

Cómo citar

El húngaro en uno de los idiomas «raros» en los que el apellido se escribe antes que el nombre, es su

orden natural. Así, resulta que mi apellido es «Kertes» y el nombre: «Gábor». En bibliografías de orden

alfabético la referencia se debe colocar bajo la letra «K». Cuidado: la falta de la coma intermedia entre

el apellido (paternal) y el nombre indica que el orden es natural. Algunos ejemplos:

KERTES GÁBOR (2002). Subida de clíticos en corpus electrónicos. Szeged: Szegedi Tudományegyetem.

<http://tesina.galleus.com/kertes.gabor.subida.de.cliticos.2002.pdf> [Consulta: 22 enero 2006]

KERTES G. Subida de clíticos en corpus electrónicos. Szeged: Szegedi Tudományegyetem, 2002.

<http://tesina.galleus.com/kertes.gabor.subida.de.cliticos.2002.pdf> [Consulta: 22 enero 2006]

KERTES Gábor. Subida de clíticos en corpus electrónicos. Szeged: Universidad de Szeged, 2002.

<http://tesina.galleus.com/kertes.gabor.subida.de.cliticos.2002.pdf> [Consulta: 22 enero 2006]