Download - Facultad de las Artes y de las Letras Departamento de

Facultad de las Artes y de las Letras

Departamento de Lenguas aplicadas

El baremo como estrategia metacognitiva para la autoevaluación en la escritura E/LE

Un estudio de casos con alumnos norteamericanos de secundaria

DIANA ACEVEDO-WHITNEY

TESIS DOCTORAL

Programa de Doctorado en Lingüística aplicada

a la enseñanza del español como lengua extranjera

Madrid, noviembre 2015

I

ÍNDICE Lista de figuras y tablas Lista de abreviaturas Agradecimientos Resumen Introducción 1

Capítulo 1. Marco teórico 6 1.1. Evaluación 7 1.2. Retroalimentación 21 1.2.1. Tipos de retroalimentación 26 1.2.2. Retroalimentación por pares 32 1.3. Baremos 40 1.3.1. Baremos holísticos 50 1.3.2. Baremos analíticos 53 1.4. Autoevaluación 55 1.5. Aprendizaje metacognitivo 65

Capítulo 2. Estado de la cuestión 76 2.1. Acercamiento a la retroalimentación y al trabajo por pares 77 2.2. Aproximación a la evaluación 110 Capítulo 3. Método 134 3.1. Preguntas de la investigación 135 3.2 Diseño 136 3.3. Participantes del estudio 138 3.4. Recogida de datos 140 3.5. Materiales e instrumentos 141 3.6. Procedimiento 149 Capítulo 4. Resultados 154 4.1. Cuestionario 1. Fase de pre-escritura y post-escritura 156 4.2. Pruebas y evaluaciones con el baremo 160 4.2.1. Aulas nivel A1. Pruebas 160 4.2.1.1. Prueba 1. Puntuaciones holísticas nivel A1 161

II

4.2.1.1.1. Puntuaciones holísticas prueba 1 nivel A1. Autoevaluación y evaluación por pares

161

4.2.1.1.2. Puntuaciones holísticas prueba 1 nivel A1. Autoevaluación y evaluación del profesor

162

4.2.1.2. Prueba 2. Puntuaciones holísticas 163 4.2.1.2.1. Puntuaciones holísticas prueba 2 nivel A1. Autoevaluación y evaluación

por pares 164


165

4.2.1.3. Prueba 3. Puntuaciones holísticas. Autoevaluación y evaluación del profesor

166

4.2.2. Aulas nivel A2. Pruebas 167 4.2.2.1. Prueba 1. Puntuaciones holísticas nivel A2 167 4.2.2.1.1. Puntuaciones holísticas prueba 1 nivel A2. Autoevaluación y evaluación

por pares 167


169

4.2.2.2. Prueba 2. Puntuaciones holísticas nivel A2 169 4.2.2.2.1. Puntuaciones holísticas prueba 2 nivel A2. Autoevaluación y evaluación

por pares 170


171

4.2.2.3. Prueba 3. Puntuaciones holísticas nivel A2. Autoevaluación y evaluación del profesor

172

4.3. Descripción de las variables en las tres pruebas 173 4.3.1. Prueba 1. La retroalimentación 174 4.3.2. Prueba 1. Histogramas de las evaluaciones holísticas 176 4.3.3. Prueba 1. Frecuencia de errores pre-edición y post-edición 179 4.3.4. Prueba 1. Errores pre-edición y post-edición 181 4.3.5. Prueba 2. La retroalimentación 186 4.3.6. Prueba 2. Histogramas de las evaluaciones holísticas 188 4.3.7. Prueba 2. Frecuencia de errores pre-edición y post-edición 191 4.3.8. Prueba 2. Errores pre-edición y post-edición 193 4.3.9. Prueba 3. La retroalimentación 197 4.3.10. Prueba 3. Histogramas de las evaluaciones holísticas 198 4.3.11. Prueba 3. Frecuencia de errores pre-edición y post-edición 203 4.3.12. Prueba 3. Errores pre-edición y post-edición 204 4.4. Relación entre pares de variables 207 4.4.1. Prueba 1 208 4.4.2. Prueba 2 214 4.4.3. Prueba 3 219

III

4.5. Comparación entre las variables continuas 223 4.5.1. Prueba 1 224 4.5.2. Prueba 2 224 4.5.3. Prueba 3 225 4.6. Cambios en el tiempo 226 4.7. Resultados del cuestionario 3 229 4.7.1. Prueba 1 230 4.7.2. Prueba 2 231 4.7.3. Prueba 3 232 4.7.4. Reconocimiento de los errores 233 Capítulo 5. Discusión de los resultados 246 5.1. Primera hipótesis de la investigación 249 5.1.1. Análisis del Cuestionario 1 de pre-escritura y post-escritura 249 5.1.2. Análisis de la calidad de las composiciones según el aula 252 5.1.2.1. Aulas A1 252 5.1.2.2. Aulas A2 257 5.1.3. Análisis de las pruebas según los diferentes evaluadores 260 5.1.3.1. Prueba 1 261 5.1.3.2. Prueba 2 262 5.1.3.3. Prueba 3 263 5.1.3.4. Comparación entre las pruebas 264 5.1.4. Análisis de las pruebas según la correlación de puntajes entre los evaluadores

268

5.2. Segunda pregunta de investigación 269 5.2.1. Variables significativas en la prueba 1 270 5.2.2. Variables significativas en la prueba 2 272 5.2.3. Variables significativas en la prueba 3 274 5.2.4. Comparación de las variables en las tres pruebas 275 5.3. Tercera pregunta de investigación 277 5.3.1. Análisis sobre la retroalimentación 278 5.3.1.1. Prueba 1 279 5.3.1.2. Prueba 2 279 5.3.1.3. Prueba 3 280 5.3.1.4. Comparación entre las tres pruebas 280 5.3.2. Análisis de las pruebas según los errores 282 5.3.2.1. Prueba 1 282 5.3.2.2. Prueba 2 285 5.3.3.3. Prueba 3 287 5.3.3.4. Comparación entre las pruebas 288 5.3.4. Análisis del Cuestionario 3 291

IV

Capítulo 6. Conclusiones 296 Referencias bibliográficas 310 Anexos Anexo 1. Tabla de contenido del libro de español

Anexo 2. Nivel Alte

Anexo 3. Baremo analítico

Anexo 4. Cuestionario 1



Anexo 7. Composiciones

Anexo 8. Datos agregados en Excel y SPSS

Anexo 9. Análisis Cuestionario 1

Anexo 10. Comparación categorías de calidad de las composiciones

Anexo 11. Análisis de retroalimentación

Anexo 12. Normalidad de variables

Anexo 13. Errores – palabras prueba t-Student

Anexo 14. Prueba 1 análisis estadístico



Anexo 17. Correlación entre evaluadores

Anexo 18. Medidas repetidas

Anexo 19. Cuestionario 3. Preguntas y reconocimiento de errores

V

TABLAS

Tabla 1. Pasos para la adquisición de criterios de evaluación. A partir de Falchikov y Boud, 2007, p. 186-193

20

Tabla 2. Modelos de regulación. A partir de Allal, 1985, p. 5.

27

Tabla 3. Tipos de retroalimentación. A partir de Ellis, 2009, p. 98

29

Tabla 4. Factores del evaluador y del alumno, que impactan en la aplicación de la retroalimentación

30

Tabla 5. Problemas y retos de los profesores en el uso de la RC. A partir de Guénette 2012, p. 119-121

31

Tabla 6. Fines del aprendizaje por pares y sus implicaciones. A partir de Boud, 2001, p. 8-9.

34

Tabla 7. Aprendizaje cognitivo. A partir de Collins, Brown y Hollu, 1991, p. 1-3

66

Tabla 8. Fuentes que influyen en la auto-eficacia. A partir de Bandura (1994) y Gorsuch (2009)

69

Tabla 9. Fases de la auto-regulación. A partir de Zumbrunn, Tadlock y Roberts, 2011, p. 4-5

71

Tabla 10. Distribución del tratamiento con retroalimentación correctiva. A partir de Delgado, 2007

78

Tabla 11. Categorías de evolución de la calificación de los ensayos, A y B. A partir de Wingate, 2010, p. 524

91

Tabla 12. Errores hallados en las muestras de los grupos estudio. A partir de Diab, 2010, p. 91

96

Tabla 13. Resumen de las bases metodológicas de los estudios sobre retroalimentación y trabajo por pares, reseñados en el «Estado de la cuestión».

108

Tabla 14. Porcentaje y número de errores hallados en el estudio de Srichanyachon, 2011, p. 413

121

Tabla 15. Valores estadísticos de los descriptores del estudio. A partir de Srichanayachon, 2014, p. 3

129

Tabla 16. Dimensiones y características de los estudios del estado de la cuestión

132

Tabla 17. Variables dependientes, independientes e intervinientes, y operacionalización

138

Tabla 18. Baremo mixto a partir de Jacobs et al. (1981) y Oscarson (2009)

142

Tabla 19. Cuestionario 1 con preguntas auto-evaluativas sobre la habilidad compositiva del alumno

145

Tabla 20. Cuestionario 2 para la autoevaluación de la composición post-redacción

147

Tabla 21. Cuestionario 3, aplicado post-revisión y tras la retroalimentación del revisor 147

VI

Tabla 22. Fases y procesos de la valoración de las muestras compositivas de los estudiantes

148

Tabla 23. Media y desviación estándar de las respuestas al Cuestionario 1 (pre - tratamiento)

156

Tabla 24. Media y desviación estándar de las respuestas al Cuestionario 1 (post-tratamiento)

157

Tabla 25. Medias de las preguntas del Cuestionario 1, pre y post-escritura, aulas A1 y A2

157

Tabla 26. Comparación entre la media y desviación estándar pre y post escritura entre las aulas

159

Tabla 27. Prueba-t de muestras apareadas entre los totales pre y post-escritura del Cuestionario 1

159

Tabla 28. Puntajes holísticos de AE en la prueba 1, para distribución cruzada entre las aulas A1

161

Tabla 29. Puntajes holísticos de EE en la prueba 1, revisada de forma cruzada entre las aulas A1

162

Tabla 30. Puntajes holísticos de AE en la prueba 1 de las aulas A1, para revisión con el profesor

163

Tabla 31. Puntajes holísticos de EP en la prueba 1 de las aulas A1, revisadas por el profesor

163


164


165


165

Tabla 35. Puntuaciones holísticas de EP en la prueba 2 de las aulas A1, revisadas por el profesor

166


166


167

Tabla 38. Puntajes holísticos de AE en la prueba 1, para distribución cruzada entre aulas A2

168


168

Tabla 40. Puntajes holísticos de AE en la prueba 1 en las aulas A2, para revisión con el profesor

169


169

Tabla 42. Puntajes holísticos de AE en la prueba 2, para distribución cruzada entre las Aulas A2

170

VII


171

Tabla 44. Puntajes holísticos de AE de la prueba 2, para revisión con el profesor

171

Tabla 45. Puntajes holísticos de la prueba 2 de las aulas A2, revisadas por el profesor

172


172

Tabla 47. Puntajes holísticos de EP de la prueba 3 de las aulas A2, revisadas por el profesor

173

Tabla 48. Parámetros de las variables continuas y medidas calculadas para la prueba 1

181

Tabla 49. Comparación de las medias de error pre-edición entre las aulas, en la prueba 1.

182

Tabla 50. Comparación de las medias de error post-edición entre las aulas, en la prueba 1

183

Tabla 51. Resultados de la prueba t-Student para las variables de error del aula A1 en la prueba 1

185

Tabla 52. Resultados de la prueba t-student para las variables de error del aula A2 en la prueba 1

185


193

Tabla 54. Comparación de las medias de error pre-edición entre las aulas, en la prueba 2

194


195

Tabla 56. Resultados de la prueba t-Student para las variables de error del aula A1, prueba 2

196


197


204


205

Tabla 60. Comparación de las medias de errores de post-edición entre las aulas, en la prueba 3

205


207


207

VIII

Tabla 63. Porcentaje de estudiantes representados en las diferentes aulas 208

Tabla 64. Test de ANOVA entre Delta 1 x aula y Delta 1 x sexo en la prueba 1 210

Tabla 65. Relación de las variables y su influencia en la prueba 1 214

Tabla 66. Test de ANOVA entre Delta2 x aula y Delta2 x sexo en la prueba 2 215


Tabla 68. Test de ANOVA entre Delta3 x aula y Delta3 x sexo en la prueba 3 220


Tabla 70. Correlación de los puntajes holísticos de los evaluadores en la prueba 1. 224

Tabla 71. Correlación de los puntajes holísticos de los evaluadores en la prueba 2. 225

Tabla 72. Correlación entre los puntajes de AE y EP en la prueba 3. 226

Tabla 73. Respuestas al Cuestionario 3 en la prueba 1, aulas A1 y A2 230



Tabla 76. Reconocimiento de errores registrados en las respuestas del Cuestionario 3 233

Tabla 77. Errores mencionados en las respuestas del Cuestionario 3, en las dos aulas 234

Tabla 78. Relación entre las preguntas de investigación, hipótesis y resultados del estudio

248

Tabla 79. Número porcentual de pruebas categorizadas, según su calidad, aula A1, primera fase

254

Tabla 80. Número porcentual de pruebas categorizadas, según su calidad, aula A1, segunda fase

256

Tabla 81. Número porcentual de pruebas categorizadas, según su calidad, aula A1, tercera fase

256


258


259

Tabla 84. Número porcentual de pruebas categorizadas, según su calidad, aula A2, tercera fase

260

Tabla 85. Comparación entre los puntajes de los evaluadores en las tres pruebas 267

IX

FIGURAS Figura 1. Pre-texto 1 presentado a los estudiantes, para hacer las revisiones y

ponderaciones con el uso del baremo analítico modificado de Jacobs et al. (1981).

143

Figura 2. Pre-texto 2 presentado a los estudiantes, para hacer las revisiones y ponderaciones con el uso del baremo analítico modificado de Jacobs et al. (1981).

144

Figura 3. Comparación de las medias en las respuestas de pre y post-escritura en el Cuestionario 1, aulas A1 y A2.

158

Figura 4. Gráfica de barras sobre la retroalimentación utilizada por los evaluadores en la prueba 1

174

Figura 5. Gráficos de barras sobre la retroalimentación usada en las aulas A1 y A2 en la Prueba 1

176

Figura 6. Histograma de la variable de autoevaluación total en la prueba 1. 177

Figura 7. Histograma de la variable de evaluación por pares en la prueba 1

177

Figura 8. Histograma de la variable de puntaje del profesor en la prueba 1

178

Figura 9. Histograma de la variable Delta1 179

Figura 10. Histograma de la variable de frecuencia de errores pre-edición en la prueba 1.

180

Figura 11. Histograma de la variable de frecuencia de errores post-edición en la prueba 1.

181

Figura 12. Comparación de las medias de error pre y post re-escritura en el aula A1, prueba 1.

184


184

Figura 14. Gráfica de barras sobre la retroalimentación en la prueba 2

186

Figura 15. Gráficas de barras sobre la retroalimentación usada en las aulas A1 y A2 en la Prueba 2.

187

Figura 16. Histogramas de la variable de autoevaluación holística en la prueba 2 189

Figura 17. Histograma dela variable de evaluación holística por pares en la prueba 2. 189

Figura 18. Histograma dela variable de puntaje del profesor-investigador en la prueba 2.

190

Figura 19. Histogramas del valor Delta 2 en la prueba 2 191

Figura 20. Histograma dela frecuencia de errores pre-edición en la prueba 2 191

Figura 21. Histogramas de la frecuencia de errores post-edición en la prueba 2

192

X

Figura 22. Histogramas del Cambio de puntaje Delta 1 y Delta 2 entre las pruebas 1 y 2.

193

Figura 23. Comparación de las medias de error pre y post re-escritura en el aula 1, prueba 2

195

Figura 24. Comparación de las medias de error pre y post re-escritura en el aula 2, prueba 2.

196


197

Figura 26. Gráfica de barras sobre la retroalimentación usada en las aulas A1 y A2 en la prueba 3

198

Figura 27. Histograma de la variable de autoevaluación holística en la prueba 3

199

Figura 28. Histograma de la variable profesor – investigador en la prueba 3

200

Figura 29. Histograma del valor Delta 3 en la prueba 3

201

Figura 30. Histograma del valor Cambio de puntaje 2 202

Figura 31. Histograma del valor Cambio de puntaje total

202

Figura 32. Frecuencia de error pre-edición en la prueba 3

203

Figura 33. Frecuencia de errores post-edición en la prueba 3

203


206


206

Figura 36. Diagrama de cajas relacionando Delta 1 x aula y Delta 1 por sexo en la prueba 1.

209

Figura 37. Diagrama de cajas relacionando Delta 2 x aula y Delta 2 por sexo en la prueba 2.

215

Figura 38. Diagrama de cajas relacionando Delta 3 x aula y Delta 3 x sexo en la prueba 3.

220

Figura 39. Diagrama de cajas entre el puntaje total y el número dela prueba

227

Figura 40. Diagrama de cajas entre las pruebas y los errores de pre-edición

228

Figura 41. Diagrama de cajas comparando los errores post-edición y las pruebas, con y sin casos asimétricos.

229

XI

Abreviaturas

AE: autoevaluación

DAF: alemán lengua extranjera

EE: evaluación del estudiante o por pares

EP: evaluación del profesor

EI: evaluación del investigador

E/LE: español lengua extranjera

ILE: inglés lengua extranjera

RC: retroalimentación correctiva

1

INTRODUCCIÓN

En las últimas décadas, la valoración del proceso de aprendizaje del estudiante de E/LE ha

venido siguiendo los términos y fundamentos de la educación formativa, y aun cuando la

investigación ha arrojado importantes luces al respecto, todavía existen algunos aspectos

pendientes de estudio relativos a la evaluación, concretamente, en el contexto de las aulas de E/LE

de enseñanza media. En este campo se desarrolló el trabajo preliminar de la autora de la presente

investigación (Acevedo, 2013), del que éste es, por tanto, su continuación.

Algunas aportaciones importantes que se obtuvieron en el estudio precedente, revelaron

que en las aulas de E/LE de enseñanza media, la creación y negociación de un baremo de errores

permite la valoración del conocimiento lingüístico L2 de los estudiantes, y que además, ello

estimula el proceso de autoevaluación en el alumno. Se observó asimismo que el trabajo

colaborativo es una estrategia que requiere ser pautada por el profesor y cuya práctica regular en

el aula resulta de gran utilidad. Se habla también de que el trabajo por pares debe someterse a

etapas previas de entrenamiento, donde se expongan el plan y los procedimientos a seguir, la

naturaleza del trabajo a realizar y los objetivos a cumplir. Asimismo, se muestra que el tipo de

interacciones que se suceden en la clase entre pares (entre los miembros del grupo de estudiantes),

está supeditado a la clase de tarea a cumplir, su complejidad y finalidad, y a la frecuencia de

intervención del docente, o de la interacción estudiante-profesor requerida para llevarla cabo.

2

El presente estudio surgió por la necesidad de descubrir y revisar los efectos del uso del

baremo en los procesos de autoevaluación y la retroalimentación en el mejoramiento de las

habilidades de escritura de estudiantes adolescentes de E/LE A1 y A2 en la escuela secundaria.

El objetivo fundamental de la presente investigación se centra por tanto en el uso del baremo

como estrategia metacognitiva, tanto para la retroalimentación por pares como para la

autoevaluación; se pretende observar los efectos de la retroalimentación por pares y la

autoevaluación, supeditadas ambas al uso de un baremo mixto, en la progresión de la habilidad

escritora de estudiantes de enseñanza media en aulas E/LE A1 y A2.

Los objetivos específicos de la investigación son:

Determinar la apreciación personal que tienen los estudiantes sobre su capacidad

escritora en E/LE.

Establecer el progreso del estudiante en su capacidad compositiva y auto-evaluativa,

a partir de sus redacciones y evaluaciones.

Involucrar al aprendiente en el proceso evaluativo a partir de la propia reflexión y

evaluación de sus escritos, mediante el uso de un baremo mixto creado por los

estudiantes, así como a ser colaborador en la revisión de las composiciones de otros

y trabajando con un par.

Analizar la respuesta de los alumnos a las correcciones, y determinar si aceptan el

input del profesor y sus iguales según conste en los instrumentos de recolección y en

las re-escrituras obtenidas.

3

Determinar las variables o factores que intervienen o influyen durante la

autoevaluación y la evaluación del profesor en los procesos de puntuación y re-

edición de las composiciones.

Presentar las diferencias y similitudes entre los grupos de estudiantes de acuerdo al

nivel de aprendizaje, sobre cómo los procesos de evaluación con el manejo del

baremo se ven reflejados en las calificaciones holísticas, resultado de la

autoevaluación y revisión por pares.

En el Capítulo 1 se aborda el enfoque de la evaluación sumativa y formativa, destacando los

conceptos y aportaciones de investigadores importantes; se habla de la educación formativa en un

contexto escolar, en aulas de educación media; igualmente se hace referencia a la

retroalimentación correctiva en la escritura L2, y se mencionan los agentes y modalidades de

retroalimentación, con sus ventajas y sus desventajas; se desarrolla el tema de los baremos con

una breve reseña de la historia, de las definiciones, del uso, el tipo y las clases de baremos en

general; se aborda la normalización e instauración de baremos a nivel nacional y estatal para la

evaluación académica, en las instituciones y en las aulas en general. También se describen

brevemente las virtudes e inconvenientes de la implementación y aplicación de los baremos;

posteriormente se revisa la definición, los procesos y las estrategias para la implementación de la

autoevaluación en las aulas de E/LE y finalmente el capítulo se cierra con el tema del aprendizaje

metacognitivo.

El estado de la cuestión se desarrolla en el capítulo 2, y se presenta en dos bloques

investigativos principales: el acercamiento a la retroalimentación y al trabajo por pares, y la

4

aproximación a la evaluación. En la primera sección, se presentan los estudios sobre la efectividad

de la retroalimentación, considerando el tipo y los agentes correctores como: los autoevaluadores,

la evaluación por pares y por el profesor; en la segunda sección, se reseñan las investigaciones en

torno a la evaluación L1 y L2, con el uso de baremos o la utilización de estrategias de

autoevaluación, la revisión entre estudiantes y el profesor.

El Capítulo 3 contiene el método de investigación, en donde se exponen las preguntas de

investigación y las hipótesis del estudio; se desarrollan los puntos relacionados a: el diseño, los

participantes y el procedimiento para la recogida de datos, al igual que la presentación de los

materiales e instrumentos utilizados, entrenamiento y finalmente implementación en las aulas.

En el Capítulo 4, se realiza la exposición de los resultados siguiendo la línea temporal

llevada a cabo en la utilización de los instrumentos de recolección de datos descrita en el

procedimiento. Se inicia con la presentación de los datos obtenidos en la fase de pre-escritura con

el Cuestionario 1, seguida de la presentación de variables en cada una de las pruebas; se continúa

con los puntajes analíticos y holísticos de autoevaluación, evaluación del profesor y de los pares,

consignados en el Cuestionario 2 post-escritura; finalmente el manejo de los datos culmina con la

compilación de los datos recogidos del Cuestionario 3 pre-edición.

En el capítulo 5 se desarrolla la discusión de resultados siguiendo el orden de las preguntas

de investigación, teniendo en cuenta los cuestionarios y pruebas que se aplicaron en las tres fases

del estudio. Finalmente, se exponen las conclusiones y limitaciones del estudio en el Capítulo 6,

dando por terminado el desarrollo de la investigación.

El baremo como estrategia metacognitiva para la autoevaluación Capítulo 1 Marco teórico

6

Capítulo 1

Marco teórico

1.1. La evaluación

1.2. La retroalimentación

1.2.1. Tipos de retroalimentación

1.2.2. Retroalimentación por pares

1.3. Baremos

1.3.1. Baremos holísticos

1.3.2. Baremos analíticos

1.4. Autoevaluación

1.5. Aprendizaje metacognitivo


7

Capítulo 1. MARCO TEÓRICO

Para la exposición y el análisis del marco teórico, se contemplan cinco temas importantes

para el desarrollo de esta investigación: la evaluación, la retroalimentación, los baremos, la

autoevaluación y el aprendizaje metacognitivo.

1.1. La evaluación

Dolchy (2001) afirma, «los avances de la sociedad nos han estimulado a implementar nuevos

métodos que estén en línea con estos avances» (p.15). Si bien es cierto, el concepto de evaluación

y su implementación ha evolucionado con los tiempos, no se puede olvidar que estas

modificaciones deben adaptarse también a los instrumentos de evaluación y de metodología. Es

el mismo Dolchy, quin enfatiza las consecuencias adversas que se originan cuando esta adaptación

no se produce y la conexión entre la evaluación y la instrucción resulta inadecuada. Entre las

consecuencias indeseables se encuentran: «la inapropiada información sobre el progreso,

dificultades en el aprendizaje de los estudiantes, reducción de la motivación del alumno para

aprender y la valoración equivocada de la efectividad de la instrucción» (p.16).

El concepto actual de evaluación, hace referencia a los procesos aplicados para emitir un

juicio (Sadler, 2005; Taras, 2005; Eguiluz y de Vega, 2009). Para Sadler (2005) dichos juicios se

efectúan sobre la calidad y grado de rendimiento o competencia del estudiante, es decir, inciden

sobre el aprendizaje obtenido. Taras (2005) agrega que durante dicho proceso requiere de

estándares y objetivos. Por lo cual, cuando se emite alguna evaluación, se está ofreciendo una


8

declaración u opinión que puede ser calificada como subjetiva, objetiva o ambas, sobre la base de

un pre-conocimiento o percepción anterior relativa al tema, u objeto sometido a escrutinio.

Boud (2007) y Falchikov (2007) del Reino Unido y Australia respectivamente, consideran la

evaluación como «un juicio de base» que permanece como aprendizaje duradero y continuo,

dirigido a la reflexión y la autorregulación. De acuerdo con Boud (2007) estos dos últimos aspectos

«no son habilidades simplemente, sino que implican una disposición y orientación hacia el trabajo

y el aprendizaje; también involucran la confianza y la auto-imagen del estudiante como

aprendiente activo» (p.22). Kvale (2007) agrega que «la evaluación juega un papel importante en

la promoción del aprendizaje al ofrecer una retroalimentación extensa, al poner en claro las metas

de aprendizaje, al motivar e incentivar a un aprendizaje más amplio y activo» (p.58). Otros

investigadores explican que la evaluación es un proceso. Según Cuq (2007) la evaluación engloba

cuatro etapas distintas complementarias, que considera como el marco de evaluación. Estas etapas

son:

La intención: etapa en donde se determinan las metas y modalidades de la evaluación. Las modalidades son la elección de la medida, las tareas y el momento en que se efectuarán las evaluaciones.

La medida: es la etapa de selección de los datos, su organización y su análisis. El juicio: es la fase de apreciación de los datos en razón de las metas y objetivos de la

evaluación. Esta fase es la más delicada por cuanto el juicio debe estar fundado lo más objetivamente posible, es decir, debe superar la simple intuición o la arbitrariedad.

La decisión: es la etapa de toma de decisiones, en base a los objetivos propuestos.

(Cuq.2007. p. 163).

Knight (2007) por su parte, explica que, dejando a un lado la funcionalidad de la evaluación,

ésta es un «proceso de juicio» (p. 77), distinto a medir. En otras palabras, evaluar es un término


9

más genérico, por cuanto implica, en primer término, juzgar tanto constructos medibles como no

medibles y en el proceso de evaluación, la estrategia consiste en aportar juicios, contemplando los

hechos y llevando a cabo una interpretación de reglas hasta llegar a un juicio final. Cuando los

juicios deben hacerse sobre aspectos más subjetivos, se acude a expertos conocedores de los

marcos o reglas, para decidir cuál aplicar en un caso específico.

Cuando se evalúan en el aula las habilidades comunicativas de la lengua, Eguiluz y de Vega

(2009) explican que la evaluación por procesos se transfiere de tres formas: la primera, ya

conocida, de tipo tradicional con exámenes convencionales; la segunda y la tercera se desarrollan

con herramientas de medición «más técnicas y científicas, siendo instrumentos eficaces para la

toma de decisiones mejorando con ello determinados procesos» (p. 76). Estos procesos, pueden

entenderse dentro del marco de evaluación de Cuq (2007), mencionado anteriormente.

Desde una óptica pedagógica, la evaluación en el aula puede ser sumativa o formativa. De

forma tradicional la evaluación sumativa se asocia al rendimiento o producto final de un curso,

de un ciclo semestral o anual. Mientras que la evaluación formativa se vincula generalmente, al

conjunto de las pruebas efectuadas dentro de un periodo de tiempo que va desde el inicio hasta

la finalización de un curso.

La evaluación formativa está enmarcada dentro de un contexto más elaborado, debido a que

implica una «evaluación de procesos» (Palou y Morera 1996: 185). La naturaleza de la evaluación

formativa es dinámica e interactiva (Allal y Pelgrims, 2000; Taras 2005; Cuq 2007). Es dinámica,

porque regula el aprendizaje teniendo en cuenta la zona de desarrollo próximo (ZDP) de los


10

estudiantes y el beneficio recibido de la retroalimentación. La zona de desarrollo próximo es la

extensión máxima de conocimiento que el alumno puede adquirir y entender con la ayuda de otro.

La característica dinámica de la evaluación formativa, tiene como objeto principal, según Allal y

Pelgrims (2000), «determinar cómo diferentes aprendientes responden a la instrucción y cómo

procesos distintos de enseñanza refuerzan el aprendizaje para asegurar la regulación y

diferenciación de las actividades didácticas» (p. 145).

La característica interactiva de la evaluación formativa pone énfasis en la interacción

continua del educador con el alumno y en su observación permanente del progreso del estudiante,

con la finalidad de pautar la enseñanza y promover el aprendizaje individual. Allal y Pelgrims

(2000) explican claramente la relación entre la ZDP y la evaluación: «la evaluación interviene

dentro de la ZDP del estudiante, que se crea por continuas interacciones dentro de un contexto de

instrucción dado, optimizando los procesos de enseñanza-aprendizaje específicos para dicho

contexto» (p. 149). En este sentido, el rol del profesor es primordial para mejorar el aprendizaje

del alumno, orientarlo en el logro de sus objetivos. Así lo expone Cuq (2007) cuando afirma que

la evaluación formativa «busca recabar información sobre los puntos débiles y fuertes de los

alumnos; compromete al profesor en la realización de ajustes del curso en función de las lagunas

o necesidades específicas» (p.164). Bajo el punto de vista de Fernández (2011), la evaluación

formativa es «un momento del proceso de aprendizaje en el que se valora el grado de consecución

de los objetivos y el método que se ha seguido, con el fin de mejorar el proceso y los resultados»

(p. 5).


11

Por su parte, Taras (2005, 2008), quien tiene una vasta experiencia en el tema, pone de

manifiesto la existencia de una confusión, respecto a los conceptos de evaluación sumativa y

formativa, en los estamentos educativos y entre el profesorado. Retomando la definición de

evaluación como un proceso, esta autora explica que, la evaluación formativa como la sumativa,

«implica un proceso que sigue mecanismos o pasos para llegar a un juicio, siguiendo unos

estándares o criterios específicos» (Taras 2005: 467). Desde esta perspectiva, la evaluación de un

proceso dentro del ciclo de aprendizaje puede concluir en una nota o grado, que no es

necesariamente la calificación final del curso. Es decir, es válido evaluar tanto un proceso como

un producto, dentro de un marco evaluativo formativo o sumativo.

Taras (2008) afirma que «no solo es cierto que la evaluación formativa puede conducir a una

evaluación sumativa, sino que la evaluación formativa y la sumativa se hallan ligadas al ciclo

iterativo de la retroalimentación» (p. 184). Es decir, la retroalimentación es un aspecto básico

dentro del engranaje de la evaluación. De hecho, Jackson y Davis (2000) hablan de la evaluación

formativa y sumativa como de «métodos de evaluación que permiten la retroalimentación

continua y cumulativa» (p. 55) respectivamente.

En síntesis, el esquema de la evaluación se considera como un desarrollo continuo

evaluativo-formativo, con secuencias de evaluaciones sumativas seguidas de procesos de

regulación y retroalimentación, hasta la culminación de un programa o curso. Taras (2008) finaliza

su estudio analizando el grado de conocimientos teóricos que tienen los educadores en relación a

la evaluación, al revelar que el 80% de los profesores tienen cierta noción de los dos tipos de

evaluación, pero no pueden definirlas de manera completa o precisa. Asimismo, aun cuando


12

reconocen la existencia de un vínculo entre la evaluación sumativa y la evaluación formativa, tan

solo el 28% asocia la retroalimentación al proceso formativo; quedando de manifiesto el

desconocimiento del tema por parte del profesorado.

Por otra parte, la evaluación involucra otros dos aspectos importantes: la fiabilidad y la

validez. Algunos autores hablan de la fiabilidad y la validez en la evaluación sumativa, y otros,

en la evaluación formativa; en ambos casos como respuesta a sus propios intereses académicos o

investigativos (McNamara, 2004; Harlen, 2009); cabe destacar que sea cual sea el tipo de

evaluación, tanto la fiabilidad como la validez son condiciones básicas que deben cumplirse.

McNamara (2004) pone énfasis en los constructos que se someten a evaluación y en el uso de un

método adecuado que permita indagar de forma objetiva y clara la competencia real del alumno

en la lengua objeto. Por tanto, todo lo anterior condiciona «la conducta comunicativa relevante

del alumno en el contexto de la lengua, además de la autenticidad y el procedimiento de

evaluación» (p. 9), por su parte agrega que la evaluación sumativa debe tener «un impacto

positivo en la enseñanza-aprendizaje y viabilidad» (Harlen, 2009: 249), con respecto al tiempo y al

coste.

Sin embargo, la aproximación a estas dos importantes propiedades es un tanto diferente

para cada tipo de evaluación. Se considera que deben ser más rigurosas y críticas en la evaluación

sumativa, y más laxas y suaves en la evaluación formativa ya que esta última tiende a ser más

«flexibles» (Harlen, 2009: 250). Según Harlen (2009), la validez desde el punto de vista de la

evaluación sumativa, hace referencia a: «qué tan bien lo que se evalúa se corresponde con los

comportamientos o respuestas que pretende evaluar, de forma que las inferencias surgidas de los


13

resultados tengan justificación» (p. 249). Es decir, en qué proporción la respuesta muestra

congruencia entre lo que se ha querido evaluar y los contenidos que previamente se han elegido

como relevantes dentro de la evaluación; en pocas palabras, se busca haber examinado lo que

realmente se quiso evaluar desde el principio.

No obstante, cuando se quiere tener una prueba fiable y válida a la vez, la situación se torna

un poco complicada al aplicar una prueba sumativa al estudiante, entran en juego las restricciones

de espacio y tiempo, es decir, la relación entre el monto de conocimiento teórico o temático que se

busca evaluar y el lapso de tiempo limitado de la prueba. Harlen (2009) explica que la prueba

sumativa: «se reduce a lo que un estudiante puede hacer en una prueba de duración determinada;

lo cual significa que solo puede evaluarse una proporción pequeña de lo que se ha aprendido,

poniendo en riesgo la validez» (p. 251); De ahí la importancia de implementar la evaluación

formativa y sumativa de acuerdo con Taras (2008) , ya que su finalidad es evaluar de forma justa

el aprendizaje de los estudiantes; triangular los registros de evaluación del alumno que se

recopilan durante el curso (observación del desempeño más retroalimentación) con las

evaluaciones sumativas periódicas (exámenes y pruebas) y con los resultados de las pruebas

estandarizadas, es un proceso que puede lograr tal fin. La nota de final de curso no es sólo una

forma de evaluación sumativa que debe tomarse en cuenta, de hecho, Taras (2008) enfatiza que

todo « juicio que encapsula la evidencia [de aprendizaje] hasta determinado punto, conduce a una

evaluación sumativa» (p. 468).

La evaluación también tiene una relación muy estrecha con los estándares definidos como

los criterios educativos acordados en ámbitos nacionales y estatales, que regulan o modulan el


14

proceso de aprendizaje; por esta razón, también es necesario realizar un acercamiento de éstos a

la evaluación, teniendo en cuenta el nivel educativo donde se lleva a cabo. Cuando se trata de la

evaluación en un ámbito geográfico macro-educativo, se habla de pruebas nacionales o estatales

normalizadas que abarcan una población extensa, los informes y resultados son de especial interés

para comparar la aptitud de los alumnos entre diversos centros y distritos escolares (Clark y

Bamberg, 2003; OCDE, 2005), sobre parámetros establecidos por las entidades gubernamentales

pertinentes. Clark y Bamberg (2003) denominan a este tipo de evaluación como externa (P. 203).

Por otro lado, a un nivel micro-educativo, la evaluación denominada interna se realiza en el aula

con: tareas, pruebas o portafolios y está supeditada a los criterios curriculares del centro. Sandrock

(2010) afirma que «con los estándares como punto de partida, se identifican de antemano las metas

de aprendizaje y el modo en el que van a ser evaluadas» (p. 33.3).

En Estados Unidos, los estándares y las evaluaciones de lenguas extranjeras están a cargo

del Consejo Americano sobre la Enseñanza de Lenguas Extranjeras (ACTFL 1998, 2012) por una

parte, y por el organismo denominado Evaluación Nacional de Progreso Educativo para las

Lenguas Extranjeras (FL NAEP, 2000) por otra. En 1996, la ACTFL elaboró el marco nacional de

evaluación de lenguas extranjeras para las escuelas de primaria y secundaria, cuyo objeto

principal es la «competencia en otra lengua y cultura» (Kenyon et al., 2005: 5). Sin embargo, tal

como explican Kenyon et al. (2000) aunque en las publicaciones de la ACTFL se proponen unos

estándares supraestatales, «solo el 70% de los estados tienen estándares que reflejan de forma

completa o parcial los estándares nacionales» (p. 9).


15

La FL NAEP (2000) tiene proyectado realizar la primera evaluación de E/LE con estudiantes

de 12º grado de secundaria para el año 2018, a nivel nacional. El marco de evaluación de la FL

NAEP se basa en la habilidad para comunicarse en contextos de la vida diaria, la escuela y el

trabajo (p. 18). La evaluación se centraría en la demostración de las habilidades de comprensión

auditiva y conversacional en el modo interpersonal; la comprensión auditiva y lectora en el modo

interpretativo; y de la escritura en el modo expositivo (Kenyon et al., 2000: 24).

Los informes de los resultados de las evaluaciones externas son de especial interés para los

ministerios de educación y administradores institucionales, mientras que los de las evaluaciones

internas atañen al docente y al alumnado (Clark y Bamberg, 2003; OCDE, 2005). Esto no significa

que estas pruebas sean excluyentes, como se ha venido considerando en la educación tradicional,

sino que, por el contrario, bajo el enfoque de la educación formativa deben complementarse, de la

misma forma como los tipos de evaluaciones que se llevan a cabo dentro del aula. Sin embargo, la

creación e instauración de vínculos entre las evaluaciones externas e internas debe ganar más

terreno a nivel institucional. La Organización para la Cooperación y Desarrollo Económicos,

OCDE (2005) afirma que «el gobierno debe tomar medidas decisivas para fortalecer la cultura de

evaluación en las escuelas, trabajando para resolver los obstáculos y vincular mejor la evaluación

del sistema, las instituciones y las clases» (p. 91).

La aplicación de una macro o de un micro-evaluación, presenta una diferencia importante

en el grado de intervención permitida o plausible del educador, mientras evalúa al estudiante. Por

lo general, las pruebas gubernamentales externas presentan protocolos y guías de evaluación muy

estructurados. Los administrativos y el cuerpo docente reciben entrenamiento y juran por escrito


16

mantener y asegurar la confidencialidad de las pruebas antes y después de aplicarlas. Durante el

proceso de evaluación, el rol del profesor se limita a administrar el test, siguiendo los protocolos,

y a ser vigilantes de los estudiantes, llevar el control del tiempo, recoger diligentemente los

cuadernillos y planillas de respuestas. Como explican Clark y Bamberg (2003), las evaluaciones

externas «el profesor tiene poca capacidad de decisión en cuanto a ofrecer ayuda o extender el

tiempo de cumplimentación del examen» (p. 2003); esto no sucede con las evaluaciones que se

llevan a cabo en el aula.

En la evaluación interna en el aula, el profesor puede hacer aclaraciones y ser flexible con el

tiempo de administración de la prueba. Incluso, tal como se muestra en este estudio, las

evaluaciones en el micro nivel pueden efectuarse a través de la interacción entre dos tipos de

agentes evaluadores: el alumno, mediante un baremo como estándar, y entre pares o iguales.

Tradicionalmente, se entiende que las instituciones evaluadoras y los evaluadores

certificados o profesores, son los únicos sujetos idóneos para conducir las evaluaciones externas,

dado el nivel administrativo-educativo para el cual se realizan. Pero a nivel de aula aunque aún

perdura la visión tradicional del profesor como agente evaluador por excelencia, se observa una

tendencia creciente a involucrar a los alumnos en este proceso. Sin embargo, se requiere un mayor

soporte científico en la aplicación de esta dinámica, y en el conocimiento de las estrategias y

habilidades necesarias para llevarla a cabo dentro de las aulas de LE. Sadler (2010) explica, por

ejemplo, que formar a los estudiantes en el desarrollo de las destrezas para evaluar, implica

mostrar al estudiante la importancia del cumplimiento de la asignación, la calidad y el criterio, es

decir, «la congruencia entre el tipo de respuesta esperada con base a los parámetros y el tipo de


17

respuesta obtenida del estudiante» (p. 543). Se debe ejercitar a los estudiantes introduciéndolo

como práctica didáctica en el aula, con muestras reales y variadas, mediante conversaciones con

el profesor relativas a la evaluación, de manera que «los estudiantes se encuentren expuestos a

diversos trabajos de diferente calidad, que les permitan crear raciocinios verbales y comentarios

sobre cómo podrían mejorarse» (p. 544).

La metodología de enseñanza, debe mostrar a los estudiantes la importancia y relevancia de

las tareas que se llevan a cabo a diario en el aula, y a su vez, debe ayudar a hacer prosperar en los

alumnos, la idea de ser responsables y también, partícipes de su propio aprendizaje y progreso.

Por otro lado, existe por parte del profesorado la renuencia a permitir que los estudiantes se

evalúen los unos a los otros. Existe desconfianza hacia sus destrezas para hacerlo y hacia su

objetividad. Esta situación estática del sistema requiere de cambios progresivos en el micro-nivel,

que partan de la capacitación del profesor y de la práctica continuada y estratégica de

entrenamiento para la evaluación, aplicación de estrategias evaluativas y retroalimentación en las

tareas diarias que se llevan a cabo en el aula.

Algunos profesores de lengua, habrán experimentado situaciones en las que determinada

tarea de aprendizaje, que ha sido elaborada como evaluación informal o de observación, no es

tomada en serio por los estudiantes, estos no le otorgan el valor que merece, en vista de que no

van a obtener una calificación después de realizarla. Esto se debe a que el sistema educativo

tradicional, ha moldeado en los estudiantes la idea de que todo proyecto o trabajo merece ser

calificado posteriormente. Es frecuente escuchar la pregunta ¿va a calificarlo? Para lo cual, el

profesor responde con un “sí” o en forma precavida con un “cuando terminen les informo”,


18

asegurándose de esta forma, que los estudiantes se pongan a la tarea de empezar y culminar lo

que se les ha pedido hacer. En caso contrario, los estudiantes no hacen el trabajo, o bien lo toman

como algo extra y sin importancia que no tiene ningún fin y consecuentemente, no lo elaboran con

el esmero y dedicación esperados por el docente. No existe en los estudiantes la motivación

intrínseca del saber-aprender, para la obtención de un beneficio personal de aprendizaje. La meta

creada en los alumnos pareciera ser sólo el hecho de recibir una puntuación de aprobado para

avanzar al siguiente nivel.

Se produce una situación similar de apatía, cuando se habla de editar y corregir un producto.

El hecho de sentir que se regresa sobre algo que ya fue evaluado, suena repetitivo y fútil para la

mayoría de los alumnos. En otros casos los estudiantes pueden no aceptar de buen agrado el reto

de asumir la responsabilidad de su propio aprendizaje. Éstas son variables importantes, que

debieran estudiarse como tema central en futuras investigaciones.

Regresando al tema de la evaluación formativa, tanto la evaluación como la intervención

continuada y dinámica son de vital importancia para el aprendizaje. La evaluación-intervención

también debe adaptarse a las circunstancias derivadas de las necesidades individuales del

estudiante, en función de la extensión de su ZDP. Pero, ¿cómo se logra esta adaptación en un aula

y, específicamente, en el aprendizaje de lenguas extranjeras? Jackson y Davis (2000) explican que

«se deben realizar tareas de desempeño que den a los estudiantes la oportunidad de demostrar la

profundidad y complejidad de su conocimiento y destrezas, mientras se les permite mostrar que

pueden usar esas capacidades en el contexto» (p. 55). Se trata de permitir que los estudiantes,

expongan lo que han aprendido en conocimientos y destrezas respecto a la lengua objeto; pero


19

que a la vez, en este proceso, el profesor vaya mostrando a los alumnos, estrategias para solucionar

dificultades y fallos en el dominio de la lengua.

Según todo lo anterior, la tendencia actual de la enseñanza es compartir con los estudiantes

la responsabilidad de aprender: «ellos [los alumnos] participan en el desarrollo de criterios y

estándares para evaluar su desempeño» (Dochy, Segers, Gijbels y Struyven, 2007, p. 88). Por su

parte Fernández (2011) explica y aconseja a los profesores de lenguas, diciendo que «si el aprendiz

es el eje del proceso didáctico, es necesario saber cómo aprende mejor, ayudarlo a conocer sus

estrategias de aprendizaje y conseguir así el aprender a aprender» (p. 5).

Boud y Falchikov (2007) crean un esquema que presenta los elementos básicos, para el

desarrollo de las destrezas implicadas, en la producción de juicios basados en criterios válidos. El

dominio de estas destrezas, capacita para una «evaluación sostenible» (Boud y Falchikov, 2007;

Kirkwood, 2007; Tan, 2007), es decir, que perdura en el aprendiente hacia el futuro.

En suma, los estudiantes deben estar expuestos a tareas y actividades que los preparen para

un aprendizaje no solo a corto plazo, sino también proyectado hacia el futuro, que los capacite

para evaluar su estado de conocimiento de manera que puedan planificar el cumplimiento de sus

metas.

El esquema de estos autores está diseñado para estudiantes universitarios, y sus elementos

se pueden leer en la Tabla 1.


20

Elementos Características

Identificarse a sí

mismo como un

aprendiente activo

Antes de que los estudiantes comiencen a asumir la responsabilidad de auto-evaluarse y

juzgar sus actuaciones, deben verse a sí mismos, primero, como aprendientes, y segundo,

como aprendientes activos. Las tareas y actividades deben estar construidas de forma

que ofrezcan aprendizaje y a la vez la necesidad de aprender más allá de lo mostrado. El

estudiante debe diseñar productos auténticos y crear tareas de evaluación.

Identificar el nivel de

conocimiento propio y

detectar sus lagunas

Evaluar su nivel, sus metas a largo plazo y cómo llegar a ellas; construir, a partir de lo

que saben, hacia lo que no saben. Llegar a ser evaluadores competentes de su aprendizaje

o de sus iguales. Realizar andamiaje.

Practicar, evaluar y

juzgar

Aplicar investigación y destrezas de análisis. Practicar la aplicación de estándares y

criterios como preparación para una auto-evaluación para toda la vida. Buscar

retroalimentación de diversas fuentes.

Desarrollar destrezas

con el tiempo

Practicar y desarrollar juicios, lo cual se logra con el paso del tiempo, no solo para juzgar

y evaluar, sino también para hacerlo con confianza y compromiso ante las circunstancias

que los rodean. Involucra tomar la iniciativa y asumir riesgos.

Incorporar la

reflexividad y el

compromiso

Es una destreza que requiere una voluntad consciente y está integrada en la persona del

aprendiente. Este paso está en continuo desarrollo, como el mismo aprendizaje.

Fomentar la sensibilización para la práctica personal y profesional. Establecer un clima

de enseñanza-aprendizaje que promueva la reflexividad.

Tabla 1. Pasos para la adquisición de criterios de evaluación. A partir de Falchikov y Boud, 2007, p. 186-193

Boud y Falchikov (2007) apoyan el concepto de cultura del aprendizaje formativo y enfatizan

en que debe existir una estrecha relación entre las tareas de aprendizaje y las actividades de

evaluación, que por lo general, se han mantenido separadas en la enseñanza institucional. Es decir,

que mientras el alumno aprende se evalúa. Pero esto sólo se logra si el profesor modela las

estrategias para evaluar, y expone y discute los criterios y estándares esperados en el producto

final. Sólo así, «se vuelven parte de las actividades legítimas de enseñanza-aprendizaje, y las tareas

evaluativas, que en cierta forma son actividades de aprendizaje, se convierten en actividades

válidas de evaluación» (Boud y Falchikov, 2007, p. 191).


21

De hecho, la información relativa al tema de la enseñanza-evaluación ya mencionada, es

muestra que el concepto de educación está dirigiéndose hacia un modelo complejo basado en la

instrucción, el aprendizaje y la evaluación. Es decir, «a la representación de la evaluación como

un instrumento para el aprendizaje, en vez de un instrumento de aprendizaje»

(Dochy et al., 2007, p. 7).

Tanto el trabajo de investigación preliminar como el presentado aquí, muestran algunas de

las estrategias de aprendizaje-evaluación que pueden implementarse en las aulas de lenguas

extranjeras, siguiendo esta aproximación al aprendizaje formativa, que integra instrucción y

evaluación. A continuación después de desarrollar los conceptos básicos relacionados con la

evaluación, se da paso al estudio de un tema central: la retroalimentación. Con el fin de indagar

sobre el uso de instrumentos de meta-reflexión en la evaluación de estudiantes norteamericanos

de E/LE, es fundamental definir y clasificar los diferentes tipos de retroalimentación con los que

cuenta el docente de lenguas extranjeras.

1.2. La retroalimentación

Uno de los procesos importantes dentro de la enseñanza formativa lo conforma la

retroalimentación, sin lugar a duda, es un enlace fundamental entre la evaluación sumativa y la

formativa. Al final de la década de los ochenta, la retroalimentación se definió como un elemento

que buscaba disminuir una laguna de conocimiento, partiendo del estado actual de conocimiento

y enfocado hacia la meta del aprendizaje (Ramaprasas, 1989; Sadler, 1989). Es decir, que en un

primer momento, era una estrategia para remediar un vacío de conocimientos. Sin embargo,


22

Ramaprasad (1989) ahonda más en el concepto y considera la retroalimentación como un todo, ya

que es un «input, un proceso y un output» (p. 5). Es decir, un tutor o revisor ofrece la

retroalimentación que sirve de input o de intervención para solventar el vacío de aprendizaje; el

receptor, en este caso, el alumno, genera un output resultante de la incorporación de la

retroalimentación en la tarea, modificándola o mejorándola. Este output puede servir también

como input para un proceso posterior, de modo que se encadena así un proceso continuo de

aprendizaje-evaluación.

Ramaprasad (1989) también pone en claro un aspecto importante, y es el hecho de que la

retroalimentación puede ser un proceso tanto de acción como de inacción: «cuando se utiliza para

modificar la laguna de conocimiento, o cuando se toma una decisión consciente de no actuar» (p.

8). Es decir, el receptor tiene la opción de aprender e incorporar, o no, la retroalimentación, en la

tarea que está realizando.

Esta opción entre acción o inacción de la retroalimentación también es usada por el tutor o

profesor cuando decide ofrecer la retroalimentación sólo sobre una, y no sobre todas las lagunas

de conocimiento del alumno. En el aula de lenguas, este uso selectivo, se aplica retroalimentando

sobre contenidos que corresponden al nivel de aprendizaje ELE de los estudiantes. Es importante,

discernir cuándo los alumnos pueden estar a destiempo de comprender algunos contenidos,

puesto que no están contemplados todavía dentro de los objetivos curriculares con los que

trabajan en ese momento.


23

Con todo lo anterior, se entiende que el proceso de retroalimentar implica ofrecer y recibir.

Pero cuando se ofrece retroalimentación, la actitud del receptor sobre la misma puede diferir del

propósito para el cual fue proporcionada. ¿Hasta qué punto, estudiantes y profesores coinciden

en la finalidad del uso de la retroalimentación? ¿Es para calificar o para aprender? ¿O ambas? Por

ejemplo en el estudio de Weaver (2006), desde el punto de vista de los estudiantes, la

retroalimentación es el acto de corregir para calificar; y desde la óptica del profesor, es la acción

de corregir para ayudar al aprendizaje del alumno.

Sin embargo, como ya se ha explicado anteriormente, el proceso de la retroalimentación es

más complejo de lo que parece. No se trata solo de corregir y calificar para ayudar a aprender.

Esta manera de ver la utilización de la retroalimentación en el aula es parte de la problemática del

sistema educativo, del cual ya se ha dicho que aún necesita avanzar terreno en el tema de la

educación formativa. Weaver (2006) afirma que «muchos académicos se quejan de que la

retroalimentación no es eficaz, y de todos modos los estudiantes están más interesados en la nota

o marcación, y prestan poca atención a la retroalimentación» (p. 379).

Se ha visto que diversos investigadores reiteran que la retroalimentación tiene sus ventajas

entre ellos se encuentran: Bitchener, J., Young y Cameron (2005); Cassany (2007); Hounsell, (2007);

Fernández, (2010); Ferris (2010) y Sadler (2010). Otros, como Truscott (1996) por el contrario la

señalan como contraproducente, ineficaz e innecesaria para los estudiantes, y por ello consideran

que debe usarse con cautela. Estas distintas formas de valorar la retroalimentación tienen que ver,

de hecho, con la estrategia o la forma de ofrecer la retroalimentación; también sobre qué se

retroalimenta y sobre todo, si se ha visto como necesaria a los ojos de los evaluados. Como se


24

indicó anteriormente, la retroalimentación selectiva se desarrolla en las necesidades de

aprendizaje del alumno; lo cierto es que, parece más prudente pensar en la retroalimentación

como una estrategia que beneficia el aprendizaje de quien la recibe. Otra cuestión, es conseguir

que el receptor la acepte y la incorpore dentro de su esquema de aprendizaje.

Hounsell (2007) en su investigación con estudiantes de educación superior, expone

claramente, cómo una retroalimentación bien estructurada puede beneficiar la instrucción en tres

aspectos importantes: «acelerando el aprendizaje en rapidez o profundidad, optimizando la

calidad de lo que se aprende y elevando el alcance individual y colectivo de los estándares o de

los niveles de rendimiento» (p. 101). Sambell (2013) por su parte, aborda este tema desde el punto

de vista de los estudiantes. Los alumnos reconocen la potencialidad del beneficio de la

retroalimentación, pero creen que esto depende del momento en el cual se reciba. Es decir,

consideran que la retroalimentación es un proceso que, entregado in situ, ayuda a mejorar la tarea

o el producto; sin embargo tienden a opinar que la retroalimentación que se recibe después de

haber sido entregado el producto, es ya demasiado tarde. De hecho, los alumnos creen y afirman

que «la retroalimentación consiste en comentarios escritos, que se reciben cuando ya es tarde para

mejorar» (p. 87). Es posible que esta sea una de las razones por la que los estudiantes no aceptan

con agrado tener que incorporar cambios y reescribir sus composiciones, cuando desde su inicio

hubieran podido lograr un mejor producto, si la retroalimentación se hubiese recibido a tiempo,

es decir, durante el proceso de redacción.

Cuando la retroalimentación se ofrece en un determinado contexto, sea en el aula o extra

clase, parte de su efectividad o aceptación también depende de quién la ofrece: el profesor o el


25

par. Evaluarse entre pares tiene grandes ventajas derivadas del simple hecho que el estudiante

evalúa o es evaluado por un igual. Esto explica por qué se observa, en algunos estudios, que la

retroalimentación colaborativa es más positiva entre los alumnos que cuando interactúan con el

profesor. Lo cierto es que, de acuerdo con el estudio de Sambell (2003), los estudiantes sí desean

recibir retroalimentación. Los alumnos informantes en dicha investigación expresaron el gusto

por tener una participación más activa en su aprendizaje, redefiniendo la palabra aprendizaje

como algo más significativo dentro del aula. Incluso admitieron que «compartir las ideas y trabajar

con pares lleva a crear una retroalimentación propia, y a la vez, a crear un ambiente relajado

mientras se aprende sin sentir que se está aprendiendo» (p. 88). Desde el punto de vista de estos

estudiantes, se concluyó que la retroalimentación del profesor es formal, desigual y rígida,

mientras que entre alumnos, es informal, más equitativa y menos amenazadora.

La aplicación e incorporación de la retroalimentación depende también del conocimiento

del estudiante, de su percepción y destreza individual como aprendiente consciente de sus

necesidades de aprendizaje. En última instancia, es el propio alumno quien juzga la

retroalimentación recibida, y quien decide si aprende de ella y la incorpora en la tarea o producto.

La retroalimentación, entonces, concierne tanto al evaluador como al evaluado. El profesorado se

apoya en los programas curriculares para la toma de decisiones y la planificación del trabajo en

las aulas. Estos programas también requieren una evaluación continua, puesto que son

determinantes para la instrucción. Se convierten en pieza fundamental para los propósitos que los

profesores de lengua tienen en la enseñanza y para la implementación de las tareas diarias en el

aula.


26

Igualmente se debe tener en cuenta la ratio entre profesor y número de estudiantes, dar

instrucción a 12 estudiantes en un aula no es igual que enseñar a 30; este es un factor que puede

facilitar o hacer más compleja la tarea del profesor para reconocer las necesidades particulares de

cada alumno, en la ejecución de las tareas y en el impacto que la retroalimentación pueda tener en

el aprendizaje de sus estudiantes. A fin de ahondar un poco más en este tema, en el siguiente

numeral se hará referencia a las modalidades de retroalimentación, desde el punto de vista de los

agentes, y sus ventajas y desventajas en las aulas L1 y L2.

1.2.1. Tipos de retroalimentación

Al hablar de la retroalimentación, Allal (1985), aunque poco contemporáneo, distinguió tres

modelos de regulación (retroalimentación más adaptación) de la evaluación formativa, que son

muy didácticos para entender los aspectos de la retroalimentación relativos a la fuente, a la

estrategia utilizada y al efecto que tiene sobre el aprendizaje (Tabla 2).

Tipos de

Regulación Origen Estrategia Efecto sobre el aprendizaje

Regulación

Interactiva

Interacción entre:

estudiante-profesor,

estudiante-estudiante,

estudiante-material

didáctico.

Retroalimentación y

orientación

Auto-regulación. Estimula al estudiante

a involucrarse en cada paso de su

aprendizaje.

Regulación

Retroactiva

Realización de una

evaluación formativa al

término de una fase de

enseñanza.

Retroalimentación más

corrección:

remediación.

Permite la identificación de los objetivos

logrados o no de cada alumno. Conduce

a la selección de estrategias para corregir

o superar las dificultades en el

aprendizaje.


27

Regulación

Proactiva

Diversas fuentes de

información que dan

cuenta de las diferencias de

aprendizaje entre los

estudiantes.

Adaptación o

diferenciación en la

instrucción.

Preparación y diseño de nuevas

actividades instructivas.

Responde a las necesidades individuales

de cada estudiante.

Tabla 2. Modelos de regulación. A partir de Allal, 1985, p.5

Según lo anterior, la retroalimentación puede ir del profesor al alumno, del alumno a su

igual, entre el material didáctico y el alumno y hoy en día, también del alumno a sí mismo a través

de la autoevaluación. Por lo general, cuando se habla de ofrecer retroalimentación para mejorar la

habilidad en la escritura, se puede optar por la retroalimentación correctiva (RC) directa o por la

RC indirecta (Truscott, 1996; Bitchener et al., 2005; Cassany, 2007; Fernández, 2010 y Ferris, 2010).

Cuando se implementa la RC directa, el revisor (tutor, profesor o estudiante) identifica el error y

escribe la forma correcta; en cambio con la RC indirecta el revisor sólo deja en claro que existe un

error, para ello utiliza unos códigos conocidos por el estudiante, que anota cerca del error o en el

margen de la hoja, o resalta la ubicación del error subrayando o encerrando el error en un círculo.

Cuando el escritor recibe la retroalimentación, debe valorarla y corregir el error.

En el estudio de Ferris (2010) se muestra que elegir uno de los dos tipos de retroalimentación,

depende principalmente de la capacidad que tengan los alumnos de deducir el error a partir de la

interpretación de la RC indirecta. Ferris (2010) utiliza este tipo de RC con los errores tratables, es

decir, con los errores sobre estructuras que siguen reglas gramaticales, como modos verbales o

artículos que pueden ser fácilmente identificados e interpretados por los estudiantes. La RC

directa por el contrario ser más efectiva para errores idiosincráticos: uso de las preposiciones,

expresiones idiomáticas, elección de palabras y estructuras oracionales. De acuerdo con Ferris


28

«estos errores no son tratables porque no existe un manual o una lista de errores que los

estudiantes puedan consultar para evitar o corregir esos errores» (p. 96). Estos argumentos

concuerdan con las afirmaciones de Lam (2010) quien sostiene que «si la retroalimentación es

netamente enfocada a errores no tratables, su efectividad se reduce» (p. 118).

Fernández (2011) por su parte explica que en las clases de lengua deben aplicarse criterios

de corrección y evaluación «de acuerdo al nivel de lengua y a la tarea a realizar, estableciendo los

tipos de errores a tener en cuenta y del uso de la RC indirecta, a fin de que los estudiantes

solucionen e interioricen el problema» (p. 7). Otra tipología más compleja de los diferentes tipos

de RC se encuentra en el trabajo de Ellis (2009), que también se basa en las estrategias de RC directa

e indirecta, pero añade el factor metalingüístico y la respuesta de los estudiantes a la revisión y

corrección (Tabla 3).

Tipo de retroalimentación

correctiva Descripción

RC directa Mostrar el error ya corregido.

RC indirecta Indicar que hay un error pero no corregirlo.

Indicando + ubicando el error Subrayar y marcar para mostrar las omisiones en el texto.

Sólo indicando el error Mostrar el error sobre el margen o en determinado renglón del texto.

Retroalimentación

metalingüística

Entregar un comentario explícito acerca de la naturaleza del error.

Uso de un código para el error Escribir en el margen de la hoja el código de la categoría de error.

Descripciones gramaticales

breves

Enumerar los errores en el texto y describir la gramática al final del

texto.

1. Perspectiva de la

retroalimentación

Referente a si el revisor corrige todos los errores, la mayoría o

selecciona uno o dos errores específicos para corregir.

No selectiva La RC es extensiva, es decir, se corrigen todos los errores.

Selectiva La RC es intensiva, es decir, dirigida a errores específicos.


29

2. Retroalimentación electrónica Indicar un error y mostrar un enlace a un archivo o corpus con

ejemplos de buen uso.

3. Reformulación Un hablante nativo reconstruye el texto del alumno para

aproximarlo al lenguaje nativo, manteniendo el contenido del texto

original intacto.

Luego los estudiantes estudian sus textos ya reformulados o

corregidos.

A. Respuesta de los estudiantes a la

RC

Atención a los errores, incorporación de la RC en la re-escritura del

texto, o para aprender sobre la lengua.

1. Revisión requerida Para editar o examinar las correcciones. Los estudiantes estudian las

correcciones.

No requiere revisión Se entrega a los estudiantes el texto ya corregido.

Tabla 3. Tipos de retroalimentación. A partir de Ellis, 2009, p. 98

La modalidad de retroalimentación metalingüística puede considerarse como el punto

medio entre la RC directa y la RC indirecta. En ella se muestra al estudiante la descripción o las

pistas sobre la naturaleza del error, con la idea de que sea el estudiante quien realice la corrección

requerida; se informa al alumno sobre la bibliografía que puede consultar, o el profesor le muestra

ejemplos, explicaciones o modelos (Cassany, 2007; Fernández, 2010). Tomando como referencia

algunos estudios en L1 y L2 de autores como: Weaver, 2006; Poulos y Mahony, 2008, Wingate,

2010; Orsmond et al., 2013 y Sambell, 2013; se sintetizan a continuación en la Tabla 4 los factores

del evaluador y del alumno que afectan a la buena aceptación e implementación de la

retroalimentación.


30

Factores individuales Factores intervinientes

Efectividad de la RC al

final del producto

Factores que influyen

en la efectividad

Evaluador Creencias y valores.

Entendimiento sobre el

fin de la

retroalimentación.

Ofrecer comentarios

negativos o enfocados

solo en las debilidades del

estudiante; comentarios

ambiguos, cifrados o

incomprensibles.

Tono displicente,

imperativo o severo.

Retroalimentación

tardía.

Retroalimentación

desligada de los

criterios de evaluación

establecidos.

Primera vez que se

implementa como

método y expectativa

en el aula

Estudiante Cómo interpretarla.

Nivel de comprensión

de la materia.

La percepción o

credibilidad que tienen

los estudiantes del

profesor o estudiante

evaluador.

Desmotivación desde

afuera.

Motivación intrínseca del

estudiante.

Autoestima.

Se considera inútil e

irrelevante, a menos

que pueda utilizarse

para otra tarea en el

futuro.

Primera vez que debe

usarla e

implementarla como

requisito de clase.

Tabla 4. Factores del evaluador y del alumno, que impactan en la aplicación de la retroalimentación

En el contexto de la enseñanza de lenguas en las escuelas de educación secundaria, los

profesores se enfrentan a retos importantes en materia de corrección y retroalimentación escrita.

Estos pueden tener que ver con la gama de niveles de desempeño que haya en una misma aula,

con el nivel de preparación y experiencia del profesor y con la motivación de los alumnos para

aprender.

Guénette (2012) investigadora y formadora, en su estudio con 18 maestros y 64 estudiantes

de grado noveno de secundaria, muestra una serie de problemas, retos e implicaciones que

aparecen sintetizados en la Tabla 5. De cara a solventar estos retos la investigadora sugiere que

para implementar la RC, el profesor puede «proveer (la forma correcta) o promover (dando ayuda


31

a través de diferentes métodos, reprimiendo la respuesta correcta), dar corrección selectiva,

incentivar a la escritura pero no corregir todas las redacciones y enseñarles [a los alumnos] a auto-

editar» (p. 121).

Problema Retos e implicaciones

Adaptar la RC y

responder a las

necesidades

individuales.

Diversidad de niveles de desempeño en el aula. Mayores dificultades con estudiantes de bajo

desempeño: la lectura y corrección de sus composiciones, cómo enfocar la RC, qué tipo de RC

usar, cómo explicar estructuras lingüísticas complejas. Cómo evitar la fosilización de errores

no corregidos. Cómo evitar que un estudiante que sabe que ha cometido errores, adopte una

mala imagen del profesor, si éste no corrigió todos los errores, al usar una RC selectiva.

Diagnosticar los

errores.

No todos los profesores tienen formación lingüística o un extenso conocimiento gramatical,

como para denominar cada error de forma específica.

Temor a

desmotivar a los

estudiantes.

Para evitar afectar a los sentimientos, autoestima y motivación de los estudiantes, los

profesores, optaron por usar RC selectiva, aun cuando dudaron en relación a qué error

corregir. Optaron por errores más molestos, como ortográficos y de puntuación, repeticiones

y, en general, errores que dificultaban la comunicación.

Motivación Cuando los estudiantes no muestran progreso con el tiempo, o no muestran interés por

mejorar, se disminuyó la motivación de los profesores para dedicar tiempo a ofrecer

retroalimentación.

Tabla 5. Problemas y retos de los profesores en el uso de la RC. A partir de Guénette 2012, p. 119-121

Otro factor importante en la corrección de la escritura, se relaciona con la cantidad de trabajo

que tiene el profesor para corregir. Cuando evalúa composiciones sucesivas de acuerdo al estudio

de McMartin (2014), la aplicación de la retroalimentación puede sufrir inconsistencias. En el

trabajo de McMartin (2014) se explica que el profesor puede iniciar con una RC selectiva en el

primer texto y continuar en el siguiente con una RC comprehensiva o extensiva; asimismo observa

que la variabilidad puede darse entre los distintos profesores revisores, aun cuando enseñen una


32

misma asignatura en la misma institución. Estos son factores que deben tenerse en cuenta, para

mejorar la coherencia y la normalización de la retroalimentación en la institución y en las aulas.

Una dinámica que favorece la efectividad de la retroalimentación es la planificación de

conferencias o entrevistas, que ofrecen una oportunidad importante para que los alumnos

formulen preguntas acerca de sus errores y correcciones, para que reciban explicaciones

adicionales o ejemplos, cuando sea necesario (Bitchener et al., 2005; Ferris, 2010).

La RC puede también aplicarse de forma automatizada, con el uso del ordenador. Este

método puede ser efectivo para valorar las composiciones de los estudiantes, como se observa en

Lai (2010), además de rápido e inmediato; no obstante, tal como se muestra en la investigación

presente, con este método se pierden los beneficios de la interacción social que resulta de las

negociaciones y revisiones por pares, cuando los estudiantes trabajan cara a cara. Por ello es

necesario otorgar también una calificación participativa, como forma de motivación para que los

pares realicen la actividad a conciencia y con responsabilidad. En el siguiente apartado se hace

referencia a este importante aspecto de la interacción social, desde la perspectiva del trabajo

colaborativo.

1.2.2. Retroalimentación por pares

La interacción entre pares como actividad de negociación y evaluación colaborativa, es una

estrategia formativa importante cuyos preceptos se fundamentan en la teoría sociocultural de

Vygotsky (Citado en Kozulin, 1986, p. xxxv) en donde se afirma que:


33

La zona de desarrollo próximo (ZDP) es el lugar en donde los conceptos espontáneos, empíricamente ricos pero desorganizados del niño, se encuentran con el razonamiento sistemático y lógico del adulto (…) El producto final de la cooperación niño-adulto, es una solución, que si se internaliza, se convierte en una parte integral del razonamiento propio del niño (…) el cual [el razonamiento] es un indicador más sensible de sus habilidades intelectuales.

El trabajo colaborativo en la práctica se aplica desde diversos enfoques, donde se

correlacionan el planteamiento, la metodología y la ejecución con los conceptos de instrucción,

aprendizaje y evaluación. Cuando se implementa un trabajo colaborativo por pares donde un

estudiante de un nivel superior, entrenado o experto, ayuda a otro alumno a cambio de un

beneficio académico, remuneración o mérito personal, se está utilizando la estrategia de

instrucción por pares o tutoría por pares (Boud, 2001; Medcalf, Glynn y More, 2004; Longfellow

et al., 2008; Alzate y Peña, 2009). Por lo general este tipo de tutorías se lleva a cabo en horarios

después de la escuela, en las instituciones de educación superior. Es un proceso de instrucción

dirigido a fomentar el aprendizaje del menos experto.

Dentro del aula donde los alumnos tienen un mismo rol y se encuentran en el mismo estatus

en relación a la autoridad y las responsabilidades, es más común utilizar la estrategia de

aprendizaje colaborativo. Se establece «una actividad de aprendizaje recíproco, de dos vías […],

una forma de moverse más allá del aprendizaje independiente, de ir hacia un aprendizaje

interdependiente o mutuo» (Boud, 2001, p. 3). Serrano, Pons y Ruiz (2007) explican que el

aprendizaje mutuo permite al individuo llegar a un punto llamado «desarrollo potencial» (p. 136)

que en realidad hace referencia al límite máximo de la ZDP del estudiante.


34

El aprendizaje colaborativo se realiza agrupando a los estudiantes por diadas, triadas o por

grupos pequeños dentro del salón de clase. Esta estrategia de trabajo en equipo estimula la acción

dinámica de negociación y participación, comprometiendo a los alumnos en la búsqueda de

soluciones que lleven a la culminación de los objetivos de aprendizaje. Para lograr este fin se

requiere aplicar determinadas habilidades de aprender a aprender, que se explican en la Tabla 6.

Resultados de

aprendizaje

Características de las habilidades

Trabajar con otros Trabajar en equipo; ser miembro de una comunidad discente; incentivar el sentido de

responsabilidad en el auto-aprendizaje y en el aprendizaje de otros; afianzar la

confianza y autoestima; reconocer el conocimiento previo y las contribuciones del otro;

desarrollar habilidades de colaboración y planificación.

Indagación crítica y

reflexión

Las negociaciones detalladas permiten discutir y justificar puntos de vista, preguntar y

responder cuestionamientos, promover el pensamiento reflexivo y la reevaluación,

intercambiar información sobre la materia sin la presencia del profesor, aclarar lo que

no se entiende, aprender a recibir críticas del otro y a escuchar.

Comunicación y

articulación de

conocimiento,

entendimiento y

habilidades

El desarrollo de conceptos a través de la evaluación y el cuestionamiento de ideas, y el

ensayo de posturas para expresar su comprensión, permite a los estudiantes apreciar si

tienen una buena noción del tema.

Gestión del aprendizaje y

cómo aprender

Desarrollar autogestión de habilidades y su manejo en la colaboración con otros;

cooperar para abordar tareas con mínimas directrices; auto-responsabilidad y

corresponsabilidad para identificar sus necesidades de aprendizaje y planear para

resolverlas en un tiempo limitado; aprender a aprender; tener conocimiento de las

implicaciones de las propias decisiones de aprendizaje en el aprendizaje de otros.

Autoevaluación y

evaluación de pares

Permitir la evaluación formativa, dar y recibir retroalimentación en un contexto donde

el estudiante puede compararse con el otro, como en el mundo real, donde suceden

situaciones informales de evaluación; practicar para identificar los criterios para auto-

evaluar el aprendizaje y aplicarlo en diferentes circunstancias durante toda la vida.

Tabla 6. Fines del aprendizaje por pares y sus implicaciones. A partir de Boud, 2001, p. 8-9


35

En los estudios de Saito y Fujita (2004), Falchicov (2007) y McLeod et al., (2009) se habla

sobre la evaluación por pares como un método en el cual se emplean estrategias de aprendizaje-

evaluación formativos. Durante la evaluación por pares se enseña a los estudiantes a auto-

evaluase, a mejorar las habilidades de reflexión o la auto-conciencia sobre los criterios de

evaluación, a ser autónomos, independientes, eficientes y responsables de su propio aprendizaje.

Berridge (2009) explica que «este tipo de actividad práctica, donde el aprendizaje está centrado en

el alumno, permite la reflexión sobre la propia labor observando el trabajo de otros» (p. 7), para

juzgar, valorar y puntuar (Armstrong y Paulson, 2009; McLeod et al., 2009). De acuerdo al tipo de

estrategia utilizada en la evaluación por pares, Min (2006) habla de la revisión por pares, y señala

que es vista como una labor más global de interpretación, corrección y otorgamiento de cualquier

tipo de retroalimentación. Y se puede mencionar la respuesta de pares de Peterson (2003),

Armstrong y Paulson (2009), que se realiza mediante una sesión grupal enfocada en la audiencia

o en la respuesta del lector, y cuya estructura normalmente involucra preguntas y discusiones en

grupo para ofrecer retroalimentación. También se habla de la edición por pares que es,

básicamente, el uso de una lista de verificación que permite a los pares detectar errores globales o

locales en una composición (Armstrong y Paulson, 2009).

La iniciativa de implementar este tipo de táctica instructiva en las aulas se realiza en algunas

instituciones que empiezan a involucrarse con la enseñanza formativa. Sin embargo este proceso

no se ha implementado globalmente, como sostienen Serrano, Pons y Ruiz (2007) y Berridge

(2009); ya que aún se observan impedimentos dentro de algunos estamentos o entre el

profesorado; por ejemplo, cuando se trata de compartir la responsabilidad de coevaluar

(Fernández, 2011, p. 4) con los estudiantes, trabajando por pares para revisar tareas o


36

composiciones de otros, negociando significados y estableciendo y aplicando criterios para

calificar. No obstante esta situación debería promoverse desde normativas gubernamentales;

Serrano, Pons y Ruiz (2007) creen que es necesario que los interesados en el tema traten de

emprender un cambio legislativo: «hemos de intentar una reforma educativa que parta de

nosotros mismos y que tenga a la cooperación y al proceso de interacción entre iguales como eje

director de toda didáctica» (p. 136). Sin embargo a veces se encuentran impedimentos por parte

de las instituciones. Berridge (2009) menciona la falta de apoyo en forma de recursos educativos

que establezcan un ambiente de aprendizaje cooperativo en las aulas de secundaria, por ejemplo

en el área de las Ciencias Sociales. Destaca también que en los estándares educativos del estado

de California, en la sección que trata sobre las competencias lingüísticas, aun cuando mencionan

el proceso de escritura por pares, se observa en ellos «un lenguaje vago y abstracto (…); y parece

que la revisión por pares no se aplica de forma sistemática o la didáctica no se comprende cuando

se trabaja con estudiantes de secundaria» (p. 9).

En las reglamentaciones educativas del Estado de Texas, se observa una descripción amplia

de las competencias lingüísticas para los grados 6º a 8º (TEA, 2010ª, p. 128.B) y 9º a 12º (TEA, 2010,

p.128.B14). En las descripciones para los grados 6º a 8º se resalta la coexistencia del inglés y el

español, así como su importancia en la educación bilingüe. La normativa del área del lenguaje

establece como estándares para la escritura y la composición que los estudiantes: planeen,

redacten, revisen, editen borradores y publiquen su trabajo para determinada audiencia (TEA,

2010ª, p. 128.B.14). Se enfatiza en la escritura de diferentes géneros, en la atención a la forma y

elementos del lenguaje escrito; a pesar de que se habla de la implementación del trabajo en equipo


37

para las tareas auditivas o conversacionales, con la finalidad de intercambiar y contribuir con

ideas, no se hace referencia al uso de esta estrategia para la lectoescritura.

Si bien para los grados 6º a 8º se hace alusión a la educación bilingüe y a la coexistencia entre

el español y el inglés, en los estándares para los grados 9º a 12º se explica de manera amplia la

adquisición, desarrollo y dominio de las habilidades receptivas de audio-lectura y las habilidades

expresivas para la conversación y escritura de los aprendientes de inglés, además de las metas que

conciernen a los nativo-hablantes de otras lenguas en las clases de IL2 (TEA, 2010b, p 128.C). Los

estatutos enfatizan en los diferentes niveles de desempeño y en la implicación que tiene, tanto

para los aprendientes de inglés como, sobre todo, para los estudiantes recién llegados al país, no

solamente aprender el idioma en un registro estándar sino también capacitarlo para que domine

el lenguaje académico: «el reto no es solo aprender inglés, sino aprender en inglés (…) su éxito

académico depende de su habilidad para usar el lenguaje académico» (TEA, 2010b, p. 128.C31.a5).

Con todo lo anterior, se observa que a pesar de que las normativas estatales hacen una

descripción muy extensa de las competencias lingüísticas, tanto para los alumnos nativo-

hablantes como para los aprendientes de inglés, el tema que nos concierne, el trabajo por pares en

los grados de 6º a 12º sólo se menciona en la subsección de redacción y únicamente se alude a él

como respuesta a la retroalimentación por pares y del profesor, para ser implementada en la

revisión final del borrador (TEA, 2010, p 128 B.18.b14E; TEA, 2010b, p.128.C 31.b13E).

Afortunadamente, aun cuando no hay reglamentación explícita y extensa sobre la revisión

por pares, varios investigadores han hecho importantes aportes en el tema, empezando por


38

McMurry (2004), Lam (2010), Thomas, Martin y Pleasants (2011); quienes tratan sobre los aspectos

que deben tenerse en cuenta durante el proceso de planificación y ejecución de un trabajo de

revisión por pares. McMurry por ejemplo menciona que es importante prestar atención a aspectos

como:

El papel de la retroalimentación del profesor y de los pares. El uso de la retroalimentación por pares en niveles de desempeño bajos. Las dimensiones sociales de los grupos. La influencia de la revisión por pares en la revisión misma. La preparación de los estudiantes para realizar revisiones por pares. La eficacia de la preparación. McMurry (2004, p. 2)

Lam (2010) mostró que a los estudiantes de primer año de escritura ILE, se les puede

introducir en los procesos de evaluación a través de un entrenamiento guiado. En una instrucción

realizada en forma de taller, se modelaron los aspectos claves del proceso de la revisión por pares:

la corrección de errores, la exploración con muestras reales, el uso de un baremo, el seguimiento

de la retroalimentación y charlas sobre la concienciación del rol como revisores. Lam consideró

estos aspectos fundamentales para la preparación de los estudiantes en el cumplimiento de esta

estrategia colaborativa.

Thomas et al. (2011) por su parte, también pone énfasis en la importancia del rol del profesor

como moderador, pero desde aspectos más puntuales: el control de la ansiedad de los estudiantes,

asegurar el anonimato de los productos o composiciones, establecer un marco de

retroalimentación focalizada, constructiva y aumentar la confianza de los estudiantes: «si la

evaluación por pares fuese considerada por algún participante como injusta, yo [el profesor]


39

podría entonces abordar las inquietudes que hubieran tenido durante el proceso de evaluación»

(p. 6).

En cuanto a la efectividad de la colaboración por pares, se han encontrado diversos factores

que pueden influir en ella. Algunos de ellos están relacionados con las características intrínsecas

del alumno; otros hacen referencia al uso de la retroalimentación, la configuración y las actitudes

de los grupos, y la motivación extrínseca. Entre los factores que tienen que ver con el estudiante

se encuentran: la competencia lingüística L2 de los alumnos (Nelson, 1993; Lee, 1997; Fernández,

2010), el uso de la L1 durante las interacciones (Guerrero y Villamil, 2000) y la particularidad de

la ZDP del estudiante en relación a la lengua L2 (Aljaafreh, 1994; Guerrero y Villamil, 2000). El

éxito de la colaboración por pares depende también del uso o la no incorporación de las

sugerencias o correcciones del evaluador (Nelson, 1993; Chen, 2009; Fernández, 2010). Dentro de

las variables relacionadas con la dinámica o interrelación entre los pares, se encuentran: la actitud

de los pares, que puede o bien interferir o bien promover la reformulación y corrección de los

textos (Nelson, 1993; Chen, 2009); la relación socio-afectiva entre los estudiantes (Lee, 1997;

Kamimura, 2006); si los grupos, diadas o triadas son fijas o cambian regularmente (Kamimura,

2006; Lai, 2010; Diab, 2010; Wang, 2014), y las diferentes formas de mediación estudiante-profesor,

estudiante-estudiante o profesor-estudiantes (Danli, 2008). Finalmente influye también el

incentivo de recibir una nota participativa por retroalimentar y participar en el trabajo por pares

(Min, 2006; McLeod y otros, 2009; Lai 2010).

Cuando en el trabajo por pares los estudiantes ofrecen puntuaciones o marcaciones y se

comparan con las de los profesores Falchikov y Goldfinch (2000), estos encontraron que las


40

variaciones dependen principalmente de: la asignatura, el nivel del curso, el número de

estudiantes involucrados y su familiaridad con los criterios, la tarea evaluada y la metodología

empírica llevada a cabo; aclaran que cuando se «comparan las puntuaciones entre los pares, se

analiza su fiabilidad. Cuando se contrastan con las del profesor, considerándolas como estándar,

se pone a prueba la validez de las puntuaciones» (p. 288). Saito y Fujita (2004) en su estudio con

61 estudiantes japoneses universitarios, en una clase ILE de escritura observó que entre las

puntuaciones de los pares y las del instructor se establecía una correlación significativa, en

comparación con las puntuaciones de auto-evaluación L2.

En la presente investigación se propone observar la interacción de los estudiantes con el uso

del baremo en su autoevaluación durante la etapa de escritura, y su aplicación mientras se realizan

los procesos de revisión colaborativa.

1.3. Baremos

Para definir el concepto de baremo se puede acudir a enunciados descriptivos como:

«representación didáctica de una o varias escalas, categorías, criterios y descriptores».

Generalmente en la bibliografía se encuentran definiciones que combinan la descripción con la

funcionalidad. Andrade H. G. (2000) los llama más específicamente baremos didácticos, ya que

«desdibujan la distinción entre instrucción y evaluación» (p. 13), es decir que, con su uso se

aprende y se evalúa a la vez. La OCDE (2005) hace referencia a los baremos cuando habla de

«procesos de retroalimentación que permiten a los alumnos dar una apreciación sobre la base de

unos criterios de desempeño definidos para cada tarea» (p. 40). Prati (2007) por su parte se refiere


41

a los baremos como bandas o escalas que se usan para puntuar el desempeño de los estudiantes.

Andrade H. G. (2005) y Andrade (2007), agregan a esta definición atributos como: «informativos

y evaluativos». Se ha mencionado también que el baremo «es un conjunto articulado de criterios

que expresan las expectativas de los objetivos de aprendizaje de una actividad específica, y

evaluación de un curso» (Hawk, 2009, p. 612), o un «set de criterios por medio del cual se evalúa

el trabajo del estudiante» (Sandrock, 2010, p. 102.1). Ghanbari, Barati y Moinzadeh (2012) se

refieren a los baremos como «escalas que median la relación entre las dimensiones teóricas de

evaluación, como objetivos y metas, y la puntuación final» (p. 87).

Un baremo, por lo general, además de mostrar la descripción de las dimensiones de la tarea

o asignación (Jackson y Davis, 2000; Goodrich, 2000; Stevens y Levi, 2005), presenta algún tipo de

escala categórica y/o numérica. Como ejemplos de baremos categóricos están: la escala de ILR

(acento, fluidez, gramática, vocabulario y comprensión) (Wilds, 1975, p. 39), la escala de Hamp-

Lyons (calidad comunicativa, organización, argumentación, precisión lingüística y adecuación

lingüística) (Barkaoui, K., 2010b, p. 59).

En los baremos se pueden utilizar términos como bajo, intermedio, alto; o cualquier

gradación de palabras que indiquen unos niveles de dominio, desempeño, o un determinado

logro o «criterio evaluativo» (Popham, 1997, p. 59). La cantidad de niveles del baremo varía en

función de su propósito; puede tener solo uno, o varios. Popham (1997) insiste en que el baremo

debe ser «breve y detallado» (p. 74). Stevens y Levi (2005) sugieren que oscile entre tres y cinco

niveles, ya que «cuantos más niveles hay, se hace más difícil distinguir entre uno y otro, así como


42

articular en forma precisa por qué el trabajo de un estudiante cae en determinada escala de nivel»

(p. 8).

La investigación relativa a la implementación de los baremos en los diversos estamentos

educativos, ha mostrado que aportan grandes beneficios; en general ayudan a los profesores a

«definir los objetivos de aprendizaje, de forma que puedan planear la instrucción de forma

eficiente, ser más coherentes al calificar el trabajo de los estudiantes y más sistemáticos en

informar sobre el progreso del estudiante» (Arter, 2000, p. 1). Normalmente los baremos se

utilizan para dar una puntuación a actuaciones o productos del estudiante, o de los mismos

educadores (Popham, 1997; De la Fuente et al., 2003; Stevens y Levi, 2005), pero también ayudan

a que los estudiantes a que aprendan los conceptos clave de una tarea, sobre los cuales serán

evaluados (Reynolds-Keefer, 2010; Thomas et al., 2011); así que adicionalmente estos instrumentos

ayudan a la retroalimentación, por cuanto muestran de forma clara, oportuna, explícita y

consistente las expectativas y criterios de desempeño (Stevens y Levi, 2005; Jonsson y Svingby,

2007; MSCHE, 2007; Cooper y Gagan, 2009).

Hafner y Hafner (2003) añaden que la escala superior del baremo, la de mayor puntuación

es la más importante, ya que «comunica cómo se debe ver un trabajo de buena calidad» (p. 1509).

Jackson y Davis (2000) sugieren que profesores y estudiantes elaboren las escalas y determinen el

tope máximo de las mismas, y hacen hincapié en que «los baremos con numeración par funcionan

mejor que los impares, ya que los evaluadores con frecuencia eligen el puntaje medio en una escala

impar» (p. 60).


43

Los baremos «permiten evaluar el progreso en forma individualizada» (Skelton et al., 2014,

p. 8), dan idea de la efectividad de la instrucción y del aprendizaje de los estudiantes en el aula;

fomentan la auto-reflexión e involucran al estudiante en un aprendizaje constructivo (Hafner y

Hafner, 2003; MSCHE, 2007; Acevedo, 2012, 2013). En el mismo orden de ideas los baremos

promueven el aprendizaje formativo y la autoevaluación, por cuanto quienes los usan pueden

comparar y hacer un seguimiento en la cumplimentación de las expectativas y procedimientos

(Skelton et al., 2014; Stevens y Levi, 2005; Jonsson y Svingby, 2007; Acevedo, 2013).

Adicionalmente los baremos llevan a la producción de juicios, que pueden ser válidos si se

complementan con un entrenamiento de los evaluadores con muestras de las tareas o productos,

similares a los que se van a medir (Stevens y Levi, 2005; Jonsson y Svingby, 2007; Reza y Lovon,

2010; Othman, 2010). Jonsson y Svingby (2007); en su aproximación a este aspecto dicen que los

baremos por sí solos, no facilitan un juicio válido sobre el desempeño, aunque «validar el baremo,

facilita la evaluación» (p. 130). Afirmaciones similares sostienen que los baremos «tienen la

capacidad de ofrecer puntajes congruentes y confiables» (Jonsson y Svingby, 2007, p. 135). No

obstante Usman (2004) especifica que esta congruencia de las puntuaciones es susceptible de

variabilidad o divergencia, como consecuencia de «la experiencia que tienen los revisores en la

enseñanza y en la evaluación» (p. 9), o en la práctica previa de los evaluadores en el uso de

baremos; como consecuencia del diseño del instrumento, es decir, en qué medida la redacción y

el lenguaje utilizados en los descriptores, facilitan o no su interpretación y aplicación coherente

en el momento de puntuar las tareas, actuaciones o productos de los estudiantes (Stevens y Levi,

2005; Barkaoui, 2010a, 2010b; Othman, 2010).


44

Haciendo un poco de historia, aproximadamente cuarenta años atrás, cuando surgió una

inquietud colectiva entre los evaluadores de lenguas del momento, se realizaron algunos

simposios y seminarios para discutir acerca del desarrollo e investigación en materia de

evaluación L2, como está documentado en Randall Spolsky 1975; en este año investigadores de

Estados Unidos, Europa y Canadá compartieron sus preocupaciones sobre la necesidad de evaluar

la habilidad de los aprendientes de lenguas, tanto en contextos escolares, universidades y lugares

de trabajo. Por aquellos tiempos ya se había documentado el uso de descriptores y escalas

numéricas, para definir niveles de competencia con trabajadores del gobierno y en clases L1. Ya

se tenía conocimiento de elementos importantes a tener en cuenta para la evaluación, como: el

tipo de estrategia, costes, contextos de evaluación y tiempo de duración de las evaluaciones. Sin

embargo poco se sabía sobre la evaluación de la escritura, ya que las necesidades primarias en

aquel entonces se dirigían a la preparación y evaluación de las aptitudes interpretativas e

interpersonales L2 de los estudiantes. En 1975 el enfoque evaluativo parecía centrarse

principalmente en las habilidades para la conversación, la lectura, la habilidad auditiva y la

comprensión lectora en L2 (Clark, 1975; Wilds, 1975; Groot, 1975; Bondaruk, Child, y Tetrault,

1975).

La escala numérica de evaluación más sencilla que se conocía era la escala o descriptores de

ILR (Interagency Language Roundtable), utilizada por el Instituto de Servicio Exterior (FSI), para

evaluar las destrezas comunicativas en IL2 de los empleados del gobierno de Estados Unidos en

el exterior (Wilds, 1975; Jones, 1975). Presentaba descriptores para evaluar: el acento, la fluidez, la

gramática, el vocabulario y la comprensión (Wilds, 1975, p. 39). La escala se dividía en seis niveles

desde la habilidad no funcional (0) hasta el nivel de un nativo educado IL1, de acuerdo con Lange


45

y Lowe (ILR, 2014); es decir, fue una escala que se construyó pensando en el desempeño de un

hablante L1 para evaluar aprendientes L2.

Durante la misma década, en 1974, el investigador Diederich (1974) del Servicio de Pruebas

Educativo (ETS), elaboró unas escalas analíticas para evaluar la escritura en inglés L1 de

estudiantes de décimo, onceavo y doceavo grado de secundaria; estas escalas contemplaban dos

categorías importantes: la parte mecánica (uso, puntuación, ortografía y caligrafía) y la parte de

mérito general (ideas, organización, redacción y «sazón»); cada una con descripciones de nivel de

desempeño: alto, medio y bajo (p. 54). Estas dos escalas elaboradas por la FSI y la ETS, fueron las

plantillas que se tomaron como modelo para otras escalas posteriores, creadas para evaluar el

desempeño y habilidades en L1 y L2 en Estados Unidos.

Más tarde, Jacobs et al., (1981) publicó el Manual Práctico de Evaluación para la

Composición IL2, dirigido a profesores de estudiantes IL2 a nivel universitario, que abriría un

nuevo panorama de evaluación enfocado en la escritura L2. De acuerdo a sus creadores, se elaboró

con el fin de «ayudar y estimular al profesor hacia un programa evaluativo enfocado en los

aspectos comunicativos de la lengua, particularmente del discurso escrito» (p. iv). El Manual va

desde la explicación y fundamentación teórica para la creación de un programa de evaluación

(base teórica de las evaluaciones directas y la composición como instrumento para evaluar) hasta

la planificación y aplicación de los procedimientos de evaluación de la escritura IL2.

Los investigadores sostienen que los aspectos principales en los que debe centrarse la

evaluación son la validez y la fiabilidad; para ello propusieron tres pasos básicos que aseguraran


46

una evaluación fiable: «la adopción de un enfoque de evaluación holístico, el establecimiento de

criterios y la configuración de un estándar de evaluación común» (p. 28). Con ello diseñaron el

esquema para evaluar una composición, de la cual se hará una descripción más detallada en el

siguiente apartado relativo a los baremos holísticos (ver 1.3.1.).

A pesar de que los baremos se han venido integrando en las aulas como instrumentos

didácticos, algunos investigadores de otras disciplinas han señalado que los baremos no deben

usarse para todos los propósitos en el aula, y que deben utilizarse con cierta cautela, especialmente

si van en detrimento de la creatividad y originalidad de los productos de los alumnos (Arter, 2000;

Wilson, 2006; Chapman e Inman, 2009). Arter (2000) por ejemplo advierte que no hay que sobre-

baremar (over-rubric), indicando que los profesores deben utilizar baremos selectivamente: «deben

escoger los productos y destrezas que más se beneficiarían con esta práctica» (p. 3). Andrade H.

G. (2005), afirma que los baremos no son «auto-explicativos ni reemplazan la buena enseñanza»

(p. 29) en el aula. En sus crítica Wilson (2006) llama a los baremos «las vacas sagradas, porque

hacen promesas grandes como ahorrar tiempo y reducir un proceso engorroso, a cuatro o seis

hileras de cuadros muy ordenados» (p. 2). Chapman e Inman (2009) por su parte afirman que

cuando se usan los baremos en exceso, «éstos limitan la imaginación del alumno, se enfocan en el

acto del estudiante para seguir, no para explorar o entender y restringen al estudiante dentro de

límites arbitrarios» (p. 201). Sin embargo se puede decir que recordar que estas observaciones en

contra de los baremos, han provenido de clases que no son de LE, donde la investigación ha

mostrado resultados muy alentadores y contrapuestos a los arriba mencionados.


47

La adopción y aplicación de baremos en la enseñanza de lenguas se ha ido extendiendo por

Europa y Estados Unidos, las instituciones educativas han visto la necesidad de realizar la

normalización de las escalas, para hacer su validación en concordancia con el contexto y la

población en las cuales se van a emplear (Popham, 1997; CVC, 2002; Ghanbari et al. 2012). Como

se documenta en Popham (1997), «los baremos inicialmente se usaron para pruebas

estandarizadas a gran escala. Cuando las editoriales y educadores los llevaron al aula, muchos de

estos baremos se emplearon como modelo» (p. 75). Un ejemplo se documenta en las

investigaciones de Butler y Stevens (1998) sobre la validación de descriptores de desempeño para

la escritura IL2, en escuelas de educación media y superior de California.

Las plantillas que han servido de plataforma para los baremos actuales provienen por

ejemplo: del Proyecto Suizo del Consejo Superior de Investigación Científica (North y Schneider,

1998), del Consejo Americano de Enseñanza de Lenguas Extranjeras (ACTFL, 1998, 2012) y de la

entidad de Evaluación Nacional de Progreso Educativo para Lenguas Extranjeras, FL NAEP

(NAEP, 2000, p. 14). El primero inició la estandarización de los descriptores y el uso de las escalas

para lenguas extranjeras en Europa. El comité debatió en su momento que el proceso de

elaboración de las escalas predominantes «se basaba principalmente en la intuición» (p. 219) y no

en una demostración empírica, por lo cual su comparabilidad no era válida. Después de un

extenso estudio longitudinal, los investigadores unificaron las escalas analizando muestras de

desempeño de estudiantes; con la colaboración de profesores de lengua revisaron y reformularon

la redacción de los descriptores, para todas las áreas de evaluación de la competencia y

desempeño en lenguas extranjeras (North y Schneider, 1998); dichas escalas actualmente


48

constituyen los niveles del Marco Común Europeo de Referencia para el aprendizaje, la evaluación

y la enseñanza de lenguas o MCER (CVC, 2002).

Otras escalas que se usan en la actualidad son las de autoevaluación del proyecto Dialang

(Parrondo, 2008; CVC, 2002), diseñadas «para usuarios adultos a fin de lograr un aprendizaje

autónomo de la lengua y recibir retroalimentación» (Parrondo, 2012, p. 970). O las escalas de ALTE

con el proyecto Can-do diseñadas a partir de informantes ILE, también adultos, y las cuales

presentan descriptores organizados en tres áreas generales: sociedad y turismo, trabajo y estudio,

en las que se evalúan las habilidades de comprensión auditiva y expresión oral, comprensión de

lectura y expresión escrita según Alte.

Mientras que las escalas del MCER fueron diseñadas para adultos, las escalas de la FL NAEP

«que no fueron diseñadas para alumnos mayores de 16 años» (Figueras, 2008, p. 32), establecieron

escalas de desempeño para estudiantes no adultos, con el objeto de «evaluar las destrezas

auditivas y de comunicación oral (interpersonal), la escritura (expositiva, no interpersonal) y las

aptitudes de conversación (interpretativas)», en las escuelas de enseñanza media (NAEP, 2000, p.

14). Tras un estudio exhaustivo buscando la unificación y validación, se elaboraron una serie de

criterios basados en la descripción de actuaciones y situaciones en contextos conocidos para los

estudiantes como: la vida cotidiana, la escuela y el trabajo (p. 24).

Actualmente, los baremos de la NAEP (2000) tienen un diseño mixto, es decir,

«constan de formatos para respuesta corta, con dos o tres niveles de evaluación, diseñados para

obtener una puntuación parcial [de 0-4] y para respuesta extendida, con cuatro o cinco niveles de


49

puntuación para los modelos interpretativo y expositivo» (Kenyon, Mitchell y Armengol, 2000, p.

30). Para la evaluación del modelo interpersonal, los descriptores valoran cada categoría como:

excelente, suficiente, insuficiente o no satisfactoria; el conjunto de todas ellas conduce a una

puntuación holística para esta modalidad interpersonal (p. 71).

En relación a su construcción, los baremos pueden ser elaborados en su totalidad por los

evaluadores o profesores; sin embargo, Goodrich y Boulay (2003) aconsejan que «cuando los

estudiantes sean co-creadores de los baremos, se facilite que la revisión y el tratamiento de auto-

evaluación sea más prolongado» (p. 30), entonces será más beneficioso el manejo de estas dos

estrategias, el baremo y auto-evaluación. De hecho se ha venido estudiando sobre esta tendencia.

Como autores de referencia se encuentran Stevens y Levi (2005), quienes presentan varios

modelos con diferentes estrategias, en donde el profesor puede optar por permitir una baja,

mediana o alta participación de los estudiantes en la elaboración de los baremos que van a utilizar

en clase. Andrade H. G. (2000) y Andrade (2007) afirman que cuando se diseñan baremos de buena

calidad con los estudiantes en forma colaborativa, las directrices que ofrecen a los estudiantes no

restringen su creatividad y les ayudan en su auto-evaluación. Yoshina y Harada (2007) en su

trabajo muestran a instructores y estudiantes una guía para la elaboración de baremos; aseguran

que «un baremo bien construido identifica los criterios hacia un rendimiento exitoso, y describe

las cualidades de desempeño fuerte, adecuado y bajo» (p. 13).

La mayoría de los estudios consultados hablan sobre la percepción de los evaluadores y

educadores en relación a los baremos, sin embargo ¿cuál es la opinión de los estudiantes respecto

de los baremos? Según el estudio de Reynolds-Keefer (2010) los estudiantes evaluaron


50

positivamente el uso del baremo en la clase, para ellos el baremo es un medio, una especie de

contrato, que facilita la comunicación estudiante-profesor; su principal ventaja es que el

conocimiento previo de los criterios disminuye la ansiedad en el alumno, ya que se explican las

expectativas, el formato y los recursos necesarios para llegar al producto final. Durante el estudio

de Reynolds-Keefer (2010), algunos estudiantes usaron las escalas como guías para llevar a cabo

el proceso de culminación de la tarea, cuidando su calidad, pero no las usaron para evaluarla una

vez concluida. Esta autora advierte que es importante que «los estudiantes no omitan ideas o

conceptos claves y metas que son críticas para el aprendizaje» mientras usan el baremo, ya que

éste no es simplemente una lista de verificación. Esto revela la importancia de permitir que los

alumnos puedan acceder al baremo desde el comienzo, de manera que se les facilite la

planificación del trabajo, el manejo guiado y adecuado de las escalas. Al final del estudio los

estudiantes recalcaron la eficiencia y rapidez con la cual el profesor entregó resultados con el uso

de los baremos, también valoraron positivamente la correlación entre las descripciones y escalas,

con la puntuación final obtenida.

En general los baremos pueden ser holísticos, analíticos o combinar ambos métodos,

considerándose entonces escalas mixtas, sin embargo también existen escalas rudimentarias,

como listas de verificación o control para marcar observaciones o aspectos de autoevaluación (con

respuestas simples de si, no, o mejor a peor) y escalas para la auto-reflexión con preguntas de qué

y cómo se ha aprendido (Ramaprasad, 1983; MSCHE, 2007). A continuación se hablará sobre los

baremos holísticos y analíticos.

1.3.1. Baremos holísticos


51

Antes de la creación de los baremos holísticos se puntuaba las composiciones como un todo,

bajo la medida de la impresión general (Diederich, 1974; White, 1984), o con baremos basados en

análisis intuitivos (Parrondo, 2004). El contexto de evaluación que había entonces consistía en una

sesión de evaluación, donde varios profesores o evaluadores se encargaban de «jerarquizar las

composiciones con base en criterios de evaluación establecidos que permitían catalogar

cualitativamente las composiciones, de peor a mejor dentro del grupo evaluado» (White, 1984 p.

405).

Jacobs et al. (1981), mencionados anteriormente, ante la necesidad de crear un medio

«eficiente y confiable» (p. 32), diseñaron un esquema de criterios aptos para evaluar un gran

número de composiciones del test de IL2 a gran escala: The Michigan Test Battery. Los

investigadores llamaban a los evaluadores a valorar de forma holística las composiciones,

teniendo en cuenta el tiempo invertido durante la evaluación y el enfoque en los aspectos más

relevantes: «los evaluadores deben incentivarse a establecer y mantener un ritmo bastante rápido

evaluando cada composición para formular con seguridad juicios holísticos sobre la efectividad

comunicativa (…), enfocarse más en lo comunicativo que en los aspectos mecánicos» (p. 33). Aun

cuando se procuraba para la composición IL2 usar el esquema de forma holística, éste estaba

integrado por escalas para: el Contenido (30 puntos), la Organización (20 puntos), el Vocabulario

(20 puntos), el Uso del lenguaje (25 puntos) y las Convenciones (5 puntos). De acuerdo a sus

explicaciones sobre el esquema, esperaban que los correctores realizaran evaluaciones holísticas

parciales de acuerdo a los estándares señalados en cada categoría, que en última instancia,

«contribuirían al efecto comunicativo total de la composición (p. 32).


52

Cada componente presentaba rangos numéricos correspondientes a cuatro niveles de

dominio, con descriptores que iban de: excelente a muy bueno, bueno a promedio, regular a pobre

y muy pobre. En una primera prueba piloto se combinaba el vocabulario con el contenido, pero

en la segunda los investigadores matizaron los criterios de los descriptores y los separaron. Los

dos niveles más bajos aceptable y pobre, de cada descriptor, están contrastados con una población

IL2, mientras que los niveles más altos excelente y bueno, lo están con el estándar de los nativos.

Los cortes de cada escala fueron establecidos por intuición, en base a la experiencia de los

investigadores y su conocimiento relativo al «punto de ruptura de la comunicación de los

estudiantes IL2» (p. 36).

Tras la lectura del Michigan Test, se entiende que este esquema se concibió no sólo con la

idea de facilitar la evaluación en pruebas estandarizadas, sino también como análisis de los

componentes de la composición y su función comunicativa en IL2. También resulta claro que aun

cuando los destinatarios finales de este esquema fueran profesores-evaluadores con experiencia,

en el campo de la composición IL2 a nivel universitario, su diseño metódico también servía como

guía de entrenamiento a los usuarios menos expertos de IL1 o IL2. El objetivo final del esquema

se centraba en determinar si la competencia lingüística del estudiante IL2 cumplía los

requerimientos de composición para las asignaturas en la universidad, y asimismo, para una

nivelación del alumno que permitiera adjudicarlo apropiadamente a un curso de inglés regular o

de IL2.

Para la interpretación de los resultados los investigadores establecieron una tabla guía sobre

los niveles de dominio para estudiantes IL2, y otra tabla para la nivelación de los estudiantes; este


53

baremo ha sido modificado por diversos estudios realizados en ILE, algunos ejemplos de estas

investigaciones las encontramos en Saito y Fujita (2004), Matsuno (2009), Tamjid y Birjandi (2011)

y Wang (2014).

Una escala holística común es la conocida como la «escala de seis puntos», que evalúa de 1

a 6, el manejo del lenguaje y organización del escritor (Massa, 1997, p. 78). Las «bandas de

evaluación que describen de manera integral la habilidad de escritura, se llaman bandas

holísticas», de acuerdo a White y Luppi (2010, p. 23). Al elegir una puntuación holística se opta

por un «acercamiento global al texto, reflejo de la idea de que escribir es una sola entidad que se

sintetiza en una escala simple que integra las cualidades inherentes de la escritura» (Wiseman,

2012, p. 59). Por la naturaleza de este procedimiento, esta técnica de valoración global se utiliza

más para realizar evaluaciones a gran escala; por su diseño y coste puede ser más eficiente y

económica, pero es poco confiable, (Freedman, 1981; White, 1984; White, 1985; Veal y Hudson,

2009). Efectuar una valoración holística requiere experiencia y una selección cuidadosa de los

lectores (Wiseman, 2012, p. 59). Al contrario que los baremos analíticos, una medida holística no

ofrece ningún tipo de retroalimentación específica sobre las destrezas del alumno o sus fallos,

aunque sí permite determinar lo que el escritor sabe hacer bien, o su mínimo desempeño

(Freedman, 1981; White, 1984, 1985; Metler, 2004; Veal y Hudson, 2009; Wiseman, 2012).

1.3.2. Baremos analíticos


54

A diferencia del baremo holístico, los baremos analíticos definen en forma precisa y

específica cada criterio de evaluación (White, 1985; Darus, 2006;), una escala analítica sencilla para

evaluar la escritura se denomina de trazo primario, puesto que, como su nombre indica, incluye

trazos, criterios individuales o componentes de la expresión escrita que se gradúan

separadamente (Becker, 2010; White y Luppi, 2010). Este tipo de baremos «tienen una cualidad

discriminatoria que entrega información precisa acerca de las fortalezas y debilidades del escritor

en determinada etapa de su desarrollo» (Benítez, 2007, p. 193), tanto en la redacción de la

composición, como durante el proceso de re-escritura de los borradores (McLeod et al., 2009);

existen otras escalas que consideran varios aspectos que se califican por separado; estas se

denominan de trazo múltiple (Barkaoui, 2007, 2010).

El baremo analítico permite también evaluar de forma optativa como señalan Hessler,

Konrad y Alber-Morgan en 2009, «en lugar de evaluar toda la pieza compositiva; el profesor

realiza una evaluación selectiva concentrándose en una o dos destrezas o elementos de la

composición» (p. 70). Así, el profesor comunica a los estudiantes el enfoque de la evaluación,

además de reducir el tiempo que invierte en calificar. Por lo general se debe elegir el uso de una

escala analítica cuando se desean evaluar las composiciones de estudiantes L2, por cuanto

presenta criterios específicos o dominios de evaluación de forma separada (CVC, 2002; Hamp-

Lyons, 2009; McLeod et al., 2009; Ghanbari et al., 2012). Estas escalas también se usan para las

pruebas de nivelación en el ingreso a una institución y para el diagnóstico de la competencia

lingüística (Parrondo, 2008; Ghanbari et al., 2012).


55

En cuanto a la fiabilidad de las escalas, Barkaoui (2007) encontró que en general las escalas

holísticas muestran una mejor correlación en las puntuaciones inter-evaluadores, mientras que las

escalas analíticas requieren un número mayor de evaluadores para aproximarse más a una

puntuación fiable, a un consenso, especialmente cuando se evalúan el estilo, la gramática y las

convenciones. Este investigador basándose en las opiniones de los informantes de su estudio,

también concluyó que evaluar con una escala de trazos múltiples lleva más tiempo que una

holística cuando no se tiene mucha experiencia con las escalas; para aprender a manejar

correctamente un baremo se requiere una práctica continua que vaya más allá del uso mecánico

del mismo, esto es especialmente importante cuando el baremo está en manos de los alumnos;

aplicarlo de forma adecuada contribuiría en la elaboración de mejores productos en el aula; como

afirman Serrano y Cebrián de la Serna (2011), «para que los estudiantes aprendan gradualmente

a usarlo en forma regular, lo cual contribuye a que internalicen mejor los criterios y estándares de

evaluación» (p. 426).

En suma, diseñar escalas que permitan una evaluación próxima a la objetividad y

fundamentadas en las metas o fines curriculares, ha sido una inquietud permanente, una línea de

investigación en continuo desarrollo especialmente en el campo de las lenguas extranjeras.

A continuación se desarrolla otro tema importante, la autoevaluación, que es considerada

como una tercera estrategia de evaluación, junto con la evaluación por pares y la evaluación

mediante instrumentos, las cuales han sido ya descritas en los apartados anteriores.

1.4. Autoevaluación


56

Uno de los procesos importantes implicados en la educación formativa es la autoevaluación;

es un concepto contemporáneo que se superpone a los procesos de evaluación clásicos. Desde

hace un tiempo los alumnos han venido involucrándose paulatinamente en su propio proceso de

formación, ya sea individualmente o con pares del grupo de estudiantes, siempre bajo la

supervisión de un tutor o educador. Investigadores como Falchicov y Goldfinch (2006)

establecen que «la participación del estudiante en la evaluación adopta las formas de evaluación

por pares y auto-evaluación, en las cuales los estudiantes se comprometen con criterios y

estándares que aplican para emitir juicios, juzgando su propio trabajo o el de otros» (p. 287). El

investigador Ekbatani en el 2000 considera que el dominio de la autoevaluación es una habilidad

necesaria para alcanzar «la evaluación auto-dirigida del aprendiente» (p. 5). Con posterioridad

Andrade en el 2007 añade que «el proceso de auto-evaluación con baremos puede mejorarse con

la retroalimentación por pares y por supuesto, con la retroalimentación del profesor» (p. 3).

La autoevaluación en L2 requiere que el estudiante posea la capacidad de detectar y corregir

errores. Después de realizar su investigación Wei y Chen (2004), comprobaron que autoevaluar

fue «una de las tareas más difíciles para los estudiantes, simplemente porque sus ojos no fueron

sensibles a sus propios errores; [por tanto] para incrementar la calidad de la autoevaluación,

necesitan de instrucción y apoyo constantes» (p. 3). De acuerdo a sus resultados, en la escritura L2

un tipo de problemas a los que se enfrenta el estudiante son los errores locales, como «ortográficos,

convenciones, confusión en los pronombres» (p. 3) y otros son los errores globales «que tienen que

ver con el desarrollo de ideas, organización y enfoque del texto» (p. 3).


57

El impacto de la evaluación formativa en el proceso de enseñanza-aprendizaje de las aulas

de secundaria –y en general de todas las aulas–, está determinado por el sistema educativo, los

profesores y los estudiantes. El propósito final es que «los alumnos aprendan sus procesos de

aprendizaje y hablen el mismo lenguaje de evaluación formativa que sus profesores» (OCDE,

2005, p. 25). En el artículo de Ecclestone (2007) se tratan estos aspectos desde la perspectiva de la

educación universitaria y se explica que las expectativas de los estudiantes y de los profesores

convergen hacia los logros a corto y largo plazo de los mismos estudiantes; de hecho, la evaluación

influye y moldea a los aprendientes dentro de su contexto educativo y se proyecta hacia el futuro

en su vida social y profesional (Ecclestone, 2007; Falchicov y Boud, 2007; Kandlbinder, 2007).

Kirkwood (2007) por su parte incide en la formación continuada del cuerpo docente en la

implementación de la evaluación sostenible, considera que los profesores deben ser también

capaces de auto-evaluar su propio desempeño en las aulas y hacer los cambios necesarios para

mejorarlo: «la autoevaluación debe cimentar el perfeccionamiento del desempeño profesional de

los docentes; por tanto se deben diseñar cursos de educación continuada donde el tema principal

sea la evaluación sostenible» (p. 179). Fernández (2011) contempla la autoevaluación del

estudiante como un aporte en cooperación con la evaluación llevada a cabo por el profesor en el

aula, es decir, como una «coevaluación» (p. 4), de hecho la sala de clase es una comunidad de

aprendizaje, donde la interrelación entre los estudiantes y entre alumno y profesor tal como

afirman Wei y Chen (2004), ofrece a «los estudiantes escritores técnicas de evaluación que pueden

transferir a sus autoevaluaciones» (p. 5).

Pero exigir a un estudiante auto-evaluarse sin guiarlo en los criterios, puede conducir a

frustración o enojo. Un ejemplo de ello es el caso de un profesor que pide que los alumnos auto-


58

evalúen su desempeño al término del período de aprendizaje, en una clase de español y literatura

en octavo grado. El resultado que obtiene es que muy pocos o ningún estudiante se asigna una C,

la mayoría tal vez una B y sorpresivamente, para enojo del resto de la clase, unos cuantos se ponen

una A. Como consecuencia los estudiantes con el grado C se sienten tontos, los de B se sienten

menos tontos y los de la A muy contentos e inteligentes. Una actividad auto-evaluativa que se

maneja sin bases ni criterios pre-establecidos, además de crear un caos innecesario, no indica ni

informa nada relevante acerca del desempeño real del alumno y escapa por tanto al marco

formativo. Teniendo en cuenta que este ejemplo está situado en un aula L1 ¿cómo sería el

resultado si este profesor inexperto pidiese a los alumnos de FLE o ILE auto-evaluarse? Wei y

Chen (2004) encontraron que los estudiantes muestran inconvenientes cuando se implementa por

primera vez la autoevaluación en el aula. Los alumnos olvidan escribir sus comentarios, escriben

observaciones vagas o de bajo contenido crítico o, en otros casos, dan una evaluación desacertada

porque durante el estudio «no pudieron identificar el problema o malinterpretaron los criterios

de evaluación» (p. 8).

Para iniciar a los estudiantes en el proceso de autoevaluación, se debe comenzar con la

enseñanza del dónde, cómo y sobre qué hacerlo; como primera medida es importante permitir

que los alumnos realicen sus comentarios de autoevaluación en su lengua materna, para asegurar

la calidad de su pensamiento crítico. Las actividades que pueden ayudar a implementar la

autoevaluación son: las listas de verificación, la evaluación del profesor, de los estudiantes (entre

pares o por grupos) y el input sobre las habilidades de lectoescritura (Andrade y Du, 2005;

MSCHE, 2007); en este sentido Andradey Du señalan que la autoevaluación «puede ser útil en


59

cualquier asignatura, [ya que] si los estudiantes la producen, pueden evaluarla y si la pueden

evaluar, la pueden mejorar» (p. 3).

Andrade y Du (2007) realizaron un estudio cualitativo y exploratorio con estudiantes de

pedagogía, para investigar su respuesta a la autoevaluación, encontraron que la actitud de los

estudiantes hacia este proceso tiende a ser más positiva a medida que ganan experiencia con ella,

y que no es diferente entre hombres y mujeres –aun cuando esto último contrasta con los

resultados realizados posteriormente por Andrade et al. (2009) (Ver 2.); Andrade y Du (2007)

añaden además que las guías de evaluación, los baremos y las listas de control comunican a los

estudiantes las expectativas del profesor. Estas investigadoras concluyen que esta comunicación

facilita la reflexión y revisión de los estudiantes durante el proceso de cumplimentación de la

tarea, es decir, que apoya la autoevaluación. Sin embargo a través de las entrevistas con los

estudiantes, se desveló la inquietud de algunos en relación a estos criterios-guía, estos estudiantes

argumentaron que los estándares pueden resultar ser simplemente pasos a seguir para lograr lo

que el profesor quiere, y no necesariamente para el cumplimiento de sus expectativas como

alumnos a través de un proceso de autoevaluación; no obstante otros alumnos reportaron que

aplicaron las estrategias auto-evaluativas hacia otras clases (aunque no en forma consistente), lo

cual es un indicio positivo, ya que en la enseñanza formativa se espera que los estudiantes

apliquen sus habilidades de autoevaluación, no solo en el aula sino también en la vida laboral

(Falchikov y Boud, 2007; Tan, 2007).

La autoevaluación está ligada a otros procesos como la retroalimentación y el auto-

monitoreo. Según Vermunt y Verloop (1999) el auto-monitoreo es un proceso que debe ser


60

enseñado y modelado: «los aprendientes observan activamente si su aprendizaje progresa en la

dirección indicada […], evalúan la comprensión y hacen diagnóstico de sus lagunas de

aprendizaje, habilidades o dominio del tema, del porqué no se entiende o recuerda» (p. 262). Como

se verá más adelante, el auto-monitoreo es parte de la regulación metalingüística (Ver, 1.5.). Dochy

et al. (2007) afirman que «cuando la evaluación es formativa, puede influir en el aprendizaje ya

que los estudiantes, luego de terminar sus tareas, reflexionan en los resultados y en los procesos

de su aprendizaje» (p. 90). Tan (2007), por su parte, enfatiza en que la auto-evaluación debe ser un

aprendizaje para la toda la vida, es decir, debe superar, trascender las aulas académicas y

acompañar al estudiante en su vida diaria para reflexionar sobre su entorno; hace mención de las

destrezas del aprendizaje y la evaluación críticas: la redirección y auto-responsabilidad hacia y en

favor del propio aprendizaje.

Pero su aportación más importante corresponde a la idea de sostenibilidad de la

autoevaluación y su relación con el tipo de autoevaluación desarrollado en el aula. Este autor

habla de tres enfoques de autoevaluación dirigida: la primera llevada a cabo por el profesor; la

segunda por el programa, y la tercera por el propio estudiante hacia el futuro. En la primera los

estudiantes juzgan su aprendizaje en relación a los requerimientos del profesor y no del programa

en sí, como en el segundo enfoque. En este segundo caso los estándares no van más allá del

programa de estudio. El último en cambio se mantiene vigente fuera de las aulas y se practica en

el mundo del trabajo, puesto que se le ha enseñado al estudiante a reflexionar y a aplicar el

pensamiento crítico en sus actuaciones: «el énfasis es entender y usar la autoevaluación de los

estudiantes para desarrollar su capacidad de ejercer su propios juicios sin depender de lo

académico» (p. 119).


61

De acuerdo al autor anterior, los primeros enfoques son limitantes por cuanto el estudiante

tiende a cumplir el requisito mínimo, para satisfacer el estándar establecido por el profesor o por

el currículo, y por consiguiente, son estas dos entidades quienes juzgan si el estudiante ha

realizado una autoevaluación acertada, sin embargo el concepto de autoevaluación hacia el futuro,

como afirma Tan, «engloba el principio de autoevaluación como una habilidad de evaluación que

involucra entender, cuestionar y desafiar las prácticas de evaluación vigentes» (p. 121). Entre las

recomendaciones de este investigador figura que la preparación de los estudiantes debe realizarse

desde el primer momento y sugiere que la autoevaluación debe ponerse en práctica en el aula e

instituirse como una estrategia de aprendizaje formativo no optativa sino obligatoria, si se quiere

preparar a los estudiantes para afrontar su futuro.

Como se desprende de la lectura de Tan (2007), tanto si las prácticas de autoevaluación en

el aula estimulan de forma restrictiva al estudiante (en el sentido de que los alumnos puedan creer

que el fin último es satisfacer los criterios y estándares del profesor o del programa) como si no,

ambos casos muestran el comienzo de la instauración de un sistema didáctico que aún no es del

todo generalizado, por lo menos en las aulas en secundaria. Las actividades y tareas que se

realicen en esta etapa educativa deben estar diseñadas, de forma que permitan descubrir a los

estudiantes sus capacidades y habilidades para reflexionar sobre su situación actual en relación a

la asignatura, es decir, el estudiante debe adquirir: la habilidad de entender el alcance y los vacíos

de su aprendizaje, debe sentirse potencialmente capaz de expresarse, preguntar o intentar de

forma independiente o semi-independiente, resolver y solucionar sus necesidades de

conocimiento; para proseguir en la consecución o finalización de una tarea, un proceso o una


62

actividad de aprendizaje; por tanto, es recomendable y casi imperativo iniciar la autoevaluación

desde la etapa de enseñanza secundaria.

La investigación ha aportado descubrimientos en relación con el desarrollo de estas

habilidades, aunque principalmente en estudiantes universitarios y poco en adolescentes durante

la secundaria; además existe la necesidad de explorar empíricamente las estrategias involucradas

en los procesos auto-evaluativos en L2 y hacer comparaciones entre los diversos niveles de

aprendizaje L2 y las diferentes lenguas. Si nos centramos en la implementación de la

autoevaluación en aprendientes de L1, se observa que existe preocupación sobre la preparación

preliminar que los estudiantes tienen en el momento de ingresar en la universidad.

Lew, Alwis y Schmidt (2010) revelan que «en promedio, los estudiantes poseen destrezas de

autoevaluación acertadas hasta cierto grado» (p. 152), pero estas habilidades de acuerdo a los

resultados de su estudio, parecen no incrementarse con el tiempo, al menos en los informantes L1

de su estudio; de hecho los investigadores afirman que «la autoevaluación no se optimiza con la

experiencia o retroalimentación continuadas», muestran además que los beneficios derivados de

autoevaluarse son independientes de la percepción que tienen los estudiantes, de la importancia

y la utilidad de la autoevaluación en el aprendizaje.

Nulty (2011), por su parte se plantea si los estudiantes nativo-hablantes L1, poseen

realmente la destreza requerida para identificar los estándares y criterios sobre sus trabajos o sobre

los de otros. Menciona que «la auto-reflexión y el auto-aprendizaje se encuentran menos

desarrollados en estudiantes de primer año comparados con estudiantes de último año» (p. 497).


63

Explica que el currículo para los cursos de primer año en la institución estudiada no contempla

estas estrategias, aunque sí enfatiza «en la adquisición del contenido o en el desarrollo de las

técnicas de estudio, es decir, en equipar a los estudiantes con el pre-requisito básico de

conocimiento y habilidades para progresar en su disciplina» (p. 500). En otras palabras, el

currículo para el primer año de universidad está diseñado para responder a las necesidades de los

alumnos nuevos, que deben afrontar un sistema más riguroso y complejo. Con la lectura de Nulty

(2011), se resalta la necesidad de incluir en el pensum objetivos dirigidos a la adquisición de

estándares y criterios de evaluación en las aulas, ya que los estudiantes se benefician de la

evaluación por pares y la autoevaluación, cuando se implementan en etapas tempranas. Estos

planteamientos se han expuesto sobre estudiantes L1, mientras que en estudiantes LE, se hace

necesario empezar a investigar con más profundidad.

De acuerdo con Fernández (2011) la autoevaluación es un «quehacer cotidiano» (p. 3); este

autor explica que enseñar al alumno a autoevaluarse implica «responsabilizarlo en su propio

aprendizaje, posibilitar que sea sujeto activo, que pueda tomar las propias decisiones y en

definitiva, que sea más persona en la sala de clase» (p. 4). Involucrar al estudiante en su proceso

de aprendizaje es una práctica formativa importante, a medida que las directrices formativas se

van implementando en el aula, los alumnos van aprendiendo con el tiempo, que para ser

evaluadores de sí mismos y de sus iguales, no necesitan ser profesores. De hecho el alumno debe

verse como un agente participativo y auto-participativo en el aprendizaje. De acuerdo con Taras

(2013) «la autoevaluación da a los estudiantes voz y empoderamiento, les conduce a pensar por sí

mismos, a reflexionar y sopesar su trabajo para mejorarlo» (p. 35). Sambell (2013) contempla estos

aspectos dentro del aprendizaje constructivo, donde los estudiantes «naturalizan la


64

retroalimentación, al referirse a ella como charlar con amigos (pares o grupos de discusión) y a la

autoevaluación como un proceso que se realiza a diario, en situaciones simples, como evaluar

cómo te ves» (p. 86); es decir, como el quehacer cotidiano de Fernández. Sin embargo «se requiere

de la integración y el entendimiento de la retroalimentación del par y el tutor, con el aprendiente.

Por ello debe ser participativa, dialógica e interactiva, ofreciendo al estudiante una máxima

oportunidad de hacerse oír» (Taras, 2013, p. 37).

Por otra parte se ha intentado guiar la autoevaluación con el uso de baremos en clases L1 y

L2. Sin embargo aún no está claro si los resultados obtenidos con el uso del baremo y la

autoevaluación se deben a la calidad del baremo, o al proceso auto-evaluativo del estudiante;

también se han realizado estudios para comparar la autoevaluación (AE), la evaluación por pares

(EE) y la evaluación por el profesor (EP) en aulas L1 y L2. Según Andrade, H. G. (2000) y

posteriormente Andrade (2007), la autoevaluación y el uso de los baremos ayudan a la mejora de

la escritura de los estudiantes, pero Goodrich y Boulay (2003) trabajando con estudiantes de

séptimo y octavo grado de secundaria, en una clase de escritura inglesa L1, mostraron que el uso

del baremo y no la autoevaluación, fue determinante en los resultados favorables en la escritura.

Saito y Fujita (2004) trabajaron con estudiantes japoneses de primer año en una clase de escritura

de ILE y encontraron una estrecha relación entre estas la EE y la EP, revelaron también que la AE

presentó una muy baja correlación con las otras dos evaluaciones.

Por su parte Lew et al. (2010) estudiaron las habilidades de cooperación en un grupo de

trabajo y la calidad de las contribuciones de cada estudiante en la tarea de evaluar. Utilizaron una

escala de 8 ítems para la autoevaluación, relacionados con el desempeño de los estudiantes en


65

cuanto a su contribución y participación cooperativa dentro del grupo. También emplearon una

escala de cuatro ítems para la evaluación por pares del desempeño de los demás dentro del grupo.

Otra forma de evaluación fue la observación que hace el profesor del estudiante sobre cómo utiliza

las estrategias y resuelve problemas, y sobre las auto-reflexiones que hace el alumno acerca de su

portafolio de escritura. Los investigadores encontraron que las puntuaciones de AE, comparadas

con la EE y a la EP, tienen una correlación moderada y baja, respectivamente. Esta situación no se

superó con el tiempo; de hecho, las correlaciones tendieron a disminuir. Encontraron, además,

que las puntuaciones de los estudiantes de mejor rendimiento escolar, correlacionaban mejor con

las evaluaciones por pares y por el profesor, en comparación con las puntuaciones de los alumnos

de bajo rendimiento, sugiriendo esto que los estudiantes con mejor desempeño escolar

autoevalúan con mayor precisión. Destacaron asimismo que por lo general, las puntuaciones de

AE que se otorgaron los estudiantes fueron más bajas que las puntuaciones ofrecidas por sus

iguales o EE. Sin embargo encontraron que el valor de AE de los estudiantes, fue más alto que el

puntaje ofrecido por el profesor o EP.

En suma, aún es necesario realizar más investigaciones en el uso de baremos con el propósito

de conducir las autoevaluaciones de los estudiantes y comparar las puntuaciones de

autoevaluación, las evaluaciones por pares y del profesor, cuando se trabaja con las destrezas de

lectoescritura L2.

1.5. Aprendizaje metacognitivo


66

Como explican Collins, Brown y Hollu (1991), instruir y aprender en los tiempos antiguos

se llevó a cabo de forma natural, a través de una estrategia maestro-aprendiz, hasta la inclusión

en las aulas del concepto de formación que se sumaba al de instrucción. Estos autores

denominaron a este modelo de instrucción, que integraba la formación escolar con la estrategia

maestro-aprendiz, «aprendizaje cognitivo» (p. 1). Este tipo de aprendizaje, de acuerdo a estos

investigadores, involucraba cuatro procesos importantes que se explican en la Tabla 7.

Aprendizaje cognitivo

Modelado El aprendiz observa al maestro quien muestra cómo hacer diferentes partes de la tarea. El

maestro hace visibles los procesos hacia la meta y el aprendiz aprende observando. Se realiza

en el sitio de trabajo.

Andamiaje El maestro apoya al estudiante al realizar la tarea, en una gradación que va desde hacerlo todo

hasta dar ocasionalmente claves sobre qué hacer a continuación.

Desvanecimiento El maestro retira lentamente el apoyo, delegando en el aprendiz una responsabilidad cada vez

mayor.

Orientación Es el hilo que recorre todo el proceso, para supervisar la formación del aprendiz. El maestro

guía eligiendo tareas, ofreciendo claves y andamiaje, evaluando las actividades del aprendiz,

diagnosticando sus problemas, retándolo y animándolo, retroalimentando, reestructurando la

manera de hacer las cosas y trabajando en debilidades particulares.

Tabla 7. Aprendizaje cognitivo. A partir de Collins, Brown y Hollu, 1991, p. 1-3

Según Collins (1991) la interacción de estos procesos «ayuda al aprendiz a desarrollar su

auto-monitorización, así como las habilidades de auto-corrección, la integración de las destrezas

y el conocimiento conceptual necesarios para avanzar al nivel de experto» (p. 2). En su modelo de

aprendizaje cognitivo se pone énfasis en el hecho, de que es más fácil ayudar a los estudiantes

cuando estos expresan en voz alta sus pensamientos, observan, personifican y practican dentro

del aula. El reto al que se enfrentan los profesores es poder «situar las tareas abstractas del


67

currículo escolar en un contexto que tenga sentido para los estudiantes» (p. 3), es decir, el profesor

debe diseñar tareas que tengan significado para el alumno, a fin de que éste pueda conectar lo

aprendido en el aula y su aplicabilidad fuera de ella. Un factor importante a este respecto, según

estos autores, es lograr que el estudiante pueda generalizar y transferir sus habilidades, reconocer

cuándo son útiles o no, en diferentes contextos.

También es importante recalcar que los estudiantes necesitan una motivación que los

impulse a comprometerse. Bandura (1989, 1994) desde el punto de vista de la teoría socio-

cognitiva, afirma que las personas funcionan como agentes activos de su propia motivación; la

auto-motivación a través de la comparación cognitiva busca distinguir entre los estándares que

uno conoce y los estándares que uno desearía conocer. Se aspira a estos estándares sólo si existe

una discrepancia con los estándares propios, es decir, las discrepancias son motivadoras.

Es cierto que cuanto mayor sea la percepción de auto-eficacia personal, las metas que las

personas adoptan para sí mismas son más altas y el compromiso con ellas es mayor. En el caso

contrario quienes dudan de sus capacidades, huyen de las tareas difíciles al percibirlas como

amenazadoras (Bandura, 1994; Zimmerman y Bandura, 1994). Se debe tener en cuenta que los

estándares demasiado fáciles, no son lo suficientemente retadores como para elevar el interés o el

esfuerzo, en cambio los moderadamente difíciles mantienen un esfuerzo alto y producen

satisfacción a través del logro de pequeñas metas, por el contrario, los estándares establecidos

demasiado lejos del alcance de la persona pueden ser desmotivadores, ya que producen en el

individuo una actitud de desánimo y una sensación de ineficacia (Bandura 1989, 1994).


68

Los términos de auto-monitorización, auto-corrección, auto-motivación y auto-eficacia se

hallan inmersos en los procesos de aprendizaje de los alumnos. Pajares (1996) aduce que «la auto-

eficacia se define en términos de las habilidades particulares que se consideran para alcanzar

determinados tipos de desempeño y lograr resultados específicos» (p. 546), es decir, que está

ligada a las creencias de auto-eficacia que tienen los individuos en relación a sus capacidades. En

otras palabras tras la lectura de Pajares, se logra comprender que en el contexto académico, la

auto-eficacia se mide en relación a la confianza del alumno para realizar determinada tarea y sus

creencias de auto-eficacia se valoran de acuerdo al grado o nivel de confianza, que tiene el alumno

para alcanzar la meta o tener éxito en una tarea.

Trabajando con estudiantes de noveno grado de preparatoria, Pajares y Johnson (1996)

encontraron que las percepciones sobre la auto-eficacia de los alumnos y la confianza en sí

mismos, predicen en alto grado el tipo de desempeño que van a tener en la escritura. Por ello,

Bandura (1997) afirma que «una parte integral de una instrucción eficaz es enseñar a los alumnos

cómo auto-regular su propio aprendizaje» (p. 223), es decir, en enseñar a los alumnos a cambiar o

a perfeccionar sus estrategias. De hecho, la investigadora Gorsuch (2009) enfatiza en la

experiencia y práctica de los alumnos. Agrega que el nivel de auto-eficacia y la persistencia en el

aprendizaje logrado por los aprendientes L2, «dependen de la práctica y de las oportunidades que

tienen los estudiantes para usar la L2 en el aula» (p. 534).

A partir de las lecturas realizadas de Bandura (1989, 1994) y Gorsuch (2009), se puede

sintetizar, que las fuentes que pueden influir en la auto-eficacia pueden clasificarse en 5 categorías,

presentadas en la Tabla 8.


69

Fuentes que

influyen en la auto-

eficacia

Impacto en la auto-eficacia

Experiencias de

dominio

Las experiencias exitosas construyen una creencia poderosa en la eficacia personal; los

fracasos la perjudican, especialmente si ocurren antes de haber establecido un sentido firme

de eficacia. Éste solo se logra con el esfuerzo perseverante y sostenido ante las dificultades.

Modelos sociales Observar a pares llegar al éxito a través de un esfuerzo constante, estimula la creencia de que

el observador también posee las capacidades para lograrlo. Lo contrario, sin embargo, mina

los juicios relativos a su auto-eficacia y perjudica sus esfuerzos.

Persuasión social Quienes están convencidos de sus capacidades para llegar al éxito, realizan un esfuerzo

grande y continuo. Miden el éxito en términos de auto-mejoramiento y no de triunfo sobre

otros. Quienes dudan de sí mismos se estancan cuando surgen los problemas.

Reducción del estrés Las personas dependen en parte del estado somático y emocional, para juzgar sus

capacidades. El estrés y la tensión son causa de vulnerabilidad e influyen en la percepción

de un bajo desempeño. El buen humor incrementa la percepción de auto-eficacia.

Práctica L2 en el aula La interacción entre los estudiantes L2, la lectura de materiales auténticos, la confianza en

poder hacer preguntas, la negociación de significados y ayudar a los estudiantes a establecer

metas de aprendizaje, son prácticas que reducen el estrés y aumentan el sentido de

realización.

Tabla 8. Fuentes que influyen en la auto-eficacia. A partir de Bandura, 1994 y Gorsuch, 2009

En suma, «la auto-eficacia es uno de los factores más influyentes en el aprendizaje L2»

(Raoofi, Tan y Chan 2012, p. 66). Sumando lo anterior, el concepto de metacognición crea un

vínculo entre todos los procesos. La metacognición fue definida inicialmente por Costa en 1984,

como «la habilidad para saber lo que se sabe y lo que no» (p. 57), también involucra «la habilidad

para planear (estrategias o acciones), monitorear, reflexionar y evaluar la productividad del

pensamiento, el aprendizaje o las estrategias» (Costa, 1984; Bandura, 1997).


70

Durante un trabajo colaborativo o cooperativo, se ponen en juego los conocimientos de los

estudiantes, a través de las negociaciones y los intercambios de saber, los estudiantes toman

conciencia de su aprendizaje en ese momento y de los límites de su ZDP actual. El resultado del

trabajo compartido con andamiaje entre los mediadores, ya sea entre pares o entre el profesor y el

estudiante, es un factor importante que permite que las interacciones conduzcan a un «aprendizaje

constructivo» (Zheng, 2007, p. 28). El rol del profesor en este proceso de acuerdo con Delmastro y

Salazar (2008), «no sólo es orientar los conocimientos y promover la autonomía e iniciativa de los

alumnos, sino hacer posible que el alumno sea consciente de sus propios procesos cognitivos y

metacognitivos, además de que pueda comunicarlos y expresarlos» (p. 49). Sin embargo «la

inducción metacognitiva debe ser realizada de manera adecuada, y acorde con el nivel y el tipo

de alumno, su edad, necesidades lingüísticas y comunicativas, así como sus estilos cognitivos y

de aprendizaje» (Delmastro, 2010, p. 98).

Lew et al. (2010) consideran que la autoevaluación es una destreza de autoregulación, afirma

que «se espera que, a través de la autoevaluación, los estudiantes puedan interiorizar los

estándares a nivel de competencia profesional y reflexionar en su progreso, habilitándolos para

regular su aprendizaje en forma efectiva» (p. 136).

Según Zumbrunn, Tadlock y Roberts (2011), la auto-regulación es «un proceso que ayuda a

los estudiantes a manejar sus pensamientos, comportamientos y emociones, a fin de navegar

exitosamente en sus experiencias de aprendizaje» (p. 4). La auto-regulación, de acuerdo con estos

investigadores puede representarse como un modelo cíclico, cuyos elementos se muestran en la

Tabla 9.


71

Fases de la auto-

regulación Características

Previsión y

planificación

El estudiante analiza la tarea de aprendizaje y se establecen metas para cumplirla. Cuando los

temas son poco conocidos por el alumno, la realización de la tarea se dificulta. Por lo tanto, se

requiere la intervención del profesor o de un estudiante con mayor experiencia, a fin de instruir

y hacer efectiva la aproximación a la tarea.

Monitorización

del desempeño

El estudiante emplea estrategias para avanzar en la tarea de aprendizaje; se monitoriza la

efectividad de las mismas y la motivación para proseguir. Cuando las estrategias son nuevas,

los estudiantes pueden retroceder al uso de unas conocidas, que sean menos eficaces. Se

requiere un mayor monitoreo por parte del profesor y retroalimentación, para asimilar las

nuevas estrategias y evitar frustraciones.

Reflexión sobre el

desempeño

El estudiante evalúa el desempeño en la tarea de aprendizaje, en relación a la efectividad de las

estrategias que eligió. Deben manejar sus emociones sobre los resultados de la experiencia. Sus

auto-reflexiones influyen en la planificación para el futuro y en las metas, iniciándose el ciclo

de nuevo.

Tabla 9. Fases de la auto-regulación. A partir de Zumbrunn, Tadlock y Roberts, 2011, p. 4-5.

Enlazando con lo desarrollado en el punto 1.4 de este capítulo, en el acercamiento al

aprendizaje L2 mediante estrategias metacognitivas, es importante mencionar que la instauración

de una evaluación formativa «ayuda a que los alumnos desarrollen sus propias habilidades o

estrategias metacognitivas del saber aprender, para poder solucionar problemas cotidianos o

problemas con los cuales no tienen familiaridad alguna» (OCDE, 2005, p. 53). Dörnyei (2005)

explica que existen tres tipos de aprendientes: uno es el «aprendiente forzado a cumplir un deber,

una obligación o responsabilidad» (p. 105), el cual estudia L2 para cumplir expectativas

extrínsecas (la familia o el trabajo) o para evitar resultados negativos como suspender un examen;

otro es el aprendiente autónomo, el «aprendiente L2 por experiencia» (p. 106) que está motivado

por sus experiencias positivas en el contexto y el medio donde está aprendiendo y por último está


72

«el L2 ideal» (p. 107), que establece sus propios ideales de aprendizaje L2, cuánto quiere aprender

y con qué propósito, ya sea como satisfacción personal o para un logro profesional.

Independientemente de la variedad de aprendientes que se puedan encontrar en las aulas, todos

están llamados a «participar en actividades de trabajo por pares, aprender a autoevaluarse y a

comprometerse con su propio aprendizaje y el de sus iguales» (OCDE, 2005, p. 69). Gorsuch (2009)

propone además, que el profesor intervenga durante estos procesos de metacognición, auto-

eficacia y autoevaluación, para ayudar a que los estudiantes esclarezcan sus metas de aprendizaje.

Tomando como punto de partida la situación de un aula de escritura y composición L1,

Zimmerman y Bandura (1994) afirman que la escritura es uno de los retos más importantes para

la auto-regulación, puesto que requiere de un esfuerzo constante y creativo, además de una

restructuración continuada para lograr el nivel personal propuesto. Enfatizan en que la auto-

regulación contribuye al mejoramiento en el nivel de la escritura académica del alumno, así como

sus aspiraciones escolares. Los investigadores concluyen también que «mientras más confiados

están los estudiantes en sus capacidades para estructurar, comunicar ideas y hacer caso omiso de

los obstáculos, razón de más tienen en creer en su capacidad de alcanzar la meta académica» (p.

857).

La escritura es uno de los procesos de aprendizaje más complejos e importantes,

especialmente en la época escolar. Graham y Perin (2007) afirman que en Estados Unidos «los

adolescentes que no aprenden a escribir bien están en desventaja» (p. 445), y entre las razones que

mencionan está la circunstancia, de que la mayoría de las asignaturas se evalúan a través de la

composición escrita. Más allá de la etapa escolar, ya sea en las universidades (donde los alumnos


73

puedan trabajar) o en la vida laboral, la capacidad de escribir permite acceder a un empleo u

obtener una promoción en el medio de trabajo. Estas implicaciones deben tenerse también en

cuenta cuando estos estudiantes se encuentran en aulas de L2 o LE. Esta preocupación la exponen

Graham, Early y Wilcox (2014), cuando afirman que «hay mucho que no sabemos del desarrollo

de la escritura en los adolescentes, especialmente en ciertos subgrupos de estudiantes tales como

los aprendientes de inglés [L2]» (p. 970). Por otro lado en los estándares educativos del Estado de

Texas para la secundaria, existen algunas manifestaciones importantes sobre el aprendizaje de

lenguas en un contexto donde el inglés y el español «coexisten con flexibilidad» (p. 128B). Estas

declaraciones hacen referencia a las ventajas que tiene sobre el aumento de las habilidades

metalingüísticas y metacognitivas, el hecho de que los estudiantes aprendan y trabajen inmersos

en un contexto bilingüe, contrastando continuamente ambas lenguas.

La metodología pedagógica en la enseñanza de la escritura L2 se ha enfocado desde dos

estrategias básicas: la estrategia del proceso de composición y la de la tipología textual, según

Elshirbini (2013a). Ambas difieren en el enfoque y en las habilidades que se activan para el

aprendizaje de la lectoescritura. La primera es de tipo tradicional, en ella se aplica «el proceso de

escritura pedagógico, que consiste en: la planificación, la búsqueda de información, los

borradores, la revisión y la edición» (p. 5); en tanto que la segunda: focaliza la atención en el

conocimiento socio-pragmático de la lengua, la conciencia de la audiencia y el manejo de

estrategias de escritura aplicadas a las diversas gamas de tipologías textuales, es decir, «busca

ofrecer a los estudiantes el conocimiento explícito de la lengua» (p. 8); en esta segunda estrategia,

se muestran modelos y elementos del tipo de texto; y el tutor enseña al aprendiente hasta que éste


74

es capaz de producir sus propias composiciones, de forma independiente sin su ayuda y el alumno

se conciencia de sus capacidades, sus limitaciones y su zona de desarrollo próximo.

Sea cual fuere el enfoque pedagógico elegido, es conveniente que la enseñanza de lenguas

proporcione tareas que involucren activamente a los alumnos, que les permitan reconocer y

valorar el nivel de conocimiento L2 adquirido; por ejemplo en sus habilidades de lectoescritura.

Es preciso practicar con contextos que conecten al estudiante con la realidad y en los que se plantee

la resolución de situaciones que desarrollen las habilidades auto-reguladoras y de auto-eficacia

de los alumnos, de manera que alcancen los fines de aprendizaje propuestos.

El baremo como estrategia metacognitiva para la autoevaluación

Capítulo 2 Estado de la cuestión

76


2.1. Acercamiento a la retroalimentación y al trabajo por pares

2.2. Aproximación a la evaluación



77

Capítulo 2. ESTADO DE LA CUESTIÓN

Para el desarrollo del presente estudio se han considerado las investigaciones relacionadas

con el trabajo colaborativo en la revisión por pares, el proceso de negociación, el análisis y

corrección de los errores escritos, la retroalimentación y la autoevaluación.

2.1. Acercamiento a la retroalimentación y al trabajo por pares

Los trabajos que hacen referencia a la retroalimentación y al trabajo por pares que se

consultaron, fueron los trabajos de Delgado (2007), Zheng (2007), Weighong y Yuanxing (2010),

Lundstrom y Baker (2009), Gielen et al. (2010), Ferris (2010), Santos, López-Serrano y Manchón

(2010), Wingate (2010), Diab (2010), Ting y Qian (2010), Servetti (2010), Elshirbini (2013a, 2013b),

Early y Saidy (2013) y Acevedo (2013).

Uno de los trabajos de investigación más notables sobre el tema fue realizado por Delgado

(2007), quien midió la efectividad de la retroalimentación correctiva y su influencia en la auto-

corrección del alumno; el estudio se basó en una muestra de 30 estudiantes universitarios de

segundo semestre de español, quienes debieron escribir tres composiciones de 200 palabras cada

una. Para aplicar los diferentes tratamientos, la investigadora dividió la muestra en tres grupos;

para determinar el total de errores calculó la cantidad por cada cien palabras. La recolección de

datos se llevó a cabo durante 14 semanas. El tratamiento de RC se aplicó en forma rotativa a cada

uno de los tres grupos del estudio como se observa en la Tabla 10.



78

Grupo Composición 1 Composición 2 Composición 3

1 RC codificada RC no codificada No RC

2 RC no codificada No RC RC codificada

3 No RC RC codificada RC no codificada

Tabla 10. Distribución del tratamiento con retroalimentación correctiva. A partir de Delgado, 2007

Desde el inicio de la investigación, los alumnos tuvieron a su disposición una lista de errores

ya codificados, con la que pudieron identificar en sus redacciones. Las estrategias de RC usadas

fueron de dos clases: la RC metalingüística codificada que inducía al estudiante a consultar el

corpus normativo para hacer las correcciones; y la RC indirecta, subrayando los errores sin usar

codificaciones. En la publicación de la investigación no se muestra la lista completa de errores, ni

se presentan ejemplos de error. La investigadora menciona, que se consideraba como error:

cualquier palabra que no perteneciese al español estándar, los errores en los modos y tiempos

verbales, en las concordancias sujeto-verbo, en las preposiciones y en las discordancias sustantivo-

adjetivo.

En la conclusión del estudio se determinó, que los estudiantes mejoraron la re-escritura de

las composiciones cuando recibieron la RC codificada, no encontraron diferencias significativas

entre la ausencia de RC y la RC no codificada. Delgado especifica que la corrección de los errores

debe realizarse teniendo en cuenta el nivel de aprendizaje L2 de los estudiantes, ya que el tipo de

errores que se contabilizan, deben formar parte de la competencia gramatical de los estudiantes

en la lengua objeto. Asimismo añade, que para mejorar el desempeño en las auto-correcciones, es

importante familiarizar a los estudiantes con los códigos y símbolos que se van a utilizar en la RC

codificada, de manera que hay que invertir un tiempo suficiente, en la práctica previa de la



79

identificación de la codificación de los errores. Por último sugiere que se debe guiar a los

estudiantes en la tarea de descubrir la naturaleza de sus errores, con el fin de evitar que la

corrección se vuelva «laboriosa y frustrante» (p. 14).

La investigadora Zheng (2007) por su parte, tomó 30 estudiantes chinos de segundo

semestre de la Universidad de Zhejiang que asistían a clases de escritura y literatura inglesas; al

inicio del estudio, los estudiantes escribieron una composición que entregaron una semana

después para revisión. La investigadora corrigió y almacenó el corpus de errores que encontró en

las muestras de los estudiantes y transcribió el listado de oraciones que contenían errores, después

distribuyó este listado entre los alumnos, quienes trabajaron en grupos de seis, de forma

colaborativa, en la corrección de las oraciones.

Al término del estudio, la investigadora clasificó los errores que cometieron los estudiantes

en diez categorías, para establecer la efectividad de la revisión colaborativa, de mayor a menor

incidencia encontró: no concordancias (tiempo y modo verbal, género y número); estructuras o

expresiones inapropiadas (secuencia de la oración, frases o expresiones incorrectas); elección o

uso de palabra (confusión de significado o uso del sinónimo; desconocimiento para elegir un

sustantivo o adjetivo como predicado o atributo; traducción mecánica del chino al inglés sin

considerar el contexto); mal uso de la lengua; el uso inadecuado del adjetivo (su función

gramatical, inadecuada forma para hacer comparaciones de igualdad o superlativos); errores de

ortografía; mal uso de los verbos (especialmente los intransitivos, transitivos, verbos auxiliares, y

verbosidad); posiciones equivocadas (sujeto-complemento, el sustantivo y su modificador, un



80

verbo y su objeto); pretérito o pasado participio pasado de los verbos; y el mal uso de los

sustantivos singulares o plurales.

Los resultados de Zheng (2007), revelaron que los errores de concordancia (género, número,

tiempo y modo verbal), que eran la categoría de errores más frecuente, se superaron al final del

estudio, mientras que los de estructuras oracionales y expresiones idiomáticas no tuvieron

resultados tan favorables. Al igual que en Acevedo (2013), este estudio mostró que los estudiantes

durante el trabajo colaborativo, corrigieron los errores hasta el límite de su competencia lingüística

en la L2; entre los errores que los alumnos lograron corregir, se encontraron los de discordancias;

mal uso de la lengua en adjetivos y en sustantivos singulares y plurales, y errores ortográficos. Sin

embargo los errores de elección o uso de palabras, en las estructuras o expresiones inadecuadas,

no se superaron. Por otro lado se observó que hubo diferencias en las correcciones realizadas entre

los cinco grupos: «con base en las entrevistas con los estudiantes, algunos de los errores no fueron

corregidos por falta de cuidado o por distracción durante el proceso de corrección» (p. 28).

Zheng (2007) resaltó la importancia de la retroalimentación del profesor para activar la ZDP

de los estudiantes, en los casos en que «el error supere la habilidad de corrección del estudiante,

con el fin de que el proceso de corrección del error se convierta en un proceso de aprendizaje

constructivo» (p. 28). Es difícil determinar si el entrenamiento previo de los estudiantes hubiese

sido benéfico para favorecer la superación de los errores, que no se corrigieron desde un comienzo,

o de aquellos que no pudieron superarse finalmente.



81

En el caso de las investigaciones de Weighong y Yuanxing (2010), cuyo objetivo fue

descubrir la efectividad de la RC guiada en clases de ILE, se trabajó con una muestra de 95

estudiantes universitarios chinos, quienes escribieron dos composiciones en el aula con límite de

tiempo y otras 10 en casa. A diferencia de otros estudios, no se entregaron a los estudiantes listas

o corpus de errores para facilitar la auto-corrección, las composiciones escritas en el aula fueron

corregidas por el profesor, utilizando un baremo de evaluación; posteriormente los estudiantes

recibieron las composiciones con la RC indicada y realizaron las ediciones pertinentes en la clase.

Los profesores solo entregaron RC indirecta o metalingüística, al final del estudio se observó que

los estudiantes mejoraron sus habilidades de auto-corrección, perfeccionando con la experiencia

la escritura, y en general la calidad de sus composiciones.

Lundstrom y Baker (2009) dieron un enfoque diferente a su investigación sobre trabajo con

pares: trataron de determinar el beneficio que obtienen los estudiantes revisores, en comparación

con el obtenido por los receptores de la retroalimentación. Los participantes fueron 91 estudiantes

registrados en diversas clases de escritura de ILE, 45 de ellos en el nivel 2 calificado como inicial

alto, y 46 en el nivel 4 o alto intermedio; el 46% de los estudiantes eran del sexo masculino y el

54% del sexo femenino. Las investigadoras dividieron a los estudiantes en dos grupos, el primero

era el de control y se formó con dos clases del nivel 2 y tres del nivel 4, con un total de 46

estudiantes; El segundo grupo que constaba con dos clases del nivel 2 y dos clases del nivel 4, con

un total de 45 estudiantes constituyó el grupo experimental. El grupo de control no participó

revisando textos, sino recibiendo retroalimentación, eran los receptores. Los investigadores

asignaron al grupo experimental el rol de revisores y los llamaron otorgadores de

retroalimentación.



82

Para el procedimiento los participantes recibieron a lo largo del semestre, cuatro sesiones de

entrenamiento enfocadas a la práctica de cómo utilizar la retroalimentación, en el grupo receptor,

y de cómo dar retroalimentación en el grupo otorgador; trabajaron con ensayos escritos por

estudiantes del año anterior y con una lista de preguntas. Cada grupo recibió una muestra

correspondiente a su mismo nivel de lengua; las preguntas ofrecían una retroalimentación

indirecta, pero estrictamente enfocada a los aspectos globales de la escritura, por ejemplo: ¿cómo

mejoraría el enunciado de la tesis? Los receptores debían responder reescribiendo la corrección en

el margen del papel y los otorgadores debían ofrecer sus propias sugerencias de cómo mejorarla.

Los investigadores planificaron e impartieron las mismas lecciones para todas las aulas, como pre-

test y post-test, los estudiantes escribieron un ensayo con un límite de tiempo de treinta minutos,

que fue revisado y puntuado por siete profesores, usando un baremo mixto basado en una escala

de diez.

Las categorías evaluadas fueron: organización, desarrollo (ejemplos y apoyo al enunciado

de la tesis), cohesión, estructura (sintaxis y gramática), vocabulario y convenciones (puntuación,

ortografía y uso de mayúsculas); cada categoría recibió una puntuación de entre uno y diez, y la

puntuación final se obtuvo por promedio; las investigadoras realizaron el entrenamiento

necesario para asegurar una fiabilidad significativa en las valoraciones de los evaluadores. La

primera pregunta del estudio fue si el grupo otorgador mostraría mayores beneficios que el grupo

receptor, al comparar el pre y el post test. La segunda pregunta hacía referencia a que si se

encontraban diferencias entre los grupos de otorgadores y receptores de los diferentes niveles, en

qué aspectos de la escritura se detectaban.



83

Al comparar el pre y el post-test, los resultados mostraron que ambos grupos habían

obtenido beneficios, aun cuando el grupo otorgador de nivel 2 obtuvo una puntuación menor que

el grupo receptor en el pre-test; en el post-test, sus puntuaciones fueron más altas en los aspectos

globales de la escritura, en relación al grupo receptor. Las categorías que mostraron una diferencia

significativa de p<.001, fueron: organización, desarrollo, cohesión y estructura. Los estudiantes

del nivel 4 mostraron ganancias desde el pre-test al post-test, en algunos aspectos de la escritura

como organización, desarrollo y estructura; pero no se encontraron diferencias significativas entre

el grupo receptor y el otorgador.

Las investigadoras optaron por analizar separadamente a los estudiantes de nivel 2, en las

clases de composición de ambos grupos, a fin de determinar si una mayor experiencia previa en

la revisión de composiciones de los estudiantes más antiguos, había podido influir en los

resultados de los test; se observó que en general los estudiantes menos expertos de nivel 2,

mejoraron significativamente en todas las áreas en comparación con los de nivel 4; adicionalmente

los estudiantes del grupo de otorgadores del nivel 2, mejoraron significativamente en todas las

áreas más que los receptores. En los estudiantes expertos del nivel 4 se evidenciaron también

diferencias en los aspectos locales de la escritura (como la gramática) y en las áreas globales (como

el desarrollo y la organización).

Las investigadoras concluyeron que se obtiene un mayor impacto cuando el entrenamiento

se enfoca en el ofrecimiento y no en el uso de la retroalimentación en sí, especialmente en los

aspectos globales de la escritura; explican que al revisar las composiciones los estudiantes

desarrollan una reflexión crítica. Asimismo se observa que las diferencias entre las ZDP de los



84

receptores y otorgadores, probablemente influyeron en la utilización de la retroalimentación.

Lundstrom y Baker (2009) explicaron que si la ZDP del revisor es mayor que la de su receptor, es

probable que no exista el andamiaje necesario para mejorar las composiciones, puesto que los

receptores pueden no tener control de la retroalimentación, al no comprenderla por estar fuera de

su ZDP. Así mismo notaron que los estudiantes del nivel 2, tuvieron mayores ganancias durante

el estudio que los del nivel 4, con la mejora de la competencia lingüística y las destrezas en la

habilidad escrita; su crecimiento progresivo fue más marcado que el de los estudiantes de nivel 4,

cuya competencia lingüística era superior desde el inicio.

Gielen et al. (2010), trataron de examinar si la retroalimentación de los pares en un momento

determinado pudiera sustituir la retroalimentación del profesor; también se centraron en

descubrir qué medidas de retroalimentación son más efectivas y cuáles eran las percepciones

finales de los estudiantes, después de haber experimentado con la retroalimentación. El estudio

fue realizado en Bélgica, en clases de escritura de séptimo grado de secundaria con 87 estudiantes

de entre 12 y 13 años, el 63% eran chicos. Se dividieron en cuatro clases dirigidas por el mismo

profesor; la experiencia de la aplicación de la retroalimentación era novedosa, tanto para los

estudiantes como para el profesor. Por ello el profesor realizó una sesión informativa sobre la

justificación, explicación y modelado del uso de la retroalimentación, y formuló con los

estudiantes los criterios de evaluación a seguir. En este estudio cuasi-experimental se efectuaron,

un pre-test y un post-test, que correspondían a los exámenes semestrales del curso realizados en

diciembre y en junio.



85

Una clase (el grupo de control) cumplimentó un cuestionario sobre sus percepciones

respecto a la retroalimentación, las otras tres clases elegidas por la habilidad compositiva de sus

estudiantes, con base en los resultados del pre-test, realizaron sesiones de retroalimentación por

pares y con el profesor; se hicieron tres asignaciones escritas; para los dos primeros borradores, la

retroalimentación por los pares o por el profesor fue escrita, pero para el tercer borrador la

retroalimentación del profesor se efectuó de forma oral. De los tres grupos experimentales, uno

elaboró una respuesta a la retroalimentación del profesor, comentando aspectos como: el tipo de

retroalimentación recibida, lo que aprendieron, los criterios que se usaron en la revisión de su

composición, sus mejores partes y lo que más llamó su atención. Otro grupo cumplimentó una

planilla de respuesta a los pares, con indicadores en forma de enunciados como: me llamó la

atención, dudo que, me pareció difícil, me gustaría recibir retroalimentación en los criterios

siguientes. Estas dos clases de respuesta a la retroalimentación fueron llamadas por los

investigadores como «retroalimentación de respuesta extendida».

El tercer grupo escribió un párrafo de respuesta ofreciendo comentarios sobre las fortalezas

y las debilidades de los escritores, haciendo sugerencias y añadiendo sus justificaciones y agregó

un valor cuantitativo a la composición. Esta respuesta a la retroalimentación se la llamó «de

respuesta simple». El grupo de control recibió retroalimentación colectiva, tomando como

muestra el borrador de una composición de la clase y usando un párrafo de respuesta con

indicadores similares a los usados por el grupo experimental.

Al final del estudio los estudiantes respondieron un cuestionario dando su opinión sobre la

experiencia de dar y recibir retroalimentación, y sobre si deseaban continuar con esta estrategia



86

en otros cursos y asignaturas; los resultados muestran que los grupos que usaron las estrategias

de respuesta extendida, presentaron relativamente un mayor progreso que los demás grupos. El

grupo que usó la planilla de retroalimentación mostró una diferencia significativa, en

comparación con los otros grupos experimentales y sobrepasó al grupo de control; esto ocurrió

según los investigadores, gracias al uso de la planilla de respuesta, que permitió a los escritores

solicitar a los revisores una retroalimentación sobre criterios y necesidades específicas. Los grupos

de respuesta extendida mostraron un mayor progreso desde el pre-test al post-test, que el grupo

experimental de respuesta simple. Cuando compararon los grupos de respuesta simple —el

experimental y el de control— con los grupos experimentales de respuesta extendida, éstos

últimos mostraron una diferencia más marcada en las puntuaciones; los investigadores explican

que esto se debió no a la fuente de retroalimentación, sino a la forma de respuesta a la

retroalimentación utilizada.

Los resultados en cuanto a la opinión de los estudiantes respecto a la retroalimentación,

mostraron que en general a los estudiantes no les agradó el procedimiento de evaluación por

pares; el 44% consideró la retroalimentación como útil y el 23% como muy útil, pero más del 63%

no querían continuar con la retroalimentación por pares, específicamente entre grupos; el

porcentaje de alumnos que consideraron la retroalimentación como útil fue del 37% en el grupo

de respuesta extendida con indicadores, en los grupos experimentales; del 38% en el grupo de

control con el párrafo de respuesta y del 57% entre quienes respondieron con la planilla de

retroalimentación y con la respuesta simple. Los grupos que mayores respuestas negativas

ofrecieron sobre la retroalimentación por pares, fueron el de respuesta extendida y el de

indicadores.



87

En general el estudio muestra que el progreso de los estudiantes, no estuvo relacionado con

la fuente de retroalimentación, sino con el instrumento o estrategia aplicada; la planilla de

respuesta a la retroalimentación parece muy efectiva, debido a que con este instrumento «los

evaluadores pueden ofrecer una retroalimentación más útil cuando reciben información

anticipada de las preguntas y dudas de los evaluados» (p. 158); es decir que a medida que avanza

el proceso, la retroalimentación ofrecida se hace más específica a las necesidades de los pares. Por

otra parte la cumplimentación de la planilla de respuesta a la retroalimentación fue relevante para

los estudiantes, «puesto que los alumnos se percataron del impacto positivo sobre la utilidad de

la retroalimentación recibida» (p. 159); sin embargo, permanece la duda sobre si las planillas y las

respuestas a la retroalimentación con indicadores, serían igual de efectivas si se dirigieran al

profesor, es decir, si los estudiantes serían igual de honestos a la hora de reportar sus debilidades

y problemas con la composición. En relación a la lectura y la revisión por pares, solo el 23% de los

estudiantes las consideró valiosas para el aprendizaje, los comentarios críticos de los otros

estudiantes los calificaron como tediosos y como una pérdida de tiempo.

Otro estudio importante sobre la retroalimentación fue la investigación de Ferris (2010). En

relación con los resultados de la retroalimentación, Ferris trató de determinar la efectividad de la

RC en las aulas IL2, para la superación de errores a corto y a largo plazo; buscó determinar la

precisión y extensión de la RC ofrecida por los profesores. Para su estudio examinó los errores en

las composiciones de 92 estudiantes durante 15 semanas. En el inicio de la investigación estableció

una lista de categorías y siglas para codificar las correcciones, los estudiantes asistieron a sesiones

de corrección con los profesores y Ferris afirma que estaban «muy motivados y tenían niveles altos

de desempeño L2» (p. 99).



88

En el análisis de los datos y de acuerdo con las categorizaciones utilizadas por la

investigadora, se observó que aproximadamente el 80% de los errores fueron corregidos, el 10%

no se superaron y el 10% restante fueron corregidos incorrectamente; los estudiantes incorporaron

las correcciones de la RC directa en un 88% y de la RC indirecta en un 77%. Encontró que no todos

los profesores se ciñeron al código de errores y por tanto, hicieron marcaciones diferentes a las

preestablecidas al comienzo del estudio. También encontraron que las categorías de error que

mostraron un menor índice de superación fueron los errores en las expresiones idiomáticas y

concordancias sujeto-verbo, quizás porque fueron corregidos en forma incorrecta en un 40% y

20% respectivamente más que en las otras categorías, además los errores en la estructura oracional

resurgieron con el tiempo.

De una forma general, Ferris (2010) concluye explicando que la estrategia de corrección más

efectiva es la RC indirecta, es decir, la localización de los errores, más que su categorización o

codificación. También considera importante aplicar un tipo de RC diferente para los errores

tratables y no tratables, además de la utilización de una lista de categorías de errores para guiar

la RC; aclara que cuando se corrige un error, no se tiene la indicación certera de que el estudiante

ha comprendido el constructo lingüístico del error. El estudio mostró que la «progresión en la

superación de los errores fue diferente para cada alumno, debido a las variables individuales que

determinaron el grado de beneficio personal que recibieron de la instrucción y de la RC» (p. 98).

Esas variables individuales pueden ser evidenciadas cuando se realiza una negociación

colaborativa de baremos, tarea en la cual el estudiante necesita usar su conocimiento L1 y L2 o

comprender el constructo que subyace al error; todo dentro de su ZDP en relación a su aprendizaje

actual, como se encontró en el estudio previo a la presente investigación (Acevedo, 2013).



89

Santos, López-Serrano y Manchón (2010), también investigaron sobre la retroalimentación

correctiva, teniendo en cuenta el proceso de detección previo a la corrección del error y el proceso

de incorporación previo a la reformulación. Las investigadoras sistematizaron estos procesos

tomando como base la cantidad de correcciones reconocidas, el tipo y la cantidad de revisiones

precisas incorporadas en las versiones revisadas de los textos originales; las investigadoras

tomaron 8 alumnos de educación secundaria de nivel intermedio de inglés L2, que distribuyeron

por parejas hombre-mujer; el estudio se llevó a cabo en tres etapas: redacción, comparación-

detección y revisión; el objetivo fue determinar las diferencias de detección de errores o

reformulaciones realizadas por los estudiantes de secundaria, la variación lingüística de las

revisiones, de acuerdo al tipo de corrección, y el tipo de revisiones que los estudiantes incorporan

en sus textos, cuando reciben RC en forma de reformulación o corrección del error.

Los participantes asistieron a seis sesiones diferentes en un periodo de dos semanas, tres

sesiones para cada condición experimental: negociación y escritura colaborativa, sesión de

detección-comparación y revisión individual. Para empezar, se presentó a los estudiantes una

secuencia gráfica de seis viñetas, sobre las cuales tenían que redactar una narración en un tiempo

de clase máximo de 50 minutos; en la primera sesión de tratamiento, las investigadoras

reescribieron las composiciones acercándolas al nivel de un nativo-hablante, reformulando el

contenido sin afectar a su significado original; dos días después los estudiantes realizaron

comparaciones usando las viñetas, el texto original y el texto reformulado, y cumplimentaron una

planilla anotando el error, su tipología y la corrección. También debían declarar y justificar si la

corrección iba a ser incorporada o no en la reescritura; en la siguiente sesión los estudiantes

recibieron solamente la guía, las viñetas y una hoja en blanco para reescribir las composiciones en



90

forma individual, durante un tiempo máximo de 45 minutos. La dinámica para la segunda sesión

de tratamiento fue similar, pero en este caso, una profesora-investigadora corrigió la gramática, el

vocabulario y la cohesión textual de los escritos. Al final de los dos tratamientos, se realizaron

entrevistas individuales con los estudiantes.

Las planillas de anotación mostraron que los estudiantes habían observado el 100% de las

reformulaciones y correcciones, debido según las investigadoras, a que habían tenido un tiempo

largo para su detección;, sin embargo la revisión de las reediciones reveló que sólo se incorporaron

el 63.51% de las reformulaciones y el 83.31% de las correcciones. Las investigadoras plantean, que

los estudiantes habían podido recordar más fácilmente las correcciones de errores, porque las

reformulaciones requieren un número mayor de modificaciones, lo cual hace difícil su

memorización.

Otro enfoque en relación con la retroalimentación tiene que ver con la motivación y el

compromiso de los estudiantes para incorporar las correcciones; un primer paso importante es

identificar y reconocer los errores cuando examinan las composiciones propias o de sus pares. El

estudio exploratorio de Wingate (2010), se enfocó en determinar el impacto que la

retroalimentación escrita tiene en un grupo de estudiantes L1 de primer año universitario, la

investigadora partió de la idea de que la motivación está estrechamente ligada a la consecución y

el logro de metas, que a su vez están determinadas por «la auto-percepción que tiene el estudiante

de su posibilidad de éxito al realizar una tarea y en el valor que le da a la misma» (Wingate, 2010,

p. 521).



91

En el estudio participaron 68 estudiantes asistentes a un programa de diez semanas sobre

metodología de la escritura, que incluía entre otros, un módulo de retroalimentación de dos horas

semanales; en la quinta semana dos tutores recogieron un ensayo exploratorio de 1.500 palabras

escrito por los estudiantes, con el objeto de revisarlo, anotar comentarios y calificarlo

provisionalmente; en el momento de devolver los ensayos revisados, los tutores debatieron con

cada estudiante y dieron sugerencias durante un lapso de 10 minutos. A la semana siguiente los

estudiantes entregaron un ensayo de 3000 palabras (A), pero esta vez los tutores sí le asignaron

una calificación final. En la octava semana los alumnos escribieron un ensayo de 4000 palabras

(B). Al final, la investigadora analizó 39 ensayos de 62 estudiantes y los dividió en cinco categorías,

según la evolución de las calificaciones de los alumnos (<40%= perdido, 40-50%= aprobado; 61-

69%= meritorio, >70%= distinguido). Los resultados se muestran en la Tabla 11.

Categoría N: 62 %

C1 Mejoramiento hasta del 10%; rango de calificación A: 40-55 18 29%

C2 No mejoramiento (±5%); rango de calificación A: 38-50 9 14.5%

C3 Alumnos de rendimiento alto estable; rango de calificación A y B: 68-75 12 19%

C4 Mejoramiento bajo (entre 5% y 9%); rango de calificación A: 51-67 17 27%

C5 Deterioro (entre 1% y 5%); rango de calificación A: 51-67 6 10%

Tabla 11. Categorías de evolución de la calificación de los ensayos, A y B. A partir de Wingate, 2010, p.524

Para evaluar la utilización de los procesos de retroalimentación, la investigadora estableció

cinco criterios: evidencia de uso de otras fuentes; evaluación crítica de la literatura; comprensión,

discusión del tema y puntos clave; estructura, organización y referencias apropiadas; y claridad

de expresión, estilo adecuado y lenguaje preciso. Al final del estudio se observó una mejoría en

un 56% de los estudiantes, específicamente de las categorías C1 y C4, lo que muestra que este



92

grupo de estudiantes se beneficiaron de la retroalimentación recibida. El número de comentarios

analizados fue de 1.434; la investigadora registró las diferencias entre el número de comentarios

anotados para los estudiantes en las tres primeras categorías, C1, C2 y C3, comparando el ensayo

exploratorio y los ensayos A y B; para determinar el impacto formativo de la retroalimentación,

tuvo en cuenta solo las tres primeras categorías; considerando el promedio por grupos y

categorías, se observa un decrecimiento del número de comentarios, desde el primer ensayo (no

calificado) hasta el A y el B. Por ejemplo en la categoría 1, el decrecimiento es 14, 18, 8, y en la

categoría 3 las medias fueron de 9, 8 y 5 respectivamente. Por el contrario, la media de los

comentarios sobre los puntos débiles en la escritura de los alumnos del grupo C2 aumentó: 14, 17

y 19.

Finalmente las entrevistas se realizaron de forma voluntaria con 12 estudiantes, cinco de la

categoría 1, tres de la categoría 2 y cuatro de la categoría 4, quienes ofrecieron información

importante sobre la concienciación y el compromiso del estudiante con la retroalimentación. La

investigadora encontró que los estudiantes de la categoría 2 recordaban vagamente la

retroalimentación que habían recibido o, simplemente no la habían leído; mientras que los

estudiantes de las otras dos categorías no solo recordaron de forma precisa la mayoría de los

comentarios recibidos, sino que también explicaron las estrategias y la forma en que habían

procedido para mejorar; es decir, que en este último caso «la retroalimentación habilitó a los

estudiantes para establecer metas y diseñar acciones para alcanzarlas» (p. 529).

Entre los factores que influyeron en los resultados están: la motivación intrínseca en la

elección del programa de escritura, la ansiedad y la experiencia previa en escritura durante la



93

secundaria. Los estudiantes de la categoría 2 atribuyeron su bajo rendimiento a causas externas,

como diferencias en la instrucción universitaria o en la secundaria y entre los profesores en la

institución. Los estudiantes de las categorías 1 y 3 también mencionaron estas discrepancias, pero

desde una perspectiva más positiva, enfocada no en los fallos de la instrucción sino en las acciones

que tomaron para mejorar su escritura actual. La investigadora concluyó que los tutores utilizaron

un tono y un estilo diferente en sus comentarios, un inconveniente que no se tuvo en cuenta desde

el inicio del estudio; para los estudiantes de alto rendimiento, se usaron palabras circunspectas

(tiendes a, pudiste haber resaltado, ocasional) y comentarios más positivos; mientras que para los

estudiantes de bajo rendimiento se emplearon más imperativos y formas modales (mira la guía,

usa encabezados, debes, necesitas). De acuerdo con la investigadora «esta discrepancia en la

retroalimentación, probablemente refuerza la motivación y auto-efectividad de los estudiantes

exitosos, a la vez que desalienta aún más a los estudiantes bajos» (p. 531).

Respecto al entrenamiento previo para los pares, Diab (2010) realizó un estudio

experimental que buscó determinar si el entrenamiento para la revisión por pares y la

autoevaluación resultaba eficaz para reducir el porcentaje de los errores gramaticales (rule base

errors) y de los no gramaticales (non-rule based errors), en los ensayos editados. Investigó sobre

errores codificados como: la correspondencia sujeto-verbo (S/V), los errores de correspondencia

en los pronombres (P); la selección equivocada de palabra (SP) y los errores en la estructura

oracional (EO) (con énfasis en la escritura incorrecta de la misma). El mismo investigador actuó

como profesor trabajando con dos grupos de estudiantes universitarios de primer año, registrados

en dos clases de composición inglesa de nivel 3, los informantes fueron estudiantes libaneses cuya



94

L1 era el árabe, la L2 era inglés o francés, y para algunos el inglés era su L3, el grupo de control

estuvo constituido por 18 estudiantes y el experimental por 22.

Los instrumentos de recolección de datos fueron: una encuesta, un ensayo diagnóstico

evaluado en base a un baremo analítico de trazos, una plantilla de edición y una fórmula para

calcular los errores de la lengua. La encuesta buscó determinar el bagaje y cultura de aprendizaje

de los estudiantes en su IL2 o IL3, se tomaron tres muestras escritas y se consideró la primera

como diagnóstica para los fines de la investigación. El ensayo argumentativo y la instrucción

enfocada en la forma, fueron los puntos relevantes del entrenamiento que se realizó antes del

estudio. En el entrenamiento también se mostraron a los estudiantes los códigos que se utilizarían

para la corrección de los ensayos y que se anotarían en la plantilla de edición que se les entregaría.

En relación al manejo del error, el investigador explicó el uso de las correcciones directa y

codificada, y para ello dio instrucciones sobre cómo enumerar el renglón contentivo del error,

anotar su código y corregirlo. La estrategia modelada por el investigador fue: subrayado de los

errores, codificación, anotación y corrección del error en la planilla de edición.

Los estudiantes escribieron tres muestras escritas y practicaron la forma de editar y

reescribir los borradores, los estudiantes del grupo experimental revisaron las composiciones por

pares (cambiando el rol alternativamente), negociaron opciones y llenaron la planilla de edición

durante dos sesiones de clase consecutivas; posteriormente reescribieron sus composiciones en la

tercera sesión. Los estudiantes del grupo de control autoevaluaron sus composiciones y llenaron

la planilla de autoevaluación. Los datos obtenidos de la encuesta revelaron, que más del 60% de

los estudiantes de ambos grupos llevaban por lo menos ocho años aprendiendo IL2 o IL3; en



95

cuanto a su experiencia en realizar composiciones en IL2 o IL3, los estudiantes del grupo

experimental tenían menos práctica en literatura inglesa, gramática y revisión colaborativa. En

relación a los criterios de evaluación establecidos por los profesores, la mayoría de estudiantes del

grupo experimental dieron más puntuación a la claridad de las ideas principales y la organización,

seguido de la gramática y la ortografía, la ejemplificación y la concisión en la escritura; mientras

que los estudiantes del grupo de control, expresaron que «el criterio de evaluación más relevante

de sus profesores anteriores fueron la claridad de las ideas principales y la escritura detallada,

seguidos de la organización, gramática y ortografía, y por último, el estilo del lenguaje» (p. 88).

En cuanto a las actitudes en la corrección, de acuerdo a la encuesta, los estudiantes del grupo

experimental se preocupaban de no ofender a los escritores y estaban más dispuestos a

complacerlos con los comentarios, mientras que los estudiantes del grupo de control mostraban

inseguridad en sus habilidades para corregir con un par; ambos grupos confiaban en las destrezas

de sus iguales para realizar comentarios sobre sus composiciones, tras haber recibido un

entrenamiento para tal fin, sin embargo, para buscar ayuda los estudiantes del grupo

experimental, opinaron que el profesor era la fuente más confiable de retroalimentación y los

estudiantes del grupo de control afirmaron que confiaban en su auto-regulación.

Los resultados mostraron que los estudiantes del grupo experimental incurrieron en menos

errores gramaticales que el grupo control, en cuanto a los errores no gramaticales no hubo

diferencia notoria (p. 90). Al analizar los patrones de error, el investigador tomó aleatoriamente

siete muestras de los dos grupos, para someterlas a comparación; los errores hallados y corregidos

por ambos grupos se encuentran recogidos en la Tabla 12.



96

Patrones de error Grupo experimental Grupo control

Errores Hallados Errores Corregidos Errores Hallados Errores Corregidos

Sujeto verbo S/V 13 menos de la mitad 6 1

Pronombre P 3 0 8 0

Selección de Palabra SP 49 5 26 3

Estructura Oracional EO 24 2 17 1

Tabla 12. Errores hallados en las muestras de los grupos de estudio. A partir de Diab, 2010, p. 91

Tanto en el grupo experimental como en el de control, los estudiantes no acertaron en

algunas categorizaciones, como por ejemplo, en el grupo experimental lo errores de

correspondencia de número se tomaron como errores S/V, y las de modo o flexión verbal como

error de SP; en el grupo de control tomaron como error de estructura de la oración (EO), las

oraciones sin pausas dentro del texto y el error de preposición como error de pronombre. En suma,

tanto en la investigación de Zheng (2007), como en el estudio de Diab (2010), aun cuando los

estudiantes de control habían recibido entrenamiento, realizaron categorizaciones equivocadas de

los errores.

De forma similar en el estudio de Acevedo (2013), algunos estudiantes asignaron los errores

de discordancias de género al grupo de errores gramaticales u ortográficos, los errores de los

modos verbales dentro de las categorías de gramática u ortografía o dentro de conjugación; los

errores en los pronombres posesivos en la categoría de palabra errónea y errores de traducción en

las categorías de ortografía, conjugación o gramática. Esto muestra que aun después de un

entrenamiento, persiste la confusión en la categorización de los errores. En el trabajo de Acevedo

(2013), parece tener relación con la denominación que los estudiantes consideran es la correcta

para el tipo de error y no con el error en sí. Se mostró que los estudiantes efectivamente



97

identificaron esos errores, puesto que los colocaron dentro de una categoría, aunque no fuera la

apropiada. Durante el estudio no sólo se logró que los alumnos experimentaran con sus

conocimientos de la lengua, sino que también comprendieran el alcance de sus limitaciones, es

decir, que se concienciaran acerca de su ZDP en relación a la L2. Determinando la potencialidad

de su aprendizaje actual, los estudiantes fueron capaces de tomar la decisión o asumir el riesgo,

de ofrecer un output durante las negociaciones, que podía ser significativo o no, pero que mostró

que los aprendientes pueden en cierta forma y con determinadas estrategias, dar aportes que para

ellos tienen sentido y relevancia, que pueden funcionar como input para su par. Al final del

estudio no se realizaron entrevistas a los estudiantes, para determinar si comprendían o no los

constructos de los errores que categorizaron correcta o incorrectamente.

Ting y Qian (2010) investigaron sobre la retroalimentación en un aula de escritura ILE, con

32 estudiantes chinos de segundo y tercer año de universidad; la finalidad de la investigación fue

registrar la cantidad de retroalimentación que se incorporó en las composiciones, el tipo de

retroalimentación ofrecida y su eficacia para ayudar a mejorar los borradores. Uno de los

investigadores era también el profesor; los estudiantes se dividieron de forma aleatoria en 9

grupos, todos los estudiantes ya tenían experiencia revisando por pares, para lo cual ya habían

escrito 4 composiciones previas y varios borradores, antes de la asignada para el estudio. Cada

grupo revisó la primera composición ofreciendo retroalimentación, luego los escritores analizaron

la retroalimentación y escribieron el segundo borrador para la siguiente semana, la profesora leyó

estos borradores y ofreció una retroalimentación adicional.



98

Antes de iniciar el análisis de los resultados, los investigadores eligieron de forma aleatoria

a 11 estudiantes y constituyeron tres grupos en total, posteriormente codificaron los borradores

teniendo en cuenta si la retroalimentación había sido útil o no y contabilizaron los cambios

incorporados. Las revisiones que mostraban la incorporación de la retroalimentación se

categorizaron como «exitosas» y para el caso contrario como «no exitosas»; también clasificaron

las revisiones y las compararon entre los borradores, codificando las realizadas por pares y las

efectuadas por auto-revisión. Adicionalmente los investigadores usaron un método de análisis

textual para medir los índices de: precisión, fluidez, complejidad gramatical y vocabulario de las

composiciones.

En cuanto a los resultados referentes a la retroalimentación, encontraron que aun cuando el

número posible de retroalimentaciones era de 337, solo el 85.5% fueron incorporadas en los

segundos borradores; se habían realizado 340 revisiones en total, entre ellas 288 (84.7%) fueron

efectuadas por los pares y 52 (94.2%) fueron auto-revisiones provenientes de 9 de los 11

estudiantes, de las 288 revisiones por pares 266 (92.4%) fueron exitosas, en el caso de las auto-

revisiones fueron exitosas 49 de 52 (15.3%). A partir de la clasificación de las revisiones, se observó

que 280 de las 340 revisiones totales (82.4%) se enfocaron en cambios superficiales, de ellas 129

(37.9%) fueron cambios en la forma y 151 (44.4%) cambios que no afectaban al significado; otros

cambios (60, 17.6%) fueron de microestructura (16.7%) o de macroestructura (0.8%). Considerando

la fuente de la revisión, de las 288 revisiones iniciadas por los pares, 259 (89.9%) fueron cambios

superficiales y 29 (10.1%), de significado, en las 52 auto-revisiones los cambios micro-estructurales

llegaron al 55.8%, los cambios que no afectaron el significado fueron el 23.1% y los cambios

formales, el 17.3%.



99

Los investigadores explican que la revisión por pares promueve la autonomía de los

estudiantes, además de fomentar las destrezas implicadas en la lectura crítica de sus propias

composiciones. Los cambios superficiales predominaron en las revisiones por pares, mientras que

las auto-revisiones se centraron más en aspectos del significado; los pares mejoraron

considerablemente en la precisión, muy poco en la fluidez y no se vieron cambios en la

complejidad gramatical o en la riqueza del vocabulario. Finalmente los investigadores concluyen

que «como profesores de escritura, debemos tener presente que la revisión por pares es un proceso

continuado. Toma tiempo y esfuerzo establecer un ambiente que fomente la revisión por pares, la

cual cultiva lectores y escritores críticos e independientes» (p. 97).

Dentro de la bibliografía consultada se encuentra poco sobre la retroalimentación y el trabajo

colaborativo en aulas L2 o LE de secundaria; pero estudios como los de Servetti (2010), Elshirbini

(2013 a, 2013 b) y Early y Sadi (2013), resultan por esta razón importantes de reseñar en esta

investigación.

En el estudio de Servetti (2010) se seleccionaron seis clases de ILE de tres escuelas italianas

de secundaria, con un total de 150 estudiantes entre los 14 y 15 años de edad, los estudiantes

habían tomado como mínimo tres años de inglés y la mayoría se encontraban en un nivel A2. Se

formó un grupo de control y uno experimental en cada una de las tres escuelas elegidas, el objeto

del estudio fue determinar «si el uso del trabajo cooperativo para realizar correcciones y revisiones

gramaticales suponía un beneficio para los estudiantes, especialmente para los de bajo

rendimiento académico» (p. 12). En la fase primera del estudio los estudiantes debían corregir los

errores del tiempo presente, y en la segunda diferenciarlo del presente progresivo. Los estudiantes



100

revisaron la base gramatical con el profesor y realizaron un examen sobre el tema (pre-test), con

ejercicios formales y la escritura de una composición, los ejercicios formales eran de opción

múltiple y se aceptaba sólo una respuesta correcta. Para la corrección se utilizó RC indirecta, sólo

subrayando los errores cometidos por los estudiantes.

En la siguiente sesión de clase, los estudiantes revisaron el pre-test y recibieron una lista de

los errores más comunes hallados en su examen, los grupos de control realizaron las correcciones

individualmente, mientras que los otros lo hicieron en grupos de 4 a 5 estudiantes, se grabaron las

intervenciones y negociaciones para analizarlas posteriormente; al final de la clase se corrigieron

las oraciones incorrectas de forma colectiva, explicando las razones de las correcciones. Los

estudiantes también realizaron un post-test sobre el mismo tema gramatical, en la primera, cuarta

y octava semanas del estudio; el análisis de los resultados se enfocó en determinar los efectos de

la corrección en forma cooperativa, teniendo en cuenta el número de oraciones corregidas, el

grado de auto-corrección y la puntuación obtenida en los exámenes; los resultados mostraron que

se realizaron más correcciones acertadas de las oraciones en los grupos experimentales, entre el

87% y 100%, en comparación con el 23% al 100% de aciertos en las correcciones realizadas

individualmente por los estudiantes de los grupos de control. Las transcripciones de las

negociaciones permitieron determinar que los estudiantes hicieron mayor referencia a la

gramática (75% en promedio), revisando reglas gramaticales y realizando explicaciones recíprocas

dentro de los grupos.

Por otro lado cuando se comparan los porcentajes de autoevaluación entre las clases (de la

misma escuela), se determinó que los grupos experimentales que trabajaron colaborativamente,



101

tuvieron un mayor porcentaje de auto-corrección que las clases del grupo de control. En relación

a los resultados de los exámenes para el primero, las puntuaciones fueron similares entre las clases,

mientras que en los resultados para el segundo y tercer examen, algunas clases del grupo

experimental mostraron cierta mejoría en los ejercicios formales, aunque en general, hubo poca

diferencia entre todos los grupos en el desempeño de la escritura de los textos.

De este estudio puede deducirse que la colaboración entre los estudiantes refuerza y motiva

la corrección adecuada de los errores; como afirmó Servetti (2010),

«estas actividades pueden influir positivamente en los estudiantes, con un impacto mayor para

algunas estructuras lingüísticas como el genitivo sajón, los posesivos y pronombres, que para otras,

como el modo presente» (p. 21). Aun cuando este estudio determinó que los estudiantes mejoraron

sus aptitudes en las pruebas formales, no se observaron diferencias en las habilidades para la

redacción. En el estudio que se propone en el presente proyecto, se intentará determinar y medir

el progreso de los estudiantes, no solo determinando las incorporaciones de las correcciones en

los textos, sino también añadiendo las ponderaciones obtenidas de la revisión, con un baremo

analítico, para cada nivel de desempeño.

El primer trabajo de investigación de Elshirbini (2013 a), inició el enfoque de dos aspectos

importantes: el primero es desarrollar algunas destrezas de escritura en los estudiantes y registrar

sus actitudes a través de la práctica con algunas tipologías textuales; y el segundo presentar una

guía de uso de la RC directa para el desarrollo del desempeño en la escritura ILE. La muestra

estuvo conformada por dos clases de dos institutos diferentes, uno de los cuales fue elegido como

grupo de control con 39 estudiantes y el otro de 35 estudiantes como grupo experimental. Los



102

instrumentos preparados por el profesor fueron: un examen de escritura; dos baremos, uno

holístico y el otro analítico; y una escala que valorara la actitud hacia la escritura. El grupo de

control recibió instrucción de escritura tradicional, mientras que en el grupo experimental se hizo

una aproximación a la escritura enfocada en la tipología textual. Esta investigación se inició con

un estudio piloto para determinar los errores de escritura más comunes de los estudiantes de

secundaria. Para este fin los alumnos escribieron ensayos sobre cinco temas diferentes, el

investigador los corrigió y contó el número de oraciones y de errores, determinó que el 29.91% de

los errores totales correspondía a errores ortográficos; el 29.48% a errores de puntuación; el 21.51%

de concordancias y el 19.08% de ortografía.

En el estudio se realizaron un pre-test y un post-test, para medir el rendimiento de los dos

grupos. En la pre-evaluación la puntuación holística media del grupo experimental fue 3.77 (de=

2.49) y la del grupo de control 4.79 (de= 2.31). Las medias en las puntuaciones analíticas para el

grupo experimental y para el de control, fueron respectivamente: 3.82 y 5.05 en contenido, 3.74 y

4.64 en organización, 3.43 y 4.33 en fluidez en la oración y 3.46 y 4.64 en convenciones. Asimismo

los resultados de la pre-evaluación relacionados con la actitud hacia la escritura, no mostraron

diferencias significativas entre los dos grupos. Después del tratamiento y en base a la post

evaluación, las medias holísticas del grupo experimental y del grupo de control mostraron una

diferencia significativa: 5.05 y 8.59, respectivamente. También los resultados de las puntuaciones

analíticas mostraron diferencias importantes respecto a la pre-evaluación. Las puntuaciones

respectivas del grupo experimental y el de control fueron las siguientes: 7.92 y 5.49 en el contenido,

8.19 y 5.10 en organización, 8.27 y 5.18 en fluidez en la oración y 8.16 y 5.67 en convenciones. Por

último los resultados de la actitud hacia la escritura, mostraron de nuevo diferencias significativas.



103

En su estudio Elshirbini (2013 b), muestra que «la instrucción basada en la tipología textual

mejora el rendimiento de los estudiantes y genera un cambio positivo de actitud hacia la escritura»

(p. 39), sin embargo al comparar los resultados pre y post test del grupo de control, se observa que

la instrucción tradicional generó una leve mejoría en las puntuaciones de fluidez oracional y

convenciones, aunque no en los aspectos de contenido y organización. El investigador concluye

que: «proveer un ambiente seguro, motivador y no intimidatorio ayuda a los estudiantes a mejorar

su desempeño en la escritura» (p .40). Para su segundo estudio Elshirbini seleccionó inicialmente

cuatro clases para conformar el grupo experimental y una clase para el grupo de control. El grupo

experimental recibió instrucción en cuatro estrategias de RC y sobre composición con actividades

de retroalimentación; el grupo de control la recibió sobre composición con un método de

enseñanza tradicional. Para el propósito de su investigación, Elshirbini eligió dos de las cinco

clases de forma aleatoria que pertenecían a dos institutos de secundaria femeninos, en el grupo

experimental las informantes eran 40 estudiantes y el grupo de control tenía 39 alumnas; las

edades de las integrantes de cada grupo oscilaban entre los 15 y los 16 años, el árabe era su lengua

materna. El grupo experimental recibió el tratamiento de instrucción de RC durante todo el tiempo

de aplicación del estudio, el grupo de control sólo recibió una o dos estrategias de RC y realizó

prácticas de revisión una vez a la semana.

De acuerdo a la descripción del estudio se hizo un pre-test de escritura, que incluyó tres

composiciones, Los textos fueron valorados por tres evaluadores que utilizaron un baremo

holístico para evaluar: la gramática, las convenciones, la organización, la elección de palabra, el

propósito, el proceso de escritura, el contenido, la sintaxis y la presentación. Las puntuaciones

obtenidas en la pre-evaluación mostraron que la habilidad de escritura era homogénea entre los



104

grupos. Las estudiantes leyeron parte de sus composiciones frente a la clase y recibieron RC

directa del profesor antes de escribir la redacción final. Sobre ella el profesor subrayó los errores

y anotó las correcciones en los cuadernos de las estudiantes, las alumnas asistieron también a

conferencias con el profesor, para esclarecer dudas acerca de la RC directa que se había utilizado,

durante estas conferencias se reveló que algunas estudiantes no habían entendido la caligrafía o

las correcciones de los evaluadores y algunas habían sentido frustración por haber cometido

demasiados errores. En la última conferencia las estudiantes expresaron la importancia de la RC

indirecta, ya que esta les daba la posibilidad de pensar por sí mismas, pidieron también una copia

escrita de los errores, con las explicaciones para cada uno.

En cuanto a los resultados del estudio, las estudiantes del grupo experimental mejoraron

del pre-test al post-test, en un porcentaje mayor que las del grupo de control con una media de

3.88 a 8.58, y de 4.79 a 5.05 respectivamente; la poca mejoría del grupo de control según el

investigador, se debió a varias razones: «los estudiantes no tuvieron entrenamiento, no recibieron

una RC adecuada, la escritura se enfocó en el producto, no en el proceso, los alumnos escribieron

para el profesor, no para otra audiencia, ni trabajaron colaborativamente con otros en las

redacciones» (p. 54).

La investigación de Early y Saidy (2013) buscó determinar si la enseñanza de estrategias de

corrección mejoraría sustancialmente el comportamiento en la revisión de estudiantes

multilingües y de alumnos aprendientes de IL2 de décimo grado. La muestra provino de una clase

de artes del lenguaje con 29 estudiantes, entre ellos había anglo-hablantes IL2 y multilingües, 18

niños y 11 niñas que cursaban una clase de inglés dirigida a alumnos de nivel académico y



105

lectoescritura bajos. Para el grupo experimental se eligieron 15 alumnos considerados como

aprendientes de IL2 y multilingües (67% latinos, 20% anglosajones, 7% vietnamitas y 7%

multiétnicos) y para el grupo de control 14 anglo-hablantes y multilingües (21% latinos, 50%

anglosajones, 7% multiétnicos y 14% no se estableció). Al inicio del estudio los estudiantes

escribieron un ensayo argumentativo, basado en la lectura de un texto titulado “Disparando a un

elefante” del escritor George Orwell. El grupo de tratamiento recibió durante tres días

consecutivos, instrucción en: estrategias de revisión, modelado de textos argumentativos,

andamiaje y guía en la composición de los ensayos, escritura reflexiva y auto-reflexión. También

participaron en un taller práctico sobre retroalimentación en grupos de cuatro estudiantes, que

culminó con un debate colectivo; el grupo de control recibió instrucción tradicional remedial de

estrategias de revisión superficiales, en aspectos como: gramática, puntuación y elección de

palabra, y realizaron la lectura de los ensayos por pares.

Las investigadoras transcribieron digitalmente con un procesador de textos, los borradores

de los ensayos producidos por los estudiantes para valorarlos, crearon una taxonomía de revisión

que incluía los elementos compositivos del ensayo: la idea principal, el desarrollo del argumento,

la evidencia textual, las estrategias retóricas y la elección de lenguaje.

Los resultados obtenidos al comparar los grupos experimental y de control, muestran que

en la revisión de los diferentes elementos compositivos, no se evidencian diferencias significativas,

aun cuando se observaron más revisiones relacionadas con el desarrollo del argumento en los

ensayos del grupo de tratamiento; al analizar las subcategorías de este elemento, se mostró que la

totalidad de los estudiantes realizaron revisiones en el desarrollo del argumento en relación al



106

texto (uso de una frase, un ejemplo, un resumen o parafraseo) con un total de 30, de las cuales el

grupo de control efectuó sólo 9; en la subcategoría referencia a una opinión personal (tras una

declaración o hecho, o para extender las ideas y el argumento) se hicieron 11 revisiones en el grupo

de tratamiento y 7 en el de control; en interpretación del texto (analizando y agregando ideas

complejas) hubo 8 revisiones en el grupo de tratamiento y 4 en el de control, haciendo preguntas

aparece revisado en 6 ocasiones en el grupo de tratamiento y 1 en el de control. Finalmente en la

subcategoría extendiendo el argumento (formas diferentes a las anteriores, no categorizadas) se

observan 4 revisiones en el grupo de tratamiento y 2 en el de control.

Las investigadoras concluyen que la combinación de una buena práctica didáctica, que

ofrezca a los estudiantes un rol en la revisión de su escritura y brinde oportunidades para recibir

retroalimentación, puede facilitar el acceso a tácticas más sofisticadas en los cursos de nivel

académico bajo, con estudiantes que muestran dificultades en la escritura, en el estudio se observa

que se pueden enseñar estrategias para mejorar el desarrollo del argumento a los estudiantes, los

cuales pueden posteriormente aplicarlas de forma práctica en sus composiciones.

Para concluir con la reseña de investigaciones referentes al tema de la retroalimentación y

al trabajo por pares, se recoge un resumen comparativo en la Tabla 13.



107

Estudio Foco/Objetivo/Dimensiones Enfoque Participantes/Corpus

Delgado (2007)

Medir la efectividad de la RC y su influencia en la auto-corrección. Tratamiento: RC codificada, RC no codificada y no RC.

Cuasi-experimental y didáctico.

30 estudiantes universitarios de segundo semestre de ELE. Grupos intactos. El profesor es el investigador. Tres composiciones de 200 palabras. Lista de errores predeterminada.

Zheng (2007)

Descubrir hasta dónde pueden los estudiantes corregir sus errores en forma cooperativa, y cuál es el rol del profesor en la corrección del error.

Cualitativo y didáctico.

30 estudiantes chinos universitarios, en clases de escritura y literatura ILE/IL2. Listado de errores creado por el profesor de lengua y oraciones no corregidas para ser revisadas en forma colaborativa.

Lundstrom y Baker (2009)

Determinar el beneficio o mejora de los aspectos de la escritura ILE, comparando estudiantes revisores de la retroalimentación con los receptores.

Experimental 91 estudiantes universitarios en clases de escritura ILE. Dos composiciones escritas en 30 minutos, como pre-test y post-test. Entrenamiento diferenciado para revisores y receptores. Uso de preguntas para las revisiones y de un baremo mixto. Siete profesores revisores para comparar puntuaciones.

Gielen y otros (2010)

Examinaron si la retroalimentación de los pares puede sustituir la retroalimentación del profesor, y qué medidas son más efectivas.

Cuasi-experimental

87 estudiantes de 7º grado de secundaria en una clase de escritura L1. Edad: 12 y 13 años, 63% hombres. 4 clases enseñadas por el mismo profesor. Pre-test y post-test. Entrenamiento sobre retroalimentación, formulación de criterios con los estudiantes. Un cuestionario, retroalimentación por pares, tres asignaciones escritas. Estrategias oral y escrita de respuesta a la retroalimentación.

Ferris (2010)

Investigar si la corrección del error es efectiva; las estrategias de corrección de los profesores; el manejo de la RC y sus beneficios a corto y largo plazo.

Experimental longitudinal; método de triangulación.

92 estudiantes universitarios de primer semestre en clases de composición IL2. Cuatro composiciones de tipo persuasivo, información personal de cada estudiante, entrevistas y cuestionarios, grabaciones y transcripciones. Tres profesores correctores.

Santos, López-Serrano y Manchón (2010)

Investigar la influencia del tipo de corrección en la detección de errores e incorporación de reformulaciones.

Experimental 8 alumnos de nivel intermedio de inglés L2 en una escuela secundaria. Escritura de una composición reformulada por los investigadores y re-entregada para las correcciones e incorporaciones. Planilla de errores y reformulaciones.

Wingate (2010)

Estudiar el impacto de la retroalimentación correctiva.

Exploratorio 68 estudiantes universitarios de primer año de escritura L1. Métodos de escritura y retroalimentación. Tutores revisores. Tres composiciones. Planilla de evaluación de la composición y entrevistas voluntarias.

Diab (2010)

Encontrar si el entrenamiento para la revisión por pares o para la autoevaluación, es más eficaz para reducir los errores gramaticales y no gramaticales, en los ensayos editados.

Experimental Descriptivo y didáctico.

40 estudiantes universitarios libaneses de primer año: L1 el árabe, L2 inglés o francés, o L3 inglés, en dos clases de composición inglesa nivel 3. Uso de una encuesta, un ensayo diagnóstico, un baremo analítico de trazos, una plantilla de edición. Tres muestras escritas, una para diagnóstico y entrenamiento. El profesor, el mismo investigador.



108

Ting y Qian (2010)

Determinar cuánta de la retroalimentación obtenida por revisión por pares se incorpora en las auto-revisiones, el tipo y si éstas mejoran las composiciones.

Exploratorio 32 estudiantes chinos de una clase de escritura ILE de 2º y 3º año de universidad, con un profesor-investigador. Se formaron 9 grupos. Se escribieron dos borradores consecutivos. Luego se formaron tres grupos con solo 11 estudiantes, para realizar los análisis.

Servetti (2010)

Determinar si el trabajo cooperativo para corregir y revisar beneficia a los estudiantes, especialmente a los de bajo rendimiento académico.

Experimental 150 estudiantes de 6 clases ILE de tres escuelas italianas de secundaria. Edad: 14 y 15 años. Nivel A2, con diversos niveles de desempeño. Práctica previa de revisión. Un pre-test y un post-test y una composición en cada uno. Lista de errores. Grabaciones.

Elshirbini (2013a)

Desarrollar destrezas de escritura y registrar actitudes en el desarrollo de algunas tipologías textuales.

Experimental 74 estudiantes de escuela secundaria ILE. Pre y post-examen, dos baremos, holístico y analítico, escala de actitud.

Elshirbini (2013b)

Medir los efectos de la retroalimentación, a fin de diferenciar entre la instrucción tradicional y la de retroalimentación.

Experimental 79 estudiantes de 15 y 16 años de edad. Estudiantes ILE de secundaria. Para el grupo experimental, entrenamiento en retroalimentación. Pre-test en forma de tres composiciones revisadas por tres evaluadores. RC directa. Baremo holístico.

Early y Saidy (2013)

Determinar si la instrucción para enseñar estrategias de revisión mejora sustancialmente el comportamiento de revisión.

Cuasi-experimental

29 estudiantes, 15 eran IL2 y multilingües, y 14 angloparlantes y multilingües de décimo grado. Edad promedio, 15 años. 18 niños y 11 niñas. Un ensayo argumentativo y dos borradores. Instrucción en revisión, modelado de textos argumentativos, andamiaje y guía en composición de los ensayos, escritura reflexiva y auto-reflexión. Taller de retroalimentación y discusión en grupo.

Tabla 13. Resumen de las bases metodológicas de los estudios sobre retroalimentación y trabajo por pares, reseñados en el «Estado de la cuestión»

En el estudio preliminar de Acevedo (2013), donde se investigó la naturaleza y la eficacia de

la negociación por pares, en la identificación y categorización de errores, se mostró que los

estudiantes tomaron por sí mismos la iniciativa para afrontar una tarea de negociación, o para

usar estrategias como consultar al profesor, realizar inferencias y comparaciones o deducciones a

partir de la L1 o de su conocimiento actual de la L2. En cuanto a las destrezas relacionadas con el

conocimiento de la lengua, durante la tarea de revisión por pares, los alumnos pusieron en juego

sus habilidades ortográficas, verbales y conceptuales en L2, que presumiblemente les permitieron

reconocer y resolver en mayor o en menor grado algunos elementos de la lectoescritura L2 de

forma independiente, sin la mediación directa del profesor.



109

El objetivo de crear un baremo de errores a partir de la revisión de dos pre-textos elaborados

por el profesor, implicó la búsqueda del error en un trabajo colaborativo por pares. Esta actividad

permitió observar y evidenciar el conocimiento que tenían los estudiantes de sus propias

deficiencias, adicionalmente se pudo determinar que es importante incorporar y poner en práctica

actividades de negociación en el aula, no sólo para maximizar el aprendizaje y la aplicación del

saber de los alumnos, sino también como estrategia de entrenamiento previo a la revisión de textos

en el aula; además se vio la importancia del profesor en el aula para llevar a cabo una tarea

evaluativa, para guiar, aclarar, enseñar y ofrecer retroalimentación a los estudiantes. Los

resultados de este estudio preliminar de Acevedo (2013), mostraron que al revisar los textos, los

estudiantes marcaron lo que a su modo de ver era una indicación de error, los alumnos

encontraron errores gramaticales (41.88%), errores ortográficos (30.73% incluyendo la

acentuación) y en menor porcentaje, errores globales tales como de puntuación (5.87%), palabras

erróneas (3.19%) y de contenido (2.75%) entre otros.

La baja detección de errores globales es un llamamiento al docente, para que dedique

especial atención a la instrucción L2 en este aspecto. La nula detección de otros errores hizo

especular que se debió a: el desconocimiento del error como tal, es decir, el estudiante no lo detectó

porque no sabía que era un error; y la omisión del error como un acto inconsciente o consciente.

En el primer caso por falta de atención el estudiante no vio el error, se le pasó por alto y el segundo

a pesar de haberlo reconocido, decidió no ponerle marcación. En el estudio de Acevedo (2013), se

mostró que los alumnos de las aulas de lengua presentaron déficits de conocimiento, tal vez

causados por inefectividad de la instrucción que habían recibido en algunos aspectos de la L2. Se

pensó a su vez que la ZDP del alumno relativa a su aprendizaje en general, o su ZDP específica



110

relativa a su aprendizaje de E/LE, limitaron las posibilidades del estudiante para asimilar o

comprender los constructos de algunos errores. A este respecto y de acuerdo con los resultados

del estudio, los errores gramaticales como las correspondencias de sujeto-adjetivo y de sujeto-

verbo, fueron errores que parecieron estar dentro del nivel de comprensión gramatical de los

estudiantes, al igual que la ortografía. Se demostró que con la experiencia obtenida en la

investigación preliminar, los estudiantes realizaron las negociaciones necesarias para cumplir los

objetivos de la tarea, pero aun así requirieron de la intervención del profesor para recibir apoyo,

guía o aclaraciones.

Previa la estrategia a un trabajo por pares, debe realizarse en el aula la tarea de negociación

de errores, a fin de entrenar a los estudiantes en los procesos de revisión, de manera que ello les

permita interactuar con su par y realizar preguntas abiertamente. Esta actividad formativa de

entrenamiento permite que el profesor ofrezca la retroalimentación in situ y de manera inmediata,

a nivel grupal o individual, para atender las necesidades de un grupo específico o de un estudiante

en particular; en este sentido el profesor puede emitir un fallo sobre el estado de aprendizaje de

sus estudiantes, acerca de lo que los estudiantes no asimilaron o de las posibles confusiones y

lagunas conceptuales o de conocimiento, factores que podrían influir posteriormente en el trabajo

colaborativo y en los resultados de la evaluación o autoevaluación de los alumnos.

2.2. Aproximación a la evaluación

En relación a las investigaciones en torno a la evaluación con el uso de baremos o con otras

estrategias de autoevaluación, o en relación a estudios relacionados con la evaluación comparada



111

entre estudiantes y profesores, se mencionarán las investigaciones de Andrade et al. (2009),

Matsuno (2009), Arumi (2009), Oscarson (2009), Srichanyachon (2011), Tamjid y Birjandi (2011),

Zakian, Moradan y Naghibi (2012), Wang (2014) y Srichanyachon (2014).

Andrade et al. (2009), diseñaron un estudio para determinar la influencia del uso de baremos

sobre la autoevaluación en la escritura, a corto y a largo plazo en clases de inglés y ciencias

sociales, la muestra estaba conformada por un total de 307 estudiantes voluntarios de los grados

3º (54), 4º (93), 5º (41), 6º (56) y 7º (24 de enseñanza secundaria, pero después de las muertes

estadísticas, la muestra se redujo a 268 estudiantes, 99 de ellos hombres y 169 mujeres. El total de

clases participantes fue 18, de las cuales 9 fueron mantenidas intactas para someterlas al

tratamiento de autoevaluación; de esta forma cuatro clases de 3º y 4º grado y cinco clases entre los

grados 5º y 7º se compararon con las clases del grupo de control, conformado por cinco clases de

los grados 3º y 4º y cuatro clases entre los grados 5º y 7º. De las nueve clases del grupo de

tratamiento, cuatro ya habían usado baremos una o dos veces anteriormente, mientras que las

cinco clases restantes no.

Los instrumentos usados para el estudio fueron: un cuestionario, una escala y un baremo.

El cuestionario se utilizó para preguntar acerca de la experiencia previa y frecuencia de uso de

baremos en la clase; la escala llamada por los autores como «escala de auto-eficacia para la

escritura» (p. 289) iba de 0-100, fue usada para que los estudiantes marcaran si podían o no realizar

cada una de las tareas definidas, en 11 enunciados relacionados con la composición escrita; el

baremo por último, incluía las siguientes categorías: ideas y contenido, organización, formato del

párrafo, voz y tono, elección de palabra, fluidez y convenciones.



112

Durante el procedimiento los estudiantes del grupo de tratamiento leyeron una composición

modelo, discutieron las fortalezas y debilidades de la misma y acordaron una lista con las

cualidades de una buena composición; un cuando el grupo de control también generó una lista,

no llevó a cabo ni la lectura ni la discusión. Por otra parte sólo el grupo de tratamiento usó el

baremo para evaluar sus borradores, sus estudiantes revisaron y anotaron reflexiones para

mejorarlos, el proceso de autoevaluación fue guiado por una de las investigadoras-profesoras, el

tiempo promedio de escritura de la composición en las clases fue de entre 90 y 265 minutos.

Los resultados muestran que al comienzo del estudio, el valor de la escala de auto-eficacia

en todos los grupos fue de 82.6, con una desviación estándar (D.E) de 17.10; para la segunda

prueba subió a 83.5 (D.E 17.32) y a 87.7 (D.E 14.16) en la tercera. La desviación estándar del grupo

de control y del grupo de tratamiento para la primera y segunda prueba fue muy similar y en la

tercera prueba se observaron diferencias no significativas. En general las puntuaciones de auto-

eficacia fueron mejorando a medida que los estudiantes progresaron en los ejercicios de escritura,

la práctica en el uso de los baremos a corto plazo, mostró en las mujeres una relación positiva con

la auto-eficacia, en comparación con los hombres; en otras palabras, estos autores encontraron una

interacción significativa entre el género femenino y el uso del baremo de autoevaluación; el valor

de la auto-eficacia en las mujeres del grupo de tratamiento también fue mejor que el valor obtenido

en las mujeres del grupo de control. Finalmente los autores no encontraron diferencias

relacionadas con el grado de escolaridad ni con el tipo de escuela, privada o pública, a la que

asistían los estudiantes.



113

Matsuno (2009) por otra parte, buscó identificar similitudes o diferencias entre las

evaluaciones de estudiantes (EE) y las autoevaluaciones (AE) con las evaluaciones del profesor

(EP), en las clases de composición ILE; el estudio se llevó a cabo con 97 estudiantes japoneses de

segundo año de universidad, de entre 19 y 21 años de edad, pertenecientes a dos distintas

universidades del Japón. Los estudiantes actuaron como escritores y como evaluadores, excepto

seis de ellos, que no realizaron evaluaciones; la investigadora reportó 97 escritores y sólo 91

evaluadores, también seleccionó para el estudio cuatro profesores experimentados en la

enseñanza de ILE. Los estudiantes tuvieron sesiones de instrucción sobre composición de ensayos,

desde la primera hasta la séptima semana, en la octava semana redactaron un ensayo de 300

palabras, que fue reproducido para entregarlo a los estudiantes evaluadores. Los alumnos

orientaron su evaluación siguiendo los parámetros de un baremo analítico entregado por la

investigadora; El baremo que ya había sido probado previamente con 26 de los participantes,

incluía las categorías de: contenido (cantidad, desarrollo del enunciado, relevancia del tema),

organización (introducción, tesis, cuerpo, conclusión y secuencia), vocabulario (variedad,

expresiones idiomáticas), estructura oracional/gramática y convenciones (ortografía, formato,

puntuación y uso de mayúsculas); cada una con subcategorías de evaluación y con descriptores

del 1-6, desde muy pobre a muy bueno. Este baremo era una modificación del baremo de Jacobs

et al. (1981). Los estudiantes practicaron evaluando tres ensayos en grupo durante la clase y como

trabajo en casa, realizaron la autoevaluación de su ensayo y evaluaron cinco ensayos más, al final

se obtuvieron los datos de 68 estudiantes auto-evaluadores y 81 evaluadores.

Los resultados en relación a la media entre AE, EP y EE, muestran que para las dos primeras

(AE y EP) es la misma (2.74), para la tercera (EE) es más alta (2.94). La desviación estándar de EE



114

es 0.58, la de AE es 0.61 y la de EP es 0.81. Los resultados muestran que no todos los evaluadores

calificaron con rigor, en relación a las categorías y la ortografía (-1.72) no se calificó tan

estrictamente como la gramática (0.78). En las AE los estudiantes calificaron más severamente la

categoría de estructura oracional, mientras que en las EE fue la gramática y en EP la conclusión,

dentro de la categoría de organización. Las subcategorías que se calificaron con menos rigor

fueron la ortografía, el formato y la puntuación (pertenecientes a la categoría de las

Convenciones). Matsuno (2009) recoge que en la valoración de la habilidad de los escritores que

no eran muy buenos, se observaron puntuaciones altas, tal vez porque los estudiantes evaluadores

no calificaron de forma tan rigurosa a los otros como a sí mismos, adicionalmente se encontró que

aunque hubo discrepancias entre las puntuaciones de los profesores y las de los estudiantes, las

medidas mostraron consistencia interna.

Otro estudio importante es la investigación de Arumi (2009), sobre las percepciones que los

estudiantes de LE tienen del uso de instrumentos de autorregulación, su propósito fue detectar la

opinión de los estudiantes sobre el uso de instrumentos como: la RC, la guía de reflexión, el

informe intermedio, el baremo de autoevaluación, el portafolio y la tutoría. Los datos se

obtuvieron de 41 informantes voluntarios pertenecientes a 4 aulas, de tres universidades distintas

de nivel intermedio de lenguas extranjeras y 2 de alemán lengua extranjera (DAF), 1 LE y 1 E/LE.

La metodología que se impartía en las aulas del estudio era de tipo formativo, así que los

estudiantes ya habían trabajado con instrumentos similares a los utilizados en la investigación,

que no fueron los mismos para todas las aulas. La RC sobre la producción escrita se utilizó en las

aulas 1 y 3, en forma de comentarios para el aula 1 e indirecta para el aula 3; la plantilla de

evaluación consistía en un baremo analítico de autoevaluación, cuyas categorías hacían referencia



115

a las capacidades del alumno para la: comprensión textual (10 puntos), análisis lingüístico y

textual (12 puntos), producción textual (8 puntos) y aprender a aprender (sin puntuación). Este

baremo se aplicó en las aulas 1, 2 y 4. La guía de reflexión enfocada al análisis de errores o de las

técnicas de lectura utilizadas, se aplicó sólo en el aula 4, el informe de mitad del período se hizo

en el aula 3, el portafolio en las aulas 2, 3 y 4, la tutoría en las aulas 2 y 4. La recogida de datos fue

realizada trimestralmente en las aulas E/LE y 1 DAF y semestralmente en las aulas restantes.

Como el objeto del estudio era determinar qué instrumentos evaluaban positiva o negativamente

los estudiantes, la investigadora utilizó cuestionarios para la recogida de los datos, un cuestionario

pre-estudio indagaba las expectativas de los estudiantes sobre la autorregulación y

autoevaluación, así como su experiencia previa al respecto y un segundo cuestionario fue

entregado durante el tiempo de uso de los instrumentos; al final del estudio se aplicó un tercer

cuestionario y se realizó una entrevista a tres estudiantes de cada grupo.

Los resultados obtenidos muestran que sobre las plantillas de autoevaluación, hubo más

comentarios positivos que negativos; en un 75% en las aulas 1 y 2, y alrededor del 65% en el aula

3. Los factores a favor hacen referencia a que estos instrumentos propician la autoevaluación y

ayudan a la concienciación del error y las carencias, así como del nivel alcanzado; algunos

alumnos consideraron que estos instrumentos eran innecesarios, y que exigían demasiadas

justificaciones y una reflexión excesiva. El 87% y el 93% de los estudiantes de las aulas 1 y 3,

respectivamente, hicieron comentarios positivos de la RC. Las explicaciones giran en torno a las

mismas ventajas encontradas para las plantillas, pero se agregan dos más, una valora la toma de

conciencia del trabajo realizado y la otra los conocimientos adquiridos. En la investigación se

concluyó que los estudiantes acogen bien herramientas didácticas como las presentadas en el



116

estudio; también se identificó que estas herramientas permiten que los alumnos puedan utilizar

tanto su ZDP durante la actividad como sus alcances finales, además de favorecer la toma de

conciencia sobre los diferentes aspectos del aprendizaje. La autora afirma que «los resultados

ponen de manifiesto que el hecho de guiar a la reflexión y relacionarla con una tarea cognitiva

hace que esa reflexión pueda ser más concreta, más ajustada a la realidad y más profunda» (p. 53).

La investigación sobre participación de los estudiantes adolescentes en la evaluación y

autoevaluación de LE no es muy extensa. El estudio exploratorio y descriptivo de Oscarson (2009)

aporta datos importantes que se tomaron como modelo para el presente trabajo; el objetivo de la

investigación de Oscarson (2009) fue determinar el papel de la autoevaluación en el desarrollo de

la habilidad de escritura, en estudiantes adolescentes de una escuela en Suecia. Esta investigación

partió de tres objetivos principales: determinar la percepción individual y grupal que tenían los

estudiantes de sus propias habilidades de escritura en ILE, explorar las habilidades de escritura

que evaluaban los alumnos y esclarecer de qué manera los estudiantes y los profesores ponían en

práctica la autoevaluación y la independencia en el aula, aspectos que estaban contemplados como

objetivos curriculares. El total de participantes en el estudio fue de 102 estudiantes pertenecientes

a cuatro clases ILE; las clases fueron agrupadas según su rendimiento académico en inglés, en

Curso A (alto) y Curso B (bajo). Se aplicó un cuestionario general estandarizado de autoevaluación

para la escritura de la Agencia Nacional de Educación (Swedish National Agency for Education), a

fin de indagar en forma predictiva la apreciación holística que tenían los estudiantes de su propia

habilidad compositiva, posteriormente se emplearon dos cuestionarios de autoevaluación para las

tareas compositivas y otro para determinar el nivel de los estudiantes en el examen estandarizado

nacional de inglés (National Test of English).



117

La investigadora tuvo en cuenta los niveles finales que los estudiantes habían alcanzado en

el curso anterior, con el objeto de analizar los resultados de acuerdo con el rendimiento escolar.

Para este fin organizó los grupos en: aprobado, aprobado con distinción y aprobado con distinción

especial. La investigadora quiso también determinar en este respecto, si los estudiantes tenían la

capacidad de autoevaluar su nivel de desempeño. En el cuestionario de pre-evaluación se

encontró que los estudiantes con los grados más bajos, evaluaron su habilidad compositiva de

forma más desfavorable que los otros dos grupos; hubo diferencias entre el curso A y B: los

estudiantes del curso A evaluaron sus habilidades más positivamente que los del curso B; estas

apreciaciones se correlacionaron con las calificaciones de entrada que tuvieron los grupos en el

curso anterior, por lo cual «estos resultados muestran cierto grado de validez en las

autoevaluaciones realizadas por los estudiantes» (p. 157). Con respecto a la comparación entre la

predicción de su desempeño que los estudiantes habían realizado durante las tareas compositivas

y la evaluación con el profesor, se observaron mayores divergencias con el grupo A, mientras que

la autoevaluación del grupo B tuvo una mayor coincidencia con la evaluación del profesor. Los

resultados del coeficiente de correlación de Spearman (sr) para el curso A no tuvo correlación

significativa, rs = 0.25, mientras que lo contrario sucedió con el curso B, rs = 0.52. El investigador

precisa que «los estudiantes del grupo B habían tenido más experiencia en actividades de

autoevaluación que los estudiantes del grupo A» (p. 159). Desde el inicio ya los grupos tenían

diferencias importantes en cuanto a la exposición previa a tareas de autoevaluación.

Otra comparación que la investigadora realizó fue entre la autoevaluación y la calificación

final de las pruebas estandarizadas; en el curso A, la correlación fue significativa, rs = 0.059,

mientras que en el curso B, no lo fue: rs = 0.30. Oscarson (2009) aclaró que la diferencia de



118

resultados pudo deberse a la naturaleza misma de las evaluaciones: «la autoevaluación del

desempeño del estudiante está determinada por la tarea y la situación en particular» (p. 221);

agregó también que «los profesores corrigieron principalmente sobre las habilidades del

estudiante en el aspecto formal de la lengua» (p. 219) y que los alumnos «tuvieron apreciaciones

poco realistas de su desempeño» (p. 220).

En relación con las áreas autoevaluadas, los estudiantes marcaron como satisfactorias la

ortografía (63%), la organización (54%) y el vocabulario (53%). Las destrezas con necesidad de

mejoramiento que marcaron con mayor frecuencia fueron la gramática (61%), la estructura de la

oración (52%) y el vocabulario (50%). En cuanto al vocabulario, a pesar de sentirse satisfechos,

también consideraron que debía mejorar. En general, «las puntuaciones más altas mostraron que

la atención de los estudiantes se centró principalmente en la ortografía y en la gramática» (p. 164).

El 78% de los estudiantes del curso avanzado (A) sintió mayor satisfacción con la ortografía,

seguido del contenido y el vocabulario; mientras que los alumnos del grupo B se sintieron más

satisfechos con la estructura de la oración (48.9%). Los estudiantes del grupo A eligieron la

estructura de la oración (59%) y la gramática (55%), como destrezas que requerían mejoramiento,

en tanto que los estudiantes del grupo B marcaron la gramática (68%) y el vocabulario (60%). En

la evaluación del investigador se encontró que los estudiantes cometieron más errores en la

gramática, la estructura de la oración y la ortografía. Al comparar estos resultados con las

evaluaciones de los alumnos, se observa que estos muestran cierto grado de concienciación de los

errores gramaticales; estos resultados paradójicamente muestran que a pesar de los errores

gramaticales y de estructura de la oración, los estudiantes del grupo A reportaron estar más



119

satisfechos con sus destrezas de escritura que los del grupo B, quienes tuvieron tanto errores

gramaticales como ortográficos.

En general, de acuerdo a Oscarson «los estudiantes tendieron a sobre-estimar su habilidad

en ILE antes de la tarea compositiva, pero subestimaron su habilidad en relación a la tarea de

redacción» (p. 154). Al final del estudio se reportó que los estudiantes mejoraron en su capacidad

para autoevaluarse gracias a la práctica y al entrenamiento.

La propuesta de investigación aquí presentada incluirá el proceso de autoevaluación desde

la fase preliminar, para determinar la apreciación del estudiante de sus competencias, en relación

con las habilidades de escritura para el nivel actual de aprendizaje; el formato utilizado es un

baremo de auto-reflexión con cuatro enunciados, redactados en términos de: creo que puedo y

otros, similares a los utilizados en el estudio de Oscarson (2009). La autoevaluación de la habilidad

compositiva se determinará con el uso de un baremo de evaluación, a diferencia del estudio de

Oscarson (2009) donde la evaluación del desempeño del estudiante, se sometió a comparación con

sus resultados en una prueba estandarizada; esta opción no se consideró viable para el presente

estudio, en primera instancia porque no hay pruebas estandarizadas nacionales o estatales, que

respondan a la exigencia legal de evaluar las clases de lengua extranjera, en este caso E/LE en las

escuelas de secundaria de Estados Unidos; y en segundo lugar, porque se considera que comparar

la evaluación del desempeño del estudiante, mediante un formato de prueba estandarizada y la

autoevaluación de un proceso compositivo, puede no dar una apreciación fiable, ya que ambas

herramientas parten de criterios diferentes. La prueba estandarizada supone una cierta

artificialidad que poco se aproxima al desempeño real del estudiante en el contexto L2, y se centra



120

en el producto. La redacción de una composición, por el contrario, es de naturaleza procesal, lo

cual hace que se genere en el estudiante una respuesta de desempeño diferente. Estas dos formas

de respuesta como se mostró en el estudio de Oscarson (2009), no pueden compararse.

En el estudio de Srichanyachon (2011), se investigaron tres contextos de revisión diferentes:

auto-monitoreo, revisión por pares y revisión por el profesor; con la finalidad de analizar los

diferentes tipos de errores que podían identificarse con cada método. El investigador trabajó con

10 estudiantes escogidos al azar, pertenecientes a dos clases de nivel avanzado de ILE, de la

Universidad de Bangkok. El promedio de edad de los estudiantes era de 19 años. Al empezar el

estudio, los alumnos redactaron un ensayo de cinco párrafos sobre un tema cercano: Tres metas

para los próximos cinco años. Debían escribir un mínimo de 250 palabras, en un plazo de tiempo

de una hora. El investigador transcribió las 10 composiciones al ordenador dejando espacio

suficiente para permitir el registro de las correcciones durante las revisiones, y entregó una copia

a los estudiantes revisores; durante las revisiones, los alumnos usaron símbolos predeterminados

para ofrecer la RC sobre los tipos de errores encontrados, posteriormente los estudiantes escritores

realizaron la auto-revisión de sus composiciones; después el investigador entregó de forma

aleatoria, otra copia de las composiciones a los pares de estudiantes, quienes cumplimentaron una

hoja de registro sobre la respuesta a la revisión. Finalmente una tercera copia de las composiciones

fue evaluada por un profesor, en total en el estudio se recolectaron 30 ensayos revisados. Al final,

después de la última clase el investigador entrevistó a los estudiantes.

Sus resultados en la Tabla 14, muestran que las auto-revisiones encontraron más errores

ortográficos, seguidos de los errores de uso verbal; también durante las revisiones por pares y del



121

profesor se encontraron estos errores, pero el porcentaje no fue tan alto, el 24% y 13%,

respectivamente.

Tipo de error

Método de revisión

Estadio 1 Auto-revisión Estadio 2 Revisión por pares Estadio 3 Revisión del profesor

Número Porcentaje Número Porcentaje Número Porcentaje

Ortografía 12 63 10 24 23 13

Mayúsculas 1 5 4 10 11 6

Léxico 0 0 0 0 8 5

Preposición 0 0 1 2 12 7

Uso verbal 3 16 8 19 22 13

Tiempo verbal 0 0 0 0 14 8

Estructura oracional 2 11 6 14 40 24

Artículo 0 0 1 2 6 4

Número 0 0 4 10 5 3

Puntuación 1 5 8 19 29 17

Total 19 100 42 100 170 100

Tabla 14. Porcentaje y número de errores hallados en el estudio de Srichanyachon, 2011, p. 413

El profesor encontró más errores en las estructuras de las oraciones (24%) y en la puntuación

(17%), mientras que los pares hallaron el 19% de los errores en las estructuras oracionales y usos

verbales; los estudiantes tanto en las auto-revisiones como en las revisiones por pares, no hallaron

errores de léxico o tiempos verbales. En las revisiones por pares sin embargo, se halló más

cantidad de errores que en las auto-revisiones, 42 frente a 19, pero esta cantidad resulta baja

cuando se compara con los 170 errores hallados por el profesor (Tabla 14).

Las sugerencias de corrección que ofrecieron los estudiantes a sus iguales, no resultaron

muy específicas para guiar la re-escritura. La investigadora también encontró que los estudiantes



122

consideraron las revisiones del profesor como el método más efectivo, sin embargo, también

propusieron como práctica futura en el aula, las revisiones por pares. De acuerdo a las entrevistas,

la investigadora pudo determinar que aun cuando los estudiantes se sienten más cómodos y con

menos presión cuando se auto-revisan, sienten que no pueden notar todos sus errores ni editar

con confianza, debido a su poco conocimiento gramatical y en general a su limitada competencia

lingüística. De hecho los resultados del estudio, muestran que los estudiantes tuvieron

dificultades para elaborar oraciones gramaticalmente correctas y para corregir errores. La mayoría

de las observaciones de los estudiantes hacían referencia al estrés generado y a la fuente de la

retroalimentación, siendo la revisión del profesor la que más ansiedad les generó, ya que es vista

por los alumnos como muy formal.

La preocupación de los estudiantes también se relacionó con su habilidad para ofrecer una

RC acertada, cuando actúan como revisores; los estudiantes comentaron haberse sentido

inseguros en el momento de auto-revisar y anotar correcciones o comentarios adecuados para sus

iguales, tal vez debido a que «no habían aprendido composición ILE como asignatura en forma

sistemática»” (p. 245); por ello consideraron importante la ayuda del profesor durante estos

procesos. En general los estudiantes apreciaron más la RC del profesor que la propia o la de sus

iguales, aunque indicaron que la revisión por pares les había ayudado a incrementar su

motivación y a mejorar las destrezas para la escritura.

Tamjid y Birjandi (2012) investigaron el papel de la autoevaluación, la evaluación por pares

y la del profesor, para promover el rendimiento en la escritura de estudiantes de ILE. El estudio

se realizó con 157 estudiantes universitarios de nivel intermedio, con experiencia previa en



123

escritura; estos estudiantes fueron adjudicados de forma aleatoria a cinco grupos, que recibirían

tratamientos diferentes, así 30 estudiantes hicieron un diario de escritura y fueron evaluados por

el profesor (EP), 37 estudiantes fueron asignados para autoevaluación (AE) y EP, 31 estudiantes

para evaluación por pares (EE) y EP, 29 para AE y EE, y 30 estudiantes para EP. Todos los grupos

se sometieron a un test preliminar de inglés y dos exámenes de escritura, uno al inicio del semestre

y otro al final; todos recibieron entre tres y cuatro sesiones teóricas de escritura para la redacción

de ensayos.

El primer grupo escribió los ensayos en casa y los leyeron posteriormente en la clase. El

profesor dio RC oral in situ o escrita en la siguiente sesión; al final de las sesiones estos estudiantes

escribieron un diario en el que reflexionaban sobre lo aprendido en clase. Para el segundo grupo,

los investigadores negociaron un baremo de evaluación con los estudiantes, tomaron como punto

de partida el baremo de Jacobs et al. (1981), mostrando a los estudiantes algunos de sus criterios

de evaluación; después se organizó una discusión que se centró en definir los elementos y

características de una buena composición y en establecer cómo podría ser evaluada, para lo cual

se acordaron algunos factores de evaluación y las correspondientes escalas. Posteriormente el

profesor negoció la incorporación de algunos aspectos que los estudiantes no habían incluido, y

se elaboró el baremo final. Los estudiantes escribieron luego en casa un ensayo, realizaron las

revisiones y lo auto-evaluaron, las composiciones fueron después evaluadas por el profesor y los

resultados se entregaron a los estudiantes, para que pudiesen comparar entre su AE y la EP.

El tercer grupo realizó la negociación y la revisión de las redacciones por pares (mediante la

guía del baremo), escribieron un ensayo en casa, que fue evaluado por ellos mismos junto con un



124

par y entregaron al profesor una versión final con las marcaciones o comentarios de RC; por último

los estudiantes compararon la EP con la EE. El cuarto grupo recibió la instrucción con el método

habitual en estas clases de escritura; los estudiantes escribieron un ensayo en casa, lo leyeron

posteriormente en la clase y el profesor los evaluó.

Los investigadores compararon los resultados del test preliminar y determinaron que

ninguno de los grupos, mostró diferencias significativas en relación a su desempeño en la

escritura; tomando como referencia el grupo de EP (M = 71.66, D.E = 10.20), encontraron que el

grupo que escribió el diario de escritura + EP, (M = 72, D.E = 13.92) no mostró diferencias

significativas en las puntuaciones obtenidas; contrariamente, sí encontraron diferencias

significativas al compararlo con los otros grupos. El grupo de AE + EP obtuvo una M = 77.67 y

una D.E = 8.55, y el grupo de EE + EP obtuvo una M = 81.61 y una D.E = 10.27; es decir, estos dos

grupos mostraron una mejoría considerable en su rendimiento. Contrariamente, las diferencias

encontradas en el grupo de AE + EE, que presentó una M = 69.31 y una D.E = 14.54, revelaron una

disminución en el rendimiento de los estudiantes. Finalmente, la comparación de los resultados

del post-test con el pre-test mostró que los grupos de AE + EP y EE + EP, tuvieron un mayor

rendimiento; por tanto, parece claro que la EP fue un factor importante para la mejora de la

escritura de los estudiantes. Los investigadores concluyeron que «a través de la AE y la EE, los

estudiantes parecen motivarse a mirar sus composiciones de forma crítica y analítica, a tomar

mayor responsabilidad sobre lo que escriben» (p. 529).

Zakian, Moradan y Naghibi (2012) realizaron una investigación para comparar las

calificaciones de autoevaluación (AE), evaluación por pares (EE) y evaluación del profesor (EP),



125

obtenidas en una presentación oral. Los informantes fueron 25 estudiantes de nivel intermedio

alto de IL2, agrupados en subniveles de desempeño bajo, medio y alto de la Universidad de

Semnan. Se utilizó una escala de evaluación analítica y un cuestionario para poder comparar sus

actitudes con las evaluaciones realizadas. Al inicio del estudio, llevaron a cabo un entrenamiento

donde explicaron, practicaron el uso del baremo y el método para evaluar, cada estudiante tuvo

que exponer un tema de su agrado durante un tiempo límite de 15 a 30 minutos, mientras se hacía

la grabación de su presentación. Los evaluadores, estudiantes y profesor registraron la calificación

final con el uso de las escalas.

Los resultados de este estudio, muestran que comparando los tres tipos de evaluación, existe

correlación significativa entre las tres calificaciones: en AE y EE 0.76; en EE y EP 0.79; y en AE y

EP un poco más alta, 0.82. Los investigadores agregan que «los estudiantes tuvieron dificultad

para decidir sus propios niveles de capacidad y trataron de evitarlo. Les interesaba realizar AE

con el propósito de aprender y no de evaluar. No podían asignar fácilmente la marca a sus propias

actuaciones» (p. 4). Sin embargo los investigadores concluyeron, que a través de la AE y la EE, los

alumnos «pueden mejorar su input al fijarse en las debilidades y fortalezas de sus compañeros;

incrementar su pensamiento crítico y la reflexión, ayudar a la autonomía y disminuir la ansiedad

de ser evaluados por el profesor» (p. 5).

En relación a los resultados de las actitudes, un buen número de estudiantes registraron

actitudes positivas hacia las evaluaciones de sus iguales, aunque no tanto ante las evaluaciones

del profesor. Les preocupó la actitud del docente al evaluar (estricta, fuerte) y sintieron presión

ante la formalidad de sus valoraciones, es decir, se sintieron más cómodos cuando eran evaluados



126

por otros alumnos y no por el profesor. Algunos estudiantes mostraron interés en evaluar, pero

otros consideraron que era mejor ser evaluados por una persona con mayores habilidades y

conocimientos. Admitieron que auto-evaluarse y evaluar a los pares es difícil y que, por tanto,

necesitan de práctica y entrenamiento.

Wang (2014) con su estudio, buscó investigar las percepciones de los estudiantes sobre la

utilidad del uso de la RC, durante un tiempo prolongado y sobre los beneficios del uso del baremo

durante las revisiones por pares; la profesora-investigadora tomó a 53 estudiantes chinos de ILE,

que habían asistido a clases preparatorias de escritura. El estudio se llevó a cabo a lo largo de 36

semanas, durante las cuales los estudiantes escribieron 8 ensayos de diferente tipología textual:

uno narrativo, otro descriptivo, seis de tipo expositivo y un informe de investigación. Escribieron

diarios de lectura como asignaciones para casa, basados en temas elegidos por los estudiantes,

utilizaron un manual y un baremo —adaptación del de Jacobs et al. (1981)— para entrenar a los

estudiantes en las revisiones.

Para el desarrollo de sus ensayos, los estudiantes debían aplicar una serie de recursos

discursivos: la ejemplificación, la clasificación, la comparación y el contraste, el análisis causal y

la definición. Recibieron una encuesta que tenía descripciones relativas al uso de la

retroalimentación, debían valorar la retroalimentación usando una escala de 1-5, en donde la

categoría en 1 equivalía a estar en desacuerdo y la categoría 5 a estar completamente de acuerdo.

Las parejas de estudiantes fueron elegidas por ellos mismos y se mantuvieron constantes hasta el

término del estudio, los cuestionarios se recogieron tras cada sesión de revisión y el primer

borrador de cada ensayo fue autoevaluado por los estudiantes con el baremo, y luego con sus



127

pares; el segundo borrador fue revisado por el profesor-investigador, reescrito por los estudiantes

y finalmente calificado por los profesores. El investigador encontró que las percepciones sobre la

utilidad de la retroalimentación, siguieron una tendencia decreciente, los estudiantes

consideraron que la retroalimentación les fue útil para mejorar en su orden: las revisiones

mecánicas, la agudeza gramatical, el vocabulario y la coherencia global y local. El beneficio de la

retroalimentación fue estimado como menor para el contenido, las estructuras oracionales, la

complejidad sintáctica y la diversidad del vocabulario.

Los factores determinantes para que los estudiantes decidieran sobre la utilidad de la

retroalimentación fueron varios; en primer lugar el 64% de los estudiantes, opinó que había

influido el conocimiento que tenían sobre el tema del ensayo asignado; el segundo factor (en un

34%) influyó su limitado conocimiento del inglés, especialmente cuando los pares debían resolver

aspectos relativos al uso del lenguaje, la diversidad del vocabulario y la complejidad sintáctica; el

tercero verso sobre la actitud de los estudiantes en relación a la práctica de la retroalimentación

por pares, por ejemplo: la repetición de las sesiones de revisión causó tedio y aburrimiento, lo cual

hizo que el 34% de los estudiantes las calificaran como rutinarias; en cuarto lugar (en un 27%) la

limitación del tiempo de clase. Según el 11% de los estudiantes, también influyó la relación

interpersonal con los pares, por ejemplo: el temor a dañar la amistad o la armonía entre los

compañeros, con comentarios negativos en las revisiones, lo que hizo que algunos se abstuvieron

de dar críticas fuertes a los pares. El investigador encontró que el desacuerdo o acuerdo entre los

pares, influyó en la aceptación o rechazo de la retroalimentación, por ello plantea que los alumnos

deben escribir sus comentarios o anotaciones de retroalimentación, en los ensayos de sus

compañeros, preferiblemente fuera del aula de clase a fin de dejar la negociación solamente para



128

el trabajo por pares. Como opción alternativa, también menciona realizar las sesiones de revisión

de forma anónima por internet. Por último, en relación a la valoración del uso del baremo durante

las revisiones en general, los estudiantes lograron reconocer los criterios de evaluación

establecidos en él, sin embargo el investigador hace referencia a comentarios importantes, que

hicieron los estudiantes acerca del sobreuso del baremo y su fiabilidad cuando se aplica a algunos

tipos de texto.

Wang (2014) aconseja que sería útil la creación de un baremo con los estudiantes, para evitar

el conflicto de un uso excesivo, apunta también el inconveniente de contemplar el baremo

únicamente como una guía orientada hacia la superación de un examen: «mientras el uso de un

baremo puede enseñar a los estudiantes sobre las convenciones necesarias para la escritura, podría

también conducir al instrumentalismo, llevando a los estudiantes a escribir para el baremo a fin

de alcanzar un puntaje alto» (p. 93), es decir, tal como se mencionó anteriormente en Tan (2007),

con el fin último de satisfacer unos criterios y estándares del profesor o del programa, desviándose

del propósito fundamental de aprendizaje.

Finalmente, en la investigación de Srichanyachon (2014), se estudiaron los métodos de auto-

revisión en 201 estudiantes de ILE, en la Universidad de Bangkok. Los estudiantes respondieron

a un cuestionario dividido en tres partes; la primera parte preguntaba sobre la experiencia previa

en inglés y tipo de ensayo; la segunda en forma de encuesta, indagaba sobre métodos de auto-

revisión utilizados por los estudiantes y su frecuencia (a menudo, a veces, nunca); y la tercera

trataba sobre los obstáculos con que se encontraban los estudiantes, al realizar las auto-revisiones

en relación a: la gramática, el vocabulario, la ortografía, la puntuación y la esquematización del



129

ensayo. Los descriptores del método de revisión elegido, sus niveles y los resultados finales, con

la desviación estándar y medias, se muestran en la Tabla 15.

Método A

menudo

A

veces Nunca N Media D.E Nivel

Después de hacer el borrador, esperé unas horas

antes de volverlo a mirar.

15

7.46%

158

78.61%

28

13.93%

201 1.94 0.46 bajo

Miré mi borrador como si fuera el papel de otro. 35

17.41%

139

69.15%

27

13.43%

201 2.04 0.56 bajo

En la primera revisión, me concentré en cambiar

el contenido y no en buscar los errores.

25

12.40%

116

57.70%

60

29.90%

201 2.17 0.63 moderado

Revisé en las oraciones la exactitud de la

gramática, la ortografía, la puntuación y las

mayúsculas.

61

30.30%

123

61.20%

17

8.50%

201 2.22 0.58 moderado

Cuando no estaba seguro de la ortografía, usé un

diccionario.

112

55.70%

81

40.30%

8

4.00%

201 2.52 0.58 alto

Revisé la exactitud de cada oración. 60

29.90%

127

63.20%

14

7.00%

201 2.23 0.56 moderado

Revisé la exactitud de cada párrafo. 58

28.90%

119

59.20%

24

11.90%

201 2.17 0.62 moderado

Revisé si mi borrador final cubría todos los

temas incluidos en el esquema del ensayo.

90

44.80%

98

48.80%

13

6.50%

201 2.38 0.61 alto

Presté atención detenida a los errores más

comunes que cometo a menudo.

67

33.30%

119

59.20%

15

7.50%

201 2.26 0.59 moderado

Revisé una parte de mi composición una y otra

vez antes de entregarla.

54

26.90%

129

64.20%

18

9.00%

201 2.18 0.57 moderado

Tabla 15. Valores estadísticos de los descriptores del estudio. A partir de Srichanayachon, 2014, p. 3

En el estudio se estableció que los métodos de auto-revisión más usados, fueron los de nivel

moderado; en relación al género de los estudiantes, no hubo diferencias significativas en la

revisión, en cambio, sí las hubo en relación a la experiencia con la lengua, siendo los estudiantes



130

de mayor exposición previa al inglés, quienes tuvieron un mayor nivel de auto-revisión. Las

categorías que representaron un mayor problema para los estudiantes, en orden decreciente

fueron: la gramática (31.50%, la más difícil), seguida del vocabulario (21.50%), la esquematización

del ensayo (18.50%), la ortografía (16.30%) y la puntuación (12.20%). El investigador concluye: que

de acuerdo a lo encontrado en el estudio, «los estudiantes ILE de nivel bajo no están en la

capacidad de editar sus propias composiciones. Por tanto pueden necesitar más dirección y

tiempo para editar su trabajo» (p. 4).

En la literatura consultada diversos investigadores afirman, que es importante que los

participantes del trabajo colaborativo, aprendan el manejo de los instrumentos de valoración o

baremos (Sengupta, 2000; McMurry 2004; Min, 2006; Ma, 2010). No sólo es necesario que el

profesor presente y explique los descriptores de cada nivel, resaltando los ítems relevantes, sino

que también es importante que el estudiante revisor esté capacitado para decidir con fundamento,

el nivel de la escala al que se ajustaría determinada composición y continuar con la ponderación

parcial y total de las categorías de evaluación.

Al haber revisado algunas investigaciones, que de una manera u otra abordan los temas que

atañen a este trabajo de investigación y recordando las aportaciones de la investigación preliminar

de Acevedo (2013), el presente estudio quiere mostrar que el manejo de instrumentos de

valoración, también puede ser un soporte o apoyo a tener en cuenta para fomentar el aprendizaje

en los estudiantes y para evaluarse a sí mismos o a otros. En esta investigación se hace el intento

de poner a prueba y avanzar en los aspectos tratados en el estado de la cuestión; en ella, los

informantes son estudiantes norteamericanos de secundaria en los niveles de E/LE A1 y A2, que



131

se ven involucrados por primera vez en la autoevaluación de su desempeño y en la valoración de

las composiciones de sus pares. En el método empleado ofreció a los estudiantes escritores-

revisores, la posibilidad de redactar, corregir, negociar y evaluar en el aula E/LE, apoyándose en

el uso sistemático de un baremo, previamente diseñado por las clases de nivel A1 del año escolar

anterior en un trabajo publicado en Acevedo (2013). Se justificó así la utilización de un baremo ya

negociado, para las autoevaluaciones, las revisiones por pares y las del profesor. Además la

investigación pretende no sólo observar la respuesta auto-evaluativa del estudiante, al interactuar

con el baremo o al manejar las estrategias evaluativas con su par, sino también el uso e

incorporación de la RC, cuando el alumno asume que sus evaluadores han sido sus pares y no el

profesor. Estos aspectos no fueron sometidos a investigación o no se tuvieron en cuenta, en

ninguno de los estudios mostrados en el estado de la cuestión.

En la Tabla 16 se presentan las características generales de los autores reseñados.

Estudio Foco/Objetivo/Dimensiones Enfoque Participantes/Corpus

Andrade et al. (2009).

Determinar el efecto del uso de baremos y la autoevaluación en la escritura, a corto y largo plazo, en clases de inglés y ciencias sociales.

Experimental 307 estudiantes voluntarios en los grados 3º (54), 4º (93), 5º (41), 6º (56) y 7º (24), 99 de ellos hombres y 169 mujeres. Instrumentos: un cuestionario, una escala de auto-eficacia, tres composiciones y un baremo.

Matsuno (2009)

Comparar EE y EE con las EP, en clases de composición ILE.

Exploratorio 97 estudiantes japoneses universitarios de 2º curso, de entre 19-21 años. 96 de ellos trabajaron como evaluadores. 4 profesores revisores. Entrenamiento en composición. Un ensayo de 300 palabras reproducido 4 veces para analizar con un baremo.

Arumi (2009)

Analizar cómo los estudiantes de LE valoran instrumentos de regulación como la RC y las baremos de autoevaluación, entre otros.

Cualitativo y didáctico.

45 estudiantes ADF, ILE y E/LE nivel intermedio, agrupados en cuatro aulas de tres universidades diferentes. Instrumentos: portafolio, RC, baremo de autoevaluación, guía de reflexión, informe de mitad de periodo, tutoría. Tres cuestionarios y una entrevista.

continúa…



132

Oscarson (2009)

Establecer cómo los estudiantes autoevalúan sus habilidades de escritura L2 y cómo los profesores y estudiantes aplican los objetivos curriculares de independencia y autoevaluación en el aula.

Experimental Exploratorio Descriptivo y didáctico.

102 estudiantes ILE de secundaria. Edades: 17-20 años de edad. Cuatro clases ILE agrupadas en Curso A (alto) y B (bajo), cada una con un profesor de lengua. Cuatro cuestionarios, dos entrevistas y dos tareas compositivas.

Srichanyachon (2011)

Investigar los tipos de errores identificados en tres contextos de revisión diferentes: auto-monitorización, revisión por pares y revisión por el profesor.

Exploratorio 10 estudiantes escogidos al azar pertenecientes a dos clases de nivel avanzado de ILE, de la Universidad de Bangkok. Promedio de edad, 19 años. 10 composiciones y 30 ensayos evaluados, guías de marcación para ofrecer RC y una entrevista post-clase.

Tamjid y Birjandi (2011)

Investigar el papel de la AE, la EE y la EP, para promover el rendimiento en la escritura de estudiantes de ILE.

Cuasi- experimental

157 estudiantes de nivel intermedio, con experiencia previa en escritura, que pertenecían a cinco grupos seleccionados aleatoriamente. 30 estudiantes para diario de escritura (DE) + EP; 37 estudiantes para AE + EP; 31 estudiantes para EE + EP; 29 para AE + EE; y 30 estudiantes para EP. Pre-test y post-test de inglés, y dos exámenes de escritura, uno al inicio del semestre y otro al final. Los grupos recibieron entre tres y cuatro sesiones de escritura para la redacción de ensayos.

Zakian, Moradan y Naghibi (2012)

Comparar las calificaciones de autoevaluación (AE), evaluación por pares (EE) y evaluación del profesor (EP), en una presentación oral.

Exploratorio 25 estudiantes de nivel intermedio alto de IL2, agrupados en subniveles de desempeño bajo, medio y alto, de la Universidad de Semnan. Una escala de evaluación analítica, un cuestionario de actitudes sobre las evaluaciones realizadas y un entrenamiento.

Wang (2014)

Investigar las percepciones de los estudiantes con respecto a la utilidad de la RC en el tiempo y sobre la utilidad del baremo, durante las revisiones por pares.

Exploratorio 53 estudiantes chinos de ILE. 8 ensayos de diferente tipología textual, uno narrativo, otro descriptivo, seis de tipo expositivo, un informe de investigación y diarios de lectura. Instrumentos: un manual, una adaptación del baremo de Jacobs et al. (1981) y cuestionarios. Sesión de entrenamiento.

Srichanyachon (2014)

Estudiar los métodos de auto-revisión utilizados por los estudiantes.

Exploratorio 201 estudiantes de ILE en la Universidad de Bangkok. Un cuestionario sobre la experiencia en inglés y el tipo de texto utilizado, sobre los métodos de auto-revisión utilizados por los estudiantes y su frecuencia y los obstáculos encontrados en la revisión, en relación a gramática, vocabulario, ortografía, puntuación y esquematización del ensayo.

Tabla 16. Dimensiones y características de los estudios del estado de la cuestión.



133

En síntesis, como se afirmó anteriormente el estudio pretende dar un aporte importante al

tema de la retroalimentación y la autoevaluación en aulas de E/LE de secundaria, ya que la

investigación en estos aspectos concretos es limitada, especialmente, con estudiantes adolescentes

angloparlantes en clases de LE, en niveles de competencia lingüística A1 y A2.


Capítulo 3. Método

134

Capítulo 3

Método

3.1. Preguntas de la investigación

3.2. Diseño

3.3. Participantes del estudio

3.4. Recogida de datos

3.5. Materiales e instrumentos

3.6. Procedimiento



135


Como introducción inicial al método, se enumeran las preguntas de la investigación y sus

respectivas hipótesis formuladas para llevar a cabo la implementación del estudio que se plantea

a continuación.

3.1. Preguntas de la investigación

En el presente estudio se respondieron las siguientes preguntas de investigación:

1. ¿Cómo evalúan los estudiantes su habilidad escritora ELE pre-escritura y post-escritura

y cómo auto-evalúan su desempeño durante el tiempo de post-redacción comparado

con la evaluación del profesor?

2. ¿Qué elementos y variables caracterizan la evaluación en una secuencia de

composiciones escritas por estudiantes norteamericanos de ELE, cuando dicha

evaluación se desarrolla por autoevaluación, por pares o cuando la realiza un docente?

3. ¿Qué tipo de estrategias o pautas de retroalimentación se registran en las revisiones y

cuál es su conexión con la corrección o no de los errores post-edición de las

composiciones?

Las hipótesis de la investigación fueron:



136

1. La percepción que tiene el estudiante de su habilidad de escritura ELE, se correlaciona

con los resultados de evaluación realizada por los pares o por el profesor. Las

valoraciones de cada estudiante, la práctica de la evaluación por pares y la

retroalimentación, repercuten con el tiempo en el desarrollo de una destreza de

autoevaluación más coherente y consecuente con la calidad de las composiciones al final

del estudio, comparable a la evaluación realizada por el profesor.

2. El nivel de competencia en la escritura del estudiante, va en incremento no sólo debido

a la retroalimentación que recibe como input, sino debido a las destrezas de

autoevaluación que va paulatinamente desarrollando con la activación, durante las

revisiones de la habilidad de saber aprender y de procesos metacognitivos, en respuesta

a la interacción del alumno con el instrumento de evaluación. También a través de la

influencia de factores sobre el desempeño del estudiante durante los procesos de

escritura y edición. La percepción del estudiante respecto a su agente corrector, afecta

al proceso auto-evaluativo y a los resultados en la re-escritura de sus composiciones.

3. Cuando los estudiantes como revisores usan estrategias de corrección adecuadas, la

utilización e interpretación de la retroalimentación por parte de los escritores, puede

determinarse en función del número de palabras y errores corregidos o no, en la

reedición de las composiciones.

3.2. Diseño



137

El estudio propuesto fue de tipo cuasi-experimental, exploratorio y descriptivo. Se llevó a

cabo con grupos intactos correspondientes a seis aulas de E/LE, tres de nivel 1 y tres de nivel 2,

de una escuela de enseñanza secundaria americana.

Dentro del manejo de las variables, se utilizó el término de operacionalización, entendido

como la interpretación y manejo de los datos del estudio, es decir, de los resultados y puntajes de

autoevaluación del estudiante sobre su desempeño en las pruebas de redacción, de las

valoraciones cuantitativas de las composiciones entre pares y por el profesor, y de los tipos de

retroalimentación incorporados en las mismas.

Las variables consideradas para el estudio: dependientes (calidad de las composiciones,

desempeño del estudiante en la escritura L2, y autoevaluación; independientes (retroalimentación

y evaluación del profesor) e intervinientes (competencia lingüística, respuesta a la

retroalimentación según el agente revisor y procesos metacognitivos del alumno).

Estas variables se presentan agrupadas en la Tabla 17 con la definición y forma de

operacionalización que se aplicó para la presente tesis.



138

Tipo de

variable

Definición Operacionalización

Dependiente

Calidad de las

composiciones

Valoración analítica de las categorías:

Contenido: 5-20, Vocabulario: 12-28, Ortografía: 3-12,

Gramática: 7-20 y Puntuación: 7-20

Desempeño del estudiante

en la escritura L2.

Medir y comparar los valores cuantitativos obtenidos en las tres

composiciones, con base en el baremo, de forma analítica, por

categorías y de forma holística, de 5-100.

Autoevaluación Valores binarios. Cantidad de respuestas Sí o No, antes y

después del estudio.

Medición cuantitativa de la composición con el baremo en cada

fase de tratamiento.

Independiente Retroalimentación De forma nominal: directa, indirecta o mixta.

Evaluación del profesor Medición de las composiciones durante las tres fases de

tratamiento y al final del estudio con el baremo mixto.

Interviniente Competencia lingüística Nivel 1 y Nivel 2.

Análisis de los resultados cuantitativos de la calidad de las

composiciones y del desempeño del estudiante en la escritura.

Respuesta a la

retroalimentación según el

agente revisor

Incorporación o no de las correcciones o de la retroalimentación

en las composiciones.

Procesos metacognitivos del

alumno

Análisis descriptivo de las reflexiones de autoevaluación y de

respuesta a la retroalimentación.

Tabla 17. Variables dependientes, independientes e intervinientes, y operacionalización

3.3. Participantes del estudio

Antes de hablar de los participantes, es preciso reseñar que en años anteriores, el distrito

escolar al cual pertenece el centro educativo donde se realizó el estudio, había encargado a algunos

profesores de español de diferentes escuelas de secundaria, que diseñaran y redactaran un libro

de vocabulario, que sirviese como primera guía para los alumnos. Se buscaba que dicho libro



139

ordenase los capítulos siguiendo un principio más temático que gramatical, diferente al de los

libros de texto Realidades, de Pearson y Prentice Hall, que se habían venido usando hasta entonces.

Es así cómo tras un arduo trabajo, estos profesores elaboraron un libro de vocabulario para la

asignatura de Español 1 el primer año, y durante el siguiente curso escolar realizaron otro para la

materia de Español 2. Estos dos libros presentan en cada capítulo, áreas temáticas sobre la vida

diaria de los estudiantes, dentro y fuera de la escuela y su cotidianidad en la vida (ver Anexo 1).

Estos compendios de vocabulario se siguen utilizando desde entonces, como los libros de texto

guía en las clases de español para los niveles de aprendizaje 1 y 2. Conviene aclarar que estos

niveles de aprendizaje de los estudiantes, de acuerdo con el Marco son el A1 y el A2, los cuales se

corresponden con el Nivel Acceso y el Nivel Plataforma de ALTE (ver Anexo 2).

En cuanto a los participantes, fueron estudiantes de 9º a 11º grado de secundaria, registrados

en seis aulas de E/LE, en el estado de Texas, Estados Unidos; estos estudiantes para optar al título

de graduado, requieren como obligatorio acreditar dos años de estudio de una LE, para lo cual la

escuela donde se llevó a cabo el estudio, ofrece aun hoy cuatro niveles académicos de español.

Para la implementación del estudio se mantuvieron los grupos intactos; la muestra se constituyó

con 145 estudiantes, 70 de nivel A1 y 75 de nivel A2, que asistieron a una clase diaria de 40

minutos con el mismo profesor, que era el propio investigador. Las aulas de nivel A1 tenían 33

mujeres y 37 hombres, y las de nivel A2 33 mujeres y 42 hombres. Sus edades oscilaban entre los

14 y los 17 años.

Teniendo en cuenta que todos los estudiantes asistían a la misma sala de clase, pero en

diferentes horarios o periodos, se numeraron los pupitres del 1 al 30 y se imprimó la adjudicación



140

de los asientos con la foto de cada alumno y su número correspondiente. Cabe aclarar que no

todas las clases tenían treinta alumnos y, dado que la distribución del aula con los pupitres no

concordaban, se varió un poco, como se verá en el aula 1 no hay alumno número 1, como tampoco

hay número 28 pero sí 29. Este control facilitó la administración de las pruebas y especialmente,

la identificación de los alumnos en cada periodo de clase, en el momento de realizar las revisiones

cruzadas entre las aulas. Al final cada alumno se identificó por aula y por asiento, por ejemplo:

1.2 corresponde a un estudiante del aula 1, que ocupaba el asiento número 2 de la clase, número

que se observa en la parte inferior de las pruebas escritas de los informantes. Para el

procesamiento de datos se agregó un dígito más, para evitar repeticiones de números en las tablas,

por tanto, usando el mismo ejemplo el estudiante 1.2 está identificado como el estudiante 102, el

estudiante 1.20 como 120 y así sucesivamente.

3.4. Recogida de datos

Se recurrió a dos pre-textos elaborados por el investigador y a un baremo mixto (Ver 3.5.),

que ya habían sido utilizados en el estudio preliminar de Acevedo (2013), con estudiantes de nivel

A1. Los dos pre-textos mostraban redacciones que utilizaban vocabulario y aspectos gramaticales

que ya habían sido enseñados a los alumnos, antes de iniciar la investigación. Las categorías del

baremo de Acevedo (2013) se reestructuraron, a fin de que concordaran con los descriptores del

cuestionario de autoevaluación. Se elaboró una plantilla de registro basada en las categorías del

baremo de evaluación, para documentar las puntuaciones individuales por categoría y la

puntuación final para cada composición.



141

Tras el entrenamiento en la fase previa a la redacción, se utilizó el Cuestionario 1 (cfr. infra,

3.5), para determinar la percepción del estudiante sobre sus habilidades de escritura en general,

mientras que en la fase de composición, se tomaron los datos de autoevaluación del estudiante, a

partir de la valoración cuantitativa de sus composiciones, con base en las categorías del baremo.

Otras fuentes de recolección de datos fueron las valoraciones de los pares y del profesor sobre las

composiciones, bajo las ponderaciones del baremo y a la sumatoria final de las mismas.

3.5. Materiales e instrumentos

En la investigación se utilizaron: un baremo, dos pre-textos de contraste y tres cuestionarios;

por tanto para el estudio preliminar (Acevedo, 2013) tomó como punto de partida, el baremo

original de Jacobs et al. (1981), dado que era un instrumento que había tenido una relativa

vigencia, desde que se elaboró y fue aplicado en algunos estudios recientes, como el de Matsuno

(2009) y Tamjid y Birjandi (2012). Se pensó por tanto, que sería también útil si se implementaba en

un trabajo colaborativo de revisión E/LE. Durante la actividad del estudio de Acevedo (2013), los

estudiantes realizaron una negociación preliminar de errores entre pares, y posteriormente de

forma grupal, lo que resultó en la creación de un baremo modificado de Jacobs et al. (1981), con

las categorizaciones de error propuestas por los estudiantes y con la asignación de las

correspondientes puntuaciones para cada una. Para la presente tesis se efectuó una modificación,

dando como resultado una nueva denominación para algunas categorías, semejantes a las

utilizadas en el cuestionario del estudio de Oscarson (2009, p. 114). El baremo así modificado en

su versión en inglesa (Anexo 3), se utilizó en las sesiones de valoración y cuantificación de las tres

pruebas que se aplicaron para esta investigación. El baremo estaba compuesto por cinco categorías



142

importantes, con sus respectivas escalas de ponderación: vocabulario hasta un 28%; contenido

(coherencia, estructura), gramática y puntuación cada una con un valor de hasta el 20% y

Ortografía, hasta el 12%. (Tabla 18).

BAREMO MIXTO

Categorías Puntaje Descriptores

Contenido

20

Excelente: Comunica efectivamente en la lengua objeto, es relevante. Hay descripciones

detalladas, claras, coherentes y organizadas.

15 Bueno: Algunos errores en la comunicación, es en su mayor parte relevante. Hay descripciones con poco detalle. Ideas incompletas, lógicas pero desorganizadas.

10 Regular: Desarrollo inadecuado del tema, fallos en la comunicación. Ideas confusas, desconectadas, secuenciadas en forma ilógica.

5 Pobre: No comunica, no es relevante. No se comprenden las ideas, no hay organización; o no hay texto suficiente para evaluar.

Vocabulario

28

Excelente: Selección adecuada y efectiva de palabras y frases. Demuestra conocimiento del vocabulario enseñado; pertinente uso del mismo.

23 Bueno: Pocos errores en la selección de palabras y frases. Demuestra moderado conocimiento del vocabulario enseñado; con pocas repeticiones de palabras.

19 Regular: Errores frecuentes en la selección de palabras y frases. Repeticiones frecuentes que demuestran poco conocimiento del vocabulario enseñado.

15 Pobre: Palabras aisladas o en inglés. Demuestra poco conocimiento del vocabulario enseñado; o no hay texto suficiente para evaluar.

Ortografía 12

Excelente: Ninguno o muy pocos errores en el texto, en el uso de las mayúsculas o acentos ortográficos.

9 Bueno: Errores ortográficos en menos del 50% del texto, en el uso de las mayúsculas o acentos ortográficos.

6 Regular: Errores ortográficos en todo el texto, en el uso de las mayúsculas y acentos ortográficos.

3 Pobre: Escritura ilegible; o no hay texto suficiente para evaluar.

Gramática

20 Excelente: Construcciones adecuadas y efectivas, con errores en una categoría, de correspondencias de género, número, verbo-sujeto, conjugaciones, sintaxis, artículos, pronombres o preposiciones.

15 Bueno: Construcciones efectivas, con errores en dos categorías, como correspondencias de género, número, verbo-sujeto, conjugaciones, sintaxis, artículos, pronombres o preposiciones.

11

Regular: Construcciones inadecuadas en todo el texto, con errores en tres categorías, como correspondencias de género, número, verbo-sujeto, conjugaciones, sintaxis, artículos, pronombres o preposiciones.

7 Pobre: Errores en más de cuatro categorías. Incomprensible; o no hay texto suficiente para evaluar.

Puntuación 20 Excelente: Ninguno o muy pocos errores aislados de puntuación, como comas.

15 Bueno: Algunos errores de puntuación, como puntos, comas; algunas ideas u oraciones sin pausas, en menos del 50 % del texto.

11 Regular: Errores múltiples de puntuación y continuación de ideas sin pausas en la oración, en más del 50% del texto.

7 Pobre: Mala escritura; o no hay texto suficiente para evaluar.

Tabla 18. Baremo mixto a partir de Jacobs et al. (1981) y Oscarson (2009)



143

Se consideró que su simplificación facilitaría la comprensión del baremo y su manejo en

manos de los estudiantes, por cuanto estas categorías se corresponden con las del Cuestionario 2,

del cual se hablará más adelante. Para la primera sesión de entrenamiento en el uso del baremo,

se utilizó el pre-texto 1 de contraste, que se muestra en la Figura 1; este pre-texto presentó: una

pauta para la composición, especificando el número de palabras esperado, una viñeta ilustrativa

y seis preguntas para guiar la respuesta compositiva del alumno supuesto para el estudio.

Como se puede apreciar, en el pre-texto se mostró la respuesta dada por el alumno, cuya

redacción para este ejemplo, presentaba principalmente errores locales gramaticales y

ortográficos.

Pre-texto 1

Elena es una alumna nueva en la escuela. El profesor Vanegas le pide que se presente a la clase. Mira bien el póster de su presentación ¿Qué dice Elena? Escribe un texto con lo que ella le cuenta a la clase. Usa un mínimo de 95 palabras.

La estudiante nueva se llama Elena y es cuatorce anos como yo. Es guapa simpatico y buena pero le gusta estudiar mucho tiene un perro es muy bonito y se llama Spike. Ella tiene un hermano y juga mucho. Su mama no quiere a Spike porque come con Elena en la cama y le encantan las papas fritas no le gustan los otros perros, le gusta Elena y sus amigas y las beisballs y corre mucho.

Figura 1. Pre-texto 1 presentado a los estudiantes, para hacer las revisiones y ponderaciones con el uso del baremo analítico modificado de Jacobs et al. (1981)

¿Cómo se llama? ¿Cómo es ella? ¿Cuáles son sus clases favoritas? ¿Qué le gusta hacer después de las clases? ¿Cuál es su comida favorita? ¿Qué no le gusta?



144

En la segunda sesión, los estudiantes practicaron con el pre-texto 2 (figura 2), con una

redacción diseñada en forma similar, pero la composición del supuesto alumno presentaba errores

que afectaban el contenido de la redacción y fallas en la aplicación de las reglas de puntuación.

Pre-texto 2

Elena es una alumna nueva en la escuela. El profesor Vanegas le pide que se presente a la clase. Mira bien el póster

de su presentación ¿Qué dice Elena? Escribe un texto con lo que ella le cuenta a la clase. Usa un mínimo de 95

palabras.

Ella se llama Elena. Ella tiene catorce años. Ella tiene el pelo negro. Ella es alta. Ella es graciosa. Ella tiene una hermana. Las ciencias and la tecnología son sus favorita’s clases. A ella no le gusta la clase de ciencias sociales. A Ella no le gusta bailar mucho. Ella come hamburguesas and papas fritas. Ella no come el perrito caliente. Ella juega vóleibol and básquetbol. A ella le encanta pasar tiempo con amigos. ella tiene un gato and perro. A ella le gusta mucho estudiar en la escuela. Ella hace la tarea en la casa. Ella es un estudiante muy buena.

Figura 2. Pre-texto 2 presentado a los estudiantes, para hacer las revisiones y ponderaciones con el uso del baremo analítico modificado de Jacobs et al. (1981)

En relación a los cuestionarios, se diseñaron tres; el primero fue aplicado antes de iniciar

la prueba pre-test, a fin de determinar la capacidad de autoevaluación que los estudiantes tenían

antes de proponer las tareas de composición; también se aplicó el mismo cuestionario en la

última prueba post-test; el segundo cuestionario fue cumplimentado cada vez redactada una

composición; el tercero a la entrega de los escritos revisados para registrar la respuesta de los

¿Cómo se llama? ¿Cómo es ella? ¿Cuáles son sus clases favoritas? ¿Qué le gusta hacer después de las

clases? ¿Cuál es su comida favorita? ¿Qué no le gusta?



145

estudiantes a la calificación y a la retroalimentación del revisor o revisores en cada una de las

tres fases de tratamiento, para posteriormente hacer la reescritura de las composiciones.

El Cuestionario 1 (Tabla 19) presenta enunciados que conducen a la selección de una

respuesta cerrada de Sí o No, pretende determinar cómo el estudiante evalúa su habilidad

general para escribir en la L2. Para la versión inglesa, (ver Anexo 4).

Cuestionario 1

Por favor, marque SÍ o NO si está de acuerdo o no con los enunciados siguientes: Sí No

1. Pienso que puedo escribir frases en español.

2. Pienso que puedo escribir un párrafo en español.

3. Pienso que puedo escribir una composición corta en español (entre 50-75 palabras).

4. Pienso que puedo escribir una composición de más de 75 palabras.

Tabla 19. Cuestionario 1 con preguntas auto-evaluativas sobre la habilidad compositiva del alumno

Los enunciados del cuestionario son muy generales y no detallan específicamente la

aplicación socio-pragmática de la lengua escrita, sencillamente generan una autoevaluación

global, proporcionando la percepción que el estudiante tiene de su habilidad de escritura actual

en la lengua objeto, en un contexto donde no se está requiriendo una muestra compositiva. Los

enunciados de pre-escritura en (Oscarson, 2009, p. 104), «se usaron principalmente para establecer

las creencias que los estudiantes tenían de sus habilidades para escribir en ILE».

En la presente investigación no se utilizó una escala de Likert, ya que sólo se buscaba una

polaridad en las respuestas de los estudiantes, quienes únicamente tenían que marcar una de las

dos casillas; esto difería del estudio de Oscarson (2009), quien utilizó declaraciones más específicas



146

y opciones de respuesta como: en absoluto, un poco, relativamente bien, bien, muy bien y

perfectamente (p. 138). Se consideró que elegir este diseño de cuestionario crearía confusión en

los estudiantes y que para responder a los enunciados del cuestionario del presente estudio, no

eran necesarias tantas opciones de respuesta; es más, se estimó que dado el carácter holístico de

los enunciados, una respuesta de si o no sería más fiable; por ejemplo en las declaraciones globales,

con una escala Likert como la utilizada por Oscarson (2009), se haría necesaria la utilización de un

parámetro de medición, como un baremo o un modelo claro sobre el que el estudiante pudiese

confrontar su desempeño, para responder de forma más objetiva y en lo posible más acertada.

¿Tendría sentido que los estudiantes respondiesen, por ejemplo al enunciado: sé escribir una frase,

con respuestas tipo relativamente bien, bien o muy bien? Claramente no. Resulta más certero y

significativo que el estudiante responda: bien, y así de manera más práctica se pueda interpretar

sencillamente como un sí.

El Cuestionario 2 (Tabla 20), contiene enunciados de autoevaluación que estimaron el grado

de satisfacción que el estudiante tenia de su composición, en relación al: contenido, vocabulario,

ortografía, gramática y puntuación. Se cumplimentó una vez realizada la tarea compositiva y se

aplicó al final de cada una de las tres pruebas. Uno de los objetivos de esta autoevaluación, es la

auto-ponderación hecha por los estudiantes a cada categoría, siguiendo el baremo de evaluación.

La coincidencia de categorías entre el cuestionario de autoevaluación y el baremo, permitió evitar

confusiones durante la realización de esta fase auto-evaluativa. Para la versión en inglés del

Cuestionario 2, ver Anexo 5.



147

En esta tarea, estoy satisfecho con…

(Marcar más de uno si es necesario)

Pero pienso que podría mejorar, o

puedo tener errores en…

(Marcar más de uno si es necesario)

Mi puntuación basada en el

baremo, para cada categoría

es…

contenido contenido

vocabulario vocabulario

ortografía ortografía

gramática gramática

puntuación puntuación

Puntuación total

Tabla 20. Cuestionario 2 para la autoevaluación de la composición post-redacción

El Cuestionario 3 (Tabla 21) en forma de preguntas abiertas, se utilizó para registrar la

respuesta del estudiante ante las correcciones o sugerencias que le propusieron los revisores. La

versión inglesa en Anexo 6. Las preguntas van enfocadas a si el alumno está de acuerdo o no, con

las sugerencias del evaluador y con la puntuación asignada, al igual que indagar si reconoce los

errores marcados por el evaluador y el correspondiente aprendizaje con la retroalimentación

recibida.

Cuestionario 3

Mire su composición, la puntuación y las correcciones que los revisores sugieren. Tome su tiempo para leer y responder a continuación a todas las preguntas relativas a la retroalimentación recibida.

1. ¿Está de acuerdo con las correcciones sugeridas por el revisor? Si responde sí o no, explique por qué.

2. ¿Está de acuerdo con la puntuación recibida? Si responde sí o no, explique por qué.

3. ¿Está consciente de algunos errores que pasó por alto antes de la revisión? De algunos ejemplos y explique por qué están mal.

4. ¿Ha aprendido algo nuevo con la retroalimentación recibida en relación a sus errores, si los tuvo? Explique.

Tabla 21. Cuestionario 3, aplicado post-revisión y tras la retroalimentación del revisor



148

Las fases del proceso de redacción se estructuraron en tres pruebas, correspondientes a tres

muestras compositivas que los estudiantes escribieron en tres sesiones diferentes. La explicación

del procedimiento seguido se describe en la Tabla 22.

A continuación, se explica con detalle la implementación del procedimiento seguido durante

la investigación.

Fase 1

Primera prueba y autoevaluación del estudiante con el Cuestionario 2, para valorar su tarea compositiva al someterla

a comparación con los descriptores y categorías del baremo propuesto en el estudio.

Algunas composiciones serán valoradas por el investigador y las restantes por pares, en forma cruzada con las otras

aulas del mismo nivel de lengua. No se informará a los estudiantes sobre los agentes que se involucrarán en la

ponderación de su composición.

Entrega de las revisiones y el cuestionario 3 sobre la respuesta a la retroalimentación.

Recolección de la re-escritura de las composiciones y el cuestionario 3.

Fase 2

Segunda prueba para todas las aulas, y Cuestionario 2 de autoevaluación con el uso del baremo.

Algunas composiciones serán valoradas en forma cruzada y aleatoriamente, entre los estudiantes de otra aula, de

acuerdo al nivel de lengua, y las restantes, por el profesor. No se informará a los estudiantes sobre los agentes que

se involucrarán en la ponderación de su composición.

Entrega de las revisiones y el cuestionario 3.

Recolección de las revisiones y el cuestionario 3.

Fase 3

Tercera composición para todas las aulas, y cuestionario 2 de autoevaluación con el baremo.

Todas las composiciones serán valoradas y ponderadas por el investigador, dando conocimiento a los estudiantes

del agente revisor.

Entrega de las revisiones con el cuestionario 3.

Recolección de la re-escritura de las composiciones y del cuestionario 3.

Tabla 22. Fases y procesos de la valoración de las muestras compositivas de los estudiantes



149

3.6. Procedimiento

El estudio tuvo una duración de un mes y medio, desde mediados del mes de abril del 2013,

hasta finales de mayo del mismo año, se realizaron dos sesiones de entrenamiento durante el

transcurso de la primera semana; la primera composición se escribió al final del mes de abril, con

un intervalo de una semana aproximadamente entre la revisión y la re-escritura de las

composiciones. La fase de entrenamiento se inició con el pre-texto 1 y en ella se realizó la

explicación del baremo, tal como se hizo en el estudio preliminar; se permitió que los pares

trabajasen sin la directa intervención docente, sin embargo cuando fue necesario se dieron

aclaraciones, el investigador tomó nota de las preguntas, aportes o dudas que los estudiantes

expresaron durante la tarea de revisión.

Durante las revisiones y negociaciones entre los pares, algunos estudiantes iniciaron una

discusión breve con argumentos importantes en relación al baremo. El primero fue que el término

repeticiones generaba confusión, porque estaba presente dentro de dos categorías diferentes, la

categoría de contenido y la de vocabulario. El segundo argumento resaltó una deficiencia en la

redacción de los descriptores en la categoría de contenido, ya que no se especificaba que el texto

debía estar escrito en la lengua objeto. Un estudiante comentó que era un grave error, ya que un

texto en inglés bien podría obtener una buena puntuación en esta categoría, aun cuando no

estuviese escrito en español. Por tal razón le parecía más conveniente que tal especificación se

agregara en alguna de las categorías del baremo.



150

Como resultado de las discusiones, se optó por modificar el baremo implementando las

sugerencias ofrecidas. Se suprimió de la categoría de contenido el descriptor repetición de

palabras, quedando solamente dentro de la categoría de vocabulario. Estando en esta categoría,

se dio mayor importancia al conocimiento amplio de vocabulario en la lengua objeto, y se obvió

como un aspecto global de la composición, también se incorporó la frase: en la lengua objeto,

dentro de la categoría de contenido. Estos cambios en el baremo se explicaron a todas las clases,

antes de la fase de redacción.

Otra observación realizada durante el entrenamiento que también fue transcendental, tuvo

lugar durante el proceso de ponderación, algunos pares anotaron puntuaciones que no estaban

establecidas en la escala de valoración de las categorías del baremo, sino que correspondían a

valores intermedios; según sus argumentos, los alumnos consideraron que su valoración para

determinada categoría, se ajustaba más a una puntuación situada en el intervalo entre los valores

pre-establecidos por la escala. Este testimonio fue de suma importancia, y a la vez sorprendente

dentro de un grupo de estudiantes, si se tiene en cuenta que en los estudios empíricos sobre el

diseño de los baremos, esta inquietud está todavía vigente. Se trata de un dilema que de hecho,

ha generado discusiones y opiniones encontradas entre investigadores y profesionales expertos,

en su intento de establecer y llegar a un acuerdo acerca de qué tan alto o qué tan bajo puede

considerarse el límite de un nivel en una escala (North y Schneider, 1998).

Por último también se observó que algunos pares confundieron la ortografía con la

gramática, por lo que la puntuación de la categoría de gramática se veía más afectada que la de

ortografía. Estas confusiones entre las dos categorías se corresponden con los datos y



151

observaciones obtenidas en la investigación preliminar realizada el año anterior. Durante cada

sesión de entrenamiento y al final, el profesor-investigador se cercioró que las ponderaciones entre

los pares dentro del aula fueran similares y realizó negociaciones con el grupo, a fin de asegurar

antes de comenzar con las fases de redacción, autoevaluación y valoración finales, que tanto los

criterios de valoración como el uso del baremo fueran los adecuados.

En suma, el rol del profesor-investigador durante el proceso de entrenamiento se puede

sintetizar así:

1. Realizar la lectura de cada pre-texto en voz alta.

2. Indicar a los estudiantes la forma de corregir sobre el texto, durante la re-lectura por pares,

a fin de ofrecer retroalimentación indirecta (RI). Se utilizó el recurso de rodear con un

círculo o subrayar los errores.

3. Explicar los descriptores del baremo, haciendo énfasis en los ítems clave que diferencian

cada una de las categorías.

4. Resaltar la importancia de identificar las categorías de error que se encuentren en el texto,

con base en el baremo.

5. Guiar a los estudiantes en las revisiones, enfatizando en los errores locales y luego en los

globales, y ofrecer explicaciones sobre los mismos.

6. Responder a las preguntas relativas a la tarea, a los errores o al baremo, o a todas aquellas

que surjan durante el proceso de negociación y valoración por pares, hasta la ponderación

final del pre-texto.



152

7. Tomar nota de las diversas intervenciones docentes que requieran los estudiantes durante

la sesión, así como de la naturaleza de las preguntas y del objeto de la intervención.

La toma de muestras de redacción se hizo semanalmente y las valoraciones de las

redacciones por pares, durante la misma semana. El Cuestionario 1 se aplicó al inicio y al final del

estudio para determinar cómo el estudiante evaluó su habilidad general y su capacidad escritora,

antes y después de experimentado el proceso completo de la investigación. El total de estudiantes

que respondieron el Cuestionario 1 de pre-escritura fue de 144 al inicio del estudio, y post-

escritura, de 142. El Cuestionario 2 fue cumplimentado por los estudiantes después de cada

redacción. El Cuestionario 3 fue respondido por los estudiantes en el momento de recibir cada

una de sus composiciones revisadas por los pares, y con anterioridad a la re-escritura de las

mismas. Con esta estrategia se intentó indagar desde la perspectiva del receptor de la

retroalimentación, si éste asimila o no las correcciones indicadas por los revisores en sus

composiciones. Las preguntas del cuestionario se diseñaron a fin de recoger las reflexiones o

apreciaciones del estudiante, relativas a los errores señalados o a los cambios sugeridos por los

revisores: si están de acuerdo o en desacuerdo, si comprenden el origen de los errores y cómo

piensan corregir o incorporar las sugerencias provenientes de la retroalimentación en el texto final.

En los instantes previos al inicio de cada redacción, el profesor leyó la guía de respuesta de

cada composición e hizo aclaraciones y contestó a las preguntas de los alumnos para asegurar el

entendimiento de la tarea. También señaló la importancia de fijar la atención en el propósito de la

redacción y atender al desarrollo de todas las instrucciones y preguntas expuestas en la guía. Se

entregaron reproducciones del baremo a los estudiantes, mientras se ofrecían las últimas



153

indicaciones recordando la necesidad de ceñirse a las guías y descriptores del baremo, no sólo

durante la escritura, sino también en las autoevaluaciones y en las revisiones por pares. En el

inciso siguiente se presentarán los resultados obtenidos, comenzando con el desempeño previo al

tratamiento de escritura, siguiendo luego con el desempeño del estudiante durante el tratamiento,

hasta finalizar con los resultados post-tratamiento.

El baremo como estrategia metacognitiva para la autoevaluación Capítulo 4. Resultados

154

Capítulo 4

Resultados

4.1. Cuestionario 1. Fases de pre-escritura y post-escritura

4.2. Pruebas y evaluaciones con el baremo

4.3. Descripción de las variables en las tres pruebas

4.4. Relaciones entre pares de variables

4.5. Comparación entre variables continuas

4.6. Cambios en el tiempo

4.7. Resultados del Cuestionario 3


155

Capítulo 4. RESULTADOS

En este capítulo se presentan los resultados obtenidos a través del procedimiento descrito

en el capítulo anterior, por medio de las diferentes herramientas utilizadas para la toma de datos

como fueron: cuestionarios, resultados de corrección por baremos y observación de clases. Cada

una de las formas generó un tipo diferente de información, la cual fue analizada y concretada a

través de las hojas de datos que constan en los Anexos; por último cabe mencionar que se requirió

el programa SPSS versiones 22 y 23, cuyas tablas y gráficos generados se utilizaron como apoyo a

la lectura. Al final de la recolección de datos y muestras, se encontró que del total de 151

informantes 144 estuvieron presentes para responder el Cuestionario 1 de pre-escritura, entre

ellos 70 estudiantes en el nivel A1 y 74 en el nivel A2; el grupo del nivel A1 estaba constituido por

33 mujeres y 37 hombres, y el grupo del nivel A2 por 74 alumnos, 33 mujeres y 41 hombres.

El orden del análisis sigue el de las herramientas utilizadas, por ello se inicia con los

cuestionarios, se sigue con los baremos y se terminará con las observaciones de clase; mientras

que los sub-apartados seguirán la secuencia del procedimiento, es decir, la aplicación de las

herramientas dentro de la línea temporal. En algunos casos se describen los resultados por grupos

de tratamiento: el grupo A conformado por las composiciones revisadas por los pares y el grupo

B, por las composiciones revisadas por el profesor.

Al final de cada serie de recogida parcial de datos, se introduce una tabla que muestra los

resultados más significativos, en relación a las preguntas de investigación formuladas.


156

4.1. Cuestionario 1. Fases de pre-escritura y post-escritura

Con el objeto de conocer el juicio subjetivo de los estudiantes respecto a su desempeño,

previo al tratamiento, se distribuyó el Cuestionario 1 (ver 3.4) a todos los participantes y se les dio

5 minutos para llenarlo. Las respuestas se encuentran en el Anexo 7. Los resultados se volcaron

en una hoja de cálculo (Anexo 8), y se calculó la media (M) y la desviación estándar (DE) para

describir el panorama general (Anexo 9). Las posibilidades de respuesta a cada una de las cuatro

preguntas de dicho cuestionario eran dicotómicas, por lo que se considera la respuesta negativa

como 0 y la positiva como 1, el arco de valores posibles oscilaba entre 0 y 4. La Tabla 23 muestra

los valores obtenidos por el grupo de nivel A1 (3 clases, numeradas del 1 al 3, descritas

anteriormente, en el apartado 3.3.) y por el de nivel A2 (tres clases, numeradas del 4 al 6).

Cuestionario 1- Autoevaluación

Pre-escritura M DE

Nivel A1 (n=70) 2.229 1.206

Nivel A2 (n=74) 2.338 1.264

Tabla 23. Media y desviación estándar de las respuestas al Cuestionario 1 (pre-tratamiento)

El hecho de que los resultados de ambos grupos sean parecidos implica que la situación de

partida de ambos grupos era similar antes del tratamiento. La varianza en el aula 1 es de 1.454 y

en el aula 2 de 1.597 es baja (aunque no despreciable), por lo que el comportamiento de ambos

grupos puede considerarse bastante homogéneo. Un test Chi cuadrado entre el total de respuestas

positivas y negativas de ambos grupos, muestra que no existe diferencia significativa, p = 0.816.


157

El Chi cuadrado con aula 1 n= 70 y Aula 2 = 72, es de 1.404, p = 0.844, con una varianza de

1.181 para el aula 1 y 1.080 para el aula 2. Los valores de la media y desviación estándar se

muestran en la Tabla 24.

Cuestionario 1- Autoevaluación Post-escritura

M DE

Nivel A1 (N = 70) 3.086 1.087

Nivel A2 (N = 72) 3.069 1.039

Tabla 24. Media y desviación estándar de las respuestas al Cuestionario 1 (post-tratamiento)

Los resultados anteriores no son del todo concluyentes, hasta no determinar los efectos del

tratamiento en el grupo de estudiantes que participaron en la fase preliminar del estudio y en las

tres fases de tratamiento, hasta la autoevaluación final. Por esta razón se intentará determinar si

la estimación autoevaluativa de la capacidad compositiva de este grupo de estudiantes, en las dos

aulas, es la misma o si es diferente antes y después de las tres fases del tratamiento. En la Tabla 25

se muestran los valores de la media de cada una de las preguntas por aula. En todas, p > 0.005 no

fue significativa la diferencia.

Cuestionario 1 pre y post-escritura

Aula P.1 P.2 P.3 P.4 P.5 P.6 P.7 P.8

A1 1 0.764 0.294 0.147 1 0.941 0.764 0.441

A2 0.761 0.642 0.357 0.190 0.809 0.738 0.666 0.357

Tabla 25. Medias de las preguntas del Cuestionario 1, pre y post-escritura, aulas A1 y A2


158

En la gráfica de barras, Figura 3, se observan las comparaciones entre los valores medios de

las preguntas del Cuestionario 1, por aula, antes de la escritura y post-escritura, de las pruebas de

tratamiento. En ambos casos, no hubo diferencias significativas entre los valores de pre-escritura

entre las aulas.

Figura 3. Comparación de las medias en las respuestas de pre y post-escritura en el Cuestionario 1, aulas A1 y A2

La comparación de las medias y desviación estándar de ambas aulas, se encuentran a

continuación en la Tabla 26; la prueba de Chi cuadrado para cada aula, muestra nuevamente que

0

0.5

1

1.5

P.1 P.2 P.3 P.4

Cuestionario 1 pre-escritura

Aula A1 Aula A2

0

0.5

1

1.5

P.5 P.6 P.7 P.8

Cuestionario 1 post-escritura

Aula A1 Aula A2


159

no hay diferencias significativas entre los alumnos de ambas, en la autoevaluación de sus

habilidades de pre-escritura, p = 0.426, y post-escritura, p = 0.544.

Cuestionario 1 Pre-escritura Post-escritura

M DE M DE

A1 (N = 34) 2.21 0.978 3.15 0.925

A2 (N = 42) 2.33 1.183 3.24 0.878

Tabla 26. Comparación entre la media y desviación estándar pre y post escritura entre las aulas

Sin embargo, al comparar los resultados por separado del Cuestionario 1 con la prueba-t,

los resultados totales de pre-escritura y post-escritura de cada nivel de aprendizaje por separado,

éstos muestran una diferencia significativa, como se puede ver en la Tabla 27.

Cuestionario 1

Prueba-t de muestras apareadas

pre-escritura y post-escritura

Aula M D.E df t p

A1 (N = 34) -0.941 0.851 33 -6.451 <0.001

A2 (N = 42) -0.905 0.983 41 -5.965 <0.001

Tabla 27. Prueba-t de muestras apareadas entre los totales pre y post-escritura del Cuestionario 1

De acuerdo a lo anterior, existe evidencia que muestra que el estudiante percibe una

mejoría en desarrollo de sus habilidades de escritura L2, después del tratamiento.


160

4.2. Pruebas y evaluaciones con el baremo

Para comprender la presentación de los resultados, se debe recordar que tanto para la

primera como para la segunda prueba, unas muestras fueron revisadas por el profesor y otras por

los pares de forma cruzada entre las aulas; por esta razón, algunas presentaciones de resultados

reflejaron esta distribución de los datos. Primero, se realizó una exposición descriptiva de los datos

holísticos de las pruebas con comparaciones, luego de las variables en cada prueba y seguidas de

los análisis estadísticos correspondientes; en este último punto se manejaron los datos teniendo

en cuenta los casos en los cuales, los informantes estuvieron presentes durante los cuestionarios

de pre-escritura y post-escritura, y por supuesto en las tres pruebas aplicadas en el estudio. Con

posterioridad a estos resultados, se continuó con la identificación de las frecuencias en las

puntuaciones holísticas de los baremos, comparando la puntuación de AE (del estudiante) con la

puntuación del profesor, EP. Se utilizó la técnica de Binning del SPSS, para crear intervalos que

permitieran identificar más claramente estas frecuencias, utilizando los descriptores de nivel

usados en el baremo. (Ver Anexo 10). Se observaron por lo tanto cuatro categorías: <=56 (pobre),

57-71 (regular), 72-85 (bueno) y 86+ (excelente); el análisis comenzó con las aulas de nivel A1, para

terminar con las de nivel A2.

4.2.1. Aulas nivel A1. Pruebas

El total de muestras obtenidas en las tres fases de escritura en las aulas A1 fue de 175;

analizando cada prueba independientemente, se encontró que en las aulas A1, se escribieron 59

composiciones en la primera fase, 49 en la segunda y 67 en la tercera.


161

4.2.1.1. Prueba 1. Puntuaciones holísticas nivel A1

En las aulas del nivel A1 se tomaron en total 59 muestras, sobre las cuales se presentan

primero las categorizaciones de desempeño en la escritura, obtenidas de las puntuaciones de AE

en este nivel y se compararon con las de los pares revisores (EE); posteriormente se compararon

las AE con las calificaciones del profesor (EP).


Antes de iniciar, se recuerda que durante el primer tiempo del estudio, se tomaron 33

muestras compositivas de AE de forma aleatoria, para ser distribuidas de forma cruzada entre las

aulas A1; con estas muestras se calcularon las frecuencias de las ponderaciones adjudicadas a las

diferentes categorías de evaluación, según los descriptores del baremo, obteniéndose los

resultados que se muestran en la Tabla 28; cabe reseñar que ninguna de las 33 muestras obtuvo

una puntuación de AE inferior a 56 y por tal razón no aparece.

Categorías AE - Aulas A1 Frecuencia Porcentaje

57.00 - 71.00 (Regular) 4 12.1

72.00 - 85.00 (Bueno) 17 51.5

86.00+ (Excelente) 12 36.4

Total 33 100.0



162

Aproximadamente el 51% de las muestras obtuvieron la puntuación de bueno, mientras que

en el 36% de los casos fue de excelente. En general se mantuvieron entre las valoraciones de bueno

y excelente. Cuando las muestras fueron revisadas por los pares, las puntuaciones obtenidas

también se contabilizaron y los resultados se recogen en la Tabla 29.

Categorías EE – Aulas A1 Frecuencia Porcentaje

<= 56.00 (Pobre) 4 12.1

57.00 - 71.00 (Regular) 12 36.4

72.00 - 85.00 (Bueno) 10 30.3

86.00+ (Excelente) 7 21.2

Total 33 100.0


Contrariamente a los resultados de AE, 4 muestras compositivas obtuvieron puntuaciones

iguales o inferiores a 56; un 36.4% de las muestras (un porcentaje superior al de AE) obtuvieron

puntuaciones entre 57-71 (regular); el 30% aproximadamente se mantuvieron dentro del grupo

puntuado como bueno, y solo el 21% obtuvo puntuaciones de Excelente.


De las 59 muestras compositivas auto-evaluadas obtenidas en las aulas A1 en la primera

prueba, se seleccionaron de forma aleatoria 26, que se destinaron a ser revisadas también por el

profesor y al ser procesadas las puntuaciones de AE, se obtuvieron los datos que se recogen en la

Tabla 30.


163

Categorías AE – Aulas A1 Frecuencia Porcentaje

<= 56.00 (Pobre) 2 7.7

72.00 - 85.00 (Bueno) 13 50.0

86.00+ (Excelente) 11 42.3

Total 26 100.0


Se observa que 13 muestras (50%) se ubicaron dentro de las puntuaciones incluidas en el

descriptor bueno, 11 muestras (42.3%) dentro de excelente y 2 (7.7%) obtuvieron las puntuaciones

más bajas.

Estas mismas composiciones, bajo la evaluación del profesor, obtuvieron valores diferentes

(Tabla 31); un mayor número de composiciones concretamente 8 (30.8%), obtuvieron una

puntuación correspondiente a bueno; mientras que el porcentaje restante (69.2%) tuvo una

puntuación de excelente y no hubo muestras calificadas con puntuaciones bajas.

Categorías EP – Aulas A1 Frecuencia Porcentaje

72.00 - 85.00 (Bueno) 8 30.8

86.00+ (Excelente) 18 69.2

Total 26 100.0


4.2.1.2. Prueba 2. Puntuaciones holísticas


164

El manejo y procesamiento de los datos recogidos se llevó a cabo de igual modo que en la

prueba 1; el total de muestras recogidas para la prueba 2 fue de 49, de las cuales 32 de ellas fueron

corregidas por los pares y 17 por el profesor.


Para la prueba 2, se tomaron 32 muestras autoevaluadas, para ser valoradas por los pares

de forma cruzada entre las aulas A1. En la AE, cerca del 47% fueron calificadas por los propios

escritores, con puntuaciones situadas dentro de los rangos de bueno y excelente (Tabla 32).

Categorías AE- Aulas A1 Frecuencia Porcentaje

<= 56.00 (Pobre) 2 6.3

57.00 - 71.00 (Regular) 1 3.1

72.00 - 85.00 (Bueno) 15 46.9

86.00+ (Excelente) 14 43.8

Total 32 100.0


Cuando se valoraron por pares, se encontró que el 34%, aproximadamente, fueron

calificadas dentro de bueno y más del 50% como excelente; estos datos fueron recogidos en la

Tabla 33.


165

Categorías EE - Aulas A1 Frecuencia Porcentaje

<= 56.00 (Pobre) 1 3.1

57.00 - 71.00 (Regular) 3 9.4

72.00 - 85.00 (Bueno) 11 34.4

86.00+ (Excelente) 17 53.1

Total 32 100.0



En las 17 pruebas seleccionadas para la revisión por el profesor, se encontró que en los

niveles de desempeño bueno y excelente, se ubicaron el mismo número de composiciones en cada

grupo, un 41%, aproximadamente. Solo el 17% restante aproximado obtuvo una calificación de

regular. No hubo ninguna muestra dentro del grupo de desempeño inferior (Tabla 34).

Categorías AE - Aulas A1 Frecuencia Porcentaje

57.00 - 71.00 (Regular) 3 17.6

72.00 - 85.00 (Bueno) 7 41.2

86.00+ (Excelente) 7 41.2

Total 17 100.0


En las mismas muestras sometidas a evaluación por el profesor, se observa un incremento

en el número de composiciones con desempeño excelente, el grupo de composiciones bueno se

mantuvo en el 41%, aproximadamente y sólo una composición se puntuó como pobre (Tabla 35).


166

Categorías EP aula A1 Frecuencia Porcentaje

<= 56.00 (Pobre) 1 5.9

72.00 - 85.00 (Bueno) 7 41.2

86.00+ (Excelente) 9 52.9

Total 17 100.0

Tabla 35. Puntuaciones holísticas de EP en la prueba 2 de las aulas A1, revisadas por el profesor

4.2.1.3. Prueba 3. Puntuaciones holísticas. Autoevaluación y evaluación del profesor

Para este análisis de datos, se recogieron 67 muestras de autoevaluación; la frecuencia de las

categorías encontradas se observan en la Tabla 36 a continuación:

Categorías AE aula A1 Frecuencia Porcentaje

<= 56.00 (Pobre) 2 3.0

57.00 - 71.00 (Regular) 3 4.5

72.00 - 86.00 (Bueno) 21 31.3

87.00+ (Excelente) 41 61.2

Total 67 100.0


Las ponderaciones holísticas de estas composiciones autoevaluadas por los estudiantes,

fueron evaluadas y puntuadas por el profesor; los resultados del número de muestras por

categorías de desempeño se observan en la Tabla 37.


167


<= 56.00 (Pobre) 1 1.5

57.00 - 71.00 (Regular) 2 3.0

72.00 - 85.00 (Bueno) 15 22.4

86.00+ (Excelente) 49 73.1

Total 67 100.0


4.2.2. Aulas nivel A2. Pruebas

El total de muestras obtenidas en las tres pruebas durante la escritura en las aulas A2 fue de

188; analizando cada prueba independientemente, se encontró que en las aulas A2 se escribieron

65 composiciones para la primera prueba, para la segunda 67 y para la tercera 68.


En la recolección de datos para las aulas de nivel 2 se recogieron 65 escritos en total, de los

cuales 33 (seleccionados aleatoriamente) se distribuyeron en forma cruzada entre los pares y las

32 restantes se seleccionaron para ser revisadas por el profesor; primero se muestran las

puntuaciones AE obtenidas en este nivel en cada categoría, y se comparan con las de los pares

revisores y posteriormente con las calificaciones del profesor.



168

La clasificación de las puntuaciones AE de las muestras, según los descriptores de

desempeño (Tabla 38), indica que los estudiantes dieron puntuaciones superiores a 72 a un 42%

de las composiciones y que más del 50% recibieron una calificación de excelente; no hubo

puntuaciones de autoevaluación inferiores a 56.


57.00 - 71.00 (Regular) 1 3.0

72.00 - 85.00 (Bueno) 14 42.4

86.00+ (Excelente) 18 54.5

Total 33 100.0

Tabla 38. Puntajes holísticos de AE en la prueba 1, para distribución cruzada entre aulas A2

Los resultados obtenidos en la revisión por pares de estas muestras, revelan que los

estudiantes evaluadores asignaron puntuaciones de excelente a más de la mayoría de las muestras

(por encima del 51%), de bueno a un 39% aproximadamente (a 13 muestras). En la Tabla 39 se

observa que hubo 1 escrito que recibió una puntuación desfavorable (pobre), por debajo de 57 y 2

que obtuvieron la puntuación de regular.

Categorías EE aula A2 Frecuencia Porcentaje

<= 56.00 (Pobre) 1 3.0

57.00 - 71.00 (Regular) 2 6.1

72.00 - 85.00 (Bueno) 13 39.4

86.00+ (Excelente) 17 51.5

Total 33 100.0



169


Recogiendo las puntuaciones de AE de estas muestras, se encontró que 15 composiciones

fueron consideradas dentro del rango correspondiente al descriptor bueno (46.9%) y 16 al de

excelente (50%, como se ve en la Tabla 40.


57.00 - 71.00 (Regular) 1 3.1

72.00 - 85.00 (Bueno) 15 46.9

86.00+ (Excelente) 16 50.0

Total 32 100.0

Tabla 40. Puntajes holísticos de AE en la prueba 1 en las aulas A2, para revisión con el profesor

El registro de la frecuencia de las puntuaciones obtenidas de EP (Tabla 41), muestra 9

composiciones (28.1%) dentro del descriptor bueno, 22 (68.8%) en excelente y 1 (3.1%) en regular;

no hay ninguna dentro de pobre o bajo y en la AE tampoco se encontró ninguna muestra con una

puntuación total inferior a 57.


57.00 - 71.00 (Regular) 1 3.1

72.00 - 85.00 (Bueno) 9 28.1

86.00+ (Excelente) 22 68.8

Total 32 100.0

Tabla 41. Puntajes holísticos de EP en la prueba 1 de la aulas A2, revisadas por el profesor



170

Para la segunda prueba en las aulas de nivel 2, se recogieron 55 composiciones en total, de

las cuales 35 se seleccionaron aleatoriamente y se distribuyeron en forma cruzada entre los pares

y las 20 restantes se seleccionaron para ser revisadas por el profesor.


En las aulas del nivel A2, 35 de las composiciones de la prueba 2 fueron valoradas por los

pares, además de auto-evaluadas. En las autoevaluaciones no hubo puntuaciones inferiores a 72

puntos; la totalidad de las composiciones de este grupo fueron autocalificadas con los descriptores

bueno (48.6%) o excelente (51.4%). (Tabla 42)

Prueba 2. Categorías AE aula A2 Frecuencia Porcentaje

72.00 - 85.00 (Bueno) 17 48.6

86.00+(Excelente) 18 51.4

Total 35 100.0


Estos escritos se repartieron entre los pares de otra aula, para ser valoradas; las calificaciones

por pares arrojaron los siguientes resultados: 2 composiciones se puntuaron como de calidad

pobre (5.7%); 3 regular (8.6%); 9 bueno (25.7%), y 21 excelente (60%). Estos resultados se recogen

en la Tabla 43.


171

Prueba 2. Categorías EE aula A2 Frecuencia Porcentaje

<= 56.00 (Pobre) 2 5.7

57.00 - 71.00 (Regular) 3 8.6

72.00 - 85.00 (Bueno) 9 25.7

86.00+(Excelente) 21 60.0

Total 35 100.0



Recogiendo las puntuaciones de AE de estas muestras, se encontró que 15 composiciones

fueron consideradas dentro del rango correspondiente al descriptor excelente (75.0%) y las

restantes entre los descriptores de bueno (15%) y regular (10.0%); no hay una composición

categorizada como pobre. (Tabla 44).


57.00 - 71.00 (Regular) 2 10.0

72.00 - 85.00 (Bueno) 3 15.0

86.00+ (Excelente) 15 75.0

Total 20 100.0


La EP mostró que las pruebas de AE en un 60% se consideraron como excelentes, el 30% como

buenas, hay una composición regular (5%) y otra pobre (5%). Resultados que se muestran en la Tabla 45.


172

Prueba 2. Categorías EP aula A2 Frecuencia Porcentaje

<= 56.00 (Pobre) 1 5.0

57.00 - 71.00 (Regular) 1 5.0

72.00 - 85.00 (Bueno) 6 30.0

86.00+ (Excelente) 12 60.0

Total 20 100.0

Tabla 45. Puntajes holísticos de la prueba 2 de las aulas A2, revisadas por el profesor

4.2.2.3. Prueba 3. Puntuaciones holísticas nivel A2. Autoevaluación y evaluación del profesor

En las aulas A2 se recogieron 68 muestras compositivas de la prueba 3, que luego fueron

evaluadas por el profesor, el 73.5% de los estudiantes categorizaron sus composiciones como

excelentes y ninguno calificó su redacción como pobre, mientras que las 18 restantes (26.5%)

entraron dentro del grupo de buenas. (Tabla 46).


72.00 - 85.00 (Bueno) 18 26.5

86.00+ (Excelente) 50 73.5

Total 68 100.0


Estas mismas composiciones fueron evaluadas por el profesor y se encontró que las

calificaciones fueron más variadas en comparación con las de AE anteriores; se calificó 1 de las

redacciones como pobre; 48 como excelentes (73.5%) y las 19 restantes (27.9%) como buenas.

(Tabla 47).


173

Prueba 3. Categorías EP aula A2 Frecuencia Porcentaje

<= 56.00 (Pobre) 1 1.5

72.00 - 85.00 (Bueno) 19 27.9

86.00+ (Excelente) 48 70.6

Total 68 100.0

Tabla 47. Puntajes holísticos de EP de la prueba 3 de las aulas A2, revisadas por el profesor

En el siguiente apartado se desarrolla la observación de las pruebas y la descripción de las

variables del estudio; para el análisis se hizo necesario incluir mediciones, como las denominadas

Delta, cuyo objetivo es representar la diferencia entre la evaluación del profesor - investigador y

la autoevaluación de los estudiantes, para cada prueba.

Otras de las medidas que se realizaron fueron las denominadas: Cambio de puntaje, que

muestran las variaciones del puntaje del profesor-investigador desde la primera hasta la tercera

prueba.

4.3. Descripción de las variables en las tres pruebas

Este apartado se centrará en la atención en las variables categóricas del estudio y luego en

las variables continuas con los histogramas correspondientes, a su vez las medidas Delta 1, Delta

2 y Delta 3, generadas para mostrar las diferencias entre las medidas holísticas de AE y la EP

especificadas para cada test aplicado; también se analizan las medidas que resultaron del cálculo

en el cambio de puntaje de las composiciones de los estudiantes desde la primera hasta la tercera

prueba, y que se denominaron: Cambio de puntaje 1, Cambio de puntaje 2 y Cambio Total.


174

Los resultados y descriptivas de los tipos de retroalimentación se pueden consultar en el

Anexo 11 y los cálculos e histogramas de las variables continuas en el Anexo 12.

4.3.1. Prueba 1. La retroalimentación

En cuando a la retroalimentación, los tipos de categorías elegidas fueron: 0 para ningún tipo

de retroalimentación, 1 para la retroalimentación directa, 2 para la retroalimentación indirecta y 3

para la retroalimentación mixta.

Para la prueba 1 se encontró que el tipo de retroalimentación más usada fue la indirecta, en

un 68.42% de los casos en ambas aulas. En los casos restantes, el 13.16% utilizó retroalimentación

mixta, 11.84% directa y el 6.58% no ofreció retroalimentación alguna. (Figura 4).

Figura 4. Gráfica de barras sobre la retroalimentación utilizada por los evaluadores en la prueba 1


175

Teniendo en cuenta los grupos de tratamiento, en la prueba 1 para los niveles A1, se

encuentra que, tanto en A (23.53%) y B (44.12%), la retroalimentación indirecta es la más utilizada.

La retroalimentación directa sigue con un porcentaje de 11.76% en el grupo A, evaluado por los

pares y de 2.94% en el grupo B evaluado por el profesor. En el grupo A además se encontró que

se ofreció retroalimentación mixta en el 8.82% de los casos, y no se ofreció retroalimentación en el

8.82% de los casos.

De igual manera, en la prueba 1 para los niveles A2, se observa que tanto en A (23.81%) y B

(45.24%), la retroalimentación indirecta fue la más utilizada; sin embargo, la retroalimentación

directa se procuró en el grupo A con un porcentaje de 9.52%, evaluado por los pares, y de 0% en

el grupo B evaluado por el profesor. La retroalimentación mixta se realizó en ambos grupos, con

un 7.14% de los casos en el grupo A y 9.52% en el grupo B, no se dio ninguna

retroalimentación en el 4.76% de las composiciones revisadas por los pares. La comparación entre

las dos aulas se muestra en la Figura 5.


176

Figura 5. Gráficos de barras sobre la retroalimentación usada en las aulas A1 y A2 en la Prueba 1

4.3.2. Prueba 1. Histogramas de las evaluaciones holísticas

Comenzando con el histograma de la autoevaluación en esta primera prueba, se puede

observar, en la Figura 3, que no es perfectamente normal; al realizar el análisis de los puntajes

normalizados Z, se observa que los puntajes de los alumnos 203, con 54 puntos, y del alumno 117,

con 60, son los casos extremos, ya que estos puntajes son los más bajos obtenidos en este grupo de

estudiantes. Se decidió que, a fin de asegurar la confiabilidad de los análisis posteriores, se

tomarán estos dos casos como ausentes dentro de la variable AE holística. El histograma se vuelve

a generar, y esta vez, muestra una mejor normalidad que el anterior. (Figura 6).


177

Figura 6. Histogramas de la variable de autoevaluación total en la prueba 1

La variable de evaluación por pares EE, muestra un dato apartado a la izquierda de la curva

de normalidad, que corresponde al alumno 308, con un puntaje mínimo de 41. Sin embargo, la

asimetría encontrada es de solo -0.467. «Por lo general, los valores asimétricos de 0.7 o más, son

causa de preocupación y sugiere que los datos se transformen de forma apropiada» (Salkind, 2010:

859). La curva de normalidad de esta variable, se muestra en la Figura 7.

Figura 7. Histograma de la variable de evaluación por pares en la prueba 1

Siguiendo con la variable, puntaje del profesor – investigador, Figura 8, muestra una curva

de distribución normal, con una asimetría negativa de -0.290. Figura 8.


178

Figura 8. Histograma de la variable de puntaje del profesor en la prueba 1

A continuación se analiza la medida Delta 1, que surge de la diferencia aritmética entre el

puntaje del profesor – investigador y el puntaje del autoevaluado en esta prueba. En el histograma

se puede observar una curva de normalidad que muestra medidas alejadas de la media; al

observar los parámetros mínimos y máximos se determina que hay una diferencia muy alta entre

los valores.

Al efectuar una normalización de los datos se encontró que éstos corresponden a una

marcada diferencia aritmética negativa y positiva, entre los puntajes de AE y del profesor–

investigador, del alumno 203, con -27.00 puntos, el alumno 301 con 25.00 y el alumno 126, con

-17.00. Una vez omitidos estos valores, la curva de normalidad de la medida Delta 1 muestra una

mejor distribución (Figura 9).


179

Figura 9. Histogramas de la variable Delta 1

4.3.3. Prueba 1. Frecuencia de errores pre-edición y post-edición

Otra de las variables importantes corresponde a la frecuencia de errores pre-edición; esta

variable muestra una curva de distribución con un par de datos alejados a la derecha de la

campana de Gauss. Sin embargo, en la lectura de los parámetros de la gráfica, la asimetría es de

0.344. Se espera que por tal razón, estos datos no vayan a producir problemas en los cálculos

estadísticos posteriores. (Figura 10)


180

Figura 10. Histograma de la variable de frecuencia de errores pre-edición en la prueba 1

La variable frecuencia de errores post-edición en esta prueba 1, muestra dos datos

asimétricos a la derecha, en los parámetros, esta asimetría es de 0.866, como se indicó según

Salkind (2010), este valor no es aceptable. Por lo tanto, al observar la normalización de los datos,

se encuentra que solo el valor del alumno 605, muestra un valor de frecuencia de errores post-

edición de 54.90; este dato se generó debido a que este estudiante re-escribió una composición de

54 palabras, con 28 errores en total, lo que es una proporción muy alta si se tiene en cuenta que

dentro del grupo, la frecuencia de errores post-edición fue mucho menor que ese valor. En la

Figura 11, se muestra que luego de omitir ese caso, se obtiene una curva de normalidad más

adecuada, además de generar una reducción de la asimetría a 0.571.


181

Figura 11. Histogramas de la variable de frecuencia de errores post-edición en la prueba 1

En la Tabla 48 se sintetizan los parámetros estadísticos considerados en la prueba 1, con los

cambios de asimetría (Sk*) efectuados para asegurar la normalidad de la distribución de las

variables continuas estudiadas.

Variable N Mín. Máx. M DE Sk N Sk*

C1 AE Total* 76 54 100 84.34 9.19 -0.632 74 -0.110

C1 EE Total 37 41 100 77.62 13.95 -0.467

Profesor – investigador 1 76 68 100 86.41 7.90 -0.290

Delta 1* 76 -27 25 2.00 9.96 -0.310 73 -0.179

Frecuencia de errores pre 76 7.32 50.79 24.51 10.28 0.344

Frecuencia de errores post* 76 4.82 54.90 20.64 10.07 0.866 75 0.571


4.3.4. Prueba 1. Errores pre-edición y post-edición

Los valores, mínimo y máximo de palabras escritas en las composiciones de la prueba 1,

para los dos niveles de aprendizaje, fue de (41 y 149); con una media (M) = 79 y desviación

estándar (D.E) = 16.16. Los valores, mínimo y máximo de errores fue de (3 y 35), con M = 19, y D.E

= 7.92. En el aula A1, el mínimo de palabras pre-edición fue de 41 y el máximo de 149, M = 75, y


182

D.E = 20.57; en el aula A2, se escribieron mínimo 56 y máximo 133 palabras, con M = 82 y D.E =

13,14.

Los errores encontrados por aula en la primera prueba se muestran en la Tabla 49; se observa

que los errores están agrupados como: errores de género (G), número (N), sujeto-verbo (Sv),

conjugaciones (C), sintaxis (S), artículos (A), pronombres (P), preposiciones (Pr), ortografía (O),

puntuación (Pu) y contenido (Co). En la tabla a continuación se agrupan los errores totales (T) y

las medias (M) de error comparando las aulas A1 y A2. Las cajas grises muestran las medias arriba

de 2; esto permite la comparación de errores más comunes entre las aulas por categoría. Los

cálculos realizados para los errores se encuentran en el Anexo 13.

Aula

N = 76

Errores de pre-edición en la prueba 1

G N Sv C S A P Pr O Pu Co

A1

N = 34

M 2.35 1.47 0.97 0.53 1.62 0.53 0.59 1.18 6.03 1.53 1.91

T 80 50 33 18 55 18 20 40 205 52 65

A2 M 1.67 0.79 0.83 4.93 0.52 0.64 0.86 2.48 4.21 0.38 1.02

N = 42 T 70 33 35 207 22 27 36 104 177 16 43


En la post-edición, el número de palabras fue de M = 77, D.E= 17.40. Los estudiantes en el

aula A1 escribieron de 42 a 149 palabras, con una media aproximada de 73 palabras, y una D.E =

20.19; y en el aula A2, de 51 a 134, con una media de 80 palabras y D.E = 14.35. Después de la re-

escritura de las composiciones en todas las aulas, la media de errores fue de 15.45, D.E = 7.27.


183

En la Tabla 50 se encuentran las medias de errores post-reescritura, comparadas entre las

dos aulas; las cajas en gris muestran las medias de errores por arriba de 2.

Aula

N = 76

Errores de post-edición en la prueba 1


A1

N = 34

M 1.79 1.35 1.12 0.35 1.24 0.38 0.47 1.06 4.71 1.44 1.53

T 61 46 38 12 42 13 16 36 160 49 52

A2 M 1.10 0.38 0.40 3.67 0.40 0.57 0.71 2.31 6.74 0.50 0.57

N = 42 T 46 16 17 154 17 24 30 97 283 21 24


Se observa que la categoría de ortografía presenta la media más alta en este grupo, seguida

de los errores en: el género, contenido, sintaxis, puntuación, número, preposiciones, sujeto-verbo,

pronombres, artículos y conjugaciones. Realizando la comparación entre la pre-edición y la re-

escritura, se observa que en las dos aulas las medias de error disminuyen, aun cuando se

encuentran dos excepciones en el aula 2, en donde la media de la categoría de ortografía y

puntuación, aumentaron.

En la siguiente Figura 12, se observan las comparaciones de pre-edición y re-escritura en el

aula 1. Las medias de error disminuyen luego de la re-escritura en todas las categorías, aunque se

observa un mínimo aumento en la media de errores sujeto-verbo.


184

Figura 12. Comparación de las medias de error pre y post re-escritura en el aula A1, prueba 1

En Figura 13 se muestran los errores hallados en la pre-edición y re-escritura de las muestras

en la prueba 1, para el aula A2. Al contrario del aula 1, el error que tiene una mayor media

corresponde a los errores en las conjugaciones, seguidos de los errores de ortografía,

preposiciones, género, contenido, pronombres, sujeto-verbo, número, artículos, sintaxis y

puntuación. Aquí se observa no solo la disminución de las medias de error luego de la re-escritura

en casi todas las categorías, sino también un aumento en los errores ortográficos y de puntuación,

siendo los primeros de mayor consideración.


2.3

5

1.4

7

0.9

7

0.5

3 1.6

2

0.5

3

0.5

9

1.1

8

6.0

3

1.5

3

1.9

1

1.7

9

1.3

5

1.1

2

0.3

5 1.2

4

0.3

8

0.4

7

1.0

6

4.7

1

1.4

4

1.5

3

G N S v C S A P P r O P u C o

M e d i a d e e r r o r e s p r u e b a 1A u l a A 1

Pre-edición Post-edición

1.6

7

0.7

9

0.8

3

4.9

3

0.5

2

0.6

4

0.8

6 2.4

8 4.2

1

0.3

8

1.0

2

1.1

0.3

8

0.4

3.6

7

0.4 0.5

7

0.7

1 2.3

1

6.7

4

0.5

0.5

7

G N S v C S A P P r O P u C o

M e d i a d e e r r o r e s p r u e b a 1a u l a A 2



185

A fin de comprobar si estas diferencias entre la pre-edición y la edición de las composiciones

en relacón a las medias de errores es significativa o no, se realiza la prueba t-Student para cada

variable de error. Los resultados congregados en la Tabla 51, muestra la diferencia entre las medias

de las categorías comparadas y el valor p, con un intervalo de confianza del 95% para las aulas

A1.

Prueba t-Student N = 34

Pares G N Sv C S A P Pr O Pu Co

M 0.559 0.118 -0.147 0.176 0.382 1.147 0.118 0.118 1.324 0.088 0.382

p 0.030 0.545 0.674 0.012 0.010 0.058 0.325 0.160 0.020 0.661 0.096


Los resultados muestran que la diferencia entre las medias de las variables de: género,

conjugación, sintaxis y ortografía, son significativas, lo cual permite afirmar que hay evidencia de

una disminución del promedio de error después de la edición de las primeras composiciones en

la fase 1 del estudio. Se observa también un aumento entre la media de los errores sujeto-verbo,

de ahí la media negativa entre la pareja de variables, pero esa diferencia no fue significativa. En la

tabla 52 se presentan los resultados congregados para observar los pares de variables, pre y post-

edición, calculados también con la prueba t-Student.



M 0.571 0.405 0.429 1.262 0.119 0.071 0.143 0.167 -2.524 -0.119 0.452

p 0.007 0.020 0.170 0.002 0.256 0.498 0.262 0.181 0.283 0.303 0.004



186

Los resultados muestran que los errores de género, número, conjugaciones y contenido, se

corrigieron en la re-edición de la prueba 1 en las aulas A2. Los errores de ortografía y puntuación,

sin embargo, aumentaron.


En la fase 2 se encontró que el tipo de retroalimentación más usada fue la indirecta con un

56.6%, seguida de la retroalimentación mixta con un 17.1%, directa en un 10.5%, y no

retroalimentación en un 15.8% de los casos en la Figura 14.


Con respecto a los grupos de tratamiento en las aulas A1, para la prueba 2 se encontró que

tanto en el grupo A como en el grupo B, la retroalimentación indirecta fue la más utilizada,

encontrándose en un 32.35% en A y en 29.41% en B. En el grupo A se usó retroalimentación directa

en el 14.71% de los casos y no se utilizó para el grupo B. La retroalimentación mixta se aplicó en


187

un 8.82% en el grupo A y 5.88% en el grupo B. El 8.82% de las evaluaciones hechas por los pares

no anotaron retroalimentación alguna en las composiciones.

En las aulas A2 los evaluadores en el grupo A usaron retroalimentación indirecta en el

23.81% y en el grupo B en un 28.57%; el 16.67% de los evaluados no recibió retroalimentación

escrita en el grupo A y en un 4.76% en el grupo B; la comparación entre las dos aulas se muestra

en la Figura 15.

Figura 15. Gráficas de barras sobre la retroalimentación usada en las aulas A1 y A2 en la prueba 2


188


Siguiendo con el mismo esquema establecido, se analizaron las variables y medidas

calculadas para la segunda prueba realizada en el estudio. Se tomaron en cuenta: la normalidad

de los datos en las variables de autoevaluación, la evaluación entre pares, el puntaje del profesor–

investigador, las medidas calculadas de Delta 2 y Cambio de puntaje 1; en donde se muestra la

diferencia a la diferencia entre los puntajes del profesor – investigador obtenidos tanto en la

prueba 1 como en la prueba 2.

El histograma de la variable de autoevaluación, muestra un caso anómalo al extremo

izquierdo, generando una asimetría negativa muy alta, de -1.523; analizando el cálculo de la

normalización de datos se evidenció que el alumno 203 tuvo una AE holística de 37, puntaje muy

bajo en relación con el grupo analizado; una vez omitido ese valor la asimetría disminuyó a -0.635,

como se muestra en la Figura 16.


189

Figura 16. Histogramas de la variable de autoevaluación holística en la prueba 2

En el histograma de la variable, evaluación holística por pares, se observa una asimetría

negativa alta de -0.850; luego del cálculo de los valores Z normalizados, se omitieron los puntajes

de los alumnos: 221 (48.00), 605 (53.00) y 420 (61.00); logrando una asimetría más aceptable, de -

0.789, aun así estos casos tienen los valores holísticos más bajos dados durante la evaluación por

pares en esta prueba. (Figura 17)

Figura 17. Histogramas de la variable de evaluación holística por pares en la prueba 2


190

El histograma del puntaje del profesor–investigador, muestra un dato extremo izquierdo,

pese a ello la asimetría se encontró dentro de un parámetro aceptable -0.411, por ello no fue

necesario ajustar datos como se muestra en la Figura 18.

Figura 18. Histograma de la variable de puntaje del profesor-investigador en la prueba 2

Se observa ahora la normalidad de los datos calculados para Delta 2, lo cual corresponde a

la diferencia aritmética entre el puntaje de AE y el originado por el profesor–investigador; el

análisis muestra claramente un dato extremo asimétrico por fuera de la campana de Gauss.

En pruebas posteriores se encontró que los valores de los alumnos: 115 (-22.00), 203 (45), 213

(-24.00), 220 (24.00), 325 (28.00), 605 (-24.00) y 608 (-26.00); generaron asimetrías en los diagramas

de cajas. Se intentó acercar los valores al dato menos extremo para no perder los casos en los

cálculos, pero esto generaba nuevos valores asimétricos; es claro que una diferencia Delta mayor

o igual a 24.00 negativa o positiva, es muy grande, mostrando que las AE de estos estudiantes no

fueron muy acertadas en la prueba 2 y se decidió aislar estos resultados, generando un histograma

normal con una asimetría muy baja, de 0.049, como se observa en la Figura 19.


191

Figura 19. Histogramas del valor Delta 2 en la prueba 2

4.3.7. Prueba 2. Frecuencia de errores pre-edición y post-edición

El histograma de la variable de frecuencia de errores pre-edición, genera un diagrama

normal con una asimetría de 0.275 observable en la Figura 20.

Figura 20. Histograma de la frecuencia de errores pre-edición en la prueba 2


192

Posteriormente en el histograma de la frecuencia de errores post-edición, se encontró una

asimetría de 0.814; una vez hecha la normalización de los valores, se aísla el puntaje del estudiante

605 con una frecuencia de errores post-edición de 50, lo cual equivale a un valor alto en relación

al grupo; con ello, la asimetría disminuyó a 0.769. La comparación entre los dos histogramas se

muestra en la Figura 21.

Figura 21. Histogramas de la frecuencia de errores post-edición en la prueba 2

El siguiente valor calculado a analizar es el correspondiente al Cambio de puntaje 1, que

corresponde a la diferencia aritmética entre los valores Delta 1 y Delta 2. Se observa en la Figura


193

22 que el histograma muestra una distribución muy normal de los valores de esta variable, por

lo cual no se hace necesaria la transformación u omisión de ninguno de los valores analizados.

Figura 22. Histogramas del Cambio de puntaje Delta 1 y Delta 2 entre las pruebas 1 y 2

En la siguiente Tabla 53, se sintetizan los parámetros estadísticos considerados en la prueba 2, con

los cambios de asimetría (Sk) efectuados para asegurar la normalidad de la distribución de las variables

continuas estudiadas.


C2 AE Total* 76 37 100 85.72 10.78 -1.523 75 -0.635

C2 EE Total* 48 48 100 85.71 12.64 -1.183 45 -0.789

Profesor – investigador 2 76 61 100 85.41 7.989 -0.411

Delta 2* 76 -26 45 -0.32 11.560 0.276 69 0.392

Frecuencia de errores pre- 76 2.33 49.15 25.23 10.99 -0.339

Frecuencia de errores post* 76 2.33 50 21.63 10.91 0.814 75 0.769

Cambio de puntaje 1 76 -24 19 -1.00 8.447 0.008




194

En la prueba 2, el número de palabras en todas las aulas tuvo una M = 72, con D.E = 17.32;

el número de errores, con M = 17.61 y D.E = 7.77. En el aula A1, con 34 estudiantes, el número de

palabras promedio fue de M = 74 pre-edición, D.E = 19; en el aula A2, con 42 estudiantes, M = 71,

con un mínimo de 43 y máximo de 117, D.E = 16; y 69. En la Tabla 54, se agrupan los valores de

las medias de las categorías de error en la segunda prueba; pueden observarse los datos y hacer

comparaciones entre los errores encontrados en la pre-edición de las composiciones entre las dos

aulas. Las marcadas en gris resaltan las medias de errores mayores a 2.

Aula

N = 76



A1

N = 34

M 0.68 2.50 1.65 1.12 0.53 0.44 0.24 1.56 4.65 1.91 2.88

T 23 85 56 38 18 15 8 53 158 65 98

A2 M 1.67 1.45 0.38 3.55 0.43 1.02 0.10 2.05 4.12 1.24 0.74

N = 42 T 70 61 16 149 18 43 4 86 173 52 31


Los errores que más se encontraron en el aula A1, corresponden en su mayoría a los errores

ortográficos; le siguen los de: contenido, número, puntuación, sujeto-verbo, preposiciones,

conjugaciones, género, sintaxis, artículos y pronombres. En el aula A2, las medias de error más

altas fueron para las categorías de ortografía, conjugación y preposiciones. En la post-edición la

media del número de palabras fue de 70, D.E= 17.49; la media de errores fue de 14.71, D.E = 7.09.

En el aula A1, hubo 72 palabras post-edición, con un mínimo de 28 y máximo 129, D.E = 20; en el

aula A2, M = 69, con un mínimo de 43 y máximo de 117, D.E = 15.


195

En la siguiente Tabla 55 se encuentran las categorías de error post-reescritura, comparados

entre las aulas.

Aula

N = 76



A1

N = 34

M 0.59 1.53 1.29 1.00 0.47 0.41 0.24 1.50 4.41 1.53 2.35

T 20 52 44 34 16 14 8 51 150 52 80

A2 M 1.60 1.24 0.40 2.83 0.40 0.76 0.07 1.60 3.45 0.98 0.62

N = 42 T 67 52 17 119 17 32 3 67 145 41 26


En ambas aulas se observa que hubo disminución en todos los errores de pre-escritura; sin

embargo, las faltas ortográficas y de contenido persistieron en el aula A1, mientras que en el aula

A2, fueron los ortográficos y de conjugaciones. En la Figura 23 se puede observar con mayor

claridad la superación, persistencia o aumento de los errores antes y después de la escritura y

edición de las composiciones para la prueba 2.

Figura 23. Comparación de las medias de error pre y post re-escritura en el aula 1 prueba 2

0.6

8

2.5

1.6

5

1.1

2

0.5

3

0.4

4

0.2

4

1.5

6

4.6

5

1.9

1 2.8

8

0.5

9 1.5

3

1.2

9

1

0.4

7

0.4

1

0.2

4

1.5

4.4

1

1.5

3 2.3

5

G N S V C S A P P R O P U C O

Me dia de e rrore s prue ba 2Aula A1



196

En la Figura 24 se presenta la media de los errores en la prueba 2 para las aulas A2, pre-

edición a post-edición de las composiciones en la fase 2 del estudio. Se observa un mínimo

aumento en los errores de sujeto-verbo.

Figura 24. Comparación de las medias de error pre y post re-escritura en el aula 2, prueba 2

En la Tabla 56 se presentan los resultados congregados, para observar los pares de variables,

pre y post-edición calculados también con la prueba t-Student, para el aula A1. De acuerdo a los

resultados, se observa que la disminución significativa de los errores, ocurrió solamente para la

categoría de número.



M 0.088 0.971 0.353 0.118 0.059 0.029 0.000 0.059 0.235 0.382 0.529

p 0.414 0.034 0.195 0.458 0.325 0.711 1.000 0.701 0.507 0.316 0.056


1.6

7

1.4

5

0.3

8

3.5

5

0.4

3 1.0

2

0.1

2.0

5

4.1

2

1.2

4

0.7

41.6

1.2

4

0.4

2.8

3

0.4 0

.76

0.0

7

1.6

3.4

5

0.9

8

0.6

2


Me dia de e rrore s prue ba 2Aula A2



197

En las aulas A2, las categorías en donde hubo una disminución significativa de la media de

error, fueron en: la conjugación, artículos, preposiciones y ortografía. (Tabla 57)



M 0.71 0.214 -0.024 0.714 0.024 0.262 0.024 0.452 0.667 0.262 0.119

p 0.584 0.304 0.710 0.001 0.323 0.003 0.570 0.003 0.031 0.086 0.323



En el grupo B de las dos aulas, la retroalimentación más utilizada por el profesor en la

prueba 3 fue: mixta en un 52.6%, mientras la retroalimentación indirecta fue de un 38.16%,

directa en un 5.26% y en el 3.9% de los casos no dio retroalimentación. (Figura 25).


Haciendo una comparativa entre las dos aulas, cabe recordar que la Prueba 3 en el aula A1

y aula A2, fue evaluada solamente por el profesor, (grupo B); en su momento se verificó que en el


198

aula A1 el profesor entregó retroalimentación indirecta a un 47.06%, mixta al 38.24% y

retroalimentación directa al 5.88%; asimismo, no ofreció retroalimentación alguna en el 8,82% de

las composiciones. En el aula A2, entregó retroalimentación mixta al 64.29%, indirecta al 30.95% y

directa al 4.76%. La comparación entre las dos aulas se muestra en la Figura 26

Figura 26. Gráficos de barras sobre la retroalimentación usada en las aulas A1 y A2 en la prueba 3


A continuación se presenta el análisis de los histogramas para la AE holística en la prueba

3; en ellos se observan unos valores negativos que muestran una asimetría de -0.995. La técnica de

omisión de algunos de los datos no resultó útil para asegurar la normalidad de los valores de AE;

se optó entonces por transformar los valores de los alumnos: 203 (57.00), 221 (73.00), 227 (76.00),

308 (65.00) y 506 (76.00); por un puntaje de 77 como se puede ver en la (Figura 27.


199

Figura 27. Histograma de la variable autoevaluación holística en la prueba 3

La siguiente variable es el puntaje del profesor–investigador; en este histograma se observan

valores por fuera de la campana de Gauss, correspondiente a los alumnos 213 (37.00) y 512 (37.00);

cuando se aíslan estos casos la asimetría no mejora, incluso se generan nuevas asimetrías; por

tanto, se decidió transformarlos a un valor extremo, pero menos asimétrico 75.00; los otros casos

fueron los de los estudiantes 308 (74.00), 605 (73.00) y 608 (72.00); recogidos en la Figura 28.


200

Figura 28. Histograma de la variable profesor - investigador en la prueba 3

A continuación se muestra el histograma del valor calculado Delta 3; se ve con claridad la

asimetría causada por los valores extremos de los estudiantes: 203 (25.00), 213 (-44.00), 221 (22.00)

y 512 (-49.00); en este caso la técnica de transformación de estos datos, marcados como (16.00 y -

16.00) resulta favorable para mejorar el histograma. La simetría mejora de -1.494 a -0.689. (Figura

29)


201

Figura 29. Histograma del valor Delta 3 en la prueba 3

El siguiente histograma corresponde al valor de Cambio de puntaje 2, entre el Delta 2 y 3; se

observan datos extremos por fuera de la campana de Gauss, que corresponden a los alumnos 125

(-19.00), 213 (-34.00) y 512 (-32.00). Estos datos se transformaron en -15.00 (Figura 30).


202

Figura 30. Histograma del valor Cambio de puntaje 2

El histograma de Cambio total se muestra abajo en la Figura 31; este valor calculado

corresponde a la diferencia de Delta en las tres pruebas; se encuentra que dos datos son

asimétricos, y tal como se hizo con los datos anteriores, se transformaron en un valor límite de

-19.00. Los casos transformados corresponden a los alumnos 213 (-43.00) y 512 (-50.00).

Figura 31. Histograma del valor Cambio de puntaje total


203

4.3.11. Prueba 3. Frecuencias de errores pre-edición y post-edición

El histograma de las frecuencias de error pre-edición, se muestra normal. (Figura 32).

Figura 32. Frecuencia de errores pre-edición en la prueba 3

El histograma de las frecuencias de error post-edición, muestra una inclinación negativa

muy notoria, como se observa en la Figura 33.

Figura 33. Frecuencia de errores post-edición en la prueba 3


204

En la Tabla 58, se resume el manejo de las variables y datos calculados antes de comenzar

con la descriptiva de las variables categóricas y los correspondientes análisis, siguiendo el orden

de las pruebas anteriores.


C3 AE Total* 76 57 100 88.55 8.19 -0.995 69 0.159

Profesor-investigador 3* 76 37 100 87.95 11.06 -2.650 76 -0.388

Frecuencia de errores pre 76 0 49.30 23.06 11.10 0.176

Frecuencia de errores post 76 0 41.49 15.26 10.49 0.610

Delta 3* 76 -49 25 -0.61 11.82 -1.494 76 -0.326

Cambio de puntaje 2* 76 -34 15 2.54 9.14 -1.630 76 -0.729

Cambio de puntaje total* 76 -50 19 1.54 11.11 -2.269 76 0.689



El número de palabras promedio fue de 76, con un mínimo de 7 y máximo de 123, pre-

edición. Post-edición, el promedio fue 76, D.E = 16.84, con un mínimo de 7 y máximo 123. La

media de errores, M = 17.28, D.E = 8.91 pre-edición, y M = 10.91, D.E = 7.59.

En el aula A1, la frecuencia de palabras promedio pre-edición fue de 75, con un mínimo de

7 y máximo 115, D.E = 18.30; post-edición fue de 74, con un mínimo de 7 y máximo 113, D.E =

18.40. En el aula A2, la frecuencia de palabras promedio pre-edición fue de 77, con un mínimo de

46 y máximo 123, D.E = 14.77; post-edición fue de 77, con un mínimo de 45 y máximo 123, D.E =

15.50.


205

En la Tabla 59, se consignan los valores de las medias de error de la segunda prueba; las

señaladas en gris resaltan las medias de errores mayores a 2; las medias más altas de las categorías

de fallos en el aula A1, corresponden a los errores ortográficos, seguidos de los errores de

contenido, número y género, sintaxis, preposiciones, pronombres, conjugación, sujeto-verbo,

puntuación y artículos. En las aulas A2, las medias más altas corresponden a los errores de

conjugaciones, ortografía y preposiciones y en menor promedio se encuentran los fallos de:

género, pronombres, número, sujeto-verbo, contenido, sintaxis, artículos y puntuación.

Aula

N = 76



A1

N = 34

M 1.50 1.50 0.88 0.91 1.44 0.15 0.97 1.18 3.94 0.82 2.18

T 51 51 20 31 49 5 33 40 134 28 74

A2 M 1.98 0.98 0.93 4.67 0.69 0.45 1.00 2.14 4.50 0.31 0.90

N = 42 T 83 41 39 196 29 19 42 90 189 13 38


Los resultados luego de la re-escritura de la tercera prueba, se muestran en la Tabla 60 a

continuación; en ambas aulas se observa que hubo una disminución en el promedio de errores en

general.

Aula

N = 76



A1

N = 34

M 0.76 1.12 0.71 0.79 0.71 0.06 0.44 0.68 3.29 0.44 1.12

T 26 38 24 27 24 2 15 23 112 15 38

A2 M 1.00 0.69 0.57 2.50 0.36 0.38 0.26 1.19 3.69 0.24 0.52

N = 42 T 42 29 24 105 15 16 11 50 155 10 22



206

En la Figura 34 se puede observar gráficamente el comportamiento de los errores en la pre-

edición; luego en la post-edición de la tercera prueba en el aula A1, se observa claramente que las

equivocaciones ortográficas y de contenido tienen una media más alta que el resto de los errores

y en todos los casos disminuyeron en la post-edición.


En las aulas A2 se observó que la mayoría de errores fueron de conjugaciones, ortografía y

preposiciones; en la pre-edición y en la post-edición continuaron siendo los más notorios, pero en

menor cantidad en promedio como lo muestra la Figura 35.


1.5

1.5

0.8

8

0.9

1

1.4

4

0.1

5 0.9

7

1.1

8

3.9

4

0.8

2 2.1

8

0.7

6

1.1

2

0.7

1

0.7

9

0.7

1

0.0

6

0.4

4

0.6

8

3.2

9

0.4

4 1.1

2




1.9

8

0.9

8

0.9

3

4.6

7

0.6

9

0.4

5

1

2.1

4

4.5

0.3

1

0.91 0.6

9

0.5

7

2.5

0.3

6

0.3

8

0.2

6 1.1

9

3.6

9

0.2

4

0.5

2





207

A continuación se realizó nuevamente la prueba t-Student, a fin de determinar si las

variaciones en las medias de error pre-edición y post-reescritura son significativas. En la tabla 61

se agruparon las medias de las categorías de error por pares, para el aula A1.



M 0.735 0.382 0.176 0.118 0.735 0.088 0.529 0.500 0.647 0.382 1.059

p 0.008 0.096 0.325 0.669 0.003 0.083 0.002 0.017 0.135 0.051 0.003


Se encontró que la disminución en los fallos de: género, sintaxis, pronombres, preposiciones

y contenido; fueron significativos.

En la tabla 62 para el aula A2 se observa que la reducción en los promedios de error se

obtuvieron en las categorías de: género, conjugaciones, sintaxis, pronombres, ortografía y

contenido; mientras que en las otras categorías, la variación no fue representativa.



M 0.976 0.286 0.357 2.167 0.333 0.071 0.738 0.952 0.810 0.071 0.381

p <0.001 0.070 0.070 <0.001 0.012 0.445 <0.001 0.001 0.032 0.412 0.044


4.4. Relación entre pares de variables


208

En este apartado se analizaron estas variables por cuestionario y prueba de tratamiento; los

manejos estadísticos de las variables consideradas en cada prueba se encuentran en los Anexos:

para la prueba 1 (Anexo 14), prueba 2 (Anexo 15) y prueba 3 (Anexo 16).

4.4.1. Prueba 1

En el siguiente paso en la exploración de la información se estudiaron las relaciones entre

las variables de género y nivel de aprendizaje entre las aulas; su resultado se muestra en la

Tabla 63.

Aula Frecuencia Porcentajes Total %

1 10 13.2

44.7 2 15 19.7

3 9 11.8

4 14 18.4

55.2 5 13 17.1

6 15 19.7

Total 76 100.0

Tabla 63. Porcentaje de estudiantes representados en las diferentes aulas

Se observó que el aula A1 tenía el 44.7% de los casos y el aula A2 el 55.26%; en cuanto a la

distribución por género, los resultados muestran un cierto balance, arrojando un 51% mujeres y

un 49% hombres.


209

Se analizó la relación Delta 1, entre los puntajes del profesor y los de la autoevaluación con

las variables de aula y género, utilizando el diagrama de cajas, con N= 73, como lo demuestra la

Figura 36.

Figura 36. Diagrama de cajas relacionando Delta 1 x aula y Delta 1 x sexo en la prueba 1

En el caso de Delta1 y aulas A1 y A2, se observó que la mediana de Delta1 para el aula A2

es ligeramente menor que para el Aula 1; en el caso de Delta 1 de acuerdo con el género la mediana

está un poco más alta para el sexo femenino que para el sexo masculino y a fin de determinar si

estas apreciaciones son significativas, se aplicó el test de análisis univariante de la varianza

ANOVA.


210

Se observa que la media de Delta para el aula A1 es de 1.74 y la D.E = 8.76, siendo este valor

menor comparado a la media para el aula A2 de 2.90 y D.E = 2.90. Los resultados del test de

Levene, que evalúan la igualdad entre las varianzas de las variables, muestran que F (1, 71) =

0.382, p = 0.538, por lo que no se rechaza la hipótesis nula. Adicionalmente estos resultados F (1,

71) = 0.302, p = 0.584, R2 = 0.010, no son evidencia significativa para que el nivel de aprendizaje de

los estudiantes influyera en la variabilidad de la diferencia entre las puntuaciones de AE y del

profesor–investigador en la prueba 1.

En el caso de Delta1 y el género de los informantes, se observó que para el sexo masculino,

el valor Delta 2 fue de -0.444, y de 5.634 puntos más que ese valor, para el sexo femenino.

Confirmado el test de Levene, F (1, 71) = 0.443, p = 0.508, la prueba ANOVA arrojó una diferencia

significativa para la variable de género, F (1, 71) = 8.045, p = 0.006, R2= 0.089; el poder observado

de la prueba es de 0.799 (Tabla 64).

ANOVA Delta 1 x aula- Delta 1 x sexo N = 73

Variable Estadístico F df valor p comentarios

Aula 0.302 (1, 71) 0.584 No significativa

Sexo 8.045 (1, 71) 0.006 Significativa

Tabla 64. Test de ANOVA entre Delta1 x aula y Delta1 x sexo en la prueba 1

El valor de R2 al final de estas pruebas, muestra que cerca del 9% de la variabilidad de la

medida Delta 1 se debe a las diferencias entre los puntajes de autoevaluación y del profesor; es

decir, la evidencia sugiere que hay un efecto significativo del género en las medidas, que estiman


211

la diferencia entre el puntaje del profesor y el puntaje de autoevaluación de los alumnos en la

prueba 1.

Las siguientes variables a considerar son: las variables continuas de AE, la frecuencia de

errores pre-edición, y la variable categórica, nivel de aprendizaje; se llevó a cabo la prueba de

ANCOVA con: la variable dependiente AE, la frecuencia de errores de pre-escritura (Fep1) y el

nivel de aprendizaje; esto se realizó para determinar si el puntaje de autoevaluación está

relacionado con la interacción entre el nivel de aprendizaje del estudiante y la Fep1 o simplemente

si ambas variables de forma simultánea, ejercen variaciones significativas en el puntaje de

autoevaluación.

Asimismo, asumiendo la igualdad de las varianzas con la prueba de Levene, F (1, 72) = 2.073,

p = 0.154, se observó que la interacción o dependencia entre el nivel de aprendizaje y Fep1, no es

significativa, F (1, 70) = 0.009, p = 0.925; se remueve entonces el factor de interacción y se calculan

los efectos principales de ambas variables en la autoevaluación. Se encuentra que la prueba de

Levene satisface la hipótesis nula sobre la igualdad de las varianzas, con F (1, 72) = 2.095, p = 0.152.

Cuando estas dos variables, tanto el nivel de aprendizaje y la Fep1 se consideran

simultáneamente, ésta última genera variaciones en los puntajes de AE en la primera prueba,

mostrando que F (1, 71) = 4.219, p = 0.044, R2 = 0.056; el poder observado de esta prueba fue de

0.498. Esto significa que en las aulas de nivel A2, el puntaje esperado de AE es de 90.410, mientras

que para las aulas nivel A1 es de -1.563 puntos ese valor (88.847), cuando la frecuencia de errores

se mantiene constante.


212

Se hicieron cálculos para determinar si la interacción y la simultaneidad de las variables:

grupo de evaluación (Ge1), por pares o el profesor, y la frecuencia de errores de pre-escritura

(Fep1), influyeron en la variabilidad del puntaje de AE de los estudiantes en la prueba 1,

encontrándose que la interacción entre estas variables no fue significativa, p = 0.491. Al considerar

a la vez, los grupos de evaluación y la Fep1 y asumiendo la igualdad de varianzas con F (1, 72) =

0.540, p = 0.465, se determinó que la influencia de la variable de grupos no fue significativa, p =

0.132; sin embargo, Fep1 mostró lo contrario con F (1, 71) = 4.833, p = 0.031, R2 = 0.064 y el poder

observado fue de 0.627.

El puntaje esperado de AE, según la evaluación del profesor, en los grupos B, fue de 88.649,

cuando la frecuencia de errores es cero; si los grupos son constantes, por cada 2.781 puntos más

en la Fep1, el valor esperado de AE disminuye en -0.203 puntos. Con la frecuencia de errores

constante, los puntajes por pares, van a tener un puntaje de AE esperado de 2.781 puntos más.

Del mismo modo se indagó sobre el puntaje del profesor en relación al nivel de aprendizaje

de los estudiantes y a la frecuencia de errores pre-reescritura (Fep1); con el test de Levene F (1, 74)

= 0.006, p = 0.940 se encontró que la interacción nivel y la Fep1 no fue significativa; sin embargo,

al considerarlas simultáneamente, con la prueba de Levene, F (1, 74) = 0.004, p = 0.951, se

determinó que los puntajes del profesor están relacionados significativamente a ambas variables.

En cuanto al nivel de aprendizaje de los estudiantes se obtuvo que F (1, 73) = 9.810, p = 0.002,

R2 = 0.118 y con la frecuencia de errores, F (1, 73) = 34.334, p < 0.001, R2 = 0.320; el nivel de


213

aprendizaje explica cerca del 12% de variación del puntaje del profesor y Fep1 un 32%. Analizando

los parámetros un estudiante de nivel A2 con una frecuencia de errores de cero, tendría un puntaje

holístico de 98.511; un estudiante de nivel A1 un puntaje de 4.518 unidades menor. Con el nivel

de aprendizaje constante por cada -0.411 puntos menos en la frecuencia de errores, el puntaje del

profesor esperado, será menos -4.518 puntos; por último, el poder de esta prueba fue de 1.000.

Se realizó el cálculo de la frecuencia de errores post-edición (Fept1), considerando: el grupo,

la retroalimentación 1, el reconocimiento de errores post-retroalimentación correctiva (Re1) y la

frecuencia de errores pre-edición (Fep1); se mostró que la interacción no fue significativa entre la

retroalimentación y la frecuencia de errores pre-edición, F (3, 65) = 0.236, p = 0.871. Se removió la

interacción del modelo, y se observó que ni la retroalimentación, p = 0.269, ni los grupos de

evaluación, p = 0.268, surten efectos en el valor de la frecuencia de errores post-edición. Solamente

el Re1 y la Fep1, tienen una injerencia significativa en los resultados de la Fept1. Con el test de

Levene, F (1, 73) = 0.024, p = 0.876, Re1 con F (1, 72) = 4.223, p = 0.044, R2 = 0.055 y la frecuencia

de errores pre-edición, F (1, 72) = 145.208, p < 0.001, R2 = 0.669 tienen efecto en la frecuencia de

errores post-corrección; el poder observado de la prueba fue de 1.000.

El análisis de los parámetros expone: que el cambio en la media de la frecuencia de errores

post-edición es de 0.397 puntos más que la frecuencia de errores pre-escritura; para quienes no los

reconocieron la frecuencia de errores fue de 0.795 puntos más que el valor de errores de pre-

escritura.


214

Las variables y sus efectos en la prueba 1, se resumen en la Tabla 65; se observan: la

autoevaluación (AE), la evaluación del profesor (EP) y la frecuencia de errores post-edición

(Fept1), como variables dependientes; y como independientes, la frecuencia de errores pre-edición

(Fep1), los grupos de evaluación (Ge1) y el reconocimiento de los errores post-retroalimentación

(Re1).

Variables y su influencia en los resultados de la prueba 1

Variables AE EP Fept1

Fep1 + Aula Fep1 6% 32% y 12%

Fep1 + Ge1 Fep1 6%

Fep1 + Ge1 + RC1 + Re1 Fep1 67% y Re1 6%

Tabla 65. Relación de las variables y su influencia en la prueba 1

4.4.2. Prueba 2

En el caso de la prueba 2, se efectuó el mismo procedimiento para el manejo de los datos

calculados y variables. En la Figura 37 se observa la relación del valor calculado de Delta 2 con el

aula y el género, con N = 69.


215

Figura 37. Diagrama de cajas relacionando Delta2 x aula y Delta2 x sexo en la prueba 2

En cuanto al aula, la prueba de Levene revela igualdad de las varianzas, con F (1, 67)= 2.837,

p = 0.364, el valor del ANOVA de Delta 2 corresponde a F (1, 67) = 0.705, p = 0.404, R2= 0.004. De

acuerdo a estos resultados, la relación de Delta 2 y aula no es significativa. En cuanto al género, se

encontró que se mantiene la hipótesis nula con F (1, 67) = 0.692, p = 0.409. El dato ANOVA

corresponde a F (1, 67) = 6.762, p = 0.011, R2 = 0.092. El poder de esta prueba es de 0.727. Existe

evidencia que la variabilidad en el valor de Delta 2 está sujeta al género por lo menos en un 9%;

por tanto. el valor promedio de Delta 2 en el género masculino es de -2.794 puntos, y el valor Delta

2 promedio en el sexo femenino es de 4.794 puntos más (Tabla 66).




Sexo 6.762 (1,67) 0.011 Significativa


Como ya hay un antecedente de una prueba anterior, se realizó el análisis de los datos de

AE en la prueba 2 con los puntajes de los grupos en la prueba 1 (Ge1). Se observa que la


216

distribución de los grupos de evaluación no influyeron en la AE holística en la prueba 2. El test de

Levene muestra que F (1, 73) = 2.794, p = 0.099, y el ANOVA de los grupos de evaluación con F

(1, 73) = 2.863, p = 0.095, R2 = 0.025. El poder de la prueba es de 0.386. Sin embargo, cuando se

analiza la interacción entre las variables como Ge1 y el nivel de aprendizaje en la autoevaluación

en la prueba 2, se encuentra que sí es significativa. La homogeneidad de las varianzas se confirma

con la prueba de Levene, F (3, 71) = 1.349, p = 0.266. La interacción muestra un valor F (1, 71) =

7.328, p = 0.008, R2 = 0,094; el poder de la prueba fue de 0.887.

Con la interacción entre los puntajes holísticos dados por los grupos de evaluación en la

prueba 1 (Ge1) y el reconocimiento de los errores post-evaluación en la prueba 1 (Re1), el test de

Levene, F (3, 71) = 1.408, p = 0.248, y la interacción con p = 0.241, no fue significativa. Cuando se

consideran ambas variables a la vez, la distribución de los grupos de evaluación no muestran

indicios de tener injerencia en la variabilidad de los puntajes de AE en la prueba 2, p = 0.051. Sin

embargo, los datos del test de Levene con F (3, 71) = 1.223, p = 0.308, el test de MANOVA muestra

para el reconocimiento de los errores en la prueba 1, que F (1, 72) = 4.842, p = 0.031, R2 = 0.063, es

significativo. El poder de la prueba es de 0.69. La AE holística esperada de los estudiantes en el

grupo B, reconociendo errores, es de 87.455, y con la evaluación de los estudiantes del grupo A, el

valor esperado de AE será -4.104 puntos menos ese valor.

Luego se consideraron los grupos de evaluación de la prueba 1 (Ge1), con la frecuencia de

errores post-edición en la prueba 1 (Fept1). La interacción o dependencia entre estas variables no

fue significativa, p = 0.894. La injerencia de la frecuencia de errores post-edición en la prueba 1,

en presencia de la variable, grupos de evaluación 1, si fue significativa. El test de Levene muestra


217

homogeneidad de varianzas entre estas variables. Para la Fept1, F (1, 71) = 5.495, p = 0.022, R2 =

0.072. El poder de esta prueba es de 0.731. El valor de la AE por evaluación del profesor sería

aproximadamente de 93.194, y por los pares, de -2.800 puntos menos ese valor.

Se analizaron los factores de nivel de aprendizaje y la frecuencia de errores pre-edición en

la prueba 2 (Fep2), como variables que influyen en el resultado holístico de AE en la prueba 2. El

test de Levene muestra que no hay homogeneidad de varianzas entre estas variables, F (1, 73) =

5.717, p = 0.019. Por lo tanto se realiza la prueba de Kruskal Wallis, para determinar las diferencias

de distribución entre las variables de frecuencia de errores pre-escritura y la AE holística y se

encontró que la distribución por frecuencias de error pre-edición en la prueba 2, entre los dos

niveles de aprendizaje, no fue diferente de forma significativa, p = 0.465; sin embargo, para la

variable de AE, si fue todo lo contrario, p = 0.046.

En cuanto a la variación del puntaje del profesor con respecto al aula y a la frecuencia de

errores pre-edición (Fep2), la interacción entre estas dos variables no es significativa, p = 0.862,

pero aun cuando la interacción entre estas variables no influya en la variabilidad del puntaje del

profesor, la frecuencia de errores de pre-edición, tenida en cuenta a la vez con el nivel de

aprendizaje, muestra lo contrario. Test de Levene, F (1, 74) = 0.594, p = 0.443, el valor obtenido por

regresión, es de F (1, 73) = 36.768, p < 0.001, R2 = 0.335. El poder de la prueba es de 1.000. El puntaje

del profesor para el aula 2, esperado es de 96.413, con una frecuencia de errores de cero, y del aula

A1, disminuye -0.941 puntos.


218

En cuanto a la frecuencia de errores post-edición (Fept2), en relación a los grupos de

evaluación, la retroalimentación recibida en esta prueba, el reconocimiento de errores (Re2) y la

frecuencia de errores pre-edición (Fep2), se observó si la interacción entre las variables,

retroalimentación y Fep2, influye en el resultado de la frecuencia de errores post-edición (Fept2)

y se encontró que no es significativa, p = 0.519. Sin embargo, al realizar un modelo de regresión,

con el test de Levene, F (6, 69) = 1.199, p = 0.317, se determinó que tienen influencia importante en

la frecuencia de errores post-escritura, la frecuencia de errores pre-reescritura, con F (1, 70) =

281.341, p < 0.001, R2 = 0.801; la retroalimentación F (3, 70) = 3.289, p = 0.026, R2 = 0.124; y los

grupos, F (1, 70) = 5.355, p = 0.024, R2 = 0.071. El poder observado de esta prueba es de 1.000.

Cuando se observan los efectos de la retroalimentación de forma discriminada, solo la

retroalimentación directa (p = 0.008) es significativa, con R2 = 0.097. El análisis de los parámetros

mostraron que el cambio promedio de las pruebas evaluadas por el profesor, tuvieron una

frecuencia de errores media post-escritura de -2.452. El puntaje promedio de los estudiantes

evaluados por pares, fue de 0.922 puntos más. La retroalimentación directa fue la principal

influyente en la frecuencia de errores post-evaluación.

Las variables y sus efectos en la prueba 2, se resumen en la Tabla 67. Se observan, la

autoevaluación (AE), la evaluación del profesor (EP) y la frecuencia de errores post-edición

(Fept2), como variables dependientes; y como independientes, el género (G), aula (A), las variables

de la primera prueba, como los grupos de evaluación (Ge1), el reconocimiento de los errores post-

retroalimentación (Re1); y las variables en esta segunda fase, como la frecuencia de errores pre-


219

edición (Fep2), los grupos de evaluación (Ge2), la retroalimentación (RC2) y la frecuencia de

errores pre-edición (Fep2).



Ge1 No

Ge1 + Aula GE y A 9%

Ge1 + Re1 Re1 6%

Ge1 + Fept1 Fept 7%

Fep2 + Aula Fep2 Sí Fep2 34%

Ge2 + RC2 + Re2 + Fep2 Ge2 7% RC 12% RC directa 10% Fep2 80%


4.4.3. Prueba 3

Para la prueba 3, analizamos los diagramas de cajas y encontramos que se observan bastante

simétricas, N = 76. Figura 38.


220

Figura 38. Diagrama de cajas relacionando Delta3 x aula y Delta3 x sexo en la prueba 3

Para realizar el ANOVA, se calcula el test de Levene, F (1, 74) = 0.034, p = 0.855. El resultado

del aula, F (1, 74) = 0.099, p = 0.754, R2= 0.012, no muestra evidencia que la diferencia aritmética

entre los puntajes de autoevaluación y del profesor, sea debida al nivel de aprendizaje de los

estudiantes en la prueba 3. Con respecto al género, y con el test sobre igualdad de varianzas de

Levene en F (1, 74) = 0.283, p = 0.596. La prueba de ANOVA, F (1, 74) = 2.914, p = 0.092, R2= 0.038.

La media fue de 1.769 para el género femenino, y de -1.622, para el género masculino. Estas

diferencias no fueron significativas; por lo tanto tampoco se encontró evidencia que el género haya

tenido influencia en los valores Delta 3 de los estudiantes en la tercera fase (Tabla 68).




Sexo 2.914 (1, 74) 0.092 No significativa


Se realiza la prueba ANCOVA para determinar la influencia de las variables de nivel de

aprendizaje y grupos de evaluación en la prueba 2. Se encuentra que el Test de Levene muestra


221

una diferencia significativa entre las varianzas de ambos factores tenidos en cuenta, p = 0.042. Se

realiza entonces la prueba no paramétrica de Kruskal Wallis, para determinar su distribución con

respecto a la AE en la tercera prueba. En ninguno de los dos casos, resulta significativa. Aula, p =

0.836 y grupos de evaluación en la prueba 2, p = 0.431.

Cuando se consideran los grupos de evaluación en la prueba 2 y el reconocimiento de los

errores en la prueba 2, con Levene F (3, 64) = 1.043, p = 0.380, se encuentra que la interacción entre

estos factores no es significativa, p = 0.519. Tampoco la presencia de ambas variables parece influir

en el puntaje de AE en la prueba 3. Con Levene, F (3, 64) = 1.047, p = 0.378, se encuentra que ni el

grupo de evaluación 2, p = 0.410, ni el reconocimiento de los errores en la prueba 2, p = 0.285,

ejercen influencia en los puntajes holísticos de autoevaluación en los alumnos en la tercera prueba.

Se analiza también si la variabilidad en el puntaje AE en la prueba 3 se debió a la frecuencia

de errores post-reescritura en la prueba 2, relacionado con la variable grupos de evaluación 2

(Ge2). Confirmada la igualdad de las varianzas con Levene, F (1, 67) = 0.033, p = 0.856, el valor

ANOVA mostró dependencia entre estad dos variables, con F (1, 65) = 8.769, p = 0.004, R2 = 0.119,

por lo tanto, éstas variables actuaron como co-dependientes con la AE en la prueba 3. El valor de

AE total en los grupos B, sería de 85.057, y de los grupos A, de -0.393 puntos menos ese valor.

Cuando se analizan, el nivel de aprendizaje (aula) con la frecuencia de errores pre-edición

en la prueba 3, con el test de Levene, F (1, 67) = 1.844, p = 0.179, se observa que la interacción entre

estas variables sí es significativa, F (1, 65) = 4.575, p = 0.036, R2 = 0.066. El poder observado de esta

prueba fue de 0.782. El valor esperado de AE con la frecuencia de errores constante, es de 90.973


222

en el aula A2, y en el aula A1, 6.116 puntos más. El efecto es mayormente causado por la frecuencia

de errores pre-edición, p = 0.007, R2 = 0.105. Sin la interacción con la frecuencia de errores pre-

edición, la influencia del nivel de aprendizaje, no es significativa, p > 0.05. La frecuencia de errores

pre-edición, por sí sola, sigue siendo significativa, p = 0.017, R2 = 0.083. El puntaje holístico medio

de AE de los estudiantes del nivel 2 esperado es de 93.928. Para un alumno de aula nivel 1, es de

-0.004 puntos ese valor y la frecuencia de errores disminuye -0.163 puntos.

Se calculó también la variabilidad del puntaje holístico del profesor debido al nivel de

aprendizaje y a la frecuencia de errores pre-edición 3. En primer lugar, se encontró que la

interacción entre estas variables no fue significativa, p = 0.757, con la homogeneidad de varianzas

en F (1, 74) = 0.615, p = 0.435. Sin tener en cuenta la interacción, se encuentra que con el test de

Levene en F (1, 74) = 0.540, p = 0.465, el nivel de aprendizaje no fue significativo, p = 0.059, pero

la frecuencia de errores pre-edición, sí lo fue: F (1, 73) = 48.176, p < 0.001, R2 = 0.398. El poder

observado de la prueba fue de 1.000. Los estudiantes en el aula 2, obtienen un puntaje esperado

de 99.96 por parte del profesor, en la prueba 3. El puntaje de los alumnos en el nivel A1, obtienen

ese mismo valor con -2.598 puntos.

Para determinar las variables influyentes en la variabilidad de la frecuencia de errores post-

edición en la prueba 3, se compararon las variables de grupo de evaluación 3, retroalimentación

3, reconocimiento de errores en esta prueba y la frecuencia de errores pre-edición en esta fase. Con

el test de Levene con F (7, 68) = 0.626, p = 0.732, se encontró que la interacción entre la

retroalimentación 3 y la frecuencia de errores pre-edición, no fue significativa, p = 0.729. Las

variables que sí resultaron estadísticamente significativas fueron, la retroalimentación, p = 0.010,


223

R2 = 0.148 y la frecuencia de errores pre-edición, p < 0.001, R2 = 0.695. El tipo de retroalimentación

significativa fue la indirecta, p = 0.003, R2 = 0.115. El valor medio de la frecuencia de errores post-

escritura es de -4.115, cuando la retroalimentación es mixta. Sin embargo, cuando la media de

retroalimentación indirecta es de 4.102, el valor de la frecuencia de errores aumenta 0.765 puntos.

Las variables y sus efectos en la prueba 3, se resumen en la Tabla 69. Se observan, la

autoevaluación (AE), la evaluación del profesor (EP) y la frecuencia de errores post-edición en

esta fase (Fept3), como variables dependientes; y como independientes, el género (G), aula (A), las

variables de la segunda prueba, como los grupos de evaluación (Ge2), el reconocimiento de los

errores post-retroalimentación (Re2) y la frecuencia de errores post-reescritura; y las variables en

esta tercera fase, como la frecuencia de errores pre-edición (Fep3), los grupos de evaluación (Ge3),

la retroalimentación (RC3) y la frecuencia de errores pre-edición (Fep3).



Ge2 + Re2 No

Fept2 + Ge2 12%

Fep3 8%

Fep3 + Aula 7% Fep3 40%

Ge3+ RC3 + Re3 + Fep3 RC 15%, RC indirecta 12% Fep3 70%


4.5. Comparación entre las variables continuas


224

En este apartado se realizaron comparaciones de correlación entre los puntajes dados por

los diferentes agentes de evaluación que intervinieron en el estudio: los estudiantes como

autoevaluadores, los pares de estudiantes y el profesor - investigador. Los cálculos se encuentran

consignados en el Anexo 17.

4.5.1. Prueba 1

Los datos agrupados en la Tabla 70, mostraron evidencia que en la prueba 1, los puntajes

por AE y EE, tuvieron una correlación positiva débil entre variables, x = 0.382, que es

estadísticamente significativa, p = 0.011, R2 = 0.041. Los puntajes de AE y del profesor –

investigador, muestran, por su parte, también una correlación muy débil, x = 0.248, significativa,

p = 0.016, R2 = 0.062.

No obstante, entre los puntajes holísticos de los pares, con los puntajes del investigador, se

observó una correlación positiva media, x = 0.494, que es significativa, p = 0.001, R2 = 0.244.

Prueba 1 AE total-EE total AE Total- EI total EE total- EI total

Pearson Correlation 0.382 0.248 0.494

Sig. (2-tailed) 0.022 0.033 0.002

Sig. (1-tailed) 0.011 0.016 0.001

N 36 74 37

Tabla 70. Correlación de los puntajes holísticos de los evaluadores en la prueba 1

4.5.2. Prueba 2


225

Los resultados estadísticos en la prueba 2, mostraron que no hubo correlación significativa

entre los puntajes AE y EE. Sin embargo, sí se evidenció una correlación positiva baja, x = 0.29, de

los puntajes holísticos de los autoevaluadores, con los puntajes del profesor – investigador, p =

0.006, R2 = 0.082; mientras que, entre EE total y EI total, se halló nuevamente que existe una

correlación positiva media, x = 0.42, p = 0.002, R2 = 0.172 entre ambas variables. Los valores

correlación con Pearson y su significancia se observan en la Tabla 71.

Prueba 2 AE total-EE total AE Total - EI total EE total - EI total

Pearson Correlation 0.149 0.286 0.415

Sig. (2-tailed) 0.335 0.013 0.005

Sig. (1-tailed) 0.167 0.006 0.002

N 44 75 45

Tabla 71. Correlación de los puntajes holísticos de los evaluadores en la prueba 2

4.5.3. Prueba 3

Continuamos con las comparaciones entre los puntajes totales de AE, pero en este caso se

hará solo con los puntajes del profesor. Cabe recordar que en la prueba 3, todas las composiciones

fueron revisadas por el profesor. El resultado de la prueba de correlación muestra que hay una

baja correlación linear positiva significativa, x = 0.30, p = 006, R2 = 0.090, entre los puntajes de AE

y EP en la prueba 3 (Tabla 72).


226

Prueba 3 AE Total- EP total

Pearson Correlation 0.299

Sig. (2-tailed) 0.012

Sig. (1-tailed) 0.006

N 69

Tabla 72. Correlación entre los puntajes de AE y EP en la prueba 3

4.6. Cambios en el tiempo

Para la valoración del cambio en el tiempo, se utiliza el modelo de medidas repetidas. La

base de datos y los cálculos correspondientes, se pueden observar en el Anexo 18. A fin de validar

la aplicación de este modelo fue necesario crear la base de datos, agrupando por alumno, las

medidas tomadas en las tres fases del estudio. También se debió agregar una variable llamada

Pruebas, para hacer referencia a cada tiempo de evaluación, designada como 1, 2, 3, por cada fase.

De esta forma se facilitó determinar incrementos o cambios en el tiempo.

Primero se calculó si el puntaje holístico de las pruebas sufrió incremento o disminución

considerable en el tiempo. El diagrama de cajas entre el puntaje total y el tipo de prueba, muestra

que existen 4 casos extremos, que son casos que han sobresalido en otras pruebas, como los

estudiantes 213, 605, 608 y 512. En la Figura 39 se muestra la comparación entre los diagramas

con los casos extremos y sin ellos.


227

Figura 39. Diagrama de cajas entre el puntaje total y el número de la prueba

La prueba de ecuaciones de estimación generalizada (GEE), que es uno de los tests que

permiten calcular los cambios en el transcurso del tiempo con medidas repetidas, no mostró que

suficiente evidencia para permitir concluir que el puntaje total promedio, haya estado en función

con el tipo de prueba realizada, x2 = 0.317, p = 0.500.

Estos resultados se hicieron considerando los casos extremos dentro del modelo. Sin

embargo, se consideró necesario estimar el cambio producido al suprimirlos. Se realizó la

aplicación del modelo nuevamente y se encontró que la variable de tiempo si fue significativa en

la variación del puntaje promedio total de las pruebas. El resultado del modelo, x2 = (1) = 6.261 =

0.012, mostró que el puntaje promedio de la prueba fue de 85.838, asociado a un incremento de

0.866 puntos en cada prueba.


228

El siguiente análisis se realizó sobre los errores de pre-edición, y su comportamiento en las

tres fases del estudio. El gráfico de cajas no mostró evidencia notoria de cambio en el error de pre-

edición con el tiempo. (Figura 40)

Figura 40. Diagrama de cajas entre las pruebas y los errores de pre-edición

El cálculo estadístico con la prueba de GEE confirmó que x2 (1) = 0.253, p = 0.615, por lo

tanto, la disminución en el error promedio de -0.324 puntos con cada prueba subsecuente, no fue

estadísticamente significativa. Se analizaron luego los errores de post-edición, comenzando con la

gráfica de cajas. (Figura 41)


229

Figura 41. Gráficos de cajas comparando los errores post-edición y las pruebas, con y sin casos asimétricos

El resultado de la prueba GEE muestra que X2 (1) = 12.316, p < 0.001, lo cual significa que

existe evidencia que hay un cambio significativo en los errores de post-edición en las tres pruebas.

El error promedio de post-edición en la prueba 1 fue de 23.884, y en las pruebas sucesivas tuvo

una variación de -2.356 puntos. Suprimiendo los casos extremos, a fin de observar el

comportamiento del modelo, se encuentra que la variación sigue siendo significativa: x2 (1) =

10.133, p = 0.001. El promedio de errores de post-edición en la prueba 1 fue de 22.509, y en las

pruebas sucesivas, éste tuvo una variación de -2.071.

4.7. Resultados del Cuestionario 3

Para el manejo de los resultados de cada pregunta del cuestionario, se utilizaron las

frecuencias de respuesta, por aula. Las respuestas esperadas fueron: acuerdo (1), si los estudiantes

escribieron Sí, desacuerdo (2), si escribieron no, y otro tipo de respuesta (3). Los análisis se basaron

en los porcentajes, por aula, y en las comparaciones entre las aulas, a través del test Chi cuadrado

(Anexo 19). Se finalizó este apartado con una descripción acerca de los comentarios de los


230

revisores, para luego presentar las respuestas de los estudiantes, con ejemplos específicos. Las

respuestas al cuestionario en las tres fases del estudio, están en los anexos correspondientes a las

composiciones.

4.7.1. Prueba 1

Las respuestas del cuestionario en la primera prueba, se agrupan en la Tabla 73. Las

respuestas en el aula A1, mostraron que hubo un mayor número de respuestas positivas que

negativas. Los porcentajes de acuerdo se mostraron por encima del 55%. Sin embargo, el

porcentaje de repuestas, en referencia a la pregunta 3, sobre la concienciación de errores, fue más

alto, 76.5%. Las respuestas en el aula A2, presentaron el mismo patrón de respuesta, aunque los

porcentajes de acuerdo, en las preguntas 1, 2 y 3, estuvieron por arriba del 78%. En la pregunta 4,

sin embargo, el porcentaje fue más bajo, 64.3%. En el aula A2, un estudiante no respondió la

pregunta 4, por ello, el porcentaje total no llegó al 100%.

Aula A1 N = 34 A2 N = 42

Respuesta P.1 P.2 P.3 P.4 P.1 P.2 P.3 P.4

Acuerdo 58.8 55.9 76.5 52.9 78.6 81.0 88.1 64.3

Desacuerdo 23.5 38.2 17.6 44.1 11.9 19.0 9.5 31.0

Comentario 17.6 5.9 2.9 2.9 9.5 ----- 2.4 2.4

Total 100.0 100.0 100.0 100.0 100.0 100.0 100.0 97.6

Media 1.59 1.50 1.24 1.50 1.31 1.19 1.14 1.37

D.E 0.783 0.615 0.502 0.564 0.643 0.397 0.417 0.536

Tabla 73. Respuestas al Cuestionario 3 en la prueba 1, aulas A1 y A2


231

Los resultados de la prueba Chi cuadrado fueron: primera pregunta, p = 0.176; segunda

pregunta, p = 0.036; tercera pregunta, p = 0.533; cuarta pregunta, p = 0.522. Estos resultados

mostraron que las respuestas de acuerdo o desacuerdo, en la pregunta 2, para las dos aulas,

tuvieron diferencias importantes.

4.7.2. Prueba 2

Las respuestas del cuestionario en la segunda prueba, se muestran Tabla 74. Se encontró que

en el aula A1, el porcentaje de acuerdo para las preguntas fue más alto, comparado con el

porcentaje de quienes escribieron estar en desacuerdo. Sin embargo, para la pregunta 4, el

porcentaje fue el mismo. En el aula A2, se observó el mismo patrón de respuestas para las tres

primeras preguntas, aunque las diferencias entre los porcentajes de acuerdo y desacuerdo no son

tan grandes en este caso. En la pregunta 4, sin embargo, el puntaje para el desacuerdo fue un poco

más alto. En el aula A2, los puntajes no alcanzan el 100%, ya que en las tres primeras preguntas,

faltó una respuesta, y en la cuarta pregunta, faltaron dos respuestas.

Aula A1 N = 34 A2 N = 41


Acuerdo 76.5 70.6 67.6 50.0 57.1 54.8 69.0 42.9

Desacuerdo 17.6 26.5 20.6 50.0 35.7 40.5 23.8 47.6

Comentario 5.9 2.9 11.8 ----- 4.8 2.4 4.8 4.8

Total 100.0 100.0 100.0 100.0 97.6 97.6 97.6 95.2

Media 1.29 1.32 1.44 1.50 1.46 1.46 1.34 1.60

D.E 0.579 0.535 0.705 0.508 0.596 0.552 0.575 0.591



232

Los resultados de la prueba Chi cuadrado, según cada pregunta, fueron: p.1, p = 0.191; p.2,

p = 0.397; p.3, p = 0.536; p.4, p = 0.407. Estos resultados mostraron que las respuestas de acuerdo

o desacuerdo, en las dos aulas, no tuvieron diferencias importantes.

4.7.3. Prueba 3

Las respuestas del cuestionario en la tercera prueba, se agrupan en la Tabla 75. Se encontró

que en el aula A1, el porcentaje de acuerdo para las preguntas fue más alto, comparado con el

porcentaje de quienes escribieron estar en desacuerdo. Los porcentajes de acuerdo están por

encima del 85% en las tres primeras preguntas, y en 65% aproximadamente, en la pregunta 4. En

el aula A2, se observaron unos porcentajes de acuerdo, por arriba del 88% en todas las preguntas

del cuestionario. El porcentaje de la cuarta pregunta no llegó al 100%, ya que un estudiante no la

contestó.

Aula A1 N = 34 A2 N = 42


Acuerdo 91.2 85.3 94.1 64.7 100.0 95.2 95.2 88.1

Desacuerdo 5.9 11.8 2.9 29.4 ----- 2.4 4.8 9.5

Comentario 2.9 2.9 2.9 5.9 ----- 2.4 ----- -----

Total 100.0 100.0 100.0 100.0 100.0 100.0 100.0 97.6

Media 1.12 1.18 1.09 1.41 1.00 1.07 1.10 1.10

D.E 0.409 0.459 0.379 0.609 0.000 0.342 0.431 0.300



233

Los resultados de la prueba Chi cuadrado fueron: primera pregunta, p = 0.145; segunda

pregunta, p = 0.254; tercera pregunta, p = 0.498; cuarta pregunta, p = 0.020. Estos resultados

mostraron que las respuestas de acuerdo o desacuerdo, en las dos aulas, solo tuvieron diferencias

importantes en la respuesta 4.

4.7.4. Reconocimiento de los errores

En este numeral, se intentó determinar si los estudiantes expresaron en el papel, haber

reconocido los errores en sus composiciones (Re) y cómo fueron estas respuestas en los dos niveles

de aprendizaje. En la Tabla 76, se muestran los valores calculados, y el resultado del Chi cuadrado

entre las dos aulas, para cada prueba.

Aula A1 N = 34 A2 N = 42

Re 1 Re 2 Re 3 Re 1 Re 2 Re 3

No 20.6 32.4 5.9 9.5 28.6 4.8

Sí 79.4 67.6 91.2 90.5 69.0 95.2

% 100.0 100.0 97.1 100.0 97.6 100.0

M 0.79 0.68 0.94 0.90 0.71 0.95

D.E 0.410 0.475 0.242 0.297 0.461 0.216

Tabla 76. Reconocimiento de errores registrados en las respuestas del Cuestionario 3

Los resultados del test Chi cuadrado mostraron que las diferencias en el reconocimiento de

los errores en las tres pruebas, comparando las dos aulas, no fueron significativas: Re 1 (p = 0.173),

Re 2 (p = 0.773) y Re 3 (0.804). Con la prueba t-Student, se encontró que hubo cambios

significativos en el reconocimiento de errores con el tiempo en las dos aulas, desde la segunda a


234

la tercera retroalimentación, (A1, p = 0.02; A2, p = 0.03); también hubo diferencias significativas

entre la primera y tercera retroalimentación (p = 0.032), en las aulas A1; y la primera y segunda (p

= 0.05), en las aulas A2.

Los tipos de errores sobre los cuales los estudiantes hicieron comentarios en el Cuestionario

3, se agruparon, por categorías: género (G), mayúsculas (Ma), ortografía (O), traducción (T),

gramática (g), conjugación (C), repetición (r), organización (o), contenido (Co), puntuación (Pu),

artículos (A), posesivos (p), selección de palabra (sp), sintaxis (S) y número (N). Los comentarios

de los estudiantes que no especificaron el tipo de error, se tabularon como inespecíficos (I)

(Tabla 77).

G Ma O T g C r o Co Pu A P sp S N I

% 31.6 15.8 34.2 1.3 11.8 51.3 3.9 2.6 18.4 14.5 6.6 1.3 11.8 15.8 11.8 9.2

M 0.32 0.16 0.34 0.01 0.12 0.51 0.04 0.03 0.18 0.14 0.07 0.01 0.12 0.16 0.12 0.09

Tabla 77. Errores mencionados en las respuestas del Cuestionario 3, en las dos aulas

En estos resultados, se observó que los estudiantes escribieron acerca de los errores de

conjugación con mayor frecuencia (51.3%), que el resto de las categorías presentadas. Les

siguieron los comentarios sobre los errores ortográficos (34.2%) y de género (31.6%). Se hizo

mención también de errores de contenido, sintácticos, mayúsculas y puntuación, entre otros.

Sobre los comentarios de los pares revisores, principalmente, se encontraron observaciones

con un tono positivo, como por ejemplo: «excelente» (102), «bueno» (102), «muy bueno» (102),

«maravilloso» (122), «buen intento» (117), «hazlo mejor a la próxima» (124), «buen trabajo» (306,


235

503, 513), «genial» (420), «bien» (423, 522), «agradable, muy curiosa la historia, ¿tienes fluidez?,

error 404: no encontrado» (616), «Yujuu» (617), «eres demasiado bueno para el español» (623).

Asimismo, los evaluadores utilizaron un dibujo de una carita feliz, que simboliza aprobación. Sin

embargo, se observaron en pocas composiciones revisadas por los pares (124, 203, 306, 610, 619),

en comparación con las redacciones revisadas por el profesor (102, 115, 116, 202, 203, 209, 210, 223,

224, 226, 406, 409, 411, 503, 504, 509, 510, 513, 615, 630).

Por otro lado, se registraron también comentarios con un tono poco agradable, como: «eres

un tonto” en 115, «aburridor» (117), «fue absolutamente horrible. Me hiciste perder mi tiempo.

¡Mejora tu destreza!» (221), «bueno pero no de maravilla» (520), «apesta» (620). Se encontró una

mezcla de comentarios de diferente matiz para cada categoría, en la composición del estudiante

(619): contenido (buen trabajo), vocabulario (decente), ortografía (lo siento, apesta), gramática (no

estuvo mal, pudo usar de mejor manera las oraciones), puntuación (¡hurra!) y en el puntaje total

(hurra, buen trabajo). Otro comentario descortés se observó en la prueba 2 del estudiante (605):

«¿estás bromeando? Sip, eres autista».

En relación a la pregunta 1, ¿está de acuerdo con las correcciones sugeridas por el revisor?,

se encontraron respuestas positivas que mostraron que los escritores sí estuvieron de acuerdo con

las correcciones sugeridas. Hubo un caso aislado en el que el estudiante (605) se enfocó en

responder a la descortesía del revisor: «no [estoy de acuerdo] porque me tiene sin cuidado este

chico que llama autista a quien no lo es. No sabe quién soy yo. Este chico jamás sabrá español en

dos años». Dentro de las respuestas positivas, se encontraron como ejemplo: «entiendo que sí caí

en falta en algunas cosas y merezco el puntaje recibido» (111), «Las correcciones tienen sentido»


236

(117), «yo corregí todo antes de entregar mi papel» (202), «porque así es como tú vas a saber, en

cuáles correcciones necesitas enfocarte y ver cómo obviamente tú las diriges a no cometer otro

error» (210), «las correcciones de los revisores tienen sentido ahora que lo miro» (306), «me doy

cuenta que la categoría en la que necesito ayuda es género» (306), «señalaron mis errores, en donde

debía ser plural en vez de singular. También calificaron mi papel de manera justa» (504), «necesito

arreglar el pronombre, correspondencia en adjetivos y necesito arreglar las conjugaciones de los

verbos» (509), «probablemente no fue relevante; yo solo escribí cosas al azar» (512), «estaba

teniendo problemas con el verbo gustar y un poco [con] la ortografía y algo de imperfecto» (628).

Para la pregunta 2, ¿está de acuerdo con la puntuación recibida?, se observó que mientras

unos estudiantes aceptaron sin inconvenientes las calificaciones recibidas, otros estuvieron

parcialmente de acuerdo o totalmente en desacuerdo. También unos pocos estudiantes tomaron

determinada posición o actitud cuya finalidad, se cree, fue moderar el impacto de sus errores,

sobre sí mismos. Cuando los puntajes de los revisores fueron similares o mejores a las

puntuaciones de autoevaluación, la respuesta a la corrección fue en general positiva.

En las aulas A1 se encontraron ejemplos como: «los errores que cometí no fueron tan malos,

[los revisores] me dieron un 95 [el puntaje] fue cercano a mi nota cuando yo me califiqué» (102),

«no es un grado horrible» (111), «fue alto» (115), «es mejor que lo que yo me di a mí misma» (213),

«soy un duro» (224), «puntuaron mi papel más alto de lo que yo, entonces, por supuesto, estoy

de acuerdo» (227), «creo que lo hice mejor en esta composicion que en las otras; este puntaje fue

también similar al que yo me di a mí misma» (321), «me di un puntaje menor» (325).


237

En las aulas A2 se encontraron ejemplos como: «siento que lo hice bien, tal vez no tan bien,

pero siento que es un puntaje preciso porque utilicé un vocabulario bueno y elaborado» (409),

«aunque es muy alto, pienso que todo en mi párrafo estaba dicho [en forma] clara» (409), «es casi

lo que yo me di a mí mismo» (410), «me dieron un puntaje mejor al que me di a mí misma» (423),

«me dieron [puntaje] más alto que lo que me di a mí misma entonces creo que me califiqué muy

duro» (501), «trabaje duro para asegurarme de no embarrarla» (504), «fue la mejor redacción»

(513), «fue muy cercano al puntaje que me di a mí misma» (521), «no tuve un solo error en esta

[composición]…nadie puede discutir con un 100» (616), «fueron realistas» (619), «soy buena para

la ortografía y la gramática» (628).

Algunos estudiantes puntualizaron que las calificaciones fueron justas: «es una calificación

muy buena. Me siento guay con ella» (117), «calificaron mi trabajo de manera justa» (220), «los

errores que cometí reflejaron la puntuación que me dieron» (323), «parece razonable» (402), «es

un puntaje razonable para mis destrezas» (404), «me calificaron honestamente» (426), «es muy

justo» (510), «creo que un 75 es más que una buena oferta» (605), «fue justo que yo obtuviese ese

puntaje» (616), «el puntaje se correlaciona con lo que hice» (630).

Otros estudiantes escribieron estar de acuerdo, porque quien revisó fue el profesor: «porque

usted es la profesora» (116), «[el revisor] es la profesora; ella obviamente sabe lo que hace” (203),

«porque la Sra. W lo revisó» (301), «buena evaluadora» (520), «porque la revisora tiene fluidez

[en español]» (522), «sí estoy de acuerdo porque la Sra. W sabe español» (608), «ella siguió el

baremo y la calificó de forma justa» (620), «fue evaluado de forma justa» (629). Con respecto al


238

estudiante (520), se observó que no aceptó y debatió todas las correcciones de los revisores en las

pruebas 1 y 2, pero sí acepto las del profesor.

En otros casos, los alumnos estuvieron parcialmente de acuerdo con las correcciones o con

el puntaje. Se observó que las respuestas con la palabra seguro, estaba seguida de un comentario

que mostraba desacuerdo: «seguro; sí y no» (126), «solo estoy de acuerdo acerca de al lado y la

corrección de ventana. No estoy de acuerdo con las correcciones que hicieron de los apóstrofes.

Creo que yo tenía esa parte bien hecha» (206), «seguro; creo que lo hice mal pero no como para

un 65. Solo quisieron darme una mala nota» (221), «estoy de acuerdo con las correcciones, excepto

la de ella y ellos están bien, no mal» (415), «sé que mi escritura en español no es la mejor, por eso

ellos probablemente estarán en lo correcto si tienen más experiencia con el español que yo. Pero

tengo que decir que no todas las correcciones son correctas o adecuadas» (423), «no [estoy de

acuerdo] creo que me calificaron suave porque sé que cometí errores; sí estoy de acuerdo porque

pasé» (523). Otros alumnos, por el contrario, señalaron que la nota recibida no fue la apropiada:

«no estoy de acuerdo con este 100 porque pudo haber sido mejor» (220), «yo creo que [el puntaje]

pudo haber sido más bajo» (222), «no estoy de acuerdo en que mi puntaje deba ser tan alto porque

mi contenido no fue bueno» (302), «no creo que lo hice tan bien» (308), «dijeron que usé mal el

género pero no le quitaron puntos» (503), «no [estoy de acuerdo] porque debe ser más baja [la

puntuación] para las conjugaciones y acentos ortográficos», «no debió ser un puntaje tan bajo»

(722).

Algunos consideraron que su trabajo merecía una mejor puntuación: «hice mejor que lo que

ellos dicen» (122), «creo que debí recibir un 75» (124), «me dieron una mala nota porque no pueden


239

leer. Cometí unos errores de puntuación, pero debí recibir por lo menos un 80» (125), «ellos la

embarraron» (116), «calificaron muy duro; dijeron que muchas cosas estaban mal, pero la Sra. W,

me dijo que escribiera eso. Ellos no saben su español…» (221), «me dijeron que mi ortografía

estaba mal, cuando ellos mismos no sabían deletrear» (227), «mis verbos estaban todos correctos»

(415), «no me desempeñé tan mal como para obtener un 81» (510), «claro que no; en mis

comentarios dijeron que cometí pocos errores pero me dieron un puntaje bajo» (512).

Otros mostraron desacuerdo porque no recibieron una retroalimentación más específica,

adecuada o directa: «Ellos en realidad no lo puntuaron. Solo encerraron cosas en círculos y lo

calificaron al azar» (125), «no habían en realidad ningunas correcciones» (122), «mi revisor no hizo

correcciones y siento que mi composicion pudo haber recibido alguna edición o sugerencias»

(220), «no explicaron el por qué quitaron puntos en la calificación» (223). En las aulas A2 se vieron

comentarios como: «ni siquiera explicaron sus correcciones [entre comillas]», «él [el revisor]

encerró cosas al azar que ni siquiera importan» (401), «de hecho yo señalé más errores que ellos»

(420), «ni siquiera dieron ejemplos específicos; todo lo que dijeron fue [que] podría ser mejor»

(420), «no corrigieron pero señalaron cosas pequeñas que todavía no entiendo muy bien» (423),

«no encerraron nada en mi papel» (428), «no, porque no me dijeron en realidad lo que hice mal»

(508), «ellos estaban equivocados» (513), «no me dieron ninguna sugerencia o correcciones» (523),

«no [estoy de acuerdo] porque él [revisor] es un idiota» (605), «no anotaron nada» (614), «no

entiendo el problema con las palabras encerradas en un círculo» (A615), «no escribieron ningunas

revisiones y usé suficiente vocabulario» (617), «no creo que cometí errores» (629).


240

Con respecto a la pregunta 3, ¿está consciente de algunos errores que pasó por alto antes de

la revisión?, las respuestas se enfocaron en la reflexión sobre las fallas y también en el aprendizaje

futuro o a un plan de ejecución para mejorar el desempeño. En otros casos, los estudiantes

explicaron lo que aprendieron de la retroalimentación.

Respecto a las fallas, el alumno (115) reconoció que cometió algunos errores, mientras que

el alumno (111) remarcó que cometió muchos errores. El alumno (605), quien tuvo inconvenientes

por los comentarios descorteses de sus revisores, escribió: «si [estoy consciente] pero no para ser

el hazme reír, y yo pensé que lo hice bien».

En suma, los alumnos reconocieron sus fallas, y de hecho, algunos fueron muy específicos

en los comentarios; por ejemplo: «debo trabajar en mi ortografía» (111); «debo escribir

correctamente [la palabra] bien y no decirla como bein» (117), «solo que necesito recordar usar

género» (125), «los artículos son importantes y necesito hacerlos correctamente» (208), «necesito

aprender cuál conjugación usar» (208), «tengo que aprender a trabajar en la ortografía y en las

terminaciones de los verbos» (223), «necesito recordar escribir le» (420), «me va a ayudar con mis

conjugaciones para el examen» (421), «solo necesito estudiar más las conjugaciones del pretérito»

(523). En relación a los aspectos globales de la lengua: «[aprender] a organizar mi trabajo» (117),

«a no ser repetitiva» (124) «no olvidarme de hacer puntuación» (203), «necesito parar de repetir

[vocabulario]» (227), «mi escritura es muy desordenada; necesito escribir más claro» (325), «debo

tener cuidado con los detalles» (521), «tengo que usar más detalle cuando escribo [sobre] las guías

de redacción» (522), «necesito comenzar a escribir más despacio para que sea legible» (608).


241

Algunos estudiantes justificaron sus errores: «la palabra en inglés [ceiling] no estaba en el

libro» (116); «no creo hice muchas repeticiones en la composición; las repeticiones que sí hice

fueron necesarias para hacer que la composición se entendiera mejor» (206). Otras respuestas

fueron: «los errores que cometí fueron muy pequeños y tontos. Son fáciles de ser corregidos» (202),

«no lo hice terrible, solo se necesitaron correcciones pequeñas» (506), «errores un poco leves»

(616). Los alumnos también usaron afirmaciones como: «puedo ver dónde me equivoqué» (204),

«no puse las palabras en el orden correcto» (208), «yo me di un puntaje menor en gramática

porque no sabía el orden correcto de los verbos y sustantivos» (302), «no sirvo para escribir»

(314), «veo lo que hice mal y estoy de acuerdo con lo que hice mal» (323), «fue una escritura chafa.

No me interesé lo suficiente para cambiarla» (325). Otros reconocen que no dedicaron suficiente

tiempo para revisar o corregir su propia composición: «me apresuré» (115, 622), «no me esforcé lo

suficiente» (411), «la embarré en el género» (510), «realmente no preste atención a lo que estaba

escribiendo» (512), «tuve muchos errores» (522), «necesito ayuda obviamente» (605), «creo que

ellos prácticamente cubrieron todo; no vi nada en lo que pudiese tener alguna objeción» (623).

Se observaron asimismo, comentarios que pusieron en evidencia que los estudiantes

sintieron una mayor motivación y estímulo para mejorar en la lengua: «escribir composiciones es

más fácil de lo que pensé» (202), «a tener más confianza» [en ella misma] (325). También en el

aprendizaje de estrategias para mejorar el aprender a aprender: «necesito auto-monitorearme»

(115), «observar más de cerca y ser más cuidadosa» (203), «necesito tener más cuidado» (222),

«necesito saber el orden correcto para escribir una oración» (306), «prestar más atención» (325),

«aprendí que debo examinar dos veces antes de escribir y revisar el trabajo» (406), «he visto mis


242

errores entonces [ahora] sé qué corregir» (406), «debo tomarlo seriamente» (512), «ir despacio»

(613).

Finalmente, para la pregunta 4, ¿ha aprendido algo nuevo con la retroalimentación recibida

en relación a sus errores, si los tuvo?, se observó que algunos estudiantes respondieron que no

aprendieron nada nuevo de la retroalimentacion, porque ya sabían qué tipo de error(es) habían

cometido(s): «no realmente, fueron simples [errores]» (102); «simplemente yo no estaba

pensando» (116), «yo ya lo sabía todo» (124), «los errores que cometí fueron errores por descuido.

Yo ya sabía cómo deletrear las palabras» (206), «en realidad no estaban mal» (223), «yo ya sabía

mis errores» (308), «entiendo lo que escribí mal pero eso no me re-orientó a un mejor camino de

escritura» (423), «cometí un error simple» (504), «no hubo correcciones» (206).

Otras respuestas para esta pregunta fueron: «soy excelente» (112), «soy una escritora

fabulosa» (117). También, mensajes inapropiados, como el del estudiante (125) quien mostró su

descontento por el puntaje que le dio el revisor. Este estudiante, en específico, en la tercera prueba,

no reaccionó tan fuerte a las correcciones del profesor. En otro caso, un alumno anotó una palabra

soez en el cuestionario de evaluación del revisor (301).

De acuerdo a los comentarios de los estudiantes, se logró determinar que algunos

estudiantes reconocieron el beneficio de aprendizaje recibido con las correcciones y la

retroalimentación en general: «aprendí a arreglar los géneros para los finales de las palabras y a

arreglar algunas de mis oraciones» (209), «cómo escribir una oración y cómo en realidad necesito

trabajar gramaticalmente en algunas cosas» (210), «[aprendí] mayormente gramática» (210),


243

«ahora sé dónde usar [los signos de] puntuación» (220), «[la palabra] gusta cambia diferente de lo

que yo pensé» (221), «aprendí dónde usar es y está y otros verbos» (221), «que soy horrible para

el español» (224), «a deletrear correctamente» (301), «he aprendido de nuevo que tengo problemas

en gramática» (302).

En las aulas A2, los alumnos hicieron comentarios más detallados: «me ha ayudado a caer

en cuenta [sobre] cuándo usar pretérito» (406), «aprendí a tener cuidado y a revisar mi trabajo

para [detectar] errores» (411), «a recordar usar la forma del imperfecto» (415), «que necesito releer

mis fragmentos antes de entregarlos porque cometí errores simples que pude haber cambiado»

(421), «realmente no [aprendí] otra cosa que el hecho de que necesito prestar más atención porque

pudo haber tenido sentido en inglés pero no en español» (424), «aprendí a ser más cuidadosa con

los artículos y a revisar dos veces mi trabajo» (425), «ahora sé en lo que necesito trabajar» (426),

«que rubio es pelo, no ojos» (501), «he aprendido algo nuevo de la retroalimentación de mis

errores» (503), «pelo es masculino, entonces el color debe ser masculino también» (503), «a

asegurarme de conjugar cosas correctamente» (506), «tengo que prestar atención a los acentos

[ortográficos]» (512), «aprendí que descripción debe ser en imperfecto» (513), «a no olvidar los

acentos y a saber correctamente cuándo y cómo conjugar» (610), «ver los errores ayudó; como en

la composicion anterior tuve un par de errores pero comprendí cómo cometí los errores, entonces

aprendí de ello y escribí una mejor» (616).

Con estos comentarios finales sobre las respuestas al cuestionario 3, se da por concluido el

proceso de manejo de los datos obtenidos en las tres fases del estudio. En el siguiente apartado, se


244

realizará la discusión de los resultados, y finalmente se cerrará el volumen con las conclusiones y

limitaciones de la investigación realizada.


245

El baremo como estrategia metacognitiva para la autoevaluación Capítulo 5. Discusión de resultados

246

Capítulo 5

Discusión de resultados

5.1. Primera hipótesis de la investigación

5.2. Segunda hipótesis de la investigación

5.3. Tercera hipótesis de la investigación


247

Capítulo 5. DISCUSIÓN DE RESULTADOS

En este apartado, se realizará la discusión siguiendo el orden de las preguntas e hipótesis de

la investigación, teniendo en cuenta los cuestionarios y pruebas aplicadas en cada fase del estudio,

haciendo comparaciones finales, entre las tres pruebas, para cada análisis.

Es necesario explicar en este punto que los docentes de lengua extranjera en las escuelas

públicas de educación secundaria, enfrentan retos en la instrucción relativos a la ratio profesor-

alumno en las aulas. En el caso particular de este estudio, fue aproximadamente de 1:23. Este factor

hace difícil tener una atención individualizada con cada estudiante en el aula para redirigir o

corregir en caso que no estén siguiendo los procedimientos e instrucciones impartidas. Aunado a

este factor, enseñar a adolescentes a autoevaluarse en un medio escolar donde este tipo de

estrategia poco se aplica, hace que en cierta forma, algunos resultados no puedan predecirse y que

algunos inconvenientes puedan evitarse. Hubo alumnos que optaron por no escribir una

composición o fueron renuentes a hacer las re-ediciones; también se vieron casos que aun cuando

redactaron, lo hicieron sin seguir las pautas; también dentro de las aulas hubo alguno que otro

estudiante que mostró un rendimiento más óptimo que los demás. En qué medida estas

situaciones afectan los resultados obtenidos, no es completamente predecible. En este estudio se

logró apuntar a algunos de estos casos, como casos extremos o raros que tuvieron que omitirse, o

transformar a fin de proseguir con los análisis pertinentes. De aquí se generaron algunas de las

limitaciones del estudio, pero los descubrimientos y aportaciones que en general este estudio ha

ofrecido, las superan.


248

En la Tabla 78 a continuación se presentan las hipótesis y las preguntas de investigación con

las observaciones y resultados encontrados.

Preguntas de la

investigación

Hipótesis Resultados

1. ¿Cómo evalúan los

estudiantes su

habilidad escritora

ELE pre-escritura y

post-escritura y cómo

auto-evalúan su

desempeño durante el

tiempo de post-

redacción comparado

con la evaluación del

profesor?

1. La percepción que tiene el estudiante de su

habilidad de escritura ELE, se correlaciona con los

resultados de evaluación realizada por los pares o

por el profesor. Las valoraciones de cada

estudiante, la práctica de la evaluación por pares

y la retroalimentación, repercuten con el tiempo

en el desarrollo de una destreza de

autoevaluación más coherente y consecuente con

la calidad de las composiciones al final del

estudio, comparable a la evaluación realizada por

el profesor.

Los estudiantes mostraron

incremento en las destrezas

evaluativas desde la pre-escritura

hasta la post-escritura. La cercanía a

una afinidad con las puntuaciones del

profesor fue evidente con el tiempo y

durante las fases de tratamiento.

1. 2. ¿Qué elementos y

variables caracterizan

la evaluación en una

secuencia de

composiciones

escritas por

estudiantes

norteamericanos de

ELE, cuando dicha

evaluación se

desarrolla por

autoevaluación, por

pares o cuando la

realiza un docente?

1. El nivel de competencia en la escritura del

estudiante, va en incremento no sólo debido a la

retroalimentación que recibe como input, sino

debido a las destrezas de autoevaluación que va

paulatinamente desarrollando con la activación,

durante las revisiones de la habilidad de saber

aprender y de procesos metacognitivos, en

respuesta a la interacción del alumno con el

instrumento de evaluación. También a través de la

influencia de factores que influyen en el

desempeño del estudiante durante los procesos de

escritura y edición. La percepción del estudiante

respecto a su agente corrector, afecta al proceso

auto-evaluativo y a los resultados en la re-

escritura de sus composiciones.

Las variables encontradas en el

proceso de autoevaluación fueron el

género, las frecuencias de errores pre-

edición y post-edición, el

reconocimiento de los errores en las

evaluaciones previas, además de la

intervención de variables como los

grupos de evaluación y el nivel de

aprendizaje de los informantes. La

percepción del estudiante sobre el

agente corrector, no afectó en el

proceso evaluativo del estudiante,

aunque sí en la respuesta a la

retroalimentación recibida.

1. 3. ¿Qué tipo de

estrategias o pautas

de retroalimentación

se registran en las

revisiones y cuál es

su conexión con la

corrección o no de los

errores post-edición

de las composiciones?

1. Cuando los estudiantes como revisores usan

estrategias de corrección adecuadas, la utilización

e interpretación de la retroalimentación por parte

de los escritores, puede determinarse en función

del número de palabras y errores corregidos o no,

en la reedición de las composiciones.

La RC más utilizada en todos los

grupos fue la RC indirecta. Los

grupos mostraron superación

significativa de las frecuencias de

error durante las tres fases del

tratamiento. La superación de los

errores sufrió fluctuaciones de

mejoría y retroceso pero no fueron

significativas.

Tabla 78. Relación entre las preguntas de investigación, hipótesis y resultados del estudio


249

5.1. Primera hipótesis de la investigación

La primera pregunta de la investigación fue: ¿Cómo evalúan los estudiantes su habilidad

escritora ELE pre-escritura y post-escritura y cómo auto-evalúan su desempeño durante el tiempo

de post-redacción comparado con la evaluación del profesor?

La hipótesis que se planteó originalmente exponía que: la percepción que tiene el estudiante

de su habilidad de escritura ELE, se correlaciona con los resultados de evaluación realizada por

los pares o por el profesor. Las valoraciones de cada estudiante, la práctica de la evaluación por

pares y la retroalimentación, repercuten con el tiempo en el desarrollo de una destreza de

autoevaluación más coherente y consecuente con la calidad de las composiciones al final del

estudio, comparable a la evaluación realizada por el profesor.

Para responder a la primera pregunta de investigación y verificar la hipótesis propuesta al

comienzo del estudio, se analizaron los datos del cuestionario 1 de pre- y post-escritura, la calidad

de las composiciones durante las tres fases del estudio, los resultados de las pruebas según los

diferentes evaluadores y la correlación de los puntajes entre los agentes de evaluación.

5.1.1. Análisis del Cuestionario 1 de pre-escritura y post-escritura

La evaluación del desempeño de pre-escritura de los estudiantes que recibieron las tres

pruebas de tratamiento, de acuerdo al Cuestionario 1, mostró que las aulas no presentaron


250

diferencias significativas en cuanto a la evaluación subjetiva de sus destrezas para escribir en

español L2. Tal vez esto es un indicio inicial que muestra que de momento, el nivel de aprendizaje

entre los estudiantes no generó una diferencia significativa en este aspecto. Oscarson (2009), sí

encontró diferencias entre el curso A y B en la autoevaluación general, previa a las etapas de

redacción, y parte de esta divergencia fue a causa del nivel de dominio de ILE de los estudiantes

de los dos grupos, siendo los del curso A de mejor rendimiento que los del curso B; es decir, los

grupos de informantes ya presentaban diferencias importantes al inicio de su investigación,

situación que no sucedió en el presente estudio, aun cuando se trataba de dos niveles diferentes

de E/LE. En el estudio de Tamjid y Birjandi (2012), los informantes no mostraron tampoco

diferencias significativas en su desempeño de escritura, corroborado con los resultados del test

preliminar.

Partiendo del hecho que ambos grupos del presente estudio, nivel A1 y A2 eran grupos

homogéneos, en las aulas A1 se encontró que el 23.5% de estudiantes eligieron que pueden escribir

frases en español, el 47.1% que podían escribir un párrafo, el 14.7% una composición de 50 a 75

palabras, y el 14.7% que podían escribir una composición de más de 75. En las aulas A2, el 21.4%

de estudiantes consideró que podían escribir frases, el 31% un párrafo, el 21.4% una composición

entre 50 y 75 palabras y el 21.4% una composición de más de 75.

En los dos grupos, la mayoría de estudiantes eligieron que por lo menos podían escribir un

párrafo. Se encontró que el porcentaje fue mayor para las aulas A1 que para las Aulas A2, pero

también se observó que hay más alumnos del nivel A2, que de A1, dentro de los numerales 3 y 4

del Cuestionario. Es más notoria la preferencia con el enunciado 1 en el aula A1, al compararla


251

con el aula A2, es decir, en el grupo de alumnos A1 hubo un gran número de estudiantes que se

identificaron más con el numeral 1, que con los enunciados 3 o 4, mientras que la distribución de

los porcentajes fueron similares dentro del grupo de alumnos en las aulas A2. En otras palabras,

se observa que un porcentaje mayor de estudiantes en las aulas A2 (42.8%) que de estudiantes A1

(29.4%), que consideran que pueden escribir composiciones (numerales 3 y 4).

Luego del tratamiento se notó un aumento en los porcentajes de autoevaluación, hacia las

destrezas 3 y 4, que hacen referencia a la habilidad para escribir composiciones. En la situación de

pre-escritura la mayoría de estudiantes, A1 y A2, habían elegido la habilidad 2, que hace referencia

a la habilidad de escribir un párrafo.

En el caso de las aulas A1 post-tratamiento, por ejemplo, el porcentaje de las habilidades

desde la primera a la cuarta, fue respectivamente: 5.9%, 17.6%, 32.4% y 44.1%; para las aulas A2

fue: 7.1%, 7.1%, 40.5% y 45.2%. Se observó que en las dos aulas, los puntajes de los numerales 3 y

4 aumentaron, en comparación con la autoevaluación inicial.

En las aulas A2, los porcentajes entre el enunciado 3 y 4 fueron muy similares. Es muy

notorio que el número de estudiantes que eligieron los primeros dos enunciados, disminuyó con

respecto a la situación de pre-escritura. Esto es un indicativo que después del tratamiento, la

mayoría de los alumnos pensaron que sus destrezas en la escritura en español mejoraron

considerablemente.


252

Adicionalmente, la percepción de mejoría en la habilidad de escritura, entre los estudiantes

de cada nivel, no mostró diferencias significativas, como tampoco, entre las dos aulas. Esto

significa que los estudiantes, independientemente de su nivel de aprendizaje, consideraron que

sus destrezas de escritura aumentaron como resultado de la experiencia obtenida, hasta el término

del estudio.

5.1.2. Análisis de la calidad de las composiciones según el aula

Como introducción al análisis de resultados en este aspecto, se compararon de manera

descriptiva los puntajes holísticos de los evaluadores: estudiantes, pares y el profesor-

investigador, a fin de obtener una visión general de lo que aconteció en el proceso de evaluación

de las redacciones. Las pruebas revisadas por los pares se tomaron como parte del grupo A y las

pruebas revisadas por el profesor, como parte del grupo B.

Se analizaron primero los puntajes para cada prueba por separado, en cada fase de

tratamiento, luego el comportamiento general de evaluación en las aulas, y finalmente se centró

la atención a las inferencias sobre las variables consideradas al comienzo del estudio.

5.1.2.1. Aulas A1

Para la prueba 1, 59 estudiantes del aula A1 escribieron y autoevaluaron sus redacciones.

De estas composiciones, 33 fueron revisadas por los pares (grupo A). Cuando se comparan las


253

frecuencias de las categorías entre las autoevaluaciones, se observa que aproximadamente el 87%

de los estudiantes calificaron sus propias composiciones entre buenas 51% (72.00 – 85.00),

excelentes 36% (86.00+) y regulares 12%. Los estudiantes pares, por su parte, encontraron el 12%

de las composiciones como pobres, 36% regulares, 30% buenas y 21% excelentes. Los

autoevaluadores no calificaron ninguna de las composiciones como pobres.

Los puntajes del investigador, obtenidos al final del estudio, mostraron que el 9% de las

composiciones fueron regulares, el 61% buenas y el 30% excelentes. Se observó una mayor

discrepancia entre los puntajes de los pares con el investigador. De hecho, tanto los

autoevaluadores como el investigador encontraron por lo menos un mayor número de

composiciones con calificación buena, más del 50%, y alrededor del 30% de redacciones

excelentes. El grupo de pares revisores, al parecer calificó más drásticamente las composiciones

de sus compañeros.

En el caso de las 26 muestras de autoevaluación restantes, que se entregaron para revisión

con el profesor (grupo B). Bajo autoevaluación, el 50% de las redacciones fueron buenas, el 42%

excelentes y no hubo ninguna regular. Aproximadamente un 8% de estudiantes consideraron sus

escritos como pobres. El profesor, por el contrario, calificó de buena calidad el 31%, excelente el

69%, y ninguna, como pobre o regular.

En la Tabla 79 se ven los porcentajes de las redacciones, desglosadas en categorías y grupos

de evaluación:


254

Fase 1

n = 59

Evaluador Categorías aula nivel A1

Pobre Regular Buena Excelente

Grupo A

n = 33

Estudiante -- 12 51 36

Pares 12 36 30 21

Investigador -- 9 61 30

Grupo B

n = 26

Estudiante 8 -- 50 42

Profesor -- -- 31 69


En este grupo, los autoevaluadores parecieron calificarse con puntajes más bajos que los del

profesor. Teniendo en cuenta la experiencia de los alumnos en autoevaluación, estos resultados

coinciden con Oscarson (2009), quien encontró que los alumnos del grupo A, menos expertos,

mostraron más divergencias con los puntajes del profesor que los del curso B. Si se considera la

calidad de las composiciones y se compara con el rendimiento académico en la lengua L2, puede

ser válido también sugerir que estos resultados son paralelos a los de Oscarson (2009), ya que la

discrepancia en los puntajes se observó en las categorías, buena y excelente, del baremo. Es decir,

los estudiantes que tuvieron un mejor desempeño, según los parámetros del baremo, y los

estudiantes del curso A, con un rendimiento alto en inglés, en el estudio de Oscarson (2009), no

mostraron un coeficiente de correlación significativo con los puntajes del profesor.

En la fase 2, con 49 redacciones, un número menor que en la fase 1, 32 autoevaluadores,

otorgaron calificaciones excelentes al 44% de las composiciones, buenas al 47%, pobres al 6% y

regular al 3%. Los pares, por su parte, dieron un puntaje excelente al 53% de las redacciones, bueno

al 34%, regular al 9% y pobre al 3. Los puntajes otorgados por el investigador muestran que el 66%


255

de las redacciones fueron buenas y el 34% excelentes. Aquí los estudiantes, en general, parecieron

sobreestimar las redacciones buenas, y subestimar las redacciones regulares.

Comparando ahora entre la prueba 1 y la prueba 2, en esta última, las redacciones con

puntaje excelente aumentaron según la autoevaluación. Aunque también se observó en la fase 2,

un porcentaje de redacciones con puntajes pobres que no hubo en la fase 1. Comparando con los

puntajes del investigador en ambas pruebas, las redacciones parecieron mejorar en calidad, como

se muestra en los puntajes cuando pasan de una fase a la siguiente.

Las 17 redacciones del grupo B revelaron que las autoevaluaciones y evaluaciones del

profesor coincidieron en el número de redacciones buenas (41%). Sin embargo, el profesor calificó

como excelentes el 53% y los autoevaluadores el 41%.

En comparación con la primera fase, se encontró que las redacciones de buena calidad,

decayeron para la segunda fase, según la autoevaluación. Es decir, por autoevaluación se

obtuvieron menos redacciones buenas (de 50% a 41%) y aumentaron las regulares (de 0 a 18%).

Los puntajes del profesor mostraron que las redacciones excelentes disminuyeron (de 69% a 53%)

y aumentaron las buenas (de 31% a 41%) entre una fase y la otra; no hubo ninguna prueba regular,

pero se observaron composiciones pobres que no hubo en la primera prueba. En esta ocasión pudo

suceder que los autoevaluadores fueron más drásticos en sus juicios, especialmente cuando

tuvieron que decidir entre una composición de calidad regular a buena y unos pocos, de pobre a

regular. En esta fase, lo que fue más notorio fue la tendencia a subestimar las composiciones de


256

buena calidad durante las autoevaluaciones. Los resultados de esta prueba 2 se observan

agrupados en la siguiente Tabla 80 a continuación:

Fase 2

n = 49



Grupo A

n = 32

Estudiante 6 3 47 44

Pares 3 9 34 53

Investigador -- -- 66 34

Grupo B

n = 17


Profesor 6 -- 41 53


En la fase 3, del total de 67 muestras, aproximadamente el 61% fueron autoevaluadas como

excelentes, el 31% como buenas, el 4% como regulares y el 3% como pobres. El profesor, sin

embargo, encontró que el 73% eran redacciones excelentes, 22% buenas, 3% regulares y 1% pobres.

Puede pensarse que los estudiantes calificaron más duramente sus redacciones, especialmente los

estudiantes que se dieron un puntaje bueno y no excelente. En la Tabla 81, se muestran los

resultados obtenidos:

Fase 3

n = 67



Grupo B

n = 67

Estudiante 3 4 31 61

Profesor 1 3 22 73

Tabla 81. Número porcentual de pruebas categorizadas según su calidad, aula A1, tercera fase

En comparación con las tres pruebas, las redacciones calificadas como excelentes por el

profesor, disminuyeron en la fase 2, pero aumentaron en la fase 3. El caso contrario ocurrió con


257

las redacciones buenas, que aumentaron en la fase 2 y disminuyeron en la fase 3, tal vez por la

contigüidad de los puntajes entre estas categorías, y el posible desplazamiento de los puntajes

buenos hacia puntajes excelentes. En general, se observó que en la primera fase, los pares fueron

más drásticos calificando a sus compañeros del grupo A, y en suma en las fases 1 y 3, los

autoevaluadores parecieron subestimar la calidad de sus composiciones, especialmente cuando

debían decidir si la calidad era excelente o buena. Aunque también se vio dificultad para decidir

entre una composición regular o buena. En la fase 2, se observó una combinación entre sobre

estimación de puntajes para las redacciones buenas, y baja estimación para las redacciones

regulares. Tal vez la contigüidad de los puntajes en la escala, fue uno de los factores que generó

estos conflictos en la toma de decisiones sobre la calidad de las composiciones. Los entendidos en

el tema de baremos y escalas, ya han mencionado anteriormente en discusiones académicas estos

inconvenientes.

5.1.2.2. Aulas A2

En las aulas A2, para la prueba 1, se recolectaron 65 composiciones y las correspondientes

autoevaluaciones, 33 de las cuales fueron distribuidas entre el grupo A y las restantes entre el

grupo B. El grupo A muestra que alrededor del 54% de estudiantes calificaron sus redacciones

como excelentes y el 42% como buenas. Estos porcentajes están cercanos a las calificaciones de los

pares, quienes consideraron que aproximadamente un 51% de las muestras fueron excelentes y

39% buenas, y a los puntajes del investigador, 60% y 39%, respectivamente. Sin embargo, los pares

evaluadores puntuaron, el 6% regulares y el 3% pobres; los autoevaluadores calificaron una


258

composición (3%), como regular y ninguna, como pobre. El investigador no puntuó ninguna de

las composiciones como regular o pobre.

Observando los resultados del grupo B, el 97% de las 33 composiciones fueron evaluadas

entre buenas y excelentes, por sus autores y por el profesor. No obstante, dentro de este porcentaje,

para los autoevaluadores, un 47% fueron redacciones buenas y 50% excelentes, pero según el

profesor, un 28%, fueron buenas y 69% excelentes. Con ambas evaluaciones, se calificó una

composición como regular (3%). Los datos de esta fase 1 se encuentran en la tabla 82 a

continuación:

Fase 1

n = 65



Grupo A

n = 33


Pares 3 6 39 51

Investigador -- -- 39 60

Grupo B

n = 32


Profesor -- 3 28 69


Frente a estos resultados, es probable que por lo menos el 20% de estudiantes subestimaron

sus composiciones buenas, y en consecuencia, optaron por una calificación buena y no excelente.

En la prueba 2, 35 estudiantes del grupo A calificaron el 49%de sus redacciones como

buenas, y el 51%, como excelentes. Los pares de estudiantes, por el contrario, cuantificaron

aproximadamente el 6% de composiciones como pobres, 8% como regulares, 26% como buenas y


259

60% como excelentes. El investigador, por su parte, calificó las redacciones en 9% regulares, 40%

buenas y 51% excelentes. Los puntajes de autoevaluación parecen estar más aproximados a los del

investigador. Sin embargo, los autoevaluadores, al parecer sobre-calificaron algunas redacciones

que eran de baja calidad. En el caso de los estudiantes del grupo B, conformado esta vez por 20

alumnos, los autoevaluadores puntuaron el 75% de sus redacciones excelentes, el 15% buenas y el

10% regulares. El profesor, por su parte, encontró 60% excelentes, 30% buenas, 5% regulares y 5%

pobres. Los resultados de la fase 2 están consignados en la Tabla 83 siguiente:

Fase 2

n = 55



Grupo A

n = 35

Estudiante -- -- 49 51

Pares 6 8 26 60

Investigador -- 9 40 51

Grupo B

n = 20


Profesor 5 5 30 60


Al parecer, algunos de los estudiantes autoevaluadores, sobre-calificaron las composiciones

de buena calidad, y por lo menos el 5% de los estudiantes de rendimiento bajo, también sobre-

estimaron la calidad de sus redacciones.

En la prueba 3, Tabla 84, con 67 estudiantes, se encontró el 73% de las redacciones fueron

excelentes y el 26% buenas; no hubo redacciones autoevaluadas como regulares o pobres. Bajo la

revisión del profesor, el número de composiciones excelentes bajó, 70%, el porcentaje de buenas

aumentó, 28% y apareció un 1% como pobre.


260

Fase 3

n = 68



Grupo B

n = 68

Estudiante -- -- 26 73

Profesor 1 -- 28 70

Tabla 84. Número porcentual de pruebas categorizadas, según su calidad, aula A2 tercera fase

En suma, en las aulas A2, durante la primera fase, los autoevaluadores, subestimaron las

composiciones buenas, y los pares tendieron a calificar con puntajes un poco más bajos las

composiciones excelentes. Esta tendencia coincide con Oscarson (2009) quien concluyó que en

general los estudiantes subestimaron sus habilidades para escribir en la segunda lengua durante

la etapa de escritura. En la fase dos, se observó similitud de puntajes de AE con los puntajes del

investigador, pero se observó sobreestimación más marcada para las pruebas buenas; en la tercera

fase, los puntajes de AE fueron un poco más altos en relación a las calificaciones del investigador.

5.1.3. Análisis de las pruebas según los diferentes evaluadores

En el siguiente análisis, que se basó en los resultados de los 76 estudiantes que

cumplimentaron las tres pruebas, se compararon las evaluaciones de los alumnos, con las del

profesor. Primero, se realizó por cada prueba y luego, comparando en paralelo los resultados de

las tres pruebas.

El comportamiento de los puntajes de autoevaluación y por pares, en relación a los puntajes

del profesor, afectaron en algunos casos la normalidad de las variables; esto sucedió especialmente

con los puntajes extremos, muy bajos o muy altos, que se salían de la media del grupo en general.


261

Para comprender el espectro de las puntuaciones se van a realizar las comparaciones con los

rangos de las categorías, según su calidad de la composición: pobre (<= 56), regular (57 – 71),

buena (72 – 85) y excelente (86+).

5.1.3.1. Prueba 1

Los puntajes de AE al inicio de la fase de tratamiento mostraron una asimetría generada por

puntajes menores a 60. Esto indica, que en el grupo en general, los 74 estudiantes autoevaluaron

la calidad de sus composiciones como buenas y excelentes, entre los 77 y 93 puntos, con una media

aproximada de 85. La diferencia entre los puntajes fue alrededor de 8 puntos dentro del grupo.

Por su parte, en la evaluación por pares, se observó un puntaje pobre, por debajo de 56 puntos.

Las calificaciones de las composiciones oscilaron entre los 64 y 92 puntos, con una media

aproximada de 78. La diferencia de puntuación entre las composiciones, en el grupo A, con 37

estudiantes, fue aproximadamente de 14 puntos. La calidad de las composiciones, según las

evaluaciones por pares, estuvo entre regular y excelente. La evaluación del profesor - investigador,

muestra calificaciones entre los 78 y 94 puntos, con una media aproximada de 86 puntos. Las

redacciones se clasificaron entre buenas y excelentes. La diferencia de puntuaciones entre las

composiciones, de los 76 estudiantes, fue aproximadamente de 8 puntos. Al realizar las

comparaciones entre estos resultados, se observa que los pares calificaron más fuerte las

composiciones de sus iguales. La variabilidad en las calificaciones fue mayor dentro de las

puntuaciones por pares (con una diferencia de 8 puntos), que entre los autoevaluadores (solo un


262

punto) comparadas con las puntuaciones del profesor. En suma, las calificaciones por pares

mostraron menor coincidencia con las calificaciones del investigador que los autoevaluadores.

El valor Delta 1, que se calculó para comparar las evaluaciones de los alumnos

(autoevaluación), con las evaluaciones del profesor – investigador, en el mejor de los casos, debía

ser muy cercano a cero. Se encontró que la diferencia media aproximada fue de 2 puntos. Se

observó que las diferencias máximas llegaron a los 11 o -7 puntos.

5.1.3.2. Prueba 2

Para la segunda fase del tratamiento, los puntajes de autoevaluación mostraron que la media

de las composiciones fue aproximadamente de 86 puntos, con una diferencia de 9 puntos. Sin

embargo, se observó un puntaje de autoevaluación pobre, que afectó la normalidad de la variable.

Al analizar solo 75 casos, el rango de la calidad de las composiciones, según estos puntajes, fue

entre buenas y excelentes; es decir, entre los 77 y 95 puntos. Los puntajes entre los pares, con 48

estudiantes, nuevamente presentaron una variabilidad mayor, con calificaciones menores a 61, lo

cual afectó la normalidad de la variable. Luego de la omisión de estos valores, se observó que el

rango de la calidad de las composiciones, se ubicó entre buenas y excelentes (entre 77 y 97 puntos).

El puntaje promedio fue de 88 puntos, con una variabilidad de 10 puntos. Las calificaciones del

profesor – investigador quien evaluó 76 redacciones, mostraron una media de 85 puntos. La

calidad de las composiciones estuvo entre las categorías, buena y excelente, (entre 77 y 93 puntos).

La diferencia entre las calificaciones fue de alrededor 8 puntos. Comparando estas calificaciones


263

con las de los alumnos como evaluadores, se observa que hubo sobre estimación por parte de los

autoevaluadores, que fue muy leve (1 punto), en comparación con los pares (3 puntos).

El valor calculado de Delta 2, sobre las diferencias entre los puntajes de autoevaluación y

del profesor – investigador, mostró una variabilidad muy amplia, alrededor de 12 puntos, con

respecto a la media de -0.32; por lo cual, de 76 casos, se consideraron 69, con una variabilidad

menor, 8 puntos y una media de -0.36.

5.1.3.3. Prueba 3

Para la tercera fase del tratamiento, los puntajes de autoevaluación mostraron que la

calificación media de las composiciones fue aproximadamente 90 puntos, con una diferencia

aproximada de 9 puntos entre todas las muestras de este grupo. Sin embargo, se observaron varios

puntajes menores a 77 que afectaron la normalidad de la variable. El análisis se realizó con los 76

casos y luego con 69 casos solamente. El rango de la calidad de las composiciones, entre este grupo

de casos, estuvo entre buenas y excelentes (de 84 a 96 puntos). Las calificaciones del profesor –

investigador mostraron dos casos con puntajes mínimos, según los parámetros del baremo

utilizado. La calificación media obtenida, teniendo en cuenta estos casos, fue de 88

aproximadamente, con una diferencia entre los puntajes de 11 puntos. Sin los casos extremos, se

observó que la media subió a 89, pero la diferencia entre puntajes bajó a 7 putos. La calidad de las

composiciones se estimó entre 82 y 96 puntos, sin tener en cuenta los casos aislados, cuyos

puntajes se ubicaban entre los 37 y 74 puntos.


264

El valor calculado Delta 3, mostró inconvenientes relacionados con diferencias mayores a 22

puntos entre las calificaciones de auto-evaluación y los puntajes del profesor – investigador. La

media fue muy baja, de 0.12, con una diferencia entre puntajes de 9 puntos.

5.1.3.4. Comparación entre las pruebas

En general, las calificaciones obtenidas por autoevaluación, parecieron correlacionarse más

con las puntuaciones del profesor – investigador, no solo en el sentido de la habilidad para

categorizar las redacciones según la calidad, sino también, en el manejo más adecuado de las

escalas para calificar las composiciones. Esto se evidencia cuando se comparan los puntos de

diferencia entre las mediciones realizadas. En la prueba 1, los autoevaluadores dieron puntajes

entre 77 y 93 puntos, con una diferencia entre medidas de 8 puntos; los pares, con puntajes entre

los 63 y 91 puntos, mostraron diferencias entre medidas de 14 puntos. Los puntajes del profesor –

investigador oscilaron entre los 78 y 94 puntos, con una diferencia de 8 puntos. Los evaluadores

pares, parecieron ser más drásticos en las calificaciones y probablemente esto generó desaciertos

en la clasificación del rango de categorías de las composiciones. Hubo mayor coincidencia entre

los puntajes holísticos de los alumnos como autoevaluadores, con el profesor, que de los alumnos

como pares evaluadores y el profesor. La evidencia muestra que por autoevaluación, la media de

la prueba 1 en todas las aulas fue de 85, por pares de 78 y por el profesor, de 86. En los resultados

de Andrade et al (2009) se encontró que la valoración de la auto-eficacia de los alumnos fue de

82.6 para la primera prueba que fue incrementando gradualmente hasta la tercera.


265

Correlacionando estos resultados con los valores de categorización de las pruebas (ver 5.2),

se confirmó que hubo mayor coincidencia entre los puntajes de AE y EP. Adicionalmente, que los

estudiantes tendieron a subestimar ligeramente la calidad de sus composiciones. Hubo menos

aciertos entre las puntuaciones de EE y EP. Esto parece dar luz a los resultados de Matsuno (2009)

quien encontró que la media entre la autoevaluación y la evaluación del profesor fue la misma en

las dos primeras evaluaciones, mientras que en la tercera, la evaluación entre estudiantes fue más

alta. A este respecto, pareciese que en el trabajo de evaluación individual, los estudiantes pueden

revisar y puntuar mejor, o siguen más de cerca los criterios establecidos en el baremo, que cuando

trabajan con sus iguales.

En la prueba 2, el comportamiento de las calificaciones, en relación a la fase 1, mostró una

variación en el rango de calificaciones del profesor. En la prueba 1 fue de 78 a 94, y en la segunda

prueba, de 77 a 93, es decir, con una diferencia de un punto por abajo y un punto por arriba de la

escala, pero los puntajes se mantuvieron dentro de las categorías de calidad, buena y excelente.

La media bajó también, de 86 a 85 puntos, lo que muestra una disminución en la calidad de las

composiciones en general, y mayor acumulación de pruebas buenas que excelentes. En Andrade

et al (2009) la media para la segunda prueba fue de 83.5 puntos mostrando un aumento de cerca

de un punto en relación a la primera.

Con respecto a los puntajes de autoevaluación entre las dos pruebas, el rango de calidad se

mantuvo entre bueno y excelente; el rango de puntajes mínimos también permanecieron en 77,

pero los puntajes máximos, subieron de 93 a 95. Para la tercera prueba, la calidad de la mayor

parte de las composiciones fue entre buena y excelente. El puntaje holístico medio subió a 90, es


266

decir, 5 puntos más que la primera prueba, y 4 puntos, por arriba de la segunda. El rango de

calificaciones fue de 84 y 96 puntos, que fueron más consistentes, como se evidencia en el valor de

la diferencia entre puntajes (6), comparados con la primera (8) y segunda prueba (9). La

calificación media aumentó un punto, de 85 a 86 para la segunda prueba, y a 90, para la tercera.

En Andrade, el puntaje fue de 87.7 para la tercera prueba, es decir, un poco más de 5 puntos con

respecto a la primera.

Los pares, dieron calificaciones que variaron de 64 y 92, en la primera prueba, a 77 y 97

puntos en la segunda prueba. Por lo tanto, la calidad de las composiciones, bajo el criterio de los

pares, mejoró, en la segunda prueba. La consistencia entre los puntajes durante la segunda prueba

mostró cierto progreso, con una diferencia ya no de 14 puntos, sino de solo 10.

En general, la calidad de las composiciones fluctuó entre la primera y segunda prueba, y de

la segunda a la tercera. Las redacciones parecieron disminuir su calidad en la fase 2, de acuerdo a

los rangos encontrados (77 a 93) comparados a los de la primera fase (78 a 94). También el valor

de la media, fue indicativo de este fenómeno (de 86 a 85).

Para la tercera fase, hay un incremento considerable en el valor de la media, 89 puntos, y el

rango de los puntajes entre (82 y 96). La diferencia de calificaciones entre las composiciones fue

alrededor de 7 puntos. Las comparaciones entre las pruebas se resumen en la Tabla 85 a

continuación:


267

Pruebas 1 2 3

Evaluaciones AE EE EP-I AE EE EP-I AE EP-I

N 74 37 76 75 45 76 69 76

Rango 77 – 93 64 – 92 78 – 94 77 - 95 77 – 97 77 – 93 84 - 96 82 – 96

Media 85 78 86 86 88 85 90 89

Diferencia 8 14 8 9 10 8 6 7

Tabla 85. Comparación entre los puntajes de los evaluadores en las tres pruebas

La comparación de los valores Delta, muestra que la media bajó en el paso de las fases, y la

media fluctuó entre 8 y 9 puntos de diferencia entre los puntajes. Los valores calculados de

Cambio de puntaje 1, entre Delta 1 y Delta 2, muestran una media de -1.00 y una desviación

estándar de aproximadamente 8 puntos. Esto significa que la calidad de las composiciones, en

general bajaron en promedio, un punto. El valor de Cambio de puntaje 2, entre Delta 2 y Delta 3,

tuvo una media de 3 puntos, con una diferencia aproximada de 7 puntos. Esto muestra una

mejoría en la calidad de las composiciones, entre la prueba 2 y la 3, de 3 puntos, en promedio.

En comparación con los estudios consultados en el estado de la cuestión, Andrade et al

(2009) reportó que las autoevaluaciones de los estudiantes en las tres pruebas, mostraron un

incremento gradual de 82.6, 83.5 a 87.7, evidenciando una mejoría en la autoeficacia con el tiempo.

En las dos investigaciones, las diferencias entre los puntajes no fueron mayores a un punto, entre

la primera y segunda fase, y entre la segunda y tercera fase, las diferencias fueron alrededor de 4

puntos. En el presente estudio, se observó que los puntajes bajaron en la segunda prueba y

mejoraron para la tercera; de hecho, los resultados de la prueba de medidas repetidas, confirmó

que los puntajes holísticos de las pruebas incrementaron en el tiempo, lo que significa que la

calidad de las composiciones mejoró hacia la fase final.


268

5.1.4. Análisis de las pruebas según la correlación de puntajes entre los evaluadores

En la prueba 1, la correlación de Pearson, entre los puntajes de autoevaluación (AE) y del

profesor-investigador (EI), fue significativa, pero más baja, x = 0.25, que la correlación AE y los

pares (EE), x = 0.38. Por el contrario, entre EE y EI, se observó una correlación media, x = 0.49.

Para la prueba 2, no hubo correlación entre los valores de AE y EE; mientras que entre los puntajes

de AE y EI, la correlación fue baja, x = 0.29, entre EE y EI, hubo una correlación media, x = 0.42.

Para la tercera prueba, la correlación entre AE y EI, fue baja, x = 0.30.

En suma, se observó una tendencia positiva entre los puntajes de los autoevaluadores y el

profesor-investigador que aumentó en las tres fases del estudio, pero los valores de correlación

fueron muy bajos. La correlación entre AE y EE, se perdió en la segunda prueba. Pero se remarca

que entre los puntajes de EE y EI, en las dos primeras pruebas, las correlaciones fueron

significativas y los índices aunque más altos, en comparación con los otros, son aún distantes del

índice mínimo de correlación aceptable.

En el estudio de Oscarson (2009) se encontró que la correlación entre las calificaciones de los

estudiantes de cada curso y las del profesor, tuvieron una correlación significativa con el grupo B,

rs = 0.52, más experto en autoevaluación, pero con un desempeño en ILE más bajo que el grupo

A.

En síntesis, los resultados de correlación entre las variables que involucraron los puntajes

de los diferentes agentes de evaluación, no son concluyentes, por cuanto la mínima correlación


269

aceptable es de 0.70. Solo se puede afirmar que se presentaron relaciones positivas significativas

entre algunas variables, pero el índice de correlación no es admisible estadísticamente para inferir

conclusiones más sólidas sobre el comportamiento de las variables involucradas.

Estos resultados contrastan con los de Zakian, Moradan y Naghibi (2012), quienes sí

encontraron índices de correlación altos entre los diferentes evaluadores con mayor coincidencia

de puntajes entre el profesor y los autoevaluadores (0.82)y un bajo índice de correlación de los

puntajes entre los pares y los autoevaluadores (0.76).

5.2. Segunda pregunta de investigación

La segunda pregunta de investigación fue: ¿Qué elementos y variables caracterizan la

evaluación en una secuencia de composiciones escritas por estudiantes norteamericanos de ELE,

cuando dicha evaluación se desarrolla por autoevaluación, por pares o cuando la realiza un

docente?

En la hipótesis se expresó: el nivel de competencia en la escritura del estudiante, va en

incremento no sólo debido a la retroalimentación que recibe como input, sino debido a las

destrezas de autoevaluación que va paulatinamente desarrollando con la activación, durante las

revisiones de la habilidad de saber aprender y de procesos metacognitivos, en respuesta a la

interacción del alumno con el instrumento de evaluación. También a través de la influencia de

factores que influyen en el desempeño del estudiante durante los procesos de escritura y edición.


270

La percepción del estudiante respecto a su agente corrector, afecta al proceso auto-evaluativo y a

los resultados en la re-escritura de sus composiciones.

A fin de dar respuesta a esta pregunta de investigación y en busca de la corroboración o

refutación de la hipótesis, se analizaron las pruebas según las variables que resultaron

estadísticamente significativas o no significativas, en el transcurso de las tres fases de evaluación.

5.2.1. Variables significativas en la prueba 1

Primero se exploraron las variables que podrían influir en la autoevaluación de los

estudiantes. Aun cuando en el diseño del método no se consideró la variable de género, cuando

se realizaron algunos cálculos estadísticos, se encontró que ésta era una variable que valía la pena

explorarse, en relación a la autoevaluación.

Los diagramas de cajas entre los valores Delta 1 y el aula, mostraron que las diferencias de

puntajes entre la AE del estudiante, con la evaluación del profesor, son menores para el aula A1,

aunque los rangos de Delta1, son más amplios (entre -7 y 11 puntos) que en el aula A2 (entre 0 y

6 puntos). A pesar de ello, la variabilidad de los puntajes holísticos entre las aulas, con el puntaje

del profesor, no fue significativa en ninguna de las aulas. Luego de los cálculos estadísticos con la

prueba ANOVA, se encontró que la variación en los valores de Delta 1, se debieron posiblemente

al género de los alumnos, en un 9%. La media de Delta 1 para el sexo femenino fue más alta, lo


271

que sugiere que las adolescentes tuvieron mayores discrepancias de puntuación con el profesor

que los chicos adolescentes.

Cuando se exploró sobre la influencia simultánea de la frecuencia de errores pre-reescritura

y el nivel de aprendizaje de los estudiantes, se encontró que la frecuencia de errores influyó en un

6% sobre los puntajes de autoevaluación. De acuerdo a los resultados, el puntaje esperado de AE

sería aproximadamente de 90 en el aula A2, cuando la frecuencia de errores fuese cero; si la

frecuencia de errores variase en 0.192 puntos, el puntaje del aula A1 esperado sería

aproximadamente de 89.

Con respecto a los agentes de evaluación y la frecuencia de errores pre-reescritura, se

determinó, que la frecuencia de errores pre-edición, influyó aproximadamente en un 6%, en la

variación de los puntajes de AE. Según los resultados, el puntaje esperado de AE en los grupos B,

evaluados por el profesor, sería de 89, teniendo una frecuencia de error constante; y para los

grupos A, evaluados por los pares, sería de 91; es decir, las diferencias aproximadas entre los

puntajes serían de 2 puntos.

La otra variable dependiente a observar fueron los puntajes del profesor. Se buscó también

evidencia acerca de la influencia del nivel de aprendizaje de los estudiantes y la frecuencia de

errores pre-reescritura. Los resultados mostraron que, con un valor de confianza en la prueba de

1.00 (máximo), las dos variables influyeron en los puntajes otorgados por el profesor. La

frecuencia de errores en un 32% y el nivel de aprendizaje en un 12%. El puntaje holístico esperado


272

de un estudiante A2, con la frecuencia de errores constante, sería aproximadamente de 98.51, y

del estudiante A1, alrededor de 94.

Las otras variables simultáneas consideradas fueron, los grupos de evaluación, la

retroalimentación, el reconocimiento de errores cuando los estudiantes respondieron el

Cuestionario 3, y la frecuencia de errores pre-edición, como variables que pudieron influir, en la

frecuencia de errores post-edición. Entre todas estas variables y con una alta confiabilidad en el

modelo utilizado, la frecuencia de errores pre-edición y el reconocimiento de los errores pre-

edición tu.vieron efectos significativos. La frecuencia de errores pre-edición fue el factor más

influyente, en un 67%, y el reconocimiento de los errores pre-reescritura, en un 5%.

5.2.2 Variables significativas en la prueba 2

El análisis de los efectos del valor calculado Delta 2, mostró que la media de la diferencia

entre el puntaje del profesor con la autoevaluación, fue menor en el aula A2; las comparaciones

entre Delta 2 y aula, se observó que el nivel de aprendizaje, no tuvo efectos significativos sobre la

diferencia de puntajes de los autoevaluadores y del profesor. Con respecto al género, se determinó

que esta variable sí tuvo efectos significativos en los valores Delta 2, en un 9% aproximadamente.

La media en las estudiantes mujeres tendió a ser más alta que en los estudiantes hombres.

El siguiente análisis exploró la posible influencia de los puntajes otorgados por los

evaluadores en la prueba 1, en la puntuación holística de la segunda prueba. No se encontraron


273

efectos significativos, cuando esta variable se consideró aislada de otros factores. Sin embargo,

cuando se relacionaron estos grupos de evaluación, con el nivel de aprendizaje, se encontró una

alta evidencia sobre una relativa interdependencia entre el nivel de aprendizaje, la AE y los grupos

de evaluación que retroalimentaron en la prueba 1, en un 9%.

También se encontró evidencia que la variabilidad en los puntajes de AE en la prueba 2,

fueron en parte, efecto de la simultaneidad entre las variables de la primera prueba tales como:

los grupos de evaluación, quienes retroalimentaron, y el reconocimiento de los errores; La variable

Re1, influyó en un 6% sobre el puntaje de AE; según estos hallazgos, la AE holística esperada,

teniendo en cuenta la retroalimentación del profesor, sería aproximadamente de 87 y 83, de la

retroalimentación de los pares. La consideración de las variables de grupos de evaluación en la

primera prueba, con la frecuencia de errores post-edición 1, mostró que ésta última, influyó en los

puntajes de AE, que comparados con la evaluación del profesor, sería de 93 y con la de los pares,

de 90.

Adicionalmente, no se encontraron diferencias significativas por la interacción o

dependencia entre el nivel de aprendizaje y la frecuencia de errores pre-edición, pero sí de una

variación de la AE en función de la frecuencia de errores pre-edición en la segunda prueba. La

variación del puntaje del profesor, de acuerdo a los resultados y en un poder de confianza alto, se

debió en un 34% a la frecuencia de errores pre-edición (Fep2) en esta fase, cuando se analiza

simultáneamente con el nivel de aprendizaje. En el aula A2, el valor esperado holístico según la

evaluación del profesor, sería de 96, y en el aula A2, 95 puntos, aproximadamente.


274

Con respecto a la frecuencia de errores post-edición, se encontraron diversas variables que

ejercieron un efecto significativo en este valor. Se encontró una evidencia muy sólida que la

frecuencia de errores pre-edición, influye en un 80%; la retroalimentación, en el 12%; y los grupos

de evaluación, en el 7%. El tipo de retroalimentación más influente, fue la RC directa en el 10%.

5.2.3. Variables significativas en la prueba 3

Se analizó el puntaje Delta 3, tal como se realizó en las pruebas anteriores, y no se encontró

un efecto significativo del nivel de aprendizaje en la diferencia entre los puntajes holísticos del

profesor y de autoevaluación. La variable de género no mostró tampoco una injerencia

significativa en los valores de Delta 3.

Las variables de grupos de evaluación en la prueba 2, que ofrecieron retroalimentación,

previa a la prueba 3, y el nivel de aprendizaje, simultáneamente, no surtieron efectos en el puntaje

de autoevaluación de los estudiantes. Los grupos de evaluación y el reconocimiento de errores

que los estudiantes tuvieron de sus errores en la prueba 2, tampoco mostraron evidencia

significativa como influyentes en la variable de autoevaluación.

Se midió la variabilidad de los puntajes holísticos de autoevaluación en relación a los grupos

de evaluación y el reconocimiento de los errores en la prueba 2, y se encontró que tampoco

tuvieron efectos importantes en la autoevaluación. Cuando se evaluó el efecto de la frecuencia de

errores post-edición en la prueba 2 y a los grupos de evaluación en la prueba 2, se encontró que


275

estas variables son co-dependientes con los valores de la AE de la prueba 3. Los valores de AE en

los grupos A y B serían aproximadamente de 85 puntos.

Por su parte, el nivel de aprendizaje, con la frecuencia de errores pre-edición en la prueba 3,

mostraron evidencia de cierta dependencia con los puntajes de autoevaluación, en un 7%. La

frecuencia de errores pre-edición presenta un efecto del 11%. El valor del puntaje holístico

esperado en el aula A2 sería 91 y en el aula A2, 97 puntos, aproximadamente. Aún, en ausencia

del nivel de aprendizaje, la influencia de la frecuencia de errores pre-edición, en los puntajes de

autoevaluación, es del 8%. Los puntajes de AE entre las dos aulas, sería casi el mismo, 94 puntos.

Por otro lado, con una alta confiabilidad, el puntaje del profesor, tuvo una variabilidad

causada por la frecuencia de errores pre-edición, en un 40% aproximadamente; según el modelo,

los estudiantes del aula A1 tendrían un puntaje holístico de 100, y los del aula A2, de 97 puntos.

Las variables influyentes en la frecuencia de errores post-edición, fueron: la

retroalimentación, en general, en el 15%, la RC indirecta, en el 12%, y la frecuencia de errores pre-

edición, en el 70% aproximadamente.

5.2.4. Comparación de las variables en las tres pruebas

Con las pruebas realizadas, se determinó que el nivel de aprendizaje y los grupos de

evaluación fueron factores intervinientes en las variaciones de los puntajes holísticos de


276

autoevaluación. La variable de género, por su parte, mostró que las mujeres presentaron mayores

diferencias entre los puntajes de AE y del profesor, que los hombres en las dos primeras pruebas.

Esto podría indicar que las estudiantes adolescentes, sobreestimaron sus puntuaciones, en 5

puntos con respecto al puntaje del profesor; este patrón se mantuvo en la segunda prueba. La

influencia del género en las dos fases fue del 9%. Andrade, et al (2009) también reportó que el

género influye en el uso de los baremos. Sin embargo, contrario a sus resultados, la interacción de

las mujeres con el baremo causó sobre estimaciones en las puntuaciones de los escritos en las dos

primeras pruebas del estudio; no obstante, este fenómeno se superó hacia la tercera prueba,

probablemente en razón del mejoramiento en las estrategias de autoeficacia de las estudiantes en

general.

En el caso de los adolescentes hombres, la diferencia de la media aumentó negativamente

para la segunda prueba, lo cual significa, que tendieron a subestimar sus composiciones, en 3

puntos con respecto al puntaje del profesor. Para la tercera prueba, hubo una diferencia de 2

puntos tanto para los hombres, como para las mujeres, con respecto a los puntajes del profesor.

La tendencia de los hombres continuó siendo de puntajes más bajos, con respecto a las mujeres.

Sin embargo, en esta fase 3, las variaciones entre los sexos, no fueron significativas. Esto muestra

que con la experiencia, los estudiantes, en general, aprendieron o aplicaron mejores destrezas en

el uso e interpretación del baremo, para autoevaluarse de forma más comparativa entre los

grupos, a pesar de las diferencias de género. Estos resultados apoyan las conclusiones de Andrade,

Wang, Du, Y & Akawi (2009) solo en el sentido que la autoeficacia mejora con el tiempo, pero

como se vio aquí, no fue mayor en las mujeres que en los hombres.


277

Otra de las variables que influyó en los puntajes de autoevaluación, fue la frecuencia de

errores pre-edición, en presencia del nivel de aprendizaje. La influencia de la frecuencia de errores

pre-edición sobre los puntajes de autoevaluación, fue evidente en las tres fases de escritura, a

partir de un 6% en la primera, hasta un 7% en la tercera fase. Esto puede indicar que los estudiantes

pudieron dar un mejor uso e interpretación del baremo, para valorar y puntuar sus composiciones.

Los puntajes esperados de autoevaluación fueron de 89 (aula A1), y de 90 (aula A2); de 96 (aula

A1), y 95, (aula A2), en la segunda prueba; y de 85, (aula A1), y 91, (aula A2), en la tercera prueba.

El efecto simultáneo de la frecuencia de errores pre-edición, y el nivel de aprendizaje, fue

más notable sobre los puntajes del profesor; su influencia tendió a incrementar en cada fase así:

Fep + aula, 32% y 12%, en la primera; a Fep 34%, en la segunda; y a Fep de 40%, en la tercera. Los

puntajes esperados del profesor en la prueba 1 fueron, en aula A1 y A2, respectivamente: 94 y 99,

en la primera prueba; 95 y 96, en la prueba 2; 97 y 100, en la prueba 3.

Con lo anterior, los estudiantes del aula A1, obtuvieron puntajes que incrementaron con el

tiempo, en uno o dos puntos; mientras que los estudiantes del aula A2, aunque con mejores

puntajes que los del aula A1, sufrieron un retroceso en la segunda prueba, de 3 puntos

aproximadamente, pero se restableció en la tercera.

5.3. Tercera hipótesis de la investigación


278

La tercera pregunta de la investigación fue: ¿Qué tipo de estrategias o pautas de

retroalimentación se registran en las revisiones y cuál es su conexión con la corrección o no de los

errores post-edición de las composiciones?

La hipótesis en relación a esta tercera pregunta, fue la siguiente: cuando los estudiantes

como revisores usan estrategias de corrección adecuadas, la utilización e interpretación de la

retroalimentación por parte de los escritores, puede determinarse en función del número de

palabras y errores corregidos o no, en la reedición de las composiciones.

Para verificar la validez de esta hipótesis, en este numeral se analizó la variable de

retroalimentación en las tres pruebas, y se realizó un paralelo con los resultados de superación del

error en el transcurso del tiempo durante las fases del estudio. También se hicieron

puntualizaciones acerca de los resultados del Cuestionario 3 sobre la concienciación y el

reconocimiento de los errores con base en las faltas de redacción mencionados por los estudiantes

en las respuestas, luego de la retroalimentación.

5.3.1. Análisis sobre la retroalimentación

Las estrategias de retroalimentación que se utilizaron en el estudio, fueron RC directa, RC

mixta y RC indirecta. Hubo situaciones donde no se dio retroalimentación alguna. Se analizaron

según la prueba en cada fase del estudio. Finalmente, se cierra el análisis con la descripción de las

diferentes respuestas obtenidas de los estudiantes a la retroalimentación en el Cuestionario 3.


279

Finalmente, se analizan los resultados de los cambios en la superación de los errores en el tiempo,

hasta el fin del estudio.

5.3.1.1. Prueba 1

Se encontró que en todas las aulas, la retroalimentación más utilizada fue la indirecta, en un

68% aproximadamente. El tipo de retroalimentación que también se utilizó fue la combinación de

directa-indirecta en el 13%, directa en el 12%. Hubo un 7% aproximadamente que no utilizó

ningún tipo de retroalimentación. En cuanto a los grupos de tratamiento, en el aula A1, se observó

que la RC preferida por los pares, con porcentajes aproximados, fue: indirecta, 24%, directa, 12%,

y mixta 9%. En el 9% de los casos, no dieron RC; en el aula A2, fue: indirecta, 24%, directa, 10%, y

mixta, 7%. En el 5% de los casos, ninguna. El profesor, por su parte, en el aula A1, utilizó solo dos

tipos de RC: indirecta, 44% y directa, 3%; mientras que en el aula A2: indirecta, 45% y mixta, 10%.

Es decir, la preferencia por los diferentes tipos de RC en las dos aulas, fue muy similar, en los

grupos A y B. Sin embargo, se observó que el profesor, ofreció también, en las aulas A2, un

porcentaje importante de RC mixta.

5.3.1.2. Prueba 2

En esta fase, se encontró que en todas las aulas, la retroalimentación más utilizada fue la

indirecta, en un 57% aproximadamente. El tipo de retroalimentación que también se utilizó fue la

RC mixta en el 17%, directa en el 11%, y ninguna RC en el 16% de los casos.


280

En cuanto a los grupos de tratamiento, en el aula A1, se observó que la RC preferida por los

pares, con porcentajes aproximados, fue: indirecta, 32%, directa, 15%, y mixta 9%. En el 9% de los

casos, no dieron RC; en el aula A2, fue: indirecta, 24%, y ninguna RC, 17%. El profesor, por su

parte, en el aula A1, utilizó solo dos tipos de RC: indirecta, 29% y mixta, 6%; mientras que en el

aula A2: indirecta, 29% y ninguna, 5%. Las RC utilizadas en la prueba 2, en los dos grupos de

evaluación. Fue la indirecta y mixta. Se observaron casos donde no se utilizó RC. Es probable que

los pares hayan decidido no ofrecer retroalimentación, o que las composiciones evaluadas, según

su criterio, no presentaron errores. Aun cuando un 17% de no RC, es un valor muy alto, si se

compara con el porcentaje del profesor. La ausencia de RC por parte del profesor pudo estar más

relacionada con esta última justificación, si se presta atención al bajo porcentaje de no RC

observado.

5.3.1.3. Prueba 3

En esta tercera fase, el único evaluador fue el profesor. La RC más utilizada fue la mixta, en

un 53% aproximadamente. El tipo de retroalimentación, que también se utilizó, mostrando valores

aproximados fue, RC indirecta, 38%, directa, 5% y ninguna RC, 4%.En cuanto al aula evaluada, se

observó que en el aula A1, la RC usada fue: indirecta, 47%, mixta, 38%, directa 6%, y no RC, 9%;

en el aula A2, fue: mixta, 64%, indirecta, 31%, y directa, 5%. Se observó que el profesor usó de

preferencia la RC indirecta en las aulas A1, y mixta, en las aulas A2.

5.3.1.4. Comparación entre las tres pruebas


281

La RC que se utilizó, sin importar los grupos de evaluación, fue en su orden: RC indirecta,

RC mixta en la mitad de los casos, y en menor proporción, la RC directa. Teniendo en los grupos

de evaluación A y B, y el nivel de aprendizaje, se encontró que la RC preferida por el grupo A, de

los pares en las aulas A1, fue la RC indirecta, seguida de la RC directa en la mitad de los casos, y

un porcentaje similar de RC mixta o no RC; en las aulas A2, los pares tuvieron la misma

preferencia, pero la relación entre el porcentaje de RC indirecta es cerca de 5 veces más la RC

directa. La no RC supera el porcentaje de la RC directa. Es probable que la ausencia de

retroalimentación en algunos casos, haya sido debido a que en las composiciones no se observaron

errores para corregir.

El grupo B, que corresponde a la evaluación del profesor, mostró que se utilizó en el mayor

número de casos la RC indirecta. En las aulas A1, esta RC fue casi tres veces más que la RC mixta,

que fue la segunda opción de corrección; mientras que en las aulas A2, la RC indirecta, fue cerca

de 2 veces más que la RC mixta. Es decir, que cuando el profesor optó por utilizar la RC mixta, lo

hizo de preferencia en más proporción en las aulas A2. La RC directa fue casi similar para las dos

aulas, aunque, en menor porcentaje para las aulas A2. La efectividad en la elección del tipo de

retroalimentación utilizada, en relación al nivel de aprendizaje, se mencionó en el estudio de

Delgado (2007).

Estos resultados son importantes si se tiene en cuenta que Weighong y Yuanxing (2009)

apuntó que la RC indirecta del profesor ayudó a los estudiantes a mejorar la auto-corrección;

mientras que Ferris (2010) encontró que los alumnos incorporaron en el 88% la RC directa y en el

77% la indirecta, y en últimas, según la investigadora, la RC indirecta fue la estrategia de


282

corrección más efectiva. Elshirbini (2013 a) reportó por su parte, mejoría del pre-test al post-test,

con el uso de la RC directa e indirecta en el grupo de tratamiento con M = 3.88 a 8.58, en

comparación con el grupo de control con M = 4.79 a 5.05. En este estudio se dio evidencia que

tanto los alumnos como el profesor, prefirieron dar RC indirecta a los escritores; esto pudo haber

ayudado a la incorporación de las correcciones desde el pre-test hasta el post-test, en las dos aulas,

y en el mejoramiento de la redacción hasta el final del estudio.

5.3.2. Análisis de las pruebas según los errores

En este apartado, se analizaron los resultados teniendo en cuenta la relación entre el número

de palabras de las composiciones, y la frecuencia de errores encontrados. Se consideraron las

frecuencias de error, antes y después de la edición de las composiciones. Se hicieron distinciones

entre las aulas A1 y A2.

5.3.2.1. Prueba 1

El rango de palabras escritas en las composiciones de la prueba 1, estuvo entre 63 y 95

palabras, con una media de 79; post-edición, entre 60 y 94, con una media de 77, es decir, bajó dos

puntos. En la fase inicial, la frecuencia de errores en todas las aulas (N = 76) tuvo una media de

25, con diferencias entre los 15 y 35 puntos en la pre-edición. Después de la re-escritura de las

composiciones en todas las aulas, la media en la frecuencia de errores fue de 21, con un rango de


283

frecuencias de error, entre 11 y 31; es decir, en comparación con los valores de pre-edición, la

media de la frecuencia de errores disminuyó 4 puntos.

En el aula A1, el rango de palabras pre-edición fue de 54 a 96, con una media de 75 palabras;

en la post-edición, de 53 a 93, con una media aproximada de 73 palabras; en el aula A2, se

escribieron entre 56 y 133 palabras, con una media aproximada, de 82 palabras; en la post-edición,

de 51 a 134, con una media de 80 palabras. Se observó que, luego de la re-escritura, el número de

palabras disminuyó en 2 palabras, en las composiciones de las dos aulas. En el aula A2, se

escribieron 7 palabras más en las redacciones, que en el aula A1.

Desde el aspecto analítico de los errores, por aula, en la pre-edición, teniendo en cuenta la

media en cada categoría, se encontró que las fallas más importantes, en el aula A1,

correspondieron a los errores de ortografía (O) y género (G). Los menos frecuentes fueron los

errores en las conjugaciones (C) y los artículos (A). En el aula A2, los errores más relevantes fueron,

en su orden, los de conjugaciones, ortografía y preposiciones (Pr). Los menos notorios fueron los

errores de puntuación (Pu) y sintaxis (S).

En la post-edición, el rango de palabras escritas fue de 42 a 149, con una media de 77 palabras

y una D.E = 17. Los errores más importantes en el aula A1, continúan siendo los errores

ortográficos. Los errores de género iniciales, parecieron mejorar. Hubo un aumento en los errores

de sujeto – verbo, de una media inicial de 0.97, a una secundaria de 1.12, que no fue significativa.

Los errores menos frecuentes fueron los de conjugaciones y sintaxis. Los demás errores, mostraron

reducciones luego de la re-escritura. Sin embargo, de las variaciones pre y post-edición, los


284

cambios que fueron estadísticamente significativos en el nivel A1, fueron, en su orden, en sintaxis,

conjugaciones, ortografía y género.

En el aula A2, los errores relevantes post-edición siguieron siendo las mismas categorías de

error iniciales, pero variaron en su orden: ortográficos, conjugaciones y preposiciones. Los errores

menos relevantes, fueron los errores de número, sujeto – verbo y sintaxis. En general, los errores

tendieron a disminuir, a excepción de los errores de ortografía. De hecho, los errores ortográficos

aumentaron en frecuencia, pero esta diferencia, no fue significativa. Los errores de puntuación,

aunque no fueron muy relevantes en la pre-edición, aumentaron en la post-edición. Las

variaciones en medias de error pre y post-edición que fueron significativas, correspondieron a las

categorías de conjugación, contenido, género y número.

En suma, en la prueba 1, comparando los dos niveles de aprendizaje, se observó que la

ortografía fue una de las categorías en la cuales los estudiantes tuvieron más desaciertos, a pesar

de realizar la revisión y edición de las composiciones; sin embargo, en el aula A1, se mostró

superación de errores ortográficos, que no se evidenció en el aula A2 donde estos errores

tendieron a aumentar aunque no significativamente; en la pre-edición, los estudiantes del aula A1

cometieron errores importantes en el género, que se superaron con la re-escritura; esto también

se evidenció en el aula A2, aunque esta categoría de error en estos grupos, no fue relevante antes

de la edición.

Algunos estudiantes del aula A1 fallaron en la sintaxis y en la conjugación, pero estos

desaciertos se superaron en forma significativa post-edición. Los errores de correspondencia entre


285

el sujeto y el verbo, aunque no fueron importantes, aumentaron después de la edición de las

composiciones, pero esto no fue estadísticamente significativo.

En las aulas A2, las fallas sucedieron en la puntuación, el contenido, el género, el número y

la sintaxis, pero luego de la reescritura, se observó: disminución en los errores de sintaxis;

aumento en los errores de puntuación; aunque en ninguno de los casos, fueron estadísticamente

significativos; y mejora significativa en los errores de género, número y contenido. Las faltas en

las conjugaciones, por su parte, se observaron antes y después de la reescritura en los dos grupos,

pero tendieron a mejorar significativamente.

5.3.2.2. Prueba 2

En la prueba 2, la media de número de palabras en todas las aulas fue de 72, con un mínimo

de 34 y un máximo de 129. La media disminuyó dos puntos luego de la post-edición, con un

mínimo de palabras de 28 y un máximo de 129. Las frecuencias de error mostraron una media

aproximada de 25, con una variación entre 14 y 36 para 76 composiciones; en la post-edición, la

frecuencia de errores disminuyó 4 puntos.

En el aula A1, con 34 estudiantes, el número de palabras promedio fue 74 pre-edición, con

un mínimo de 34 y 129, y 72 palabras post-edición, con un mínimo de 28 y máximo 129. En el aula

A2, con 42 estudiantes, el número de palabras promedio fue 71 pre-edición, con un mínimo de 43

y máximo de 117, y 69 palabras post-edición, con un mínimo de 43 y máximo de 117, D.E = 15. La


286

media bajó entonces en 2 puntos, en la re-escritura dentro de las dos aulas. Los estudiantes en el

aula A1 escribieron 3 palabras más en las composiciones que los alumnos del aula A2.

Los errores más notorios en la pre-edición en el aula A1, fueron los errores de ortografía,

contenido y número. Los menos frecuentes fueron los errores de pronombres, artículos y sintaxis.

Luego de re-escribir las composiciones, los errores de ortografía y contenido disminuyeron, pero

continuaron siendo más comunes que los restantes. Los menos frecuentes siguieron siendo los

errores de pronombres, artículos y sintaxis. En general, todos los errores mostraron una

disminución en la media, excepto los errores de pronombres, que permanecieron invariables.

Las categorías de error más importantes en el aula A2, fueron ortografía, conjugación y

preposición; las menos, fueron pronombre, sujeto–verbo y sintaxis. Después de la re-escritura, los

errores ortográficos y de conjugaciones, aunque disminuyeron, la media continuó siendo alta en

relación a las otras categorías de error (pronombres, sujeto – verbo y sintaxis). Sin embargo,

también hubo un incremento, aunque no significativo, en la media de errores de la categoría

sujeto–verbo.

Las diferencias en las medias de errores pre y post-edición, que mostraron una disminución

estadísticamente significativa, fueron en la categoría de número, en las aulas A1; y la conjugación,

artículos, preposiciones y ortografía, en las aulas A2. En las dos aulas, la ortografía fue la categoría

con mayor número de desaciertos en la pre-escritura y post-edición.


287

5.3.3.3. Prueba 3

En esta fase, el número de palabras promedio fue de 76, con un mínimo de 7 y máximo de

123, pre-edición; post-edición, el promedio fue 76, con un mínimo de 7 y máximo 123. Es decir, no

hubo variación en la media del número de palabras pre y post-edición. La frecuencia de errores

media aproximada en las 76 composiciones fue de 23 pre-edición (entre 12 y 34), y 15 post-edición

(entre 5 y 25). Las frecuencias de error entonces, disminuyeron luego de la re-escritura de las

composiciones en 8 puntos.

En el aula A1, el número de palabras promedio pre-edición fue de 75, con un mínimo de 7,

y un máximo de 115; post-edición disminuyó un punto, con un mínimo de 7 y máximo 113

palabras. En el aula A2, el número de palabras promedio pre-edición fue de 77, con un mínimo de

46 y máximo 123, y se mantuvo igual, luego de la re-escritura de las composiciones, con un mínimo

de 45 y máximo 123 errores.

En las aulas A1, la media de errores ortográficos y de contenido fue más alta que el resto de

categorías. Todos los errores disminuyeron luego de la edición, pero esa variación fue solo

significativa para los errores de contenido, preposiciones, pronombres, sintaxis y género. La

media de errores de ortografía continuó siendo más alta que el resto de errores.

En las aulas A2, la media de errores en conjugaciones, ortografía y preposiciones, fue más

alta que el resto de las categorías en la pre-edición. Hubo disminución de la media de errores


288

después de la re-escritura, pero fue estadísticamente significativa para los errores de género,

conjugación, sintaxis, pronombres, ortografía y contenido.

Los resultados en esta prueba, fueron diferentes a los hallazgos de Srichanyachon (2011)

con las clases avanzadas de ILE. En su estudio, el profesor encontró más errores en las estructuras

oracionales (24%) y en la puntuación (17%). En este estudio, por el contrario, los porcentajes de

error más altos registrados en las dos aulas, para esta última prueba, fueron: 24.87 % ortográficos,

17.48% conjugaciones, 10.32% género y 10.01% preposiciones; mientras que los porcentajes en las

estructuras oracionales, o sintaxis (6.01%) y puntuación (3.18%), no fueron tan altos.

En suma, los errores ortográficos fueron relevantes en ambas aulas; disminuyeron

significativamente los errores de género, sintaxis, preposiciones y pronombres en los dos niveles

de aprendizaje. Srichanyachon (2014) encontró que las categorías que representaron mayor

problema para los estudiantes, fueron la gramática (31.50%, la más difícil), seguida del

vocabulario (21.50%), la esquematización del ensayo (18.50%), la ortografía (16.30%) y la

puntuación (12.20%).

5.3.3.4. Comparación entre las pruebas

El número de palabras en todas las composiciones, pre-escritura, inició con 79 palabras,

disminuyó a 72 en la segunda fase, y aumentó a 76 al final del estudio. Luego de las re-ediciones,

la progresión fue de 77, 70 y 76; es decir, el promedio de palabras disminuyó dos puntos en la


289

reescritura de las dos primeras pruebas, pero se mantuvo igual, en la tercera. El comportamiento

del promedio de palabras, teniendo en cuenta el nivel de aprendizaje, mostró que los estudiantes

del nivel A1 con 75 palabras, escribieron 7 palabras menos en la primera composición, en

comparación con los estudiantes del nivel A2. Esta diferencia se mantuvo en la re-escritura.

Cuando se comparó la segunda prueba con la primera, se observó que las aulas A2, redujeron la

media de palabras en 11 puntos (71), y los estudiantes de nivel A1, en solo un punto (74). Los

alumnos A1, escribieron 3 palabras más que los alumnos de las aulas A2. En la fase tres, la media

de palabras del aula A1 subió un punto (a 75), y del aula A2, subió 6 puntos (a 77). En la re-

escritura de las tres composiciones, se observó que la media de palabras, con respecto a la media

inicial de pre-escritura, no varió en más de 2 puntos.

Comparando las frecuencias de error, en todas las aulas, en la progresión de las tres fases

del estudio, se observó que fueron disminuyendo paulatinamente; siguieron un orden de

disminución, a partir de 2 puntos, en la primera edición, 4 puntos, en la segunda, y 8 puntos en la

tercera. Sin embargo, hubo fluctuaciones en algunas categorías de error, de mejor a peor, aunque

de forma no significativa. En este sentido, se presenta evidencia que la afirmación de Ferris (2010)

es cierta en cuanto a que hay un gran porcentaje de errores que se corrigen en el tiempo (80%),

pero hay otros porcentajes de error (10%) que no se superan, y otros que se corrigen

incorrectamente (10%). Sin embargo, esta superación de errores en la tercera prueba, también

pudo haber estado influenciada por la retroalimentación del profesor, por ser más efectiva

(Srichanyachón, 2011) que la autocorrección o la corrección por pares.


290

Con respecto a las categorías de error, en las tres pruebas, se observó que los estudiantes

tuvieron mayores problemas con la ortografía. También la superación de los errores ortográficos

en las dos aulas, fue diferente; se superaron significativamente en el aula A1, pero no en el aula

A2, en la primera prueba. Ya en las pruebas sucesivas, los errores ortográficos no disminuyeron

significativamente en el aula A1, mientras que en el aula A2, sí. En general, en cada prueba, el

promedio de errores bajó post-reescritura. Sin embargo, se registró una tendencia de un

incremento, aunque no significativa, en los errores ortográficos, de sujeto-verbo y puntuación.

Zheng (2007) reportó que los errores de concordancias de género, número y sujeto-verbo, se

superaron al término de su estudio. Aquí se mostró que también los estudiantes mostraron

superación de errores en la tercera prueba, pero también se evidenció que durante el proceso,

hubo patrones de mejoría o retroceso, aunque no significativos. En el estudio de Lundstrom y

Baker (2009), las categorías que mostraron ganancias desde el pre-test al post-test fueron los

aspectos globales de la escritura: la organización, el desarrollo, la cohesión y la escritura.

Teniendo en cuenta la cantidad de categorías de error, en el aula A1, de las diez categorías

revisadas, cuatro tuvieron mejoría significativa en la prueba 1; pero este número se redujo, en la

prueba 2, a una solamente. En las aulas A2, por el contrario, se mantuvo en cuatro. Para la tercera

prueba, hubo un cambio importante, ya que el número de categorías mejoradas aumentó a 5, en

el aula A1, y a 7, en el aula A2.

El tipo de categorías que mostraron medias más altas de error, fue también diferente. Los

errores de ortografía y de contenido en el aula A1 fueron importantes en la segunda y tercera


291

prueba. Mientras que en el aula A2, los más característicos en las tres pruebas siempre fueron los

errores de ortografía, conjugaciones y preposiciones.

Estos hallazgos se pueden comparar con los resultados de Oscarson (2009) relativos al

número de errores más frecuentes en las aulas: gramaticales, de estructura y ortográficos; en

Zheng (2007) fueron los errores de concordancias, pero que se superaron al final del estudio; según

los resultados obtenidos aquí, se encontró que los estudiantes tuvieron más desaciertos con la

ortografía y con la gramática en general; sin embargo, aun cuando hubo errores en las estructuras

oracionales, éstos no fueron tan frecuentes como en Zheng (2007) y Oscarson (2009). En suma, se

observó que los estudiantes pudieron reconocer con la práctica, la mayoría de los errores

gramaticales, especialmente los estudiantes del nivel A2; por ello se observó la mejoría de varias

categorías de error post-escritura hacia la prueba 3. La ortografía, sin embargo, fue una de las

categorías de error que representó más dificultad para los estudiantes, y por tanto, su superación

tendió a fluctuar entre una prueba y otra; en el estudio de Zheng, se mostró que los errores en las

estructuras oracionales y las expresiones idiomáticas no tuvieron resultados favorables en relación

a la superación.

5.3.4. Análisis del Cuestionario 3

En cada fase del estudio, se encontró que en las respuestas, prevaleció una reacción positiva

a los comentarios y juicios, aceptación o acuerdo con los revisores; de hecho, en las aulas A1, el

porcentaje de acuerdo fue alrededor del 58% en la primera prueba, 74% en la segunda y 88% en la


292

tercera; mientras que en las aulas A2, se encontró el 80% en la primera prueba, 56% en la segunda

y 98% en la tercera; hubo un aumento en los desacuerdos de corrección en la segunda prueba para

este nivel. También se observó mejor aceptación, aptitud y confianza en las correcciones del

profesor, por ser el experto, como en Arumi (2009), Srichanyachon (2011); en contraste con otros

estudios como el de Zakian, et al. (2012).

Con respecto a los grupos de evaluadores, desde la perspectiva relativa a su influencia en el

mejoramiento de los errores post-edición, en este estudio no fue constante durante las fases del

tratamiento; mientras que en la primera fase su injerencia no fue significativa, para la segunda, el

antecedente de las correcciones hechas por los grupos evaluadores en la prueba 1 influyó en la

concienciación de los errores pasados (frecuencia de errores post-edición 1, de la primera prueba)

y en la reflexión sobre los errores actuales (frecuencia de errores pre-edición), para la tercera

prueba, solo la retroalimentación y la frecuencia de errores pre-edición, y no los grupos correctores

fueron factores importantes para el mejoramiento de la última composición al final del estudio.

Por otra parte, teniendo en cuenta las respuestas recibidas en el cuestionario en el aula A1,

la mayoría de los estudiantes contestaron afirmativamente la pregunta 3; esto indicó que los

alumnos en general reconocieron sus errores luego de recibir la primera retroalimentación; en el

caso de los alumnos A2 esta pregunta también tuvo la mayoría de respuestas positivas, en

comparación con las otras tres. Adicionalmente, el análisis sobre los resultados acerca del

reconocimiento de los errores en la primera fase, se encontró que en el aula A1 fue del 79%, con

un decrecimiento al 68% en la segunda fase, hasta llegar al 91% en la tercera.


293

En el aula A2, por su parte, el 91% dijeron haber reconocido sus errores en la primera fase,

pero este porcentaje disminuyó a 69% en la segunda, y nuevamente repuntó a 95% en la tercera

fase; las diferencias porcentuales entre las aulas no fueron significativas.

En el estudio de Santos et al (2010) se afirmó que los estudiantes habían observado el 100%

de las reformulaciones y correcciones sugeridas, pero solo incorporaron aproximadamente el 64%

de las primeras y un 83% de las segundas; en Ting y Quian (2010), solo se usó el 86% de la

retroalimentación recibida; esto sugiere que observar las reformulaciones y las correcciones no es

suficiente para que los estudiantes incorporen el total de la retroalimentación en las re-ediciones.

En este estudio se mostró que la efectividad de la retroalimentación tiene como variable

importante el reconocimiento de los errores (Re); aunque no es un factor constante. De hecho,

desde la primera retroalimentación se encontró evidencia que los estudiantes en las aulas A1,

fueron más consistentes en el Re que las aulas A2; las aulas A1 mostraron una disminución en el

Re 2, pero no fue significativo; para la tercera fase, este cambio fue significativo, y el

reconocimiento de errores aumentó; en las aulas A2, por el contrario, hubo una disminución

significativa en el Re 2, que mejoró hacia la tercera prueba, pero este incremento no fue

significativo al comparar Re 1 y Re 2. Esto se correlaciona con el resultado sobre los errores pre y

post-edición con la prueba de medidas repetidas; aun cuando los errores de pre-edición no

cambiaron con el tiempo, el incremento en el reconocimiento de los errores muestra que fue

importante en los resultados post-edición; la disminución gradual de los errores fue significativa,

lo cual permite afirmar que se logró una superación de errores substancial al final del estudio.


294

Con respecto al tipo de errores que los estudiantes comentaron en sus respuestas, se

encontró que mayormente fueron los errores gramaticales (Servetti, 2010) y ortográficos; también

mencionaron algunos errores globales como el contenido, la traducción, la organización y

puntuación. Estos resultados permiten afirmar que los estudiantes mostraron concienciación de

los errores locales de las composiciones, como las fallas en la gramática (Oscarson, 2009), y más

aún, en otras categorías de error, como la ortografía. Cuando se analizaron las respuestas de forma

cualitativa, también se mencionan dentro de los comentarios de los estudiantes, la organización

de la composición, detalles y caligrafía.

Después de la lectura de los comentarios que hicieron los estudiantes sobre los puntajes y

las correcciones recibidas, se observó que los alumnos consideraron que sus revisores eran tan

inexpertos y tan poco conocedores de la lengua como ellos, en comparación con el profesor;

Algunos alumnos pusieron en duda la precisión de otros para calificar las composiciones, ya que

en algunos casos respondieron que los revisores los calificaron duramente.

Desde el punto de vista de las respuestas en desacuerdo a las correcciones, con la revisión

de los comentarios hechos por los estudiantes, se pudo determinar que estas objeciones se

centraron en algunos aspectos específicos de la lengua, como: la gramática (111, 116, 204), la

ortografía (117, 204), la caligrafía (116, 308) y el contenido (126).

Otras discusiones surgieron en torno a la calificación recibida, por ser menor, o

sorpresivamente, por ser más alta de lo esperado; asimismo, la retroalimentación poco detallada

o vaga, y la ausencia de correcciones fueron otros temas de desacuerdo con los revisores.


295

Uno de los factores que pudo haber influido en la respuesta a la retroalimentación pudo ser

la cortesía. Sin embargo, como esta variable no se tomó en consideración al comienzo del estudio,

no se planeó la forma de medirla para determina sus implicaciones reales durante las interacciones

entre los pares, o entre los escritores y revisores; como tampoco en su influencia en la aceptación

o rechazo de la retroalimentación durante la re-edición de las composiciones. Se sabe que fue un

factor presente cuando se hizo el seguimiento de los comentarios de los revisores y la respuesta a

la retroalimentación de los alumnos.

Mientras que Diab (2010) y Wang (2014) observaron que los alumnos se cuidaron de no

ofender, dañar la armonía o amistad entre los compañeros, cuando retroalimentaban y hacían

comentarios, en el presente estudio, se detectaron patrones de descortesía por parte de algunos

revisores. Se cree que esto sucedió, ya que los pares tenían la seguridad de estar revisando

composiciones de alumnos que no pertenecían a su mismo grupo de clase; esto pudo dar vía libre

para que algunos estudiantes escribieran comentarios fuertes y desagradables. Cabe aclarar

también que en Wang, los estudiantes evaluadores se encontraban en la misma sala de clase, y por

lo tanto, las revisiones no se hicieron de forma anónima.

Afortunadamente en su mayoría, los comentarios y la retroalimentación de los revisores

tuvieron un tono alentador para los escritores (Wingate, 2010); esto se reflejó en el gran número

de respuestas donde hay evidencia que los escritores se motivaron a reflexionar, a fijarse en sus

debilidades y fortalezas, a establecerse metas y acciones para aprender más, y a tomar mayor

responsabilidad en lo que escriben (Wingate, 2010, Tamjid y Birjandi, 2012; Zakian, et al, 2012).

El baremo como estrategia metacognitiva para la autoevaluación Capítulo 6. Conclusiones

296

Capítulo 6

Conclusiones


297

Capítulo 6. CONCLUSIONES

La valoración del aprendizaje en las aulas E/LE se ha venido forjando con los nuevos

conceptos de la educación formativa y en el caso en particular, está abriéndose paso, aunque de

forma lenta, en las instituciones públicas de secundaria en Texas.

Con la investigación realizada se satisfizo la necesidad de descubrir y revisar los efectos del

uso del baremo en los procesos de autoevaluación y la retroalimentación en las aulas de

secundaria E/LE. Se aplicaron los conceptos formativos actuales de evaluación-aprendizaje (Boud

y Falchicov, 2007; Dolchy et al, 2007), aplicando la instrucción con base en la relación estrecha

entre la tarea-evaluación, donde los estudiantes se convierten en aprendientes activos

responsables de la regulación de sus conocimientos y estrategias para aprender a aprender,

siguiendo criterios y estándares pre-establecidos.

El baremo mixto fue de gran utilidad en las aulas L2 participantes en este estudio, ya que

su uso estimuló procesos de metacognición en los estudiantes; de forma individual para fomentar

la habilidad de reconocer lo que ya se había aprendido y lo que faltaba por aprender, así como

para reflexionar y auto-motivarse a planear para mejorar el aprendizaje o las destrezas; de forma

grupal, o específicamente por pares para valorar el desempeño de otros y ofrecer

retroalimentación.

La autoevaluación de pre-escritura mostró que los estudiantes poseen ciertas herramientas

para reconocer subjetivamente su nivel de dominio de la lengua, independientemente del nivel


298

de aprendizaje en el que se encuentran; también son capaces de expresar y tener conciencia de sus

progresos, luego del post-test.

El proceso de autoevaluación preliminar antes de involucrar a los estudiantes en las tareas

de redacción fue prácticamente similar en ambas aulas; sin embargo, hubo tendencia de los

alumnos en el nivel A1 a subestimar sus escritos, especialmente cuando eran de excelente calidad;

los pares por su parte, también tendieron a subestimar y calificaron más drásticamente a sus

compañeros.

En las aulas A2 los puntajes de AE fueron más bajos que los del investigador en las

composiciones buenas y excelentes; los pares subestimaron nuevamente algunas de las

composiciones de los compañeros. Para la fase dos, la subestimación de puntajes por AE en las

aulas A1 persistió, pero principalmente en las pruebas de buena calidad. Los pares esta vez,

sobreestimaron las pruebas excelentes.

En las aulas A2, los puntajes de AE fueron más altos principalmente las de calidad excelente.

Los pares también dieron puntajes más altos a las composiciones, especialmente a las de buena

calidad. Para la fase tres, los autoevaluadores subestimaron sus composiciones excelentes en las

aulas A1, mientras que en las aulas A2, los puntajes fueron muy similares.

En suma, tanto las autoevaluaciones como las evaluaciones por pares tendieron a ser más

bajas que los puntajes del profesor, cuando se evaluaron las composiciones de calidad excelente

en las dos aulas durante la primera fase; mientras que en la prueba 2 se observó sobrestimación


299

de las composiciones; ya en la culminación del estudio en las aulas A1 los puntajes de

autoevaluación fueron más bajos que los del profesor, en tanto que en las aulas A2, los puntajes

fueron parecidos entre los dos evaluadores. Las fluctuaciones se identificaron mayormente en los

rangos de calidad buena y excelente. La contigüidad de puntajes y por el hecho de ser en

intervalos, pudieron influir en la variación en las puntuaciones evidenciadas en el estudio. Las

aulas A2, mostraron un mejor desempeño de autoevaluación en la tercera fase que los estudiantes

de las aulas A1. Se puede afirmar también que es probable que resulte más fácil para los

estudiantes reconocer las redacciones malas y sea más complicado discernir entre un escrito bueno

o excelente.

En síntesis, se evidenció que las evaluaciones individuales y por pares operan de distinta

manera, tendiendo estas últimas a ser más exigentes o duras que las primeras; pero en general,

con la primera experiencia, los estudiantes tendieron a subestimar sus composiciones, pero ya en

la siguiente fase pasaron a sobreestimar principalmente las composiciones buenas. Los

estudiantes del nivel A2, se acercaron más a los puntajes del profesor en la tercera prueba.

Con respecto al desempeño general, los estudiantes escritores de E/LE del presente estudio

mostraron progresos globales en las destrezas para la escritura en L2, que se midieron en relación

al análisis de la superación de los errores tras la re-escritura de las composiciones; durante las tres

fases del estudio se observaron cambios hacia el aumento o disminución de los errores en

determinadas categorías, como los errores gramaticales de concordancias sujeto-verbo y los

errores ortográficos; esto se asoció en parte al nivel de aprendizaje de los estudiantes.


300

La frecuencia y las categorías de error en las que incurrieron los estudiantes, pudieron ser

específicas al tipo de tarea de redacción esperada de los estudiantes. Es probable que cada una de

las tres pautas de escritura fuera tan diferente y concreta, que una u otra pudo haber favorecido a

aquellos estudiantes que tenían un mejor dominio de los contenidos de vocabulario (Wang, 2014)

y de los marcadores gramaticales del tema o capítulo en particular.

Con respecto a los factores presentes en el proceso de autoevaluación inicial de los

estudiantes, se puede decir que el género y la frecuencia de errores pre-edición fueron factores

influyentes; la variable de género tuvo injerencia en los puntajes de AE causando que éstos fueran

más altos que el puntaje del profesor en las estudiantes mujeres que en los hombres para las dos

primeras pruebas; ya en la tercera prueba, los puntajes entre hombres y mujeres no tuvieron

diferencias significativas, por lo cual, la variable de género perdió su influencia en la

autoevaluación, mostrando que al término del tratamiento, los adolescentes en general,

obtuvieron puntajes de AE similares entre los grupos.

En la segunda fase, las variables que influyeron en el proceso de autoevaluación fueron: el

género, la frecuencia de errores post-edición 1, el reconocimiento de errores 1, la frecuencia de

errores pre-edición 2; la interacción entre los grupos de evaluación 1 y el nivel de aprendizaje fue

interviniente; esto muestra que los procesos de evaluación, con el tiempo reciben influencias de

forma multifactorial que tienen que ver con los agentes evaluadores y la retroalimentación que

ofrecen, la respuesta a los comentarios de los revisores, la previa experiencia de redacción y re-

escritura de la composición anterior y la revisión de los errores en la composición actual.


301

En la tercera prueba, ni el nivel de aprendizaje ni el género fueron influyentes en las

diferencias entre los puntajes de autoevaluación y del profesor; el puntaje holístico de AE no

recibió influencia del reconocimiento de los errores en la prueba anterior, en tanto que la

simultaneidad de las variables: los grupos de evaluación 2 y la frecuencia de errores post-edición

2, el nivel de aprendizaje y la frecuencia de errores pre-edición 3; fueron co-dependientes al factor

de autoevaluación. Estas variables tienen que ver con la habilidad y conocimiento del estudiante

para poder procesar la retroalimentación recibida e incorporarla en la reedición de la composición.

Con el estudio, se mostró que el nivel de aprendizaje por sí mismo no ejerce influencia en

las diferencias entre los puntajes de AE con los del evaluador, sin embargo, sí influye en el puntaje

de AE, cuando el alumno realiza el procesamiento del input ofrecido por los revisores y las

correcciones de los errores en la edición de las composiciones. Por su parte, los puntajes del

profesor, tuvieron como variables intervinientes, el nivel de aprendizaje de los estudiantes y la

frecuencia de errores de pre-edición.

La frecuencia de errores post-edición, fue determinada por la frecuencia de errores pre-

edición y el reconocimiento de los errores pre-edición en la prueba 1; en tanto que en la prueba 2,

la retroalimentación se agregó como variable independiente, específicamente la RC directa, y los

grupos de evaluación 2. La RC directa, fue otorgada principalmente por los pares, en ambas aulas.

La efectividad de la retroalimentación directa se debe principalmente a que es más sencillo para

los estudiantes incorporar la retroalimentación directa en las re-ediciones, que otro tipo de

retroalimentación. Esto no implica necesariamente que los estudiantes hayan reconocido los


302

errores; pudo ser que sólo los reemplazaron con las correcciones sugeridas, con ello mejorando la

frecuencia de errores post-edición.

Sin embargo, dado que en la prueba 2, el reconocimiento de los errores fue una de las

variables influyentes en los puntajes de AE, se puede inferir que la respuesta a la retroalimentación

en la primera prueba, impactó en el mejoramiento de los errores post-edición para la segunda

prueba. Es decir, los estudiantes procesaron la retroalimentación recibida y en consecuencia,

lograron la superación de los errores. En la prueba 3, la retroalimentación indirecta y la frecuencia

de errores pre-edición, influyeron en la frecuencia de errores post-edición.

Con respecto a la utilización de la retroalimentación, la más utilizada fue la RC indirecta

independientemente del nivel de aprendizaje de los estudiantes, y del agente corrector; sin

embargo, desglosando los resultados por niveles, en las aulas A2, se mostró un porcentaje mayor

en la utilización de la RC indirecta por los pares; el profesor, por su parte optó por la utilización

de la RC indirecta en ambos grupos, pero la implementación de la RC mixta fue mayor para los

alumnos del nivel A2. Esto puede indicar que el profesor dio corrección directa a elementos

gramaticales más complejos e indirecta a los más fácilmente reconocibles por los estudiantes.

De acuerdo a los hallazgos estadísticos, se deduce que hay cuatro aspectos importantes que

se deben tener presente con respecto a la efectividad de la retroalimentación: la aceptación de las

sugerencias y correcciones de los revisores, la técnica de retroalimentación usada, el

reconocimiento de los errores previos y actuales, y la influencia, aunque no constante, de los

agentes evaluadores durante las etapas de re-escritura.


303

En relación a los errores, se observó que fueron disminuyendo con el tiempo, pero se

remarca que la superación de los errores no es total; el término de superación en este caso, implica

la mejoría en la frecuencia de los errores según su categoría. Adicionalmente, se descubrió que

esta superación presentó fluctuaciones, de mejoría a retroceso, pero que resultaron ser no

significativos hacia el final del estudio. El panorama general del proceso final, mostró que en

realidad las frecuencias de error disminuyeron, pero no hasta el punto de desaparecer en el papel.

El proceso de superación de los errores debe por lo tanto tener en consideración que, aunque

puede haber retrocesos en algunas categorías de error, éstos no son significativos y que persiste

un mejoramiento continuo en las otras categorías, a través del tiempo y las oportunidades de

escritura y re-edición que tengan los estudiantes en el aula. Es importante para el docente tener

en claro lo anterior, a fin de diferenciar entre la recurrencia del error y la fluctuación natural de

algunos errores en el tiempo. El hecho que parezca que un determinado error persista en las

reediciones, no necesariamente implica recurrencia al error. La gran diferencia radica en cuán

significativa es la frecuencia del error, estadísticamente hablando.

Otra perspectiva observada en el estudio, tuvo que ver con la correlación de los puntajes

entre los evaluadores; según la prueba y con base en los puntajes holísticos, se observó mayor

coincidencia de las autoevaluaciones con las evaluaciones del profesor en la primera prueba; sin

embargo, para la segunda, las calificaciones fueron similares entre los tres evaluadores, aunque

los pares se sobreestimaron en tres puntos; mientras que en la fase 3, los autoevaluadores

sobrecalificaron en un punto. La progresión de la calidad de las composiciones decayó

ligeramente en la segunda prueba, pero repuntó con tres puntos más en la tercera. A pesar que las


304

calificaciones holísticas sufrieron fluctuaciones de una prueba a otra, se mostró que el tratamiento

ayudó en el perfeccionamiento gradual de las composiciones de los estudiantes.

En cuanto a la correlación de los puntajes, se observó una relación de tendencia positiva

entre los puntajes de los alumnos (autoevaluadores y pares) y las puntuaciones del profesor, pero

los índices de correlación no alcanzaron los valores aceptables. Esto muestra que el proceso para

lograr mejorar la correlación entre los evaluadores pares, los autoevaluadores y el profesor,

probablemente requiera un mayor entrenamiento en la toma de decisiones con respecto a los

criterios que se evalúan con el baremo.

Sorpresivamente, la utilización del cuestionario 3, resultó ser un instrumento también muy

importante en la reflexión metacognitiva de los estudiantes; mientras el cuestionario 1 introdujo

a los estudiantes en el proceso de autoevaluación, el baremo por su parte, permitió que los

alumnos hicieran el monitoreo de sus habilidades y desempeños en cada prueba; el cuestionario

3, congregó tanto los aspectos evaluativos de las composiciones, con el desempeño y el

procesamiento de la retroalimentación para cada prueba.

Adicionalmente, se encontró que este instrumento fue importante para los receptores de la

retroalimentación, a quienes se les dio voz para aceptar, discutir, reafirmar o comentar sobre las

evaluaciones, las correcciones, la retroalimentación, los puntajes; en general, acerca de los factores

que estuvieron en juego durante las redacciones, puntuaciones, manejo de criterios,

retroalimentación y ediciones; el uso de plantillas de respuesta extendida durante la

retroalimentación ayudan al progreso en el pre y post-test, por cuanto los estudiantes hacen


305

concienciación acerca de la influencia positiva de la retroalimentación recibida (Gielen et al., 2010);

de hecho, las respuestas obtenidas de los escritores dieron evidencia que los estudiantes, como

resultado de la cumplimentación del cuestionario y del análisis de las recomendaciones y

sugerencias de los evaluadores, se motivaron a reflexionar sobre sus capacidades de escritura,

fortalezas y debilidades, y lo que es mejor, a plantearse metas futuras para perfeccionar las

estrategias y progresar en la concienciación y la búsqueda de la obtención de un desempeño más

óptimo para la escritura de futuras redacciones.

Consecuencias didácticas

El proceso de evaluación de las producciones compositivas de los alumnos en las aulas de

E/LE, debe involucrar el entrenamiento de los estudiantes en la utilización de instrumentos de

evaluación como es el baremo. Los profesores que recién implementan estas herramientas de

evaluación en las aulas, deben empezar con la preparación de los aprendientes comenzando con

la elaboración de las escalas y los descriptores en colaboración con los estudiantes. Este es el paso

inicial donde se enseña a los alumnos a aprender a analizar y comprender los elementos

importantes a tener en cuenta en la valoración de la habilidad escritora. Como se evidenció en este

estudio, sin embargo, desde la primera partida ya existe en los estudiantes cierta destreza para

reconocer si su desempeño en la lengua es suficiente si pueden compararla con determinados

parámetros según su nivel de aprendizaje.


306

Los procesos de evaluación como su nombre lo indica, llevan tiempo para aprenderse y

mejorarse; los profesores de lengua deben ser pacientes pero también diligentes en la

implementación de las tareas evaluativas, ya que de acuerdo al estudio aquí realizado, los

estudiantes mostraron evidencia de un mejoramiento gradual en las habilidades de

autoevaluación. Se resalta principalmente que es de capital importancia enseñar a los estudiantes

que las evaluaciones deben regirse por criterios, y que existen parámetros de desempeño, altos,

medios o bajos, y que de acuerdo a ellos, es posible compararse para determinar el estado de

desempeño mostrado en determinada tarea compositiva.

El uso de baremos que posean una presentación clara y comprensible de los descriptores

para los estudiantes, es uno de los pasos iniciales cuando se quiere implementar la autoevaluación

y evaluación por pares en el aula de lenguas extranjeras. Los profesores de lengua deben tener

presente que durante el proceso de aprendizaje, los estudiantes escritores de E/LE van a mostrar

progresos globales en la superación de los errores, aun cuando se observen cambios positivos o

negativos en algunas categorías de error específicas, que dependen también del nivel de

aprendizaje de los estudiantes. De acuerdo a este estudio, las categorías que pueden mostrar este

tipo de fluctuaciones son los errores de concordancias sujeto-verbo y los errores orográficos. Cabe

indicar que la frecuencia y las categorías de error en las que pueden incurrir los estudiantes,

puedan ser también específicas al tipo de tarea de redacción esperada de los estudiantes.

Igualmente hay que recordar, que el tipo de baremo también influye en el índice de consenso

que se logra entre los evaluadores. Se sabe que las escalas holísticas facilitan la correlación entre

evaluadores, pero cuando se trata de escalas mixtas, se ha visto, en este caso, que hay evidencia


307

de una relación positiva entre los puntajes de los evaluadores, pero se alcanza un índice de

correlación medio, pero no aceptable según los parámetros estadísticos. Por otro lado, ¿qué tan

importante puede ser en el aula, la correlación entre los puntajes del profesor y los alumnos,

principalmente en las aulas de niveles A1 y A2? Es más importante aprender a evaluarse y evaluar

a otros, de manera efectiva y más objetiva posible, sin la necesidad de coincidir al cien por cien

con los puntajes de los otros evaluadores. A estos niveles de lengua, las aproximaciones son tan

válidas como iguales de enriquecedoras para los estudiantes quienes se encuentran en el proceso

de aprender a autoevaluarse y a evaluar a sus iguales.

A medida que los alumnos practican y se involucran más en la evaluación, con el tiempo

aprenden y se hacen más conscientes de sus errores; esto permite que editen, de forma más

efectiva sus composiciones, además de aprender estrategias para evaluarse y evaluar a otros. La

utilización del cuestionario 3, que evaluaba las respuestas del estudiante a la retroalimentación,

resultó ser un instrumento de reflexión metacognitiva importante, que llamó a los estudiantes a

reflexionar sobre los comentarios y la retroalimentación de sus evaluadores; el acto de analizar las

preguntas y responderlas pudo haber ayudado a los estudiantes a estar claros en cuanto a su

desempeño en cada prueba; afirmar estar de acuerdo, o debatir los puntajes, las correcciones o los

comentarios de otros, evidenciaron los conocimientos de la lengua y de la habilidad escritora de

los alumnos. En general, se observó que fue importante para los estudiantes recibir input de sus

correctores, que el no haberlo recibido.

La respuesta a la retroalimentación incluye un factor adicional a los mecanismos de

evaluación que corresponde a la cortesía; en qué medida los comentarios corteses o no de los


308

revisores afectaron la aceptación o procesamiento del input, no se tuvo en claro dentro del estudio;

queda para futuras investigaciones determinar el grado de impacto o implicación que pueda tener

la cortesía en las relaciones escritor-revisor durante los procesos de respuesta a la

retroalimentación.

Con esta actividad se mostró que los estudiantes reflexionan sobre la retroalimentación y

corrigen en su mayoría los errores cometidos en las redacciones; con ella se promueve la

autoevaluación con el uso de criterios, que en este caso, estaban establecidos en un baremo mixto;

esto permite que el estudiante se involucre en la evaluación de sí mismo y de otros, adquiera

mayor confianza en las deliberaciones para retroalimentar adecuadamente; asimismo, para

reflexionar sobre el propio desempeño, a regular su aprendizaje, a debatir resultados o

comentarios de sus pares revisores..

Por último, dentro de las limitaciones del estudio se determinó que estos resultados aplican

solo a los estudiantes involucrados en este estudio en las aulas mencionadas; no se tuvo en

consideración el factor de cortesía al comienzo del estudio, por lo tanto sus implicaciones en la

dinámica entre los pares durante las evaluaciones o en el proceso de respuesta a la

retroalimentación no se pudo controlar o medir.


309

310

Referencias bibliográficas

Acevedo, D. (2013). La negociación de baremos para la evaluación colaborativa: un estudio de

casos con alumnos norteamericanos de escuela secundaria [en línea]. Revista Nebrija de

Lingüística Aplicada. Recuperado de: http://www.nebrija.com/revista-linguistica/la-

negociacion-de-baremos-para-la-evaluacion-colaborativa

ACTFL. (1998). Performance Guidelines for K-12 Learners. En The American Council on the Teaching

of Foreing Languages [en línea]. Yonkers, New York. Recuperado de:

http://files.eric.ed.gov/fulltext/ED426593.pdf

ACTFL. (2012). Performance descriptors for language learners [en línea]. The American Council on

the Teaching of Foreign Languages Alexandria, Virginia. Recuperado de:

http://www.actfl.org/sites/default/files/pdfs/PerformanceDescriptorsLanguajeLearner

s.pdf

Aljaafreh, A. (1994). Negative Feedback as Regulation and Second Language Learning in the Zone

of Proximal Development. The Modern Language Journal, 78, pp. 465-483.

Allal, L. (1985). Strategies d’Évaluation Formative: Conceptions Psychopédagogiques et Modalités

d’Application. L’évaluation Formative dans un Enseigment Differencié. Berna: Peter Lang,

pp. 130-145.

Allal, L. & Pelgrims, G. (2000). Assessment of- or in- the zone of proximal development. Learning

and instruction, 10 (2), pp. 137-152.

Alte, (2002). The ALTE Can Do Project (1992-2002) [en línea]. Versión inglesa. Recuperado de:

http://www.alte.org/attachments/files/alte_cando.pdf

311

Alzate, G. & Peña, L. (2009). La tutoría entre iguales: una modalidad para el desarrollo de la

escritura en la educación superior. Universitas Phychologica, 9 (1), pp. 123-138.

Andrade, H.G. (2000). Using rubrics to promote thinking and learning. Educational Leadership, 57

(5), pp. 13-18.

Andrade, H.G. (2005). Teaching with rubrics: the good, the bad and the ugly. College Teaching, 53

(1), pp. 27-31.

Andrade, H. (2007). Self-assessment through rubrics. Informative Assessement, 65 (4), pp. 1-4.

Andrade, H. & Du, Y. (2007). Student responses to criteria-referenced self-assessment. Assessment

and Evaluation in Higher Education, 32 (2), pp. 159-181.

Andrade, H., Wang, X., Du, Y & Akawi, R. (2009). Rubric-reference self-assessment and self-

efficacy for writing. The Journal of Educational Research, 102 (4), pp. 287-302.

Armstrong, S. & Paulson, E. (2008). Wither Peer Review? Terminology Matters for the Writing

Classroom. Teaching English in the Two Year College, 35 (4), pp. 398-407.

Arter, J. (2000). Rubrics, Scoring Guides, and Performance Criteria: Classroom Tools for Assessing

and Improving Student Learning [en línea]. Annual meeting of the American educational

research association. Recuperado de: http://files.eric.ed.gov/fulltxt/ED446100.pdf

Arumi, M. (2009). Estudio de las percepciones de los estudiantes de lenguas extranjeras sobre el

uso de instrumentos de autorregulación. RESLA, (22), pp. 35-58.

Bandura, A. (1989). Social cognitive theory. Six theories of child development [en línea]. Annals of

Child Development, 6. Recuperado de:

http://www.uky.edu/~eushe2/Bandura/Bandura1989ACD.pdf

312

Bandura, A. (1994). Self-efficacy. En V.S Ramachaudran Ed. Encyclopedia of human behavior (4), pp.

71-81. New York: Academic Press.

Bandura, A. (1997). Self-efficacy: The exercise of control. New York: W. H. Freeman and Company.

Barkaoui, K. (2007). Rating Scale Impact on EFL Essay Marking: A Mixed-Methhod Study.

Assessing Writing, 12, pp. 86-107.

Barkaoui, K. (2010a). Explaining ESL essay holistic scores: A multilevel modeling approach.

Language Testing, 27 (4), pp. 515-535.

Barkaoui, K. (2010b). Variability in ESL essay rating processes: the role of the rating scale and rater

experience. Language Assessment Quarterly, 7 (1), pp. 54-74.

Becker, A. (2010). Examining Rubrics Used to Measure Writing Performance in U.S Intensive

English Programs. The Catesol Journal, 22 (1), pp. 113-130.

Berridge, 2009. Peer Interacting and Writing Development in a Social Studies High School

Classroom. California: University of California, pp.1-42.

Bitchener, J., Young, S. & Cameron, D. (2005). The Effect of Different Types of Corrective Feedback

on ESL Student Writing: Journal of Second Language Writing, 14, pp. 191-205.

Bondaruk, J., Child, J. & Tetrault, E. (1975). Contextual Testing [en línea]. Testing language

proficiency. Recuperado de: http://files.eric.ed.gov/fulltext/ED107161.pdf

Boud, D. (2001). Making the move to peer learning. Peer learning in higher education: Learning from &

with each other. Londres: Psychology Press.

Boud, D. & Falchilkov, K. (2007). Developing assessment for informing judgement. Rethinking

Assessment in Higher Education. Nueva York: Routledge, pp. 181-197.

Chapman, V., & Inman, D., 2009. A conundrum: Rubrics or creativity/metacognitive

development? Educational Horizons, Spring 87 (3), pp.198-202.

313

Chen, Y. (2009). The Effects of Peer and Teacher Feedback on College EFL Student Writing. Taiwan:

National Pingtung Institute of Commerce.

Clark, I. & Bamberg, B. (2003). Concepts in composition. Theory and practice in the teaching of writing.

Laurence Erlbaum Associates. Mahwah, New Jersey.

Clark, J. 1975. Theoretical and technical considerations in oral proficiency testing [en línea]. Testing

Language Proficiency. Recuperado de: http://files.eric.ed.gov/fulltext/ED107161.pdf

Collins, A., Brown J.S, & Holum, A. (1991). Cognitive apprenticeship: making thinking visible [en

línea]. American Educator. Versión re-impresa. Recuperado de:

http://elc.fhda.edu/transform/resources/collins_brown_holum_1991.pdf

Cooper, B. & Gagan, A. (2009). Rubrics in education, old term new meaning [en línea]. Phi, Delta,

Kappan International, 91(1) pp. 54-55. Recuperado de:

http://ci443gallagher.wikispaces.com/file/view/Rubrics+1.pdf

Costa, A. (1994). Mediating the metacognitive. Educational Lidership [en línea]. Noviembre.

Recuperado de: http://www.ascd.org/ASCD/pdf/journals/ed_lead/el_198411_costa.pdf

Cuq, J.P. (2007). La problématique de l’évaluation en didactique des langues [en línea]. Journées

de réflexion. L’évaluation du français, Marzo. Recuperado de: http://cfcc-eg-

org/IMG/pdf/Conference_JP_Cuq.pdf

CVC, (2002). Marco común europeo de referencia para las lenguas: aprendizaje, enseñanza y

evaluación [en línea]. Centro Virtual Cervantes. Disponible en:

http://cvc.cervantes.es/enseñanza/biblioteca_ele/marco/cvc_mer.pdf

Danli, L. (2008). Scaffolding and Its Impact on Learning Grammatical Forms in Terciary Chinese EFL

Classrooms. Hong Kong: HKBU.

314

Darus, S. (2006). Identifying Dimensions and Attributes of Writing Proficiency: Development a

Framework of a Computer-Based Essay Marking System for Malasian ESL Learners. Internet

journal of e-language learning and teaching, 3 (1), pp. 1-25.

De la Fuente, J., Justicia, F., Martínez, J., F. Perálta & M. Sánchez, (2003). La evaluación interactiva

como estrategia reguladora del proceso enseñanza-aprendizaje [en línea]. Revista gallego-

portuguesa de psicología e educación, 8(10) pp. 7. Recuperado de:

http://ruc.udc.es/dspace/bitstream/2183/6962/1/RGP_10-35.pdf

Delmastro, A. & Salazar, L. (2008). El andamiaje instruccional como activador de procesos

metacognitivos durante el aprendizaje de lenguas extranjeras. Entre Lenguas, 13 Ene-Dic.

Delmastro, A. (2010). El andamiaje metacognitivo en contextos de aprendizaje de una lengua

extranjera. Didáctica, Lengua y Literatura, 22, pp. 93-194.

Diab, N. (2010). Effects of Peer- versus Self–editing on Students’ Revision of Language Errors in

Revised Drafts. System, 38, pp. 85-95

Diederich, P. (1974). Measuring growth in English. National Council of Teachers of English [en

línea]. Recuperado de: http://files.eric.ed.gov/fulltext/ED097702.pdf

Dolchy, F. (2001). A new assessment era: different needs, new challenges. Research Dialogue in

Learning and Instruction, 2, pp. 11-20.

Dörnyei, Z. (2014). The psychology of the language learner: individual differences in second

language acquisition. Recuperado de: http://reader.eblib.com

Early, J. & Saidy, C. (2013). A study of a multiple component feedback approach to substantive

revision for secondary ELL and multilingual writers. Reading and Writing, 27 (6), pp. 995-

1014.

315

Ecclestone, K. (2007). Learning assessment. Rethinking Assessment in Higher Education. Nueva York:

Routledge.

Eguiluz y de Vega, (2009). Criterios para la evaluación de la producción escrita [en línea].

Marcoele. Revista Didáctica de Español como Lengua Extranjera, (9). Recuperado de:

http://marcoele.com/descargas/expolingua1996_eguiluz-vega.pdf

Ekbatani, G. (2000). Moving toward learner-directed assessment. Learner-Directed Assessment in

ESL. Ed: Glayol Ekbatani y Hebert Pierson. Lawrence Erlbaum Associates. Mahwah, NJ.

Elshirbini, I. (2013a). The effect of the genre-based approach to teaching writing on the EFL Al-

Azhr secondary students’ writing skills and their attitudes towards writing. Mansoura

University. Recuperado de: http://files.eric.ed.gov/fultext/ED539137.pdf

Elshirbini, I. (2013b.) The impact of the direct teacher feedback strategy on the EFL secondary

stage students’ writing performance. Mansoura University. Recuperado de:


Falchilkov, K. (2007). The place or peers in learning and assessnt. Rethinking Assessment in Higher

Education. Nueva York: Routledge.

Falchilkov, K., & Boud, D. (2007). Assessnt and emotion. Rethinking Assessment in Higher Education.

Nueva York: Routledge.

Falchikov, N., & Goldfinch, J. (2000). Student peer assessment in higher education: A meta-

analysis comparing peer and teacher marks. Review of Educational Research, 70 (30), pp. 287-

322.

Fernández, G. (2010). La enseñanza de lenguas extranjeras y la evaluación. Madrid: Arco Libros.

316

Fernández, S. (2011). La autoevaluación como estrategia de aprendizaje [en línea]. Marcoele.

Revista Didáctica de Español como Lengua Extranjera, (13). Recuperado de:

http://marcoele.com/descargas/13/Fernadez-fernandez_autoevaluacion.pdf

Figueras, N. (2008). El MCER, Más allá de la Polémica. Monográficos Marcoele, 7, pp. 26-35.

Freedman, S. 1981. Influences on Evaluators of Expository Essays: Beyond the text. Research in

TheTeaching in English, 15 (13), pp. 245-255.

Ghanbari, B., Barati, H. & Moinzadeh, A. (2012). Rating scales revisited: EFL Writing Assessment

Context of Iran Under Scrutiny [en línea]. Language Testing in Asia, 2(1). Recuperado de:

http://www.languagetestingasia.com/content/pdf/2229-0443-2-1-83.pdf

Gielen, S., Tops, L., Dochy, F., Onghena, P., & S. Smeets. (2010). A comparative study of peer and

teacher feedback and of various peer feedback forms in a secondary school writing

curriculum. British Educational Research Journal, 36 (1), pp. 143-162.

Goodrich, H., & Boulay, B. (2003). Role of rubric-referenced self-assessment in learning to write.

The Journal of Education Research, 97 (1), pp. 21-30.

Gorsuch, G. (2009). Investigating second language learner self-efficacy and future expectancy of

second language use for high-stakes program evaluation. Foreign Language Annals, 42 (3),

pp. 505-540.

Graham, S. & Perin, D. (2007). A meta-analysis of writing instruction for adolescent students.

Journal of Educational Phsychology, 99 (3), pp. 445-476.

Graham, S., Early, J. & Wilcox, K. (2014). Adolescent writing and writing instruction: introduction

to the special issue. Reading and Writing, 27 (6), pp. 969-972.

Groot, P. 1975. Testing communicative competence in listening comprehension [en línea]. Testing

language proficiency. Recuperado de: http://files.eric.ed.gov/fulltext/ED107161.pdf

317

Guerrero, M. & Villamil, O. (2000). Activating the ZPD Mutual Scaffolding in L2 Peer Revision.

The modern Language Journal, 84, pp. 51-68.

Hafner, J. & Hafner, P. (2003). Quantitative analysis of the rubric as an assessment tool: an

empirical study of student peer-group rating. International journal of science education, 25 (12),

pp. 1209-1528.

Harlen, W. (2009). Improving assessment of learning and for learning. Education 3-13:

International journal of primary, elementary, and early years education, 37 (3), pp. 247-257.

Recuperado de:

http://www.tandfonline.co.ezproxy.lib.utexas.edu/doi/pdf/10.1080/03004270802442334

Hawk, T., 2009. Book and resource reviews. Academy of management of learning & education, 8 (4)

pp. 612-619.

Hessler, T., Konrad, M., & Alber-Morgan, S. (2009). Twenty ways of assessing student’s writing.

Intervention in School and Clinic, 45 (1) pp. 68-71.

Higgs, T. (1987). Oral proficiency testing and its significance for practice. Academic Journal, 26, (4)

pp. 282-87.

Hounsell, D. (2007). Towards mores sustainable feedback to students. Rethinking Assessment in Higher


IRL, 2014. Interagency Language Roundtable [en línea]. Recuperado de:

http://www.govtilr.org/Skils/IRL%20Scale%20History.htm

Jackson, A. & Davis G. (2000). Turning points 2000. Educating adolescents in the 21st century. New

York: Teacher college press.

Jacobs, H., Zingraf, S., Wormuth, D., Hartfiel, F. & J. Hughey, (1981). Testing ESL Composition: A

Practical Approach. Massachusetts: Newbury House Publishers.

318

Jones, R., & Spolsky, B. (1975). Testing language proficiency [en línea]. Recuperado de:


Jonsson, A. & Svingby, G. (2007). The use of scoring rubrics: Reliability, validity and educational

consequences. Educational Research Review, 2, pp. 130-144.

Kamimura, T. (2006). Effects of Peer Feedback on EFL Student Writers as Different Levels of

English Proficiency: A Japanese Context. TESL Canada Journal, 23 (2), pp. 12-39.

Kandlbinder, P. (2007). Writing about practice for future learning. Rethinking Assessment in Higher


Kenyon, D., Mitchell, J. & Armengol, R. (2000). Framework for the 2004 Foreign Language

National Assessment of Educational Progress [en línea]. NAEP. Recuperado de:

http://www.nagb.org/content/nagb/assets/documents/publications/frameworks/Fina

lFrameworkPrePubEdition1.pdf

Ketele, J. (1984). Observar para educar: observación y evaluación en la práctica educativa. Madrid:

Editorial Visor.

Kirkwood, M. (2007). The contribution of sustainable assessment to teacher's continuing professional

development. Rethinking Assessment in Higher Education. Nueva York: Routledge.

Knight, P. (2007). Grading, classifying and future learning. Rethinking Assessment in Higher Education.


Kozulin, A. (1986). Thought and language. London: Alex Kozulin Ed.

Kvale, S. (2007). Contradictions of assessment of learning. Rethinking Assessment in Higher Education.


Lai, Y. (2010). Which do Students Prefer to Evaluate their Essays: Peers or Computer Program.

British Journal of Educational Technology, 41 (3), pp. 432-454.

319

Lange, D. & Lowe, P. (1983). Grading Reading Passages According to the ACTFL/ ETS/ ILR

Reading Proficiency Standard: Can It Be Learned? [en línea]. Language Testing Research.

Recuperado de: http://files.eric.ed.gov/fulltext/ED287291.pdf

Lee, I. (1997). Peer reviews in Hong Kong tertiary classroom. TESL Canada Journal, 15, pp. 58-69.

Lew, M., Alwis, W. & Schmidt, H. (2010). Accuracy of Students Self-Assessment and their beliefs

about its utility. Assessment and Evaluation in Higher Education, 35 (2) pp. 135-156.

Lundstrom, K. & Baker, W. (2009). To give is better than to receive: The benefits of peer reviews

to the reviewer’s own writing. Journal of Second Language Writing, 18, pp. 30-43.

Ma, J. (2010). Chinese EFL learners’ decision-making while evaluating peers’ texts. International

Journal of English Studies, 10, (2) pp. 99-10.

Massa, J. (1997). Alternative assessment of second-language writing: A developmental model. Alternatives

to grading student writing. Stephen Tchudi. NCTE. Illinois.

Matsuno, S. (2009). Self-, peer-, and teacher-assessments in Japanese university EFL writing

classrooms. Language Testing, 26 (1) pp. 75-100.

McLeod, S., Brown, G., McDaniels, P. & L. Sledge. (2009). Improving Writing with a PAL:

Harnesing the Power of Peer Assisted Learning with the Reader’s Assessment Rubrics.

International Journal of Teaching and Learning in Higher Education, 20 (3), pp. 488-502.

McMurry, A, (2004). Preparing students for peer review [en línea]. Recuperado de:

http://contentdm.lib.byu.edu/ETD/image/etd707.pdf

McNamara, T. (2004). Language testing. Ed. H. G Widdowson. Oxford: pp. 140

Medcalf, J., Glynn, T. & Moore, D. (2004). Peer Tutoring in Writing: A School System Approach,

20 (2), pp. 157-178.

320

Metler. C. (2001). Designing scoring rubrics for your classroom [en línea]. Practical Assessment,

research & evaluation, 7(25). Recuperado de:

https://resources.oncourse.iu.edu/access/content/user/mikuleck/Filemanager_Public_F

iles/EFL_Assessment/Unit_3/Metler_Designing_scoring_rubrics_for_your_classroom.pd

f

Min, H. (2006). The effects of train peer review on EFL students’ revision types and writing quality.

Journal of Second Language Writing, 15, pp. 118-141.

MSCHE, (2007). Student Learning Assessment: Options and Resources [en línea]. Middle states

commission on higher education. Recuperado de:

http://www.msche.org/publications/SLA_Book_0808080728085320.pdf

Multon, K. (2010). Interrater Reliability. En: “Encyclopedia of research design.” Thousand Oaks, CA:

SAGE Publications, V.2, pp. 626-628.

NAEP, (2000). Assessment and Exercise Specifications: 2003 National Assessment of Educational

Progress in Foreign Language [en línea]. National Assessment Governing Boar. Recuperado

de:

http://www.nagb.org/content/nagb/assets/documents/publications/03languajespecmi

ficacion.pdf

Nelson, G. (1993). Peer Response Groups: Do l2 Writers Use Peer Comments in Revising Their

Drafts? TESOL Quarterly, 27, (1) pp. 135-141.

North, B. & Schneider, G. (1998). Scaling descriptors for language proficiency scales. Language

testing, 15, (2) pp. 217-263.

Nulty, D. (2011). Peer and self-assessment in the first year of university. Assessment & Evaluation

in Higher Education, 36 (5), pp. 493-507.

321

OCDE, (2005). L’évaluation formative: Pour un meilleur apprentissage dans les classes secondaires.

Organisation de Coopération et de Développement Économiques. France: OCDE.

Orsmond, P., Maw, S., Park, P., Gomez, S. & A. Crook. (2013). Moving feedback forward: theory

to practice. Assessment and Evaluation in Higher Education, 38(2), pp. 240-252.

Oscarson, D. (2009). Self-assessment of Writing in Learning English as a Foreign Language. A

Study at the Upper Secondary Level [en línea]. Recuperado de:

http://gupea.ub.gu.se/handle/2077/19783

Othman, N. (2010). The inter-rater reliability of scores in the assessment of three types of direct

writing. US-China Foreign Language, 8 (3), pp. 18-31.

Pajares, F. (1996). Self-Efficacy Believes in Academic Settings. Review of Educational Research, 66 (4),

pp. 543-578.

Pajares, F. & Johnson, M. (1996). Self-Efficacy Believes and the Writing Performance of Entering

High School Students. Psychology in the Schools, 33, pp. 163-175.

Parrondo, J. (2008). Modelos, tipos y escalas de evaluación. Vademécum para la formación de profesores:

enseñar español como segunda lengua (L2)/lengua extranjera (LE). Sociedad general española de

librería. Madrid: pp. 967-982.

Popham, J. (1997). What´s wrong - and what´s right- with rubrics. Educational Leadership, 55 (2),

pp. 72- 75.

Poulos, A. & Mahony, M. (2008). Effectiveness of feedback: the student’s perspective. Assessment

and Evaluation in Higher Education, 33 (2), pp. 143-154.

Prati. (2007). La evaluación en español lengua extranjera: elaboración de exámenes. Buenos Aires: Libros

de la Araucaria.

Ramaprasad, A. (1983). On the definition of feedback. Behavioral Science, 28 (1), pp. 4.

322

Raoofi, S., Tan, B. & Chan, S. (2012). Self efficacy in second/foreign language learning contexts.

English Language Teaching, 5 (11), pp. 60-73.

Reynolds-Keefer, L. (2010). Rubric-referenced assessment in teacher preparation: An

opportunity to learn by using. Practical assessment, research & evaluation, 15 (8), pp. 1-9.

Reza , A. & Lovon, M. (2010). Reliability and validity of rubrics for assessment through writing.

Assessing Writing, 15 (1), pp. 18-39.

Sadler, R. (2005). Interpretations of criteria-based assessment and grading in higher education.

Assessment and Evaluation in Higher Education, 30 (2), pp. 175-194.

Sadler, R. (2010). Beyond feedback: developing student capability in complex appraisal:

Assessment and Evaluation in Higher Education, 35 (5) August pp. 535- 550.

Saito, H. & Fujita, T. (2004). Characteristics and user acceptance of peer rating in EFL writing

classrooms. Language Teaching Research, 8 (1), pp. 31-54.

Sambell, K. (2013). Involving students in the scholarship of assessment: Student voices on the feedback

agenda for change. Reconceptualising Feedback in Higher Education. Developing Dialogue with

Students. New York: Routledge.

Salkind, N., (2010). Encyclopedia of Research Design. London: Sage.

Sandrock, P. (2010). The keys to assessing language performance. A teacher´s manual for measuring

student progress. ACTFL. E-book. Recuperado de:

http://www.actfl.org/publications/books-and-brochures/the-keys-assessing-language-

performance

Sengupta, S. (2000). An Investigation into the Effects of Revising Strategy Instruction on L2

Secondary School Learners. System 28, pp. 97-113. Recuperado de:

http://gupea.ub.gu.se/bitstream/2077/19783/1/gupea_2077_19783_1.pdf

323

Serrano, J. & Cebrián de la Serna, M. (2011). Study of the impact on student learning using eRubric tool

and peer assessment. Education in a Technological world: communicating current and emerging

research and technological efforts. España: Formatex.

Serrano, J. M., Pons, R. M., & Ruiz, M. G. (2007). Perspectiva Histórica del Aprendizaje

Colaborativo: Un largo y tortuoso camimo através de cuatro siglos. Revista Española de

Pedagogía, 236, pp. 125-138.

Servetti, S. (2010). Cooperative learning as a correction and grammar revision technique:

Communicative exchanges, self-correction rates and scores. US-China Education Review, 7 (4),

pp. 12-22.

Skelton, J., Rodgers, C., Ellis, L. & L. Lyles. (2014). Rubrics and evaluations. Journal on School

Educational Technology, 9 (4), pp. 7-14.

Srichanyachon, N. (2011). A comparative study of three revision methods in EFL writing. Journal

of College Teaching & Learning, 8 (9), pp. 1-8.

Srichanyachon, N. (2014). Self-revision method of EFL writers. DOI: 10.7763/IPEDR (77) 13.

Recuperado de: http://www.ipedr.com/vol77/013-ICLMC2014_N10018.pdf

Swales, J. (1990). Genre analysis: English in academic and research settings. New York: Cambridge

University Press.

Tamjid, N. & Birjandi, P. (2012). The role of self-, peer and teacher assessment in promoting Iranian

EFL learner´s writing performance. Assessment and Evaluation in Higher Education, 37 (5), pp.

513-533.

Tan, K. (2007). Conceptions of Self-assessment. Rethinking Assessment in Higher Education. Nueva

York: Routledge.

324

Taras, M. (2005). Assessment -summative and formative- some theoretical reflections. British

Journal of Educational Studies, 53 (4), pp. 466-478.

Taras, M. (2013). Feedback on feedback: Uncrossing wires across sectors. Reconceptualising Feedback in

Higher Education. Developing Dialogue with Students. New York: Routledge.

TEA, (2010a). Texas Essential Knowledge and Skills for Spanish for Spanish Arts and Reading and

English as a Second Language. Subchapter 128B. Middle School [en línea]. TEA. Recuperado

de: http://ritter.tea.state.tx.us/rules/tac/chapter128/ch128b.pdf

TEA, (2010b). Texas Essential Knowledge and Skills for Spanish for Spanish Arts and Reading and

English as a Second Language. Subchapter 128C. High School [en línea]. TEA. Recuperado

de: http://ritter.tea.state.tx.us/rules/tac/chapter128/ch128c.pdf

Thomas, G., Martin, D. & Pleasants, K. (2011). Using self-and peer-assessment to enhance

students’ future learning in higher education. Journal of University Teaching & Learning

Practice, 8 (1), pp. 1-17.

Usman, E. (2004). Exploring variability in judging writing ability in a second language: a study of

experienced raters of ESL compositions. Recuperado de:

http://www.ets.org/Media/Research/pdf/RR-03-17.pdf

Veal, R. & Hudson, S. (2009). Direct and indirect measures for large-scale evaluation of writing.

Assessing writing: A critical source book. Bedford-St. Martin’s. Boston: NCTE.

Wang, W. (2014). Student’s Perceptions of Rubric-Referenced Peer Feedback on EFL Writing: A

Longitudinal Inquiry. Assessing writing, 19, pp. 80-96.

Weaver, M. (2006). Do students value feedback? Student perceptions of tutors’ written responses.

Assessment & Evaluation in Higher Education, 31 (3), pp. 379-394.

325

Wei, Y. & Chen, Y. (2004). Supporting Chinese learners of English to implement self-assessment

in L2 writing [en línea]. Proceedings of the independent learning conference 2003. Recuperado

de: http://www.independentlearning.org/uploads/100836/ila03_wei_and_chen.pdf

White, E. (1984). College Composition and Communication. NCTE, 35, (4), pp. 400-409

White, E. (1985). Holisticism. Assessing Writing: A critical source book. Bedford-St. Martin’s.

Boston: NCTE.

White, E. & Luppi, S. (2010). La producción escrita en lengua extranjera. Aportes teórico-prácticos

para docentes de lenguas extranjeras [en línea]. Gobierno de la ciudad de Buenos Aires.

Recuperado de: http://www.buenosaires.gob.ar/areas/educacion/ programas

/cle/pdf/apuntes_teorico_practico_white_luppi.pdf

Wilds, C. (1975). The oral interview test. Testing language proficiency [en línea]. Recuperado de:


Wingate, U. (2010). The impact of formative feedback on the development of academic writing.

Assessment & Evaluation in Higher Education, 35 (5), pp. 519-533.

Wiseman, C. (2012). A comparison of the performance of analytic vs. holistic scoring rubrics to

assess L2 writing. Iranian Journal of Language Testing, 2 (1), pp. 59-92.

Yoshina, J. & Harada, V. (2007). Involving students in learning through rubrics. Library media

connection, 25 (5), pp. 10-14.

Zakian, M., Moradan, A. & Naghibi, S. (2012). The relationship between self-, peer-, and teacher-

assessments of EFL learners’ speaking [en línea]. World J Arts, Languages, and Social

Sciences. Recuperado de:

http://rrpjournals.org/wjalss/en_wjalss_vol_1_iss_1_pg_1_5.pdf

Zheng, C. (2007). A study of peer error feedback. US-China Foreign Language, 5 (4), pp. 25-29.

326

Zimmerman, B. & Bandura, A. (1994). Impact of self-regulatory influences on writing course

attainment. American Educational Research Journal, 31 (4), pp. 845-862.

Zumbrunn, S., Tadlock, J. & Roberts, E. (2011). Encouraging self-regulated learning in the classroom: a

review of the literature. Virginia Commonwealth University. Metropolitan Educational

Research Consortium. Virginia.

Download - Facultad de las Artes y de las Letras Departamento de

Top Related