evaluacion

134
UNIVERSIDAD NACIONAL DE EDUCACIÓN ENRIQUE GUZMÁN Y VALLE Alma Máter del Magisterio Nacional Mg. Lourdes Castañeda Solórzano

Upload: lourdes-castaneda-solorzano

Post on 05-Aug-2015

56 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: EVALUACION

UNIVERSIDAD NACIONAL DE EDUCACIÓNENRIQUE GUZMÁN Y VALLE

Alma Máter del Magisterio Nacional

Mg. Lourdes Castañeda Solórzano

2012

Page 2: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

EVALUACIÓN EDUCATIVA

La evaluación es hoy quizá uno de los temas con mayor protagonismo del ámbito educativo, y no porque se trate de un tema nuevo en absoluto, sino porque administradores, educadores, padres, alumnos y toda la sociedad en su conjunto, son más conscientes que nunca de la importancia y las repercusiones del hecho de evaluar o de ser evaluado. Existe quizá una mayor conciencia de la necesidad de alcanzar determinadas cotas de calidad educativa, de aprovechar adecuadamente los recursos, el tiempo y los esfuerzos y, pro otra parte, el nivel de competencia entre los individuos y las instituciones también es mayor.

Quizá uno de los factores más importantes que explican que la evaluación ocupe actualmente en educación un lugar tan destacado, es la comprensión por parte de los profesionales de la educación de que lo que en realidad prescribe y decide de facto el "que, cómo, por qué y cuándo enseñar" es la evaluación. Es decir, las decisiones que se hayan tomado sobre "qué, cómo, por qué y cuándo evaluar". En general, uno de los objetivos prioritarios de los alumnos es satisfacer las exigencias de los "exámenes". En palabras de A. de la Orden (1989): "la evaluación, al prescribir realmente los objetivos de la educación, determina, en gran medida... lo que los alumnos aprenden y cómo lo aprenden, lo que los profesores enseñan y cómo lo enseñan, los contenidos y los métodos; en otras palabras, el producto y el proceso de la educación... querámoslo o no, de forma consciente o inconsciente, la actividad educativa de alumnos y profesores está en algún grado canalizada por la evaluación". Todos estos factores han llevado a una "cultura de la evaluación" que no se limita a la escuela sino que se extiende al resto de las actividades sociales.

Concretamente, en nuestro país, la ampliación del ámbito de la evaluación desde los resultados y procesos del aprendizaje de los alumnos hasta el propio currículo (en sus distintos niveles de concreción), la práctica docente, los centros, el sistema educativo en su conjunto, etc, ha dibujado en los últimos años un nuevo escenario para las prácticas evaluativas, que se han desarrollado a todos los niveles de manera muy importante.

1.- Conceptos Básicos y Funciones de la Evaluación Educativa

1.1.- Clarificación de conceptos

Es importante, antes de abordar cualquier contenido de evaluación, distinguir algunos conceptos fundamentales, tales como evaluación calificación y medida.

El concepto de evaluación es el más amplio de los tres, aunque no se identifica con ellos. Se puede decir que es una actividad inherente a toda actividad

[email protected] 2

Page 3: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

humana intencional, por lo que debe ser sistemática, y que su objetivo es determinar el valor de algo (Popham, 1990).

El término calificación está referido exclusivamente a la valoración de la conducta de los alumnos (calificación escolar). Calificar, por tanto, es una actividad más restringida que evaluar. La calificación será la expresión cualitativa (apto/no apto) o cuantitativa (10, 9, 8, etc) del juicio de valor que emitimos sobre la actividad y logros del alumno. En este juicio de valor se suele querer expresar el grado de suficiencia o insuficiencia, conocimientos, destrezas y habilidades del alumno, como resultado de algún tipo de prueba, actividad, examen o proceso.

Se evalúa siempre para tomar decisiones. No basta con recoger información sobre los resultados del proceso educativo y emitir únicamente un tipo de calificación, si no se toma alguna decisión, no existe una auténtica evaluación.

Así pues, la evaluación es una actividad o proceso sistemático de identificación, recogida o tratamiento de datos sobre elementos o hechos educativos, con el objetivo de valorarlos primero y, sobre dicha valoración, tomar decisiones (García Ramos, 1989).

La evaluación, por tanto, se caracteriza como:Un proceso que implica recogida de información con una posterior interpretación en función del contraste con determinadas instancias de referencia o patrones de deseabilidad, para hacer posible la emisión de un juicio de valor que permita orientar la acción o la toma de decisiones.

Finalmente, deben diferenciarse los conceptos de investigación y evaluación. Ambos procesos tienen muchos elementos comunes, aunque se diferencian en sus fines:

- La evaluación es un proceso que busca información para la valoración y la toma de decisiones inmediata. Se centra en un fenómeno particular. No pretende generalizar a otras situaciones.

- La investigación es un procedimiento que busca conocimiento generalizable, conclusiones (principios, leyes y teorías), no tiene necesariamente una aplicación inmediata (De la Orden, 1989).

1.2.- Ámbitos de la evaluación

Tradicionalmente, la evaluación se ha venido aplicando casi con exclusividad al rendimiento de los alumnos, a los contenidos referidos a conceptos, hechos, principios, etc., adquiridos por ellos en los procesos de enseñanza. A partir de los años sesenta, la evaluación se ha extendido a otros ámbitos educativos: actitudes, destrezas, programas educativos, materiales curriculares didácticos, la práctica docente, los centros escolares, el sistema educativo en su conjunto y la propia evaluación.

[email protected] 3

Page 4: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

Esta extensión de la evaluación a otros ámbitos tuvo lugar en los Estados Unidos a finales de los años 50 debido a circunstancias tales como: la crítica a la eficacia de las escuelas públicas, la gran inversión dedicada a la educación que exigía una rendición de cuentas (Accountability), etc. Por tanto, el campo de aplicación de la evaluación se extiende a alumnos, profesores, directivos, instituciones, la administración, etc. Y va a ser, precisamente, a raíz de la extensión del ámbito evaluador cuando van a surgir una serie de modelos de evaluación de gran relevancia.

1.3.- Evaluación

La decisión de evaluar es la que, con más frecuencia, debe enfrentar el profesor, desde las evaluaciones formales (curso a curso) hasta las evaluaciones diarias (de una tarea a otra, cuando se considera que se ha alcanzado un nivel de conocimientos suficiente).

Por tanto, la evaluación puede resultar un elemento estimulante para la educación en la medida en que pueda desembocar en decisiones de evaluación positivas, y para ello es preciso que el sistema educativo sea público y coherente, ofreciendo la información precisa para ofrecer las dificultades que puedan surgir. Para ello, es necesaria una definición clara de los objetivos previos y una recuperación inmediata en caso de fracaso. En caso de que el fracaso sea reiterado, se hace imprescindible la utilización de procesos diagnósticos y terapéuticos. Por tanto, lo deseable es la evaluación tanto desde el punto de vista del aprendizaje como desde el punto de vista del desarrollo armónico de la persona.

2.- Tipos de Evaluación

Esta clasificación atiende a diferentes criterios. Por tanto, se emplean uno u otro en función del propósito de la evaluación, a los impulsores o ejecutores de la misma, a cada situación concreta, a los recursos con los que contemos, a los destinatarios del informe evaluador y a otros factores.

2.1.- Según su finalidad y función

a) Función formativa: la evaluación se utiliza preferentemente como estrategia de mejora y para ajustar sobre la marcha, los procesos educativos de cara a conseguir las metas u objetivos previstos. Es la más apropiada para la evaluación de procesos, aunque también es formativa la evaluación de productos educativos, siempre que sus resultados se empleen para la mejor de los mismos. Suele identificarse con la evaluación continua.

b) Función sumativa: suele aplicarse más en la evaluación de productos, es decir, de procesos terminados, con realizaciones precisas y valorables. Con la

[email protected] 4

Page 5: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

evaluación no se pretende modificar, ajustar o mejorar el objeto de la evaluación, sino simplemente determinar su valía, en función del empleo que se desea hacer del mismo posteriormente.

2.2.- Según su extensión

a) Evaluación global: se pretende abarcar todos los componentes o dimensiones de los alumnos, del centro educativo, del programa, etc. Se considera el objeto de la evaluación de un modo holístico, como una totalidad interactuante, en la que cualquier modificación en uno de sus componentes o dimensiones tiene consecuencias en el resto. Con este tipo de evaluación, la comprensión de la realidad evaluada aumenta, pero no siempre es necesaria o posible. El modelo más conocido es el CIPP de Stufflebeam.

b) Evaluación parcial: pretende el estudio o valoración de determinados componentes o dimensiones de un centro, de un programa educativo, de rendimiento de los alumnos, etc.

2.3.- Según los agentes evaluadores

a) Evaluación interna: es aquella que es llevada a cabo y promovida por los propios integrantes de un centro, un programa educativo, etc. A su vez, la evaluación interna ofrece diversas alternativas de realización: autoevaluación, heteroevaluación y coevaluación.

* Autoevaluación: los evaluadores evalúan su propio trabajo (un alumno su rendimiento, un centro o programa su propio funcionamiento, etc). Los roles de evaluador y evaluado coinciden en las mismas personas.

* Heteroevaluación: evalúan una actividad, objeto o producto, evaluadores distintos a las personas evaluadas (el Consejo Escolar al Claustro de profesores, un profesor a sus alumnos, etc.)

* Coevaluación: es aquella en la que unos sujetos o grupos se evalúan mútuamente (alumnos y profesores mutuamente, unos y otros equipos docentes, el equipo directivo al Consejo Escolar y viceversa). Evaluadores y evaluados intercambian su papel alternativamente.

b) Evaluación externa: se da cuando agentes no integrantes de un centro escolar o de un programa evalúan su funcionamiento. Suele ser el caso de la "evaluación de expertos". Estos evaluadores pueden ser inspectores de evaluación, miembros de la Administración, investigadores, equipos de apoyo a la escuela, etc.

Estos dos tipos de evaluación son muy necesarios y se complementan mutuamente. En el caso de la evaluación de centro, sobre todo, se están extendiendo la figura del "asesor externo", que permite que el propio centro o

[email protected] 5

Page 6: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

programa se evalúe a sí mismo, pero le ofrece su asesoría técnica y cierta objetividad por su no implicación en la vida del centro.

2.4.- Según el momento de aplicación

a) Evaluación inicial: se realiza al comienzo del curso académico, de la implantación de un programa educativo, del funcionamiento de una institución escolar, etc. Consiste en la recogida de datos en la situación de partida. Es imprescindible para iniciar cualquier cambio educativo, para decidir los objetivos que se pueden y deben conseguir y también para valorar si al final de un proceso, los resultados son satisfactorios o insatisfactorios.

b) Evaluación procesual: consiste en la valoración a través de la recogida continua y sistemática de datos, del funcionamiento de un centro, de un programa educativo, del proceso de aprendizaje de un alumno, de la eficacia de un profesor, etc. a lo largo del periodo de tiempo fijado para la consecución de unas metas u objetivos. La evaluación procesual es de gran importancia dentro de una concepción formativa de la evaluación, porque permite tomar decisiones de mejora sobre la marcha.

c) Evaluación final: consiste en la recogida y valoración de unos datos al finalizar un periodo de tiempo previsto para la realización de un aprendizaje, un programa, un trabajo, un curso escolar, etc. o para la consecución de unos objetivos.

2.5.- Según el criterio de comparación

Cualquier valoración se hace siempre comparando el objeto de evaluación con un patrón o criterio. En este sentido, se pueden distinguir dos situaciones distintas:

a) En caso de que la referencia sea el propio sujeto (sus capacidades e intereses, las metas que se había propuesto alcanzar, considerando eltiempo y el esfuerzo invertidos por el sujeto, y teniendo en cuenta sus aprendizajes previos) o cualquier otro objeto de la evaluación en si mismo (las características de partida de un programa, los logros educativos de un centro en el pasado, etc.), estaremos empleando la AUTOREFERENCIA como sistema

b) En el caso de que las referencias no sean el propio sujeto, centro, programa, etc., lo que se conoce como HETEROREFERENCIA, nos encontramos con dos posibilidades:

b.1) Referencia o evaluación criterial:Aquella en las que se comparan los resultados de un proceso educativo cualquiera con los objetivos previamente fijados, o bien con unos patrones de realización, con un conjunto de situaciones deseables y previamente establecidos. Es el caso en el que comparamos el rendimiento del alumno con

[email protected] 6

Page 7: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

los objetivos que debería haber alcanzado en un determinado plazo de tiempo, o los resultados de un programa de educación compensatoria con los objetivos que éste se había marcado, y no con los resultados de otro programa.

b.2) Referencia o evaluación normativa:El referente de comparación es el nivel general de un grupo normativo determinado (otros alumnos, centros, programas o profesores). Lo correcto es conjugar siempre ambos criterio para realizar una valoración adecuada, aunque en el caso de la evaluación de alumnos, nos parece siempre más apropiada la evaluación que emplea la autorreferencia o la evaluación criterial. El empleo de uno u otro tipo de evaluación dependerá siempre de los propósitos de la evaluación y de su adecuación al objeto de nuestra evaluación.

3. La evaluación y los criterios para elaborar instrumentos adecuados.

Es sabido que una de las problemáticas de la evaluación es la referida a la instrumentación. Como señala Wheeler (1976) estamos aún lejos de poder contar con instrumentos capaces de ofrecernos una información objetiva sobre los logros de aprendizajes en todo su espectro, por más que la instrumentación que se refiere a los conocimientos de la naturaleza cognitiva, esté más desarrollada.

En este sentido, es necesario desarrollar criterios de evaluación que, nos permita disponer de los suficientes datos para realizar juicios fundamentados sobre los procesos y logros de aprendizaje de nuestros alumnos.

Una manera de abordar el problema es tener claro los procesos de la evaluación, la diferencia entre lo que son los conocimientos, las aptitudes, las destrezas, las actitudes, etc.

Otra forma es la de tratar de desechar la subjetividad reinante en las técnicas y métodos que en ocasiones usamos.

También en la creación de instrumentos que permitan llevar a cabo evaluaciones completas, integradas, holísticas y objetivas.

Es necesario aunar el "criterio" de evaluación, ya no solo entre unidades educativas, municipios o regiones, sino dentro de los propios establecimientos, en los mismos ciclos o niveles.

Todo profesor que quiera evaluar el aprendizaje de sus alumnos debe saber diferenciar lo que es el aprendizaje superficial con el aprendizaje profundo.

Según Entwistle, Marton y Saljo, en Gipps, (1998, 37), explican que el aprendizaje superficial se da cuando el alumno es capaz de reproducir el contenido cuando se requiera, cuando manifiesta un desconocimiento de principios o modelos de orientación y cuando adquiere conocimientos en función de las pruebas en conjunto con la aceptación pasiva de ideas e

[email protected] 7

Page 8: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

información. Las destrezas cognitivas que involucran un aprendizaje superficial tiene que ver con el identificar, reconocer, clasificar, etc.

El aprendizaje profundo es cuando el alumno tiene la intención de desarrollar la comprensión personal, cuando asocia ideas aplicando principios integradores de los contenidos, cuando elabora sus propias conclusiones de acuerdo a lo estudiado, cuando hace una interacción activa del contenido, sobre todo al relacionar nuevas ideas con conocimientos y experiencias ya adquiridos.

Las destrezas que se desarrollan en este tipo de aprendizaje están referidas a la interpretación, aplicación, al análisis, a la síntesis, al inferir, a la capacidad de evaluar y por supuesto en predecir.

Entre ambos tipos de aprendizajes, podemos ubicar el aprendizaje estratégico. Que es aquel referido al desarrollo de destrezas que le exijan al niño usar distintos procedimientos que lo orienten o le ayuden a tomar decisiones para llegar a un nivel más elevado de la comprensión y del aprendizaje. Destrezas tales como el comparar, discriminar, diferenciar, etc.

La elección de los instrumentos de evaluación adecuados y acordes a lo que se quiera medir le demanda al docente la tarea no sólo de usarlos, como un medio para probar los conocimientos que han alcanzado sus alumnos, sino también, que le permitan a estos, una mayor conciencia de desarrollar capacidades y destrezas para alcanzar aprendizajes de nivel superior.

Es así, que antes de elaborar una prueba el profesor debe tener en cuenta el tipo de aprendizaje que se desea medir en los estudiantes. Por ejemplo, para evaluar aprendizajes mecánicos o superficiales como la ortografía, la multiplicación, las relaciones numéricas, las fechas de acontecimientos históricos, la nomenclatura básica de una ciencia, etc. Pueden aplicarse pruebas de respuesta múltiple o de respuestas breves.

Para evaluar la comprensión, y estimular así un aprendizaje más profundo, es deseable la utilización de preguntas de desarrollo, de ítems interpretativos (combinación de textos con preguntas de elección única o desarrollo), monografías, informes de investigaciones y proyectos, mapas conceptuales, entre otras.

Lo importante es que en este tipo de evaluación el alumno pueda describir, interpretar, aplicar, explicar, sintetizar, analizar etc. (capacidades intelectuales asociadas a la comprensión), lo que ha aprendido durante el transcurso del proceso.

Estas formas evaluativos favorecen la posibilidad que el estudiante demuestre el tipo de relación y el contexto que le ha otorgado a los conocimientos aprendidos. Con el propósito de asegurar esta situación se hace necesario que el docente tenga plena conciencia acerca de cómo los

[email protected] 8

Page 9: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

estudiantes aprenden (el conocimiento de los estilos de aprendizajes de los alumnos es un desafío esencial para los profesores, Cfr, Salas, 1995), requiriendo para ello de evaluaciones formativas que aseguren la adquisición de los aprendizajes por parte de los alumnos. Después de tener claridad de esta situación, es posible aplicar evaluaciones con intencionalidad sumativa para "constatar" los niveles de logro y su grado de concordancia o discrepancia con los objetivos del programa.

Es recomendable que en las pruebas que tengan esta intencionalidad algunas preguntas busquen detectar el dominio de la nomenclatura básica de la disciplina, otras que se orienten a la comprensión y otras a la aplicación de los conocimientos adquiridos.

Para que una prueba cautele esta situación se puede considerar como criterio de ponderación la distribución de las preguntas en la prueba, de tal forma que la mayor cantidad de ítems o preguntas esté cargada a medir el aprendizaje profundo, sin descuidar el hacer preguntas que midan el aprendizaje superficial y estratégico.

De esta manera, la aplicación de estos criterios ayuda a salvaguardar la preocupación permanente de evaluar más aprendizajes de carácter profundo que aprendizaje superficial. En suma, se debe desarrollar una evaluación que se preocupe de controlar los conocimientos memorísticos, pero también, y principalmente, evaluar las capacidades relacionadas con la comprensión, favoreciendo, además, la participación de los alumnos en la valoración de sus propios aprendizajes, constituyéndose en sujetos activos de su formación.

2. TEORIA CIENTIFICA Y MEDICIÓN_

2.1 Teoría y medición.

El Humano vive inmerso en un contexto de fenómenos, eventos y procesos naturales y sociales que se dan desde el plano sideral hasta el terrenal, desde el físico y biológico hasta el social y psicológico; contexto que constituye una realidad pues tiene una existencia efectiva que se expresa en su manera o modo de ser, la misma que necesita conocer para su supervivencia, desarrollo y progreso.

Por otro lado, si la realidad es todo lo que existe en tanto que el conocimiento de ese existente es cierto, y que esta certeza supone la verdad del conocimiento y la validez del proceso lógico del conocimiento (Rodríguez Rivas, 1997), entonces puede decirse que es gracias a la ciencia que el Humano construye la mejor imagen de la realidad en un momento dado, perfectible y cambiante por la propia dinámica científica; o que, gracias a ella, el Humano construye mejores representaciones mentales del mundo físico, social y sobre sí mismo. Para el logro de esta imagen, la ciencia elabora teorías o sistemas de proposiciones concernientes a un conjunto de constructos que

[email protected] 9

Page 10: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

sirven para describir, explicar, predecir algunos aspectos limitados de su dominio; las que son sometidas a contraste mediante la investigación realizada de acuerdo al método científico.

2.1.1. Constructo. Es un concepto inventado o adoptado por el investigador de manera deliberada y consciente para un propósito científico especial. Tiene dos características: es relacional, pues forma parte de modelos en los que se le relaciona de diferentes formas con otros constructos, formando una "red nomológica"1. Por ejemplo, la inteligencia es un constructo que de acuerdo a un modelo se relaciona interactivamente con la motivación para determinar un nivel especifico de aprovechamiento escolar (la motivación y el aprovechamiento escolar también son constructos). Es decir, en este modelo, el aprovechamiento es en parte una función de la inteligencia y en otra parte de la motivación. Y es observable y cuantificable. Puede ser observado, es pasible de la atención cuidadosa del investigador quien lo observará metódicamente, de forma completa, fiel, objetiva y precisa, para establecer sus relaciones con otros constructos o con los fenómenos (todo lo que se da en la experiencia) o datos de estos.

Para una mejor observación, el investigador se auxilia con diversas técnicas e instrumentos que pueden ser en física el espectroscopio y en psicología el test. En consecuencia, la observación del constructo presupone que este es cuantificable, medible. Por ejemplo, para una mejor observación de la inteligencia en los niños podemos medirla preguntándole a su maestra acerca del grado de inteligencia que tienen o aplicándoles un test X. Entonces, el constructo es un concepto científico utilizado en sentido conectivo y que ofrece la posibilidad de ser medido. Cuando se opera con constructos susceptibles de tomar diversos valores se prefiere emplear el término variable (Arnau, 1978).

2.1.2 Definición constitutiva, operacional y medición del constructo. Para que la observación y medición del constructo sea posible hay que definirlo previamente. En la investigación científica se utilizan principalmente la definición constitutiva y la operacional. En la definición constitutiva se define un constructo por medio de otros constructos, por ejemplo, en física la "fuerza" se define como el producto de la "masa" por la "aceleración"; en psicología la "ansiedad" puede ser definida como un "miedo subjetivo". En la definición operacional se proporciona un significado al constructo en términos de datos observables especificando las actividades u operaciones necesarias para medirlo. La definición operacional es aquella que describe como una variable será medida. Por ejemplo, en física el "tiempo" puede definirse en términos de un sistema periódico como la rotación de la tierra; en psicología la "popularidad" puede ser definida operacionalmente por la cantidad de elecciones sociométricas que un individuo recibe de otros (en su clase, grupo

1 La red nomológica es el conjunto de leyes o condiciones que determinan el comportamiento del constructo.

[email protected] 10

Page 11: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

de juegos, etc.).2

2.1.3 Teorías, relaciones entre los constructos, modelos. Las teorías, científicas unifican los distintos elementos del conocimiento científico (leyes, hipótesis, categorías, conceptos, constructos, datos); y en ellas pueden distinguirse dos partes esenciales: una, referida a los constructos y sus relaciones mutuas por medio de definiciones sintácticas3, normalmente expresadas a través de relaciones formales; y la otra, más empírica, referida á la vinculación de los constructos con los datos por medio de las definiciones semánticas4, que sirven al propósito de definir los constructos en términos de datos observables o conducta y que en parte se refieren al proceso de su medición. Los constructos y sus correlaciones formales constituyen un modelo teórico. Cuando algunos constructos se conectan mediante reglas de correspondencia5 con el mundo de los fenómenos de los que tenemos datos, el modelo teórico puede ser sometido a comprobación empírica.

2.1.4 Un modelo psicológico.

Un ejemplo de un modelo psicológico es el del componente motivacional del aprendizaje autorregulado de McKeachie, Pintrich, Un, Smith y Serna, 1986 (en Roces, Gonzáles y Touron, 1997).

2 Es necesario tener en cuenta que un constructo puede tener varias definiciones constitutivas y operacionales (Cortada, 1968), y que las definiciones operacionales sólo dan significados limitados de los constructos. Ninguna definición operacional puede expresar un constructo en su totalidad, siempre son limitadas y específicas en significado. Por ejemplo, la "creatividad' estudiada por los psicólogos no es aquella a que se refieren los artistas, aún cuando habrá por supuesto elementos comunes (Kerlinger, 1985).3 Estas definiciones constituyen el sistema lógico de la teoría, permiten deducir las propiedades de los constructos que, a su vez, pueden interpretarse semánticamente, para explicar sucesos pasados o predecir sucesos futuros (Lord y Novick, 1968, en Martínez, 1995).4 Son las reglas de correspondencia entre los constructos y la conducta5 Definiciones constitutivas, operacionales y reglas de deductibilidad que regulan la relación entre los constructos (y sus dimensiones).

[email protected] 11

Page 12: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

Figura N° 1: Componentes de la motivación

Orientación Valor dea metas la tarea

Percepciones de dificultad de la tarea

.........................

RENDIMIENTO Competencia percibida

Autorregulación especifica de la tarea Elección

Persistencia

Creencias de eficacia, control Expectativasresultados de éxito

[email protected] 12

Page 13: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

Ansiedad en los exámenes y afectos

(McKeachie, Pintrich, Lin, Smith y Sharna, 1986; en Aliaga, 2003)

En el modelo se describen en forma gráfica las relaciones entre los constructos (variables), la direccionalidad de las mismas (sentido de las flechas) y el carácter directo o indirecto de su influjo. Los constructos que aparecen, por ejemplo, valor de la tarea y ansiedad en los exámenes, corresponden a percepciones o conceptualizaciones del estudiante que median entre la tarea y su ejecución por parte del alumno. Existen múltiples relaciones entre los elementos, pero destacan dos vías principales de motivación para el aprendizaje: las expectativas y el valor que se la da a la tarea. La primera vía en la parte inferior de la fig. va de las creencias de autoeficacia y creencia de control de los resultados a las percepciones de la dificultad de la tarea y a la competencia percibida y de la competencia percibida las expectativas de éxito. Estas en combinación con el valor dado a la tarea, llevan a la implicación en el aprendizaje y el consiguiente rendimiento. La segunda vía de motivación va de las metas a las que se orienta el estudiante al valor dado a la tarea, que junto a las expectativas de éxito, determina el aprendizaje y el rendimiento, Tanto las metas como el valor de la tarea influyen y se ven influidas por las creencias.

Para el contraste empírico de este modelo o de cualquier otro, los constructos deben ser cuantificados y medidos y luego los datos resultantes ser analizados, comparados, correlacionados, etc, en sus múltiples relaciones mediante procedimientos estadísticos y ecuaciones matemáticas. La medición es una de las cosas que hace posible y facilita el realizar este proceso.

2.1.5 Importancia de la medición para la ciencia. La medición es muy importante para la ciencia pues la introducción de términos métricos hace posible aplicar conceptos, y teorías estadísticas y de alta matemática y expresar leyes generales en forma de relaciones funcionales entre distintas cantidades. Las ventajas de definir en términos de medición acrecienta el poder de varias funciones de la ciencia, por ejemplo:

a) En la descripción, aumenta la flexibilidad descriptiva pues con conceptos métricos es posible diferenciar situaciones que en una mera clasificación se colocarían juntas, puesto que el número de clases es prácticamente ilimitado. Además introducen orden y posición relativa.

b) En la Explicación permite una formulación mas precisa de las leyes generales, relacionando distintos contenidos, y permite que el sistema matemático se extienda y aplique a la ciencia. La ciencia puede entonces

[email protected] 13

Page 14: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

utilizar las relaciones funcionales entre las construcciones (Cortada, 1968).

Sin embargo, la cuantificación y medición de los constructos tendrá características diferentes en las ciencias naturales y en la psicología y, ciencias sociales. Para tener una idea general del porqué de estas diferencias presentamos un bosquejo de la estructura de las teorías en estas ciencias.

3. FUNDAMENTOS DE LA TEORÍA DE LA MEDICIÓN

3.1 Teoría de la medición.La teoría de la medición estudia la posibilidad de usar los números en el

estudio de los fenómenos naturales y psicológicos. Esta posibilidad implica el uso de matemáticas, pero en tanto que la medición necesita relacionarse con el mundo físico, las matemáticas sólo se ocupan de la consistencia interna de esta relación.

3.1.1 Posibilidad de la medición en psicología.

Si entendemos en una primera aproximación a la medición como un proceso de atribuir números a los atributos o características de los objetos; puede decirse que caben varios modos de hacer esta atribución los que configuran tres tipos diferentes de medición: medición fundamental, medición derivada y medición por "fiat" o de acuerdo a una teoría (Campbell, 1928, en Cortada, 2001).

3.1.1.1 Medición fundamenta1.

El resultado de la medición de una magnitud (propiedad física que puede medirse) dada por un número y una unidad métrica, unidad de medición o unidad de medida, es una cantidad. En la vida cotidiana y en las ciencias naturales y sociales se manejan dos tipos de cantidades: recuentos (counts) y mediciones (measurement). Los recuentos son el resultado de contar las unidades no arbitrarias, naturales de algo (cardinalidad de un conjunto) y son un número natural, es decir, un entero positivo. Por ejemplo, si contamos una piara, las unidades serán cerdos, si contamos el contenido de una canasta de frutas, las unidades serán piñas, naranjas o lo que corresponda, si contamos los psicóticos de un hospital psiquiátrico, las unidades serán psicóticos (claro esta si el diagnóstico no es errado). Las mediciones o medidas, son en cambio, el resultado de comparar una cantidad con una unidad métrica arbitraria, no natural, por ejemplo, cuando decimos 30 metros estamos expresando el resultado de acumular 30 veces la unidad metro (30 x m), que es una unidad básica de medida inventada por el hombre, no viene dada como los recuentos por la naturaleza concreta de lo que se quiere cuantificar.

Por otro lado, los recuentos tienen unidades, pero no dimensiones, en tanto que las mediciones tienen unidades y dimensiones. ¿Qué es una

[email protected] 14

Page 15: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

dimensión de una magnitud? es el aspecto común a todas las propiedades que se pueden medir en unidades similares convertibles. Por ejemplo, la distancia entre dos ciudades puede medirse en diferentes unidades, kilómetros, millas, terrestres, millas marinas, verstas rusas, etc., pero sea cual sea la unidad métrica en la que damos la distancia la dimensión de dicha magnitud es siempre la misma, "la longitud (Tapia 2004). Huelga decir que en psicometría no se dispone (¿hasta el momento?) de este tipo de medida.

3.1.1.2 Medición derivada. Las unidades métricas de longitud, masa y tiempo por expresar aspectos definidos, delimitados e irreductibles a otras magnitudes son denominadas magnitudes o cantidades fundamentales, expresándose sus dimensiones mediante la letra inicial mayúscula (longitud, L; masa, M; tiempo, T), Hay otras unidades métricas que expresan cantidades definibles como unidades derivadas de estas tres unidades fundamentales. Por ejemplo, si para hallar la superficie de un rectángulo multiplicamos su base, (es decir, 3 x m), por su altura, 7 metros (o sea 7 x m), el resultado será (3 x m) x (7 x m) = 21 x m2 = 21 m2. Es decir, la unidad de superficie que denominamos "metro cuadrado" es el resultado de multiplicar un metro por sí mismo, en otras palabras, de elevarlo al cuadrado. Sea cual sea la unidad en que se mida la longitud (yarda, milla, etc.) toda unidad de superficie es una longitud elevada al cuadrado, teniendo en consecuencia la dimensión L2 (Tapia, 2004) Existen muchas unidades de medición obtenidas, por derivación que permiten medir cantidades importantes a efectos prácticos, por ejemplo, cualquier unidad de velocidad es una unidad de 'longitud dividida por una unidad de tiempo (km/h, "kilómetros por hora").

3.1.1.3 Medición por "fiat" o de acuerdo a una teoría.Se presenta cuando tenemos un constructo y queremos medirlo. Como

ya sabemos, dicho acto sólo es posible a través de la operacionalización del constructo, lo que conduce al establecimiento de la relación entre este y sus indicadores. Asimismo, sabemos que uno de los problemas para establecer una regla de correspondencia que relacione la construcción con los datos observables es hallar reglas para la medición de la construcción.

El problema para establecer reglas de correspondencia puede ser visto como aquel en el que el psicólogo realiza un proceso que responde a un plan explícito y organizado para clasificar o cuantificar los datos disponibles de modo tal que se puedan vincular mejor con el constructo que le interesa. En este proceso, el elaborar (o el contar con) un instrumento de medición adecuado, vale decir que registre datos observables que representen verdaderamente el constructo o variable, juega un papel central. Sin el no hay observaciones clasificadas (Carmines y Zeller. 1988, en Femández, Hernández y Baptista, 2002:345).

El desarrollo de estas reglas y de unidades significativas de medida para cuantificar las observaciones empíricas tiene por paradigma a la psicofisica y por tanto al escalamiento o construcción de escalas. Una escala de medida se establece cuando se define el conjunto de valores posibles que pueden

[email protected] 15

Page 16: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

asignarse y se establece la regla de asignación que establece la correspondencia entre el sistema relacional empírico (empírico, porque se refiere a entidades y relaciones reales) y el sistema relacional numérico (cuando medimos empleamos este sistema).

El escalamiento constituye una problemática ante la cual han surgido dos teorías: la Teoría Representacional de la Medición y la Teoría de la Medición Conjunta, siendo la primera la posición más ortodoxa.

3.1.2 La Teoría Representacional de la medición.

Esta teoría divide y trata esta problemática en tres temas: el problema de la representación, el de la unicidad y el de la significación.

3.1.2.1 Representación. La pregunta que se intenta responder es ¿el sistema relacional numérico (R- sus entidades son números) tiene una estructura semejante al sistema relacional empírico (X) expresado en datos, que se pretende medir? o con otras palabras ¿existe una relación isomórfica, es decir de uno a uno, entre las características del sistema numérico (R) y las cantidades del constructo/variable, por ejemplo, el valor de la tarea, la ansiedad ante los exámenes, el razonamiento numérico, la extraversión, la talla (X)? En esta perspectiva, "medir supone encontrar un sistema relacional numérico que pueda representar al sistema relacional empírico de interés" (Martínez Arias, 1995, pág. 24), así, los números no representarían propiamente cantidades sino relaciones (Jañez, 1989, pág. 402). Ahora bien, los números pueden utilizarse para representar distintos tipos de relación dando lugar a reglas de asignación clasificadas en niveles o escalas de medición, que según Stevens (1950) son cuatro: nominal, ordinal, de intervalo y de razón, proporción o cociente, aunque otros autores proponen clasificaciones ligeramente diferentes, como Torgerson (1958) que excluye la escala nominal y añade la escala ordinal con origen natural. Conviene tener presente aquí que la estadística no realiza sus funciones directamente sobre lo observado sino sobre los números que lo representan.

3.1.2.2 Unicidad. La pregunta clave que se intenta responder es ¿pueden obtenerse distintas escalas de números para la misma variable o atributo (X en R u homomorfismo)? La respuesta pasa por describir como puede cambiarse un conjunto concreto de números por otro, sin que se modifiquen las relaciones numéricas que representan a las relaciones empíricas, o. en otras palabras: el grupo de transformaciones que dejan invariante la forma de las escalas (singularidad de la representación). Las escalas de medición nominal, ordinal, de intervalo y de razón admiten ciertas transformaciones admisibles.

3.1.2.3 Significación. La pregunta que se intenta responder es ¿es válida una conclusión empírica inferida a partir de una conclusión numérica? Stevens (1946) plantea que la respuesta es relativa al tipo de nivel o escala de medición en que se basan las inferencias y la solución la propone en términos

[email protected] 16

Page 17: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

de los estadísticos admisibles para cada una de ellas, basándose en la invarianza o transformaciones admisibles que las caracterizan (Stevens, 1946, en Martínez Arias, 1965).

3.1.3 El sistema numérico empleado en la medición psicológica.

El sistema numérico que se emplea en la medición psicológica es el de los números reales, los que tienen las siguientes características:

(1) Origen: La serie de números (1 ,2,3...n) tiene un origen único llamado "cero".

(2) Orden: los números están ordenados (después del 1 viene el 2, después el 3, y así sucesivamente).

(3) Distancia: La diferencia entre dos números, es decir la diferencia entre dos pares de números, puede ser "mayor que" (por ejemplo, 4 es mayor que 3), "igual a que" (por ejemplo, 3 es igual a 3), o "menor que" (por ejemplo, 2 es menor que 5).

Un ejemplo de estas tres características lo tenemos en la regla escolar. Por lo demás, como vimos más arriba, para medir un atributo debe existir' una relación "isomórfica", es decir de uno a uno, entre las características del sistema numérico y las cantidades de la propiedad por medir, por ejemplo, la talla, el razonamiento numérico, la extraversión.

3.1.4 las escalas o niveles de medición.

Son modelos mediante los cuales se establecen ciertas propiedades formales referentes a las reglas para una correcta atribución de los números y las operaciones que se pueden hacer con los mismos. Estos modelos se originan en el hecho de que los números que se asignan a las cantidades de los atributos reflejan dos o tres de las características del sistema numérico. En esta razón, los números llevarán diferentes cantidades de información (desde una información pobre, la escala de medida nominal, a otro más útil, la escala de intervalos y la escala de razón). Es conveniente tener en cuenta que cada una de estas escalas tiene su teoría de la medición que se expresa en sus reglas, restricciones y procedimientos estadísticos apropiados (Siegel, 1971), pero, a la vez, que estas escalas no deben pensarse en términos de escalas "reales" sino que se establecen por convención o acuerdo entre científicos (véase a Nunally y Bernstein, 1995, pág. 27).

3.1.4.1 Escala Nominal. Con relación a la representación y teniendo en cuenta que los números pueden usarse para representar una relación de identidad, equivalencia o de diferencia, se da origen a esta escala en la que las reglas de asignación de los números determinan que éstos sólo informen de la igualdad o desigualdad de los individuos en un atributo, pero no

[email protected] 17

Page 18: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

de posibles ordenaciones, puesto que el atributo o característica a la que se refieren no se tiene en mayor o menor medida, sino que simplemente adopta formas cualitativamente distintas. Es decir, los números se utilizan únicamente como "etiquetas" de los elementos del sistema empírico; pudiéndose utilizar cualquier tipo de números, siempre que a cada elemento distinto del sistema empírico se le asigne un número diferente (Arias, 1995).

En tal razón, estos números (o símbolos) permiten solamente hacer clasificaciones. Los números se asignan únicamente para identificar las categorías donde se encuentran incluidas las personas o cosas. Estas clasificaciones pueden ser de una sola clase, como los números en camisetas de jugadores para identificarlos, o pueden aplicarse a grupos de personas, como cuando damos un número de código 1 a las mujeres y 2 a los hombres (pueden utilizarse otros números), o la letra D para identificar a todas las personas nacidas en Lima y la E a las nacidas en Ica (pueden utilizarse otras letras). En cuanto queden de esta manera los objetos pueden ser clasificados y contados, se está autorizando a considerar la asignación de números como un procedimiento de medición.

Con relación a la unicidad en la escala nominal, los números asignados pueden cambiarse por cualquier otro conjunto que preserve la relación de igualdad vs. diferencia (Martínez Arias, 1995), por tanto, son transformaciones admisibles todas las de identidad o equivalencia (transformaciones inyectivas), lo que quiere decir que todos los miembros a los cuales se les ha asignado el mismo número (o símbolo) son iguales. Esta relación se simboliza (=)6. Por ejemplo, el sexo de los individuos puede clasificarse simbolizando con un 0 "mujer" y con un 1 "varón". Posteriormente se hace una transformación admisible, 0 4 y 1 5, estos nuevos valores siguen cumpliendo las condiciones especificadas para la escala nominal.

Con relación a la significación en la escala nominal se plantean estadísticos admisibles, pero no hay un acuerdo al respecto, hablando algunos autores más que de estos estadísticos de conclusiones válidas a partir del análisis de los datos. Aceptando el concepto de estadísticos admisibles y teniendo en cuenta las propiedades formales de la relación de equivalencia, la única operación aritmética posible es la de contar (count), no se pueden realizar otras operaciones aritméticas. Los estadísticos admisibles son el modo y el cálculo de frecuencias. Las pruebas estadísticas apropiadas para el tratamiento de datos son las no paramétricas, por ejemplo la prueba chi cuadrada y el coeficiente de contingencia.

6 La equivalencia implica la presencia de una propiedad común. La relación de equivalencia puede ser reflexiva (x=x) , simétrica (x = y, entonces y = x) y transitiva (sí x=y y=z, entonces x=z).

- Reflexividad: todo objeto es equivalente a sí mismo (Sí Juan tiene el código 1, varón, entonces Juan es varón).

- Simetría: la relación se extiende la misma manera en ambas direcciones. (Si Juan tiene el mismo código 1, varón, que José, entonces José debe tener el mismo código que Juan).

- Transitividad: La relación pasa a través de los objetos. (Si Juan y José tienen el código 1, varón. entonces Juan y José deben tener el mismo código).

[email protected] 18

Page 19: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

3.1.4.2 Escala Ordinal. Con relación a la representación los números pueden representar relaciones de orden. En efecto, la aplicación de una regla de asignación de números a las diferentes cantidades origina que los números asignados a los objetos reflejen distintos grados en los que se presenta el atributo o característica, manteniendo los números las relaciones de orden del sistema empírico. Estos números sólo indican un orden o rango entre aquellos, permitiéndonos inferir relaciones de tipo "mayor que" o "menor que". Así, podemos colocar a los individuos en una serie cuyo rango va del más alto al más bajo (o viceversa) según el atributo o característica que intentamos medir, indicándonos si un individuo tiene más o menos del atributo, pero no podemos decir cuánta es la diferencia entre un par cualquiera de individuos, no nos dice en cuanto más. En psicología son muchas los atributos cuya medición está a nivel ordinal, pues son muchos los casos en los que lo único que puede decirse es que un individuo es más introvertido que otro, que un niño es más hiperactivo que otro, o que el aprendizaje es más rápido con el método A que con el método B.

Con relación a la unicidad7 en la escala ordinal se puede cambiar unas asignaciones numéricas por otras de modo tal que el orden empírico quede reflejado en las transformaciones, es decir que permanezca invariable el orden relativo de los objetos o sujetos. Las transformaciones posibles son las denominadas monótonas crecientes; la transformación es creciente si para todo par de objetos a y b se cumple la siguiente condición: "Si n (a) > n (b), entonces t[ n (a)] > t[n(b)]

Con relación a la significación, las operaciones aritméticas comunes- suma, resta, multiplicación, división - no pueden emplearse legítimamente con estas escalas. Los estadísticos apropiados para trabajar con estas escalas son la mediana, los percentiles, el coeficiente de correlación de Spearman, entre otros. Las pruebas estadísticas de significación apropiadas son las no paramétricas.

Ejemplos de escalas ordinales son las opciones de respuesta de un item tipo likert ("Muy de acuerdo", "De acuerdo", "indeciso", "En desacuerdo", "Muy en desacuerdo") y la escala de percentiles.

3.1.4.3 Escala de Intervalos. (Denominada con frecuencia "escala de intervalo igual"). Con relación a la representación los números pueden representar la igualdad de diferencias entre pares de objetos con relación a algún atributo, dando lugar las reglas de asignación a esta escala. En efecto, si la diferencia entre los números asignados a dos objetos es igual a la diferencia entre los números asignados a otros dos, también son iguales las diferencias

7 La escala ordinal posee las propiedades de equivalencia aplicable a los miembros de una misma clase (escala nominal) y, además, la relación "mayor que" (>).- La relación "Mayor que” es irreflexiva (no es verdad que para cualquier x que x >x ).- La relación "Mayor que" se e: presa, según los casos, con términos como "más de acuerdo”, "más preferido", "más estable". etc.

[email protected] 19

Page 20: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

en magnitudes entre estos dos pares. Una mayor diferencia entre los números asignados implica una mayor diferencia entre las magnitudes representadas.

En la medida en escala de intervalos el número asignado al objeto y que representamos por n (Oi), es una función lineal de la magnitud real que ese objeto representa en el atributo de interés. En otras palabras, esta medida especifica una correspondencia uno a uno entre el sistema relacional empírico (dominio de la conducta o atributo) y el sistema numérico (números reales), “siendo arbitrarios únicamente el origen de la escala y la unidad de medida" (Arias, 1995, pág. 25).

En términos operativos y comparándola con la medida en escala ordinal, la medida en escala de intervalo permite determinar cuán lejos se encuentran dos personas o dos cosas, pues permite especificar la magnitud de una diferencia. Por ejemplo, si la temperatura es 20º C el lunes, 22º C el martes y 26º C el miércoles, podemos decir la magnitud de la diferencia entre las temperaturas de esos días. En el caso de los ítemes de un test la escala de intervalo nos dice que ítem tiene más o menos de la cualidad juzgada y la magnitud de la diferencia entre los ítems.

Con relación a la unicidad las mediciones en esta escala admiten como única transformación que conserva las propiedades de una escala de intervalo a la transformación lineal general cuya forma es xT = bX + a, donde XT es la media original y a y b son constante aditivas y multiplicativas comprendidas en la transformación (Nunally y Bernstein, 1995, pág. 18). Un ejemplo es la transformación de temperaturas de Celsius (C) a Fahrenheit (F) por medio de la relación F = 9/5 + 32. Otros ejemplos relacionados con escalas psicológicas pueden verse en el Tema Normas. Estas transformaciones significan un cambio en la unidad de medida y en el origen asignado a la escala, que como sabemos son valores arbitrarios.

Con relación a la significación las operaciones que pueden realizarse con las diferencias entre números son las isomórficas con las operaciones correspondientes en aritmética con la anotación arriba descrita. A los datos de esta escala se les pueden aplicar técnicas y pruebas de la estadística paramétrica tales como la media aritmética, la desviación estándar, la varianza, el coeficiente de corre1ación de Pearson, la prueba "t" de Student, el análisis de varianza (Anova), la correlación múltiple, entre otras. Sin embargo, es de señalar que al ser la principal limitación de esta escala el no tener un punto cero absoluto o "exacto", se puede sumar y restar las puntuaciones pero no es legítimo dividir un puntaje por otro, puesto que la división presupone precisamente la existencia de un punto "'cero" exacto.

Ejemplos de escalas de intervalo son las de temperatura y los puntajes de las pruebas psicológicas estandarizadas.

Para lograr la medición de variables psicológicas en una escala de intervalo se ha partido de la observación que después de continuas mediciones

[email protected] 20

Page 21: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

de atributos humanos (por ejemplo, estatura, temperatura, fuerza de las manos) con instrumentos de medida objetivos que proporcionan datos en escalas de intervalos o de razón, los resultados se distribuyen aproximadamente de acuerdo a una distribución normal (campana de Gauss).

En vista de este hecho, se ha propuesto una hipótesis fundamental para la práctica de la construcción de tests, saber que si pudiéramos medir la diferencia entre los individuos en una escala de intervalos obtendríamos una distribución normal de los puntajes individuales.

Hagamos que la fig. (a) represente un continuo de ejecución de una variable psicológica, por ejemplo, la capacidad de resolver problemas matemáticos. Suponiendo que dicha capacidad sea una función monotónica (que crece o decrece continuamente) de la posición en el continuo sabemos su dirección. Una persona que ha resuelto uri mayor número de ítemes se supone que tiene una posición más alta en el continuo, que un individuo que ha resuelto un número menor de ítemes. Por lo tanto, es posible medir dicha capacidad a nivel ordinal Otra propiedad importante, la de las unidades o intervalos iguales, es necesaria para determinar la magnitud de las diferencias entre distintas posiciones. Luego se elabora la distribución hipotética normal en el continuo.

(Fig a)

Nótese que ahora tenemos una distribución hipotética colocada sobre un continuo de cuyas propiedades escalares conocemos solamente la dirección, la forma de la distribución está basada únicamente en un supuesto: el de la normalidad (Campana de Gauss). El problema práctico ahora consiste en construir un instrumento de medida con las propiedades que puedan derivarse de este supuesto. Si bien no se soluciona el problema de la falta del punto cero, si construimos un instrumento que proporcione una distribución normal de los puntajes obtenidos, podemos expresar las posiciones de los individuos sobre este continuo psicológico en una escala de intervalo8 (Tomado de Magnusson, 1969: 24-26). En esta dirección, dos pasos importantes para construir una escala de intervalos:

1) La suposición de una distribución normal de los individuos de una población.

2) El uso de variación de los individuos como una unidad de medida (lo cual llevará a que los ítemes del test tengan diferentes grados de dificultad, de intercorrelación, etc).

8 En opinión de Tennan tenemos que asumir de antemano que el test se encuentra en una escala de intervalos, y que la escala o nivel de medición sólo se verifica cuando los puntajes son estandarizados (Terman. L. y Merril. N. (1963): Medida de la inteligencia. México D.F., México: Edinal, pág. 8).

[email protected] 21

Page 22: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

3.1.4.4 Escala de razón, proporción o cociente. Con relación a la representación esta escala de medición posee todas las propiedades de las anteriores y, además, posee un punto "cero" fijo, lo que en el sistema empírico supone un cero absoluto, lo cual quiere decir que si un objeto tiene el valor O, ese objeto no posee la propiedad que sé esta midiendo.

Con relación a la unicidad, en términos formales "si los números de un escala de razón n(x) son multiplicados por una constante positiva, dando lugar a n'(x). es decir: n'(x) = an(x), donde a>0, se preserva e! homomorfismo. Puesto que la escala tiene un origen natural, éste no puede cambiarse" (Martinez, 1995, pág. 25). Por ejemplo, se puede pasar de una medición en metros a una medición en yardas, son transformaciones mutuamente admisibles, ya que aunque cada una tiene su unidad de medida, ambas respetan el cero absoluto, que coincide con las dos, y representa la ausencia de esta característica.

Por último, con relación a la significación, los valores de una escala de razón constituyen un sistema que es isomórfico con la aritmética. De ahí que con esos números se pueden realizar todas las operaciones aritméticas. Se puede calcular con precisión la razón no sólo entre dos intervalos, sino entre cualquier par de números de la escala. Por ello, el tratamiento de datos en escala de razón admite todas las técnicas y pruebas estadísticas apropiadas para el nivel intervalo de medición, con adición de la media geométrica y el coeficiente de variación, estadísticos que requieren para su cálculo el conocimiento del verdadero punto 0 de la escala.

3.2 Medición.

3.2.1 Definición.

Es un proceso de asignación de números que obedece a todo un conjunto de reglas y normas propias de los niveles o escalas de medida cuya validez puede probarse, que permiten legitimar el paso de la apreciación de una característica, atributo o constructo integrado en un contexto teórico o modelo a un valor métrico, o contexto empírico, que hace posible estudiar en forma científica dicha característica, atributo o constructo (Magnusson, 1969; Carro, 1997).

En términos de los sistemas relacionales, "medir implica traducir la información que contiene el sistema empírico (X) al marco del sistema relacional numérico (R) mediante una aplicación u homomorfismo" (Aftanas, 1988, pag. 326).

En otras palabras, el proceso de medición de acuerdo a las escalas de medida pretende representar esencialmente con números - aunque pudieran ser otros símbolos - de acuerdo a las propiedades numéricas que tienen dichas escalas, las observaciones que se han tomado de la realidad.

[email protected] 22

Page 23: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

Posiblemente basados en la clasificación de Torgerson (1958), algunos autores opinan que esta representación (o asignación) se realiza de manera que 1) represente cantidades o atribL:_os de forma numérica según las reglas o normas de los niveles o escalas de medición ordinal, de intervalo y de razón, o, 2) definan si los objetos caen en las mismas categorías o en otras diferentes con respecto a un atributo determinado según las reglas o normas de la escala nominal, "dando lugar a la clasificación, que es al menos igualmente importante para la ciencia como lo es la medición" (Nullally y Bernstein, 1995, pág. 5).

Con el término "reglas" se señala que la asignación de números debe establecerse de manera explícita; y que con el término "atributo" se señala que la medición siempre implica alguna característica particular de los objetos. En efecto, los objetos no pueden medirse, se miden sus atributos. Esto significa que la medición requiere primero de un proceso de abstracción expresada generalmente en la elaboración de "constructos", por ejemplo, el razonamiento verbal, el locus de control, que deben ser bien analizados en cuanto, a su naturaleza y en cuanto al conjunto de reglas para su medición.

3.2.2. Propósito de la medición en psicología.

Proporcionar una base objetiva, exacta y comunicable que permita describir, diferenciar y clasificar a las personas con referencia a sus atributos, características y conductas.

Para clasificar primero se debe diferenciar. La diferenciación precede a la clasificación. En psicometría para diferenciar a los individuos sobre la base de una determinada variable se deben reunir dos requisitos: 1) se debe dar una definición del constructo o variable (por ejemplo, la inteligencia); y 2) se debe dar una regla (o un conjunto de ellas) por la cual se establezcan las operaciones que permitirían diferenciar entre los sujetos (u objetos) (Levine y Freeman; 1973).

Cuanto más específica es la regla más exacta es la medición. Las reglas son un aspecto importante de la estandarización: a) deben ser claras; b) de aplicación práctica; c) no requerir de gran habilidad del psicólogo para su administración; d) Los resultados no deben depender del psicólogo administrador de la medida.

Estas reglas aluden, por ejemplo, a las instrucciones de un test, para administrar, calificar e interpretar sus puntuaciones. El respeto de éstas es imprescindible para una buena medición, es decir para una medición confiable y válida.

Gracias a este procedimiento, puede decirse que un test está bien estandarizado si diferentes examinadores obtienen puntajes similares al

[email protected] 23

Page 24: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

evaluar a un sujeto particular en un momento determinado (Nunnally y Benrstein, 1994).

4. INSTRUMENTOS DE MEDICIÓN

Un instrumento de recolección de datos es, en principio, cualquier recurso de que se vale el investigador para acercarse a los fenómenos y extraer de ellos información. Ya adelantábamos que dentro de cada instrumento concreto pueden distinguirse dos aspectos diferentes: forma y contenido. La forma del instrumento se refiere al tipo de aproximación que establecemos con lo empírico, a las técnicas que utilizamos para esta tarea.

En cuanto al contenido éste queda expresado en la especificación de los datos que necesitamos conseguir; se concreta, por lo tanto, en una serie de ítems que no son otra cosa que los mismos indicadores que permiten medir las variables, pero que asumen ahora la forma de pregunta, puntos a observar, elementos a registrar, etc. De este modo, el instrumento sintetiza en sí toda la labor previa de investigación: resume los aportes del marco teórico al seleccionar datos que corresponden a los indicadores y, por lo tanto, a las variables o conceptos utilizados; pero también expresa todo lo que tiene de específicamente empírico nuestro objeto de estudio pues sintetiza, a través de las técnicas de recolección que emplea, el diseño concreto escogido para el trabajo.

Es medianamente una adecuada construcción de los instrumentos de recolección que la investigación alcanza entonces la necesaria correspondencia entre teoría y hechos; es más, podríamos decir que es gracias a ellos que ambos términos efectivamente se vinculan. Si en una investigación los instrumentos son defectuosos se producirán, inevitablemente, algunas de las dificultades siguientes: o bien los datos recogidos no servirán para satisfacer los interrogantes iniciales o bien so se podrán obtener los datos que necesitamos, o vendrán falseados, distorsionados, porque el instrumento no se adecua al tipo de hechos en estudio. En ambos casos habrá, seguramente, uno o varios errores en las etapas anteriores del proceso de investigación. Será entonces necesario volver hacia atrás y revisar las diferentes tareas realizadas, hasta alcanzar una mejor aproximación al problema.

4.1 TIPOS INSTRUMENTOS DE MEDICIÓN

4.1.1 ENCUESTAS

El diseño encuesta es exclusivo de las ciencias sociales y parte de la premisa de que si, queremos conocer algo sobre el comportamiento de las personas, lo mejor, lo más directo y simple, es preguntárselo directamente a ellas. Se trata por tanto de requerir información a un grupo socialmente significativo de personas acerca de los problemas en estudio para luego, mediante un análisis

[email protected] 24

Page 25: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

de tipo cuantitativo, sacar las conclusiones que se correspondan con los datos recogidos.

Cuando se recaba información a todas las personas que están involucradas en el problema en estudio este diseño adopta el nombre de Censo. Los censos, por las dificultades materiales que implica su realización, son casi siempre trabajos de envergadura, que sólo pueden ser acometidos por los Estados o por instituciones de muy amplios recursos. Son sumamente útiles porque a través de ellos tenemos una información general de referencia, indispensable para casi cualquier trabajo de indagación social posterior. Por la gran cantidad de personas a entrevistar no es factible en ellos obtener información muy detallada, pues se convertirían en trabajos desproporcionadamente difíciles de ejecutar y analizar.

En su lugar se emplean las encuestas por muestreo, donde se escoge mediante procedimientos estadísticos una parte significativa de todo el diverso, que se toma como objeto a investigar. Las conclusiones que se obtienen para este grupo se proyectan luego a la totalidad del universo, teniendo en cuenta los errores maestrales que se calculen para el caso. De esta forma los hallazgos obtenidos a partir de la muestra pueden generalizarse a todo el universo con un margen de error conocido y limitado previamente por el investigador.

El método de encuestas ha alcanzado gran popularidad entre los investigadores sociales, lo que ha llevado a que muchas personas confundan encuestas con investigación social como si fuera una misma cosa, siendo que en la realidad la encuesta es sólo uno de los métodos posibles de estudio de la realidad social y que presenta, como todos los métodos, sus puntos a favor y en contra.

Las principales ventajas que han ayudado a difundir el diseño encuesta son las siguientes:

1) Su conocimiento de la realidad es primario, no mediado, y por lo tanto menos engañoso. Al acudir directamente a la gente (a los actores sociales) para conocer su situación, conducta u opinión, nos precavemos contra una multiplicidad de distorsiones y nos ponemos a salvo de interpretaciones que pueden estar altamente teñidas de subjetividad.

2) Como es posible agrupar los datos en forma de cuadros estadísticos se hace más accesible la medición de las variables en estudio. De esta forma se puede cuantificar una serie de variables operando con ellas con mayor precisión, permitiendo el uso de correlaciones y de otros recursos matemáticos; se supera así una de las dificultades básicas de la investigación social que es su limitada rigurosidad y la alta posibilidad de errores por un tratamiento poco exacto de los fenómenos.

3) La encuesta es un método de trabajo relativamente económico y rápido. Si se cuenta con un equipo de entrevistadores y codificadores

[email protected] 25

Page 26: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

convenientemente entrenado, resulta fácil llegar rápidamente a una multitud de personas y obtener una gran cantidad de datos en poco tiempo. Su costo, para los casos simples, es sensiblemente bajo.

En los últimos años después del relativo abuso precedente, la mayoría de los investigadores ha comprendido que este diseño resulta del valor para determinado tipo de problemas pero que, en otros casos, aparecen una serie de inconvenientes serios que le restan validez como diseño. Las desventajas mas frecuentes que se le han reconocido son:

1) La encuesta recoge la visión que la gente tiene de sí misma; no puede dudarse de que ésta es siempre una imagen singular y muy subjetiva y que, para algunos temas, puede ser deliberadamente falsa e imprecisa. No es lo mismo lo que las personas hacen, sienten o creen, que lo que ellas mismas dicen que hacen, creen o sienten. Existen algunos recursos para reducir la magnitud de este serio problema, entre los que se cuentan: omitir algunas preguntas que sabemos la mayoría no desea o no puede contestar con veracidad, buscar formas indirectas de contrastación, prestar cuidadosa atención a la presentación personal del encuestador, etc. A pesar de estas técnicas de trabajo es imposible eliminar por completo el fenómeno antes señalado, por lo que el investigador tendrá que tomar en cuenta, al momento de hacer el análisis, las limitaciones que el mismo acarrea.

2) La encuesta no relata los hechos sociales desde el punto de vista de sus actores; puede, en este sentido, llegar a una cierta profundidad y sistematicidad, pero resulta poco apta para reconocer las relaciones sociales ya sean interpersonales o institucionales.

3) El diseño encuesta es básicamente estático. Tiende, de por sí, a proporcionar una especie de imagen instantánea de un determinado problema, pero no nos indica sus tendencias a la variación y menos aún sus posibles cambios estructurales. Esta característica reduce notablemente su eficacia predictiva, salvo para fenómenos de bastante simplicidad.

4) El tratamiento de la información es estadístico, lo que supone agrupar a todas las respuestas dándole a cada una igual peso relativo. Ello puede resultar muy democrático y útil en ciertos casos, pero casi nunca se corresponde con la realidad de los hechos sociales, donde el liderazgo y al asimetría de las posiciones sociales con por lo general la norma.

De los comentarios expuestos puede inferirse cual es el campo de mayor utilidad de este diseño. Las encuestas resultan apropiadas casi siempre para estudios de tipo descriptivo, aunque no tanto para los explicativos. Son inadecuadas para profundizar ciertos aspectos psicológicos o psico-sociales profundos pero muy eficaces para problemas menos delicados, como los del mercado masivo y las actitudes electorales. Resultan poco valiosas para determinar tipos de liderazgo y en general todos los problemas que se refieren más a las relaciones y estructuras sociales que a las conductas más simples o

[email protected] 26

Page 27: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

a los comportamientos, actitudes y opiniones masivas, donde sí adquieren mayor eficacia.

La lógica de la verificación mediante encuestas se basa naturalmente en la correlación estadística que presentan las distribuciones de frecuencias (o los porcentajes) de dos o más variables sobre las cuales se supone que existen relaciones de determinación. De este modo se puede inferir si existe o no una asociación entre los valores de las mismas, con lo cual queda establecida una cierta relación. Determinar, más allá de esto, el tipo de relación que se ha detectado y el grado de influencia que ejerce una sobre otra requiere de otras nuevas pruebas que no siempre es posible realizar por medio de este diseño.

4.1.2 ENTREVISTA

La entrevista, desde el punto de vista del método, es una forma específica de interacción social que tiene por objeto recolectar datos para una indagación. El investigador formula preguntas a las personas capaces de aportarle datos de interés, estableciendo un diálogo peculiar, asimétrico, donde una de las partes busca recoger informaciones y la otra es la fuente de esas informaciones. Por razones obvias sólo se emplea, salvo raras excepciones, en las ciencias humanas.

La ventaja esencial de la entrevista reside en que son los mismos actores sociales quienes proporcionan los datos relativos a sus conductas, opiniones, deseos, actitudes y expectativas, cosa que por su misma naturaleza es casi imposible de observar desde fuera. Nadie mejor que la misma persona involucrada para hablarnos acerca de todo aquello que piensa y siente, de lo que ha experimentado o proyecta hacer.

Pero existe un inconveniente de considerable peso que reduce y limita los alcances de esta técnica. Cualquier persona entrevistada podrá hablarnos de aquello que le preguntemos pero siempre nos dará la imagen que tiene de las cosas, lo que cree que son, a través de toda su carga subjetiva de intereses, prejuicios y estereotipos. La propia imagen que el entrevistado tiene de sí mismo podrá ser radicalmente falsa y, en todo caso, estará siempre idealizada de algún modo, distorsionada, mejorada o retocada según factores que no es del caso analizar aquí, pero que nunca podemos prever en detalle.

Este problema nos obliga a dejar fuera de esta técnica a un campo considerable de problemas y de temas que, por lo anterior, son explorados mejor por medio de otros procedimientos que resultan más confiables. Por otra parte nos obliga a utilizar, a veces, caminos indirectos, mediante preguntas que alcancen nuestro objetivo elípticamente, utilizando todo tipo de rodeos. Es clásico de ejemplo de que las personas nunca contestan la verdad respecto a sus ingresos personales en dinero, ya sea porque los disminuyen (ante el temor de estar frente a algún tipo de inspector de impuestos), o porque los aumentan (con fines de ostentación social o para reforzar su autoestima). Tal como en este caso, el lector podrá imaginar una amplia variedad de preguntas

[email protected] 27

Page 28: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

a las que los entrevistados sólo nos proporcionarían respuestas inexactas o falsificadas, cuando no una reacción adversa que interrumpa toda comunicación.

Para que una entrevista obtenga éxito es preciso prestar atención a una serie de factores aparentemente menores, pero que en la práctica son decisiones para un correcto desarrollo del trabajo. Así, es importante que la apariencia exterior del entrevistador resulte adecuada al medio social donde habrá de formular sus preguntas, evitando innecesarias, reacciones de temor, agresividad o desconfianza. El entrevistador, aparte de este aspecto formal, deberá ser una persona de por lo menos una cultura media, que comprenda el valor y la importancia de cada dato recogido y la función que su trabajo desempeña en el conjunto de la investigación. Tendrá que ser mentalmente ágil, no tener prejuicios marcados frente a ninguna categoría de personas y, sobre todo, ser capaz de dejar hablar libremente a los demás, eliminando por completo todo intento de convencerlos, apresurarlos, o agredirlos por sus opiniones. La entrevista deberá realizarse a las horas más apropiadas para las personas que responden, teniendo en cuenta que su posible duración no afecte la confiabilidad de los datos.

Queremos destacar que las entrevistas no son excluyentes con respecto a las técnicas de observación, ya que ambos procedimientos pueden ser combinados sin ninguna dificultad, tratando precisamente de compensar sus ventajas y desventajas, con lo que se puede lograr una información mucho más confiable y amplia. Así, en muchas encuestas, hay datos que el entrevistador recoge mediante la observación y no mediante preguntas, como por ejemplo las características de la vivienda, la edad del responderte, etc.

Parece apropiado, además, despejar aquí la confusión que siempre vincula a las entrevistas con las encuestas. Ni ellas son la misma cosa aunque las encuestas se realicen generalmente por medio de entrevistas ni ambas son técnicas diferentes aplicables a distintos casos. La encuesta, es un modelo general de investigación, un diseño o método, que se apoya fundamentalmente en una técnica de recolección que es la entrevista, aunque también utiliza observaciones y datos secundarios. Además pueden utilizarse entrevistas en otros tipos de diseños, como en los estudios de caso y experimentos, sin que por ello estemos en presencia de una encuesta. Lo que vulgarmente se llama entrevista no estructurada y lo que suele llamarse encuesta es igual a lo que denominamos, en metodología científica, entrevista estructurada. Por eso no tiene sentido hablar de entrevistas y encuestas como dos técnicas diferentes sino de entrevistas estructuradas o no que se aplican dentro de determinados diseños de investigación: encuestas, estudios de caso, etc.

Pasando ahora a la clasificación de los diversos tipos de entrevistas diremos que ellas pueden ordenarse como una serie, de acuerdo principalmente a un elemento: su grado de estructuración o formalización. Las entrevistas más estructuradas serán aquellas que predeterminan en una mayor medida las respuestas a obtener, que fijan de antemano sus elementos con más rigidez,

[email protected] 28

Page 29: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

mientras que las entrevistas informales serán precisamente las que discurran de un modo más espontáneo, más libre, sin sujetarse a ningún canon preestablecido. Los distintos tipos de entrevista quedan expuestos a continuación:

4.1.2.1 Entrevistas no estructuradasDe un modo general, una entrevista no estructurada o no formalizada es aquella en que exista un margen más o menos grande de libertad para formular las preguntas y las respuestas. No se guían por lo tanto por un cuestionario o modelo rígido, sino que discurren con cierto grado de espontaneidad, mayor o menor según el tipo concreto de entrevista que se realice. Entre estos tenemos los siguientes:

a. Entrevista informal: es la modalidad menos estructurada posible de entrevista ya que la misma se reduce a una simple conversación sobre el tema de estudio. Lo importante no es aquí definir los límites de lo tratado ni ceñirse a algún esquema previo, sino “hacer hablar” al entrevistado, de modo de obtener un panorama de los problemas más salientes, de los mecanismos lógicos y mentales del responderte, de los temas que para él resultan de importancia. Es de gran utilidad en estudios exploratorios y recomendable cuando se trata de abordar realidades poco conocidas por el investigador, también suele utilizarse en las fases iniciales –aproximativas- de investigación de cualquier naturaleza, recurriendo a informantes claves que pueden ser expertos sobre el tema en estudio, líderes formales o informales, personalidades destacadas o cualquier persona que, en general, posea informaciones de particular interés para la indagación.

Lo más importante, en este tipo de entrevista, es dar al responderte la sensación clara y definida de que puede hablar libremente, alentándolo y estimulándolo para que lo haga y cuidando de no influirlo demasiado con nuestras actitudes o las palabras que decimos.

b. Entrevista focalizada: es prácticamente tan libre y espontánea como la anterior, pero tiene la particularidad de concentrarse en un único tema. El entrevistador deja hablar sin restricciones al entrevistado, proponiéndole apenas algunas orientaciones básicas pero, cuando éste se desvía del tema original y se desliza hacia otros distintos, el entrevistador vuelve a centrar la conversación sobre el primer asunto, y así repetidamente. Se emplea normalmente con el objeto de explorar a fondo alguna experiencia vivida por el entrevistado o cuando nuestros informantes son testigos presénciales de hechos de interés, por lo que resulta adecuado a la vez insistir sobre lo mismo, pero dejando entera libertad para captarlos en toda su riqueza. Esto ocurre también cuando se trata de interrogar a los actores principales de ciertos hechos o a testigos históricos. Tal tipo de entrevista requiere de gran habilidad en su desarrollo para evitar tanto la dispersión temática como caer en formas más estructuradas de interrogación.

[email protected] 29

Page 30: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

c. Entrevistas por pautas o guías: son aquellas, ya algo más formalizadas, que se guían por una lista de puntos de interés que se van explorando en el curso de la entrevista. Los temas deben guardar una cierta relación entre sí. El entrevistador, en este caso, hace muy pocas preguntas directas, y deja hablar al responderte siempre que vaya tocando alguno de los temas señalados en la pauta o guía. En el caso de que éste se aparte de ellos, o que no toque alguno de los puntos en cuestión, el investigador llamará la atención sobre ellos, aunque tratando siempre de preservar en lo posible la espontaneidad de la interacción. Se usan en situaciones parecidas a las anteriores y cuando se presentan casos en que los sujetos investigados prefieren más un desarrollo flexible que un rígido por sus propias actitudes culturales o necesidades personales. Son un complemento magnífico de las entrevistas más estructuradas que se realizan en la encuestas por muestreo, pues permiten añadir a éstas un tipo de información más subjetiva o profunda que facilita el análisis de los otros datos.

Todas estas formas de entrevistas, que tienen en común su poca formalización, poseen la ventaja de permitir un diálogo más profundo y rico, de presentar los hechos en toda su complejidad, captando no sólo las respuestas a los temas elegidos sino también las actitudes, valores y formas de pensar de los entrevistados, a veces inaccesibles por otras vías. Su principal inconveniente radica en que es poco práctico sistematizar un gran número de entrevistas de este tipo, organizándolas estadísticamente, pues pueden tener muy pocos puntos de contacto entre sí. Otra dificultad que no debe omitirse es su costo, pues involucran la presencia de personal altamente especializado durante tiempos relativamente largos.

Los problemas de registro pueden ser importantes, pues existe un gran número de palabras que es casi imposible registrar en su totalidad. Pueden utilizarse grabadores para solventar este inconveniente, aunque es preciso determinar previamente si la presencia de tales aparatos cohíbe o no a los informantes. En todo caso es preciso realizar un esfuerzo especial para transcribir, organizar e interpretar cada una de las entrevistas realizadas, de modo de que sus datos puedan sintetizarse, posteriormente, en una forma adecuada.

d. Entrevistas formalizadasEstas se desarrollan en base a un listado fijo de preguntas cuyo orden y redacción permanece invariable. Comúnmente se administran a un gran número de entrevistados para su posterior tratamiento estadístico. Por este motivo es la forma de recolección de datos más adecuada para el diseño de encuesta, tanto que a veces provoca confusiones entre instrumento y método.

Entre sus ventajas principales mencionaremos su rapidez y el hecho de que pueden ser llevadas a cabo por personas con mediana preparación, lo cual redunda en su bajo costo. Otra ventaja evidente es su posibilidad de procesamiento matemático, ya que al guardar una estricta homogeneidad sus respuestas resultan comparables y agrupables. Su desventaja mayor estriba en que reducen grandemente el campo de información registrado, limitando los

[email protected] 30

Page 31: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

datos a los que surgen de una lista taxativa de preguntas. Esta lista de preguntas, que es el instrumento concreto de recolección empleado en este caso, recibe el nombre de cuestionario y puede ser administrado sin que necesariamente medie una entrevista. Debe ser cuidadosamente redactado, evitando preguntas demasiado generales, confusas o de doble sentido, y tratando de conservar un orden lo más natural posible.

Según el tipo de preguntas que se incluyan en un cuestionario las entrevistas resultantes serán más o menos estructuradas. Para ello suelen dividirse las preguntas en dos grandes tipos: de alternativas fijas, de final abierto.

Las preguntas de alternativas fijas, llamadas comúnmente cerradas, formalizan más el cuestionario, pues en ellas sólo se otorga al entrevistado la posibilidad de escoger entre un número limitado de respuestas posibles. Si se pregunta “¿cree Ud. En los OVNIS, sí o no?”, estaremos ante una típica pregunta cerrada. Hay que tener sumo cuidado en la redacción de estas alternativas ofrecidas, sean éstas dos, tres, o veinte, si el responderte no puede elegir una respuesta que esté fuera de la lista, la pregunta se habrá de considerar cerrada. Hay que tener sumo cuidado en la redacción de estas alternativas, procurando especialmente que ellas sean exhaustivas y mutuamente excluyentes, tal como ocurría para la confección en un sentido determinado.

Las preguntas de final abierto, llamadas también simplemente abiertas, proporcionan una variedad más amplia de respuestas pues éstas pueden ser escogidas libremente por los respondientes. Su redacción debe ser muy cuidadosa para evitar respuestas confusas o erróneas, y para evitar además que ellas predispongan a los entrevistados en uno u otro sentido. Un ejemplo de pregunta abierta sería: “¿Qué opina Ud. Acerca de los OVNIS?”; como resulta evidente, la respuesta aquí puede ser infinitamente variada, según lo opinión de cada persona consultada. La información que se obtendrá será mucho más completa y valiosa con esta pregunta que con la del ejemplo anterior, pero el trabajo de procesamiento de los datos, en compensación, tendrá que ser sin duda mucho mejor.

Una vez que se redacta el conjunto de preguntas que constituyen un cuestionario es necesario revisar éste una y otra vez para asegurarse de su consistencia y eliminar los posibles errores u omisiones. Casi siempre se realiza lo que se denomina una prueba piloto, que consiste en administrar el cuestionario a un conjunto reducido de personas para calcular su duración, conocer sus dificultades y corregir sus defectos, antes de aplicarlo a la totalidad de la muestra.

Durante las entrevistas se utilizan frecuentemente ayudas visuales (fotografías, esquemas, tarjetas con frases o palabras, etc.), que contribuyen a veces a obtener conocimientos más complejos y que, en otros casos, cumplen función de preservar la objetividad, evitando que la forma en que se pronuncia o describe algo introduzca un sesgo determinado en las respuestas.

[email protected] 31

Page 32: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

4.1.3 CUESTIONARIOS

Un cuestionario consiste en un conjunto de preguntas respecto a una o más variables a medir. El contenido de las preguntas de un cuestionario puede ser tan variado como los aspectos que mida. Y básicamente, podemos hablar de dos tipos de preguntas: cerradas y abiertas.

Las preguntas cerradas contienen categorías o alternativas de respuestas que han sido delimitadas. Es decir, se presentan a los sujetos las posibilidades de respuestas y ellos deben circunscribirse a ellas. Pueden ser dicotómicas (dos alternativas de respuestas) o incluir varias alternativas de respuestas.

En las preguntas cerradas las categorías de respuestas son definidas a priori por el investigador y se le presentan al respondiente, quien debe elegir la opción que describa más adecuadamente su respuesta. Las escalas de actitudes en forma de pregunta caerían dentro de la categoría de preguntas cerradas.

Ahora bien, hay preguntas cerradas, donde el respondiente puede seleccionar más de una opción o categoría de respuesta. Algunos respondientes pudieran marcar una, dos, tres, cuatro o cinco opciones de respuesta. Las categorías no son mutuamente excluyentes. En otras ocasiones, el respondiente tiene que jerarquizar opciones. O bien debe asignar un puntaje a una o diversas cuestiones. En otras se anota una cifra.En cambio, las preguntas abiertas no delimitan de antemano las alternativas de respuesta. Por lo cual el número de categorías de respuesta es muy elevado; en teoría, es infinito.

Tamaño de un cuestionarioNo existe una regla al respecto; pero, si es muy corto se pierde información y si resulta largo puede resultar tedioso. En este último caso, las personas pueden negarse a responder, o al menos, lo responderán en forma incompleta. El tamaño depende del número de variables y dimensiones a medir, el interés de los respondientes y la manera como es administrado. Cuestionarios que duran más de 35 minutos deben resultar tediosos a menos que los respondientes estén muy motivados para contestar. Una recomendación que puede ayudarnos a evitar un cuestionario más largo de lo requerido es: “No hacer preguntas innecesarias o injustificadas”.

4.1.3.1 COMO APLICAR CUESTIONARIOS

Los cuestionarios pueden ser aplicados de diversas maneras:A. Autoadministrado. El cuestionario se proporciona directamente a los

respondientes, quienes lo contestan. No hay intermediarios y las respuestas las marcan ellos. Obviamente que esta manera de aplicar

[email protected] 32

Page 33: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

el cuestionario es impropia para analfabetas, personas que tienen dificultades de lectura o niños que todavía no leen adecuadamente.

B. Por entrevista personal. Un entrevistador aplica el cuestionario a los respondientes (entrevistados). El entrevistador va haciéndole las preguntas al respondiente y va anotando las respuestas. Las instrucciones son para el entrevistador. Normalmente se tienen varios entrevistadores, quienes deberán estar capacitados en el arte de entrevistar y conocer a fondo el cuestionario, y no deben sesgar o influir las respuestas.

C. Por entrevista telefónica. Esta situación es similar a la anterior, sólo que la entrevista no es “cara a cara” sino a través del teléfono. El entrevistador le hace las preguntas al respondiente por este medio de comunicación.

D. Autoadministrado y enviado por correo postal, electrónico o servicio de mensajería. Los respondientes contestan directamente el cuestionario, ellos marcan o anotan las respuestas, no hay intermediario. Pero los cuestionarios no se entregan directamente a los respondientes (“en propia mano”) sino que se les envían por correo u otro medio, no hay retroalimentación inmediata, si los sujetos tienen alguna duda no se les puede aclarar en el momento.

4.1.4 OBSERVACIÓN

La observación consiste en el registro sistemático, válido y confiable de comportamiento o conducta manifiesta. Puede utilizarse como instrumento de medición en muy diversas circunstancias. Es un método más utilizado por quienes están orientados conductualmente. Puede servir para determinar la aceptación de un grupo respecto a su profesor, analizar conflictos familiares, eventos masivos, la aceptación de un producto en un supermercado, el comportamiento de deficientes mentales, etc.

4.1.4.1 Pasos para construir un sistema de observación

Los pasos para construir un sistema de observación son:1. Definir con precisión el universo de aspectos, eventos o conductas a

observar. Por ejemplo, si nuestro interés es observar los recursos con que cuentan las escuelas de un distrito escolar debemos definir lo que concebimos como “recurso escolar”. Un universo podría ser el comportamiento verbal y no verbal de un grupo de alumnos durante un semestre. Otro universo sería las conductas de un grupo de trabajadores durante sus sesiones en círculos de calidad o equipos para la calidad, en un periodo de un año. O bien las conductas agresivas de un grupo de esquizofrénicos en sesiones terapéuticas.

2. Extraer una muestra representativa de los aspectos, eventos o conductas a observar. Un repertorio suficiente de conductas a observar.

3. Establecer y definir las unidades de observación. Por ejemplo, cada vez que se presenta una conducta agresiva, cada minuto se

[email protected] 33

Page 34: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

analizará si el alumno está o no atento a la clase, durante dos horas al día, el número de personas que leyeron el tablero de avisos de la compañía, etc. El concepto de unidades de análisis es el mismo que en el análisis de contenido, sólo que en la observación se trata de conductas, eventos o aspectos.

4. Establecer y definir las categorías y subcategorías de observación.

Tipos de observaciónLa observación puede ser participante o no participante. En la primera, el observador interactúa con los sujetos observados y en la segunda no ocurre esta interacción.

Ventajas de la observaciónTanto la observación como el análisis de contenido tienen varias ventajas:

1. Son técnicas de medición no obstructivas. En el sentido que el instrumento de medición no “estimula” el comportamiento de los sujetos (las escalas de actitud y los cuestionarios pretenden “estimular” una respuesta a cada ítem). Los métodos no obstruidos simplemente registran algo que fue estimulado por otros factores ajenos al instrumento de medición.

2. Aceptan material no estructurado.3. Pueden trabajar con grandes volúmenes de datos (material).

4.1.5 ESCALA DE LIKERT

Este método fue desarrollado por Rensis Likert a principios de los treinta; sin embargo, se trata de un enfoque vigente y bastante popularizado. Consiste en un conjunto de ítems presentados en forma de afirmaciones o juicios ante los cuales se pide la reacción de los sujetos. Es decir, se presenta cada afirmación y se pide al sujeto que externe su reacción eligiendo uno de los cinco puntos de la escala. A cada punto se le asigna un valor numérico. Así, el sujeto obtiene una puntuación respecto a la afirmación y al final se obtiene su puntuación total sumando las puntuaciones obtenidas en relación a todas las afirmaciones.

Las afirmaciones califican al objeto de actitud que se está midiendo y deben expresar sólo una relación lógica, además es muy recomendable que no excedan de 20 palabras.

En este caso la afirmación incluye o palabras y expresa una sola relación lógica (X – Y). Las alternativas de respuesta o puntos de la escala son cinco e indican cuánto se está de acuerdo con la afirmación correspondiente. Debe recordarse

[email protected]

Ejemplo:

Objeto de actitud medido Afirmación

El voto “Votar es una obligación de todociudadano responsable”

34

Page 35: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

que a cada una de ellas se le asigna un valor numérico y sólo puede marcarse una opción. Se considera un dato inválido a quien marque dos o más opciones.

4.1.5.1 Como se construye una escala Likert

En términos generales, una escala Likert se construye generando un elevado número de afirmaciones que califiquen al objeto de actitud y se administran a un grupo piloto para obtener las puntuaciones del grupo en cada afirmación. Estas puntuaciones se correlacionan con las puntuaciones del grupo a toda la escala (la suma de las puntuaciones de todas las afirmaciones), y las afirmaciones cuyas puntuaciones se correlacionen significativamente con las puntuaciones de toda la escala, se selecciona para integrar el instrumento de medición. Asimismo, debe calcularse la confiabilidad y validez de la escala.

Maneras de aplicar la escala LikertExisten dos formas básicas de aplicar una escala Likert. La primera es de manera autoadministrada: se le entrega la escala al respondiente y éste marca respecto a cada afirmación, la categoría que mejor describe su reacción o respuesta. Es decir, marcan respuestas, la segunda forma es la entrevista; un entrevistador lee las afirmaciones y alternativas de respuesta al sujeto y anota lo que éste conteste. Cuando se aplica vía entrevista, es necesario que se le entregue al entrevistador una tarjeta donde se muestran las alternativas de respuesta o categorías.

Al construir una escala Likert debemos asegurar que las afirmaciones y alternativas de respuesta serán comprendidas por los sujetos a los que se les aplicará y que éstos tendrán la capacidad de discriminación requerida.

CodificaciónEl objetivo de este procedimiento es agrupar numéricamente los datos que se expresen en forma verbal para poder luego operar con ellos como si se tratara, simplemente, de datos cuantitativos. Para lograrlo se habrá de partir de un cúmulo de informaciones que tengan una mínima homogeneidad, lo cual es necesario para poder integrarlas. Pueden tratarse de cientos de respuestas a una misma pregunta o de una variedad de posibles situaciones observadas mediante un mismo ítem de una pauta de observación: en ambos casos existirá una determinada variedad de respuesta o de observaciones que presenten las elecciones o los comportamientos de los objetos de estudio.

El primer paso a dar frente a todos estos datos es realizar una revisión atenta de un subgrupo reducido de ellos con el objeto de encontrar una tipología de respuestas posibles, en concordancia, por otra parte, con las formulaciones teóricas que guían la investigación y con los criterios adoptados en la etapa de operacionalización. A cada categoría de respuestas habremos de darle un código particular, un número o letra diferente, que servirá para agrupar tras de sí a todas las respuestas u observaciones que sean idénticas o que, al menos, aparezcan como equivalentes. Luego procederemos a señalar a cada uno de

[email protected] 35

Page 36: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

los cuestionarios o pautas con el código que le corresponde en cada caso, con la que quedará sintetizada la respuesta que contiene. El proceso se facilita grandemente cuando se realiza mediante computadoras.

Supongamos que hemos preguntado, por medio de entrevistas estructuradas hechas a una muestra, la opinión que tienen las personas respecto a las Naciones Unidas. Si la pregunta ha sido abierta, cada responderte habrá expuesto sus opiniones en algunas breves frases. La codificación nos permitirá agrupar sus respuestas, para poder evaluar cuáles son las opiniones más salientes al respecto. Nuestros códigos, por ejemplo, pondrán ser:

1. Es una institución que garantiza (o protege) la paz mundial.2. Es una institución que debería ser reformada.3. Es útil por los servicios que presta a los países menos

desarrollados.4. Es inoperante, ineficiente, etc.5. No sabe o no opina al respecto.

Por supuesto que podrían elaborarse otros códigos, categorizando más o menos detalladamente las respuestas. Casi siempre que se encuentran ideas similares pero que se expresan a través de palabras diferentes se procede a unificarlas en un mismo código; excepcionalmente, cuando no sólo interesa la idea sino además los aspectos lingüísticos con que ésta se manifiesta, es necesario buscar un código para cada respuesta tomada textualmente. Los casos difíciles de ubicar, de respuestas que pudieran situarse en más de una categoría, sólo pueden ser resueltos consultando con el marco teórico. Cuando aparecen respuestas ambiguas, extrañas o simplemente anómalas, es conveniente agruparlas en el código “otras respuestas”, para no abrir demasiadas categorías simultáneamente.

4.2 PROCEDIMIENTO QUE SE SIGUE PARA CONSTRUIR UN INSTRUMENTO DE MEDICIÓN

Existen diversos tipos de instrumentos de medición, cada uno con características diferentes. Sin embargo, el procedimiento general para construirlos es semejante.

El procedimiento que sugerimos para construir un instrumento de medición es el siguiente:

Pasos a. Listar las variables que se pretende medir u observar.b. Revisar su definición conceptual y comprender su significado. Por

ejemplo, comprender bien que es la motivación intrínseca y que dimensiones la integran.

c. Revisar como han sido definidas operacionalmente las variables, esto es, como se ha medido cada variable. Ello implica comparar los distintos instrumentos o maneras utilizadas para medir las variables (comparar su confiabilidad, validez, sujetos a los cuales se les aplicó, facilidad de

[email protected] 36

Page 37: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

administración, veces que las mediciones han resultado exitosas y posibilidad de uso en el contexto de la investigación).

d. Elegir el instrumento o los instrumentos (ya desarrollados) que hayan sido favorecidos por la comparación y adaptarlos al contexto de la investigación. Para este caso sólo deben seleccionarse instrumentos cuya confiabilidad y validez se reporte. No se puede confiar en una forma de medir que carezca de evidencia clara y precisa de confiabilidad y validez. Cualquier investigación seria reporta la confiabilidad y validez de su instrumento de medición. Recuérdese que la primera varía de 0 a 1 para la segunda se debe mencionar el método utilizado de validación y su interpretación. De no ser así no podemos asegurar que el instrumento sea el adecuado. Si se selecciona un instrumento desarrollado en otro país, deben hacerse pruebas piloto más extensas. Tampoco no debe olvidarse que traducir no es validad un instrumento, por muy buena que sea la traducción.En este segundo caso, debemos asegurarnos de tener un número suficiente de ítems para medir todas las variables en todas sus dimensiones. Ya sea que se seleccione un instrumento previamente desarrollado y se adapte o bien, se construya uno, éste constituye la versión preliminar de nuestra medición.

e. Indicar el nivel de medición de cada ítem y, por ende, el de las variables. Existen cuatro variables de medición ampliamente conocidos.

1. Nivel de medición nominal. En este nivel se tienen dos más categorías del ítem o variable. Las categorías no tienen orden o jerarquía. Lo que se mide es colocado en una u otra categoría, lo que indica solamente diferencias respecto a una o más características. Por ejemplo, las variables sexo de la persona tiene sólo dos categorías: masculino y femenino. Ninguna de las categorías tiene mayor jerarquía que la otra, las categorías únicamente reflejan deferencias en la variable. No hay orden de mayor a menor.Si le asignamos una etiqueta o símbolo a cada categoría, esto identifica exclusivamente a la categoría. Por ejemplo:

* = Masculinoz = Femenino

Si usamos numerales es lo mismo:

1 = Masculino 2 = Masculinoes igual a

2 = Femenino 1 = Femenino

Los números utilizados en este nivel de medición tienen una función puramente de clasificación y no se pueden manipular aritméticamente. Por ejemplo, la afiliación religiosa es una variable nominal, si pretendiéramos operarla aritméticamente tendríamos situaciones tan ridículas como esta:

1 = Católico2 = Judío 1+2=3

[email protected] 37

Page 38: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

3 = Protestante4 = Musulmán Un católico + un judío = protestante?

5 = Otros (no tiene sentido)

Las variables nominales pueden incluir dos categorías (dicotómicas), o bien, tres o más categorías (categóricas). Ejemplos de variables nominales dicotómicas sería el sexo y el tipo de escuela a la que se asiste (privada – pública); y de nominales categóricas tendríamos a la afiliación política (Partido A, Partido B,…), la carrera elegida, la raza, el departamento o provincia o estado de nacimiento y el canal de televisión preferido.

2. Nivel de medición ordinal. En este nivel hay varias categorías, pero además éstas mantienen un orden de mayor a menor. Las etiquetas o símbolos de las categorías sí indican jerarquía. Por ejemplo, el prestigio ocupacional en Estados Unidos ha sido medido por diversas escalas que reordenan a las profesiones de acuerdo con su prestigio, por ejemplo:

Valor de escala Profesión90 Ingeniero químico80 Científico de ciencias naturales (excluyendo la

química)61 Actor

2) Operador de estaciones eléctricas de potencia.02 Manufactureros de tabaco

90 es más que 80, 80 más que 60, 60 más que 50 y así sucesivamente; es decir, los números (símbolos de categorías) definen posiciones. Sin embargo, las categorías no están ubicadas a intervalos iguales (no hay intervalo común). No podríamos decir con exactitud que entre un actor (60) y un operador de estaciones de poder (50) existe la misma distancia en prestigio que entre un científico de ciencias naturales (80) y un ingeniero químico (90). Aparentemente en ambos casos la distancia es 10, pero no es una distancia real. Otra escala clasificó el prestigio de dichas profesiones de la siguiente manera:

Valor de escala Profesión98 Ingeniero químico95 Científico de ciencias naturales (excluyendo la química)84 Actor78 Operador de estaciones eléctricas de potencia.13 Manufactureros de tabaco

Aquí la distancia entre un actor (84) y un operador de estaciones (78) es de 6, y la distancia entre un ingeniero químico (98) y un científico de ciencias naturales (95) es de 3.Otro ejemplo sería la posición jerárquica en la empresa:

[email protected] 38

Page 39: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

Presidente 10Vicepresidente 9Director general 8Gerente de área 7Subgerente o superintendente 6Jefe 5Empleado A 4Empleado B 3Empleado C 2Intendencia 1

Sabemos que el presidente (10) es más que el vicepresidente (9), éste más que el director general (8), a su vez este último más que el gerente (7) y así sucesivamente; pero no puede precisarse en cada caso canto más. Tampoco podemos utilizar las operaciones aritméticas básicas: no podríamos decir que 4 (empleado A) y 5 (jefe) = 9 (vicepresidente), ni que 10 (presidente) / 5 (jefe) = 2 (empleado C). Sería absurdo, no tiene sentido.

3. Nivel de medición por intervalos. Además del orden o jerarquía entre categorías, se establecen intervalos iguales en la medición. Las distancias entre categorías son las mismas a lo largo de toda la escala. Hay intervalo constante, una unidad de medida.

Por ejemplo: una prueba de resolución de problemas matemáticos (30 problemas de igual dificultad). Si Ana Cecilia resolvió 10, Laura resolvió 20 y Brenda 30. La distancia entre Ana Cecilia y Laura es igual a la distancia entre Laura y Brenda.Sin embargo, el cero (0) en la medición, es un cero arbitrario, no es real (se asigna arbitrariamente a una categoría el valor de cero y a partir de ésta se construye la escala). Un ejemplo clásico en ciencias naturales es la temperatura (en grados centígrados y Fahrenheit): el cero es arbitrario, no implica que realmente haya cero (ninguna) temperatura (incluso en ambas escalas el cero es diferente).

Cabe agregar que diversas mediciones en el estudio del comportamiento humano no son verdaderamente de intervalo, pero se acercan a ese nivel y se suele tratarlas como si fueran mediciones de intervalo. Esto se hace porque este nivel de medición permite utilizar las operaciones aritméticas básicas y algunas estadísticas modernas, que de otro modo no se usarían. Aunque algunos investigadores no están de acuerdo en suponer tales mediciones como si fueran de intervalo.

4. Nivel de medición de razón. En este nivel, además de tenerse todas las características del nivel de intervalos (intervalos iguales entre las categorías y aplicación de operaciones aritméticas básicas y sus derivaciones), el cero es real, es absoluto (no es arbitrario). Cero absolutos implica que hay un punto en la escala donde no existe la propiedad.

[email protected] 39

Page 40: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

Ejemplos de estas mediciones sería la exposición a la exposición a la televisión, el número de hijos, la productividad, las ventas de un producto y el ingreso.Desde luego, hay variables que pueden medirse en más de un nivel, según el propósito de medición. Por ejemplo, la variable “antigüedad en la empresa”.

Nivel de medición Categorías- De razón En días (0 a K días)- Ordinal Bastante antigüedad

Antigüedad regularPoca antigüedad

Es muy importante indicar el nivel de medición de todas las variables e ítems de la investigación, porque dependiendo de dicho nivel se selecciona uno u otro tipo de análisis estadístico (por ejemplo, la prueba estadística para correlacionar dos variables de intervalo es muy distinta a la prueba para correlacionar dos variables ordinales). Así, es necesario hacer una relación de variables, ítems y niveles de medición.

f. Indicar como se habrán de codificar los datos en cada ítem y variable. Codificar los datos significa asignarles un valor numérico que los represente. Es decir, a las categorías de cada ítem y variable se les asignan valores numéricos que tienen un significado. Por ejemplo, si tuviéramos la variable “sexo” con sus respectivas categorías, “masculino” y “femenino”, a cada categoría le asignaríamos un valor. Éste podría ser:

Categoría Codificación (valor asignado)- Masculino 1- Femenino 2

Así, Carla Magaña en la variable sexo sería un “2”. Luis Gerardo Vera y Rubén Reyes serían un “1”, Verónica Larios un “2” y así sucesivamente.Otro ejemplo sería la variable “horas de exposición diaria a la televisión”, que podría codificarse de la siguiente manera:

Categoría Codificación (valor asignado)

- No ve televisión 0- Menos de una hora 1- Una hora 2- Más de un hora, pero menos de dos 3- Dos horas 4- Más de dos horas, pero menos de tres 5- Tres horas 6- Más de tres horas, pero menos de cuatro 7- Cuatro horas 8- Más de cuatro horas 9

[email protected] 40

Page 41: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

Es necesario insistir que cada ítem y variable deberán tener una codificación (códigos numéricos) para sus categorías. Desde luego, hay veces que un ítem no puede ser codificado a priori (precodificado) porque es sumamente difícil conocer cuales serán sus categorías. Por ejemplo, si en una investigación fuéramos a preguntar: “¿Qué opina del programa económico que recientemente aplico el gobierno?” Las categorías podrían ser muchas más de las que nos imaginemos y resultaría difícil predecir con precisión cuantas y cuales serán. En estos casos la codificación se lleva a cabo una vez que se aplica el ítem (a posteriori).

La codificación es necesaria para analizar cuantitativamente los datos (aplicar análisis estadístico). A veces se utilizan letras o símbolos en lugar de números (*, A, Z).

g. Una vez que se indica el nivel de medición de cada variable e ítem y que se determina su codificación, se procede a aplicar una “prueba piloto” del instrumento de medición. Es decir, se aplica a personas con características semejantes a las de la muestra o población objetivo de la investigación.

En esta prueba se analiza se las instrucciones se comprenden y si los ítems funcionan adecuadamente. Los resultados se usan para calcular la confiabilidad y, de ser posible, la validez del instrumento de medición.

La prueba piloto se realiza con una pequeña muestra (inferior a la muestra definitiva). Los autores aconsejamos que cuando la muestra sea de 200 o más, se lleve a cabo la prueba piloto con entre 25 y 60 personas. Salvo que la investigación exija un número mayor.

h. Sobre base de la prueba piloto, el instrumento de medición preliminar se modifica, ajusta y se mejora, los indicadores de confiabilidad y validez son una breve ayuda, y estaremos en condiciones de aplicarlo. Este procedimiento general para desarrollar una medición debe adaptarse a las características de los tipos de instrumentos de que disponemos en el estudio del comportamiento.

4.4 Construcción de una escala de actitudes tipo Likert

IntroducciónPara medir un objeto se requiere una escala de medida: El consumo de electricidad se mide en kilowatios x hora, la temperatura en grados centígrados. Cómo medir la insatisfacción, la anomia, la actitud de los trabajadores hacia la prevención o hacia el trabajo en equipo? He aquí el gran problema metodológico de las ciencias sociales. Cómo medir los fenómenos sociales? Qué escala usar para medir una actitud? Cómo construirla?

¿Qué es una escala?Definimos una escala como una serie de ítems o frases que han sido cuidadosamente seleccionados, de forma que constituyan un criterio válido,

[email protected] 41

Page 42: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

fiable y preciso para medir de alguna forma los fenómenos sociales. En nuestro caso, este fenómeno será una actitud cuya intensidad queremos medir.

¿Qué es una actitud?Actitud es un estado de disposición psicológica, adquirida y organizada a través de la propia experiencia que incita al individuo a reaccionar de una manera característica frente a determinadas personas, objetos o situaciones.Las actitudes no son susceptibles de observación directa sino que han de ser inferidas de las expresiones verbales; o de la conducta observada. Esta medición indirecta se realiza por medio de unas escalas en las que partiendo de una serie de afirmaciones, proposiciones o juicios, sobre los que los individuos manifiestan su opinión, se deducen o infieren las actitudes.

¿Qué es un ítem?

Un ítem es una frase o proposición que expresa una idea positiva o negativa respecto a un fenómeno que nos interesa conocer. Por ejemplo, el ítem:"Las normas sobre utilización de carretillas elevadoras dictadas por la empresa, en la práctica cotidiana, son de difícil cumplimiento."Expresa una opinión sobre un tema: la política normativa de la empresa, y se refiere concretamente al manejo de carretillas. La posición valorativa de tal afirmación hecha por un individuo se puede considerar como un indicador de su opinión sobre dicha política normativa, sobre el uso de carretillas elevadoras, sobre la seguridad en la empresa, etc.

Tres criterios para la confección de los ítems de una escala1. Los ítems deben facilitar respuestas relacionadas con el fenómeno

medido, aunque dicha relación no tiene porqué ser necesariamente manifiesta.

2. Cada ítem debe declarar no sólo las dos posturas extremas, sino también graduar las intermedias. A medida que la escala gane en sensibilidad, ganará también en precisión.

3. Los ítems deben ser fiables y seguros. La fiabilidad con frecuencia se logra a costa de la precisión. Cuanto más refinada es una medición, más probable es que en dos medidas repetidas obtengamos puntuaciones distintas.

Escalas aditivas

Las escalas aditivas están constituidas por una serie de ítems ante los cuales se solicita la reacción del sujeto. El interrogado señala su grado de acuerdo o desacuerdo con cada ítem (muy de acuerdo, de acuerdo, indeciso en desacuerdo, muy en desacuerdo). A cada respuesta se le da una puntuación favorable o desfavorable. La suma algebraica de las puntuaciones de las respuestas del individuo a todos los ítems da su puntuación total que se entiende como representativa de su posición favorable-desfavorable con respecto al fenómeno que se mide.

[email protected] 42

Page 43: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

La justificación razonada de tales puntuaciones totales, corno base para la colocación de los individuos en una escala, es la siguiente:

A un ítem que puede ser admitido con diversos grados de aprobación, se le pueden atribuir diversos "pesos", conforme a las frecuencias aprobatorias que reciba de acuerdo con la curva normal.

Asimismo y por consiguiente, 1) cada individuo recibe una puntuación proporcional a su aprobación acumulada, y 2) cada ítem recibe diversos pesos según el grado con que es aprobado.

La probabilidad de acuerdo o desacuerdo con cualquiera de las series de ítems favorables o desfavorables, con respecto a un objeto, varía directamente con el grado de actitud de un individuo. Un individuo con una actitud favorable responderá favorablemente a muchos ítems (es decir, estará de acuerdo con muchos ítems favorables al objeto y disentirá a los desfavorables); de un individuo ambivalente puede esperarse que responda desfavorablemente a unos y favorablemente a otros; un individuo con una actitud desfavorable responderá desfavorablemente a muchos ítems.

El tipo de escala aditiva más frecuentemente utilizado en el estudio de las actitudes sociales es el de Likert.

Construcción de una escala aditiva tipo LikertLa escala de Likert es una escala ordinal y como tal no mide en cuánto es más favorable o desfavorable una actitud, es decir que si una persona obtiene una puntuación de 60 puntos en una escala, no significa esto que su actitud hacia el fenómeno medido sea doble que la de otro individuo que obtenga 30 puntos, pero sí nos informa que el que obtiene 60 puntos tiene una actitud más favorable que el que tiene 30, de la misma forma que 40°C no son el doble de 20°C pero sí indican una temperatura más alta.A pesar de esta limitación, la escala Likert tiene la ventaja de que es fácil de construir y de aplicar, y, además, proporciona una buena base para una primera ordenación de los individuos en la característica que se mide.La construcción de esta escala comporta los siguientes pasos:1º) Se recoge una larga serie de ítems relacionados con la actitud que queremos medir y se seleccionan, aquellos que expresan una posición claramente favorable o desfavorable.En el ejemplo 1, presentamos algunos ítems de una escala para medir la actitud hacia "La seguridad en el trabajo".

[email protected] 43

Page 44: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

Estos ítems pueden ser elaborados por personas conocedoras del tema que se pretende medir y conocedoras, así mismo, del colectivo de individuos que responderá a la escala definitiva.Es conveniente partir de una colección de 100 a 150 ítems para construir una escala de 15 a 30 ítems.2º) Se selecciona un grupo de sujetos similar a aquél al que piensa aplicarse la escala. Estos responden, eligiendo en cada ítem la alternativa que mejor describa su posición personal.3º) Las respuestas a cada ítem reciben puntuaciones más altas cuanto más favorables son a la actitud, dándose a cada sujeto la suma total de las puntuaciones obtenidas.El ejemplo nº 2, tomado de una escala para medir la actitud de los adultos hacia la formación, nos ilustra sobre la elaboración de los ítems:Exprese su posición respecto a las siguientes afirmaciones:Los conocimientos de la escuela tienen poca aplicación en la vida cotidiana.

Para estar al día en tu puesto de trabajo, la experiencia profesional es insuficiente.

T.A.= totalmente de acuerdoA.= de acuerdo en ciertos aspectos.I.= indeciso.D.= en desacuerdo en ciertos aspectos.T. D. = totalmente en desacuerdo.En los dos ítems reproducidos, la valoración de las respuestas sería 1, 2, 3, 4, 5, en el primero y 5, 4, 3, 2, 1, en el segundo.

[email protected] 44

Page 45: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

Un individuo que contestara a estos ítems en las dos respuestas marcadas con el círculo tendría una puntuación de 2 puntos en el primer ítem y de 1 punto en el segundo, su suma, 3, sería la posición de este individuo. Si la escala estuviera formada por estos dos ítems solamente, la puntuación de los individuos iría desde 2, actitud más negativa hacia la formación, hasta 10, actitud más positiva.

El individuo que obtiene una puntuación de 3, en principio parece que tiene una actitud baja o en contra del fenómeno que se mide, pero para poder decir esto hay que esperar a compararlo con la puntuación obtenida en la misma escala, por otros individuos.

4º) Para asegurar la precisión de la escala, se seleccionaran el 25 % de los sujetos con puntuación más alta y el 25 % con puntuaciones más baja, y se seleccionan los ítems que discriminan a los sujetos de estos dos grupos, es decir, aquellos con mayor diferencia de puntuaciones medias entre ambos grupos.5º) Para asegurar la fiabilidad por consistencia interna, se halla la correlación entre la puntuación total y la puntuación de cada ítem para todos los individuos, seleccionándose los ítems con coeficiente más alto.6º) Con los criterios anteriores de precisión y fiabilidad se selecciona el número de ítems deseado para la escala. Para asegurar la validez del contenido, aproximadamente la mitad de los ítems deben expresar posición favorable y desfavorable la otra mitad.En ciertos casos, para obligar a los individuos a definir su posición de forma más clara, se puede suprimir la respuesta "indeciso".

El número de ítems de una escala Likert suele oscilar entre 15 y 30.

Inconvenientes y ventajas de la escala de Likert Puede obtenerse una misma puntuación con diferentes combinaciones

de ítems, lo que demuestra que la misma puntuación puede tener significados distintos. (No obstante, la consistencia interna tiende a evitarlo).

En cambio, la escala es de fácil construcción y aplicación. Puede utilizar ítems no relacionados manifiestamente con el tema (pero

sí de forma latente). A pesar de la ausencia de teoría justificativa para la "escalabilidad", en la

práctica, las puntuaciones del cuestionario Likert proporcionan con frecuencia la base para una primera ordenación de la gente en la característica que se mide.

El problema está en determinar cuándo tiene consecuencias para el significado de una misma puntuación el hecho de poder ser alcanzada por distintos medios y cuando no las tiene.

EJEMPLO DE CONSTRUCCION DE UNA ESCALA LIKERT

[email protected] 45

Page 46: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

1. Definición conceptual del objeto de actitud.Esta definición del objeto (concepto o propiedad) que se desea medir aparece en cierto contexto teórico problemático o practico, algunas veces esta definición no es explicita, es decir no tiene un significado conocido o no es aceptada por consenso.

Ejemplo:En una Escala de actitudes hacia la democracia, el objeto "DEMOCRACIA" fue definido del siguiente modo: "sistema de gobierno en el cual todos los ciudadanos son libres e iguales ante la ley y en el que el pueblo ejerce sus derechos ciudadanos gobiernas a través de representantes elegidos mediante el voto universal masculino y femenino, directo secreto y, además tiene canales de participación a través del referéndum, la iniciativa legislativa, la revocación de autoridades y el rendimiento de cuentas en la toma de decisiones en el ámbito político, económico social y cultural" (Ponce y Aliaga, 1999).

En una Escala de actitudes hacia el curso de ingles, el objeto "Curso de ingles" fue definido del siguiente modo "Asignatura del idioma ingles que será explicada durante cierto tiempo, en periodo de estudios en una institución".

2. Operacionalización o Dimensionalización.Se determina los aspectos o dimensiones implicadas en la definición conceptual del objeto. Este paso hace posible el abordaje del objeto, pues este se hace visible.Ejemplo:

Si se nos ha encargado describir un televisor trataríamos de determinar previamente algunos aspectos o dimensiones de este, tal vez el color, la forma, peso, función, de manera que se haga factible una mejor descripción. Ejemplo:Ponce y Aliaga 1999, utilizando información de Morales 1988. Dimensionalizaron la democracia en:a. aceptación de igualdad.b. Cauce de participación ciudadana.c. Pluralismo por medio de los partidos políticos.d. Menor corrupción.e. Rechazo a los sistemas autoritarios y dictaduras.

3. Elaboración de una tabla de especificaciones.Es conveniente elaborar una tabla que considere los componentes de la

actitud (Cognitivo - afectivo - conductual). .a. los componentes de la actitud Cognitivo - afectivo - conductual.b. Las dimensiones (si las hubieras).c. La cantidad relativa de ítems que se atribuye a cada categoría de dimensión y componente en la práctica, se da mayor importancia relativa al componente afectivo.

[email protected] 46

Page 47: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

Tabla de especificación para la escalas de actitudes.

COGNITIVO AFECTIVO CONDUCTUAL TOTALDimensionesAGRADOANSIEDADRECHAZOUTILIDADTOTAL

Los Componentes de las actitudes

a. Componente Cognitivo:Ideas y creencias que el individuo tiene sobre el objeto de actitud. La percepción información, idea, creencia pueden ser:i. Favorablesii. Desfavorables

b. Componente Afectivo:Afecto que despierta recuerdo emotivo, emociones, sentimientos que movilizan el objeto actitudinal. Corresponde en general al abanico de reacciones emocionales generados hacia el objeto de actitud.Los sentimientos pueden ser:Agradables.

Positivos Desagradables. Negativos

c. Componente comportamental (Conativo):Son las inclinaciones de conductas, intenciones, compromisos y acciones con respecto al objeto de actitud. (Lameiras, 1997).Las conductas o las intenciones de conducta pueden ser:

Apoyo. Hostiles.

4. Elaboración de los Ítems

Los ítems deben ser elaborados teniendo cuenta algunos criterios (EDWAED, 1967).a. Eviten los ítems que apunta al pasado en lugar del presente.b. Evitar ítems que dan demasiada información sobre hechos, o aquellos que pueden ser interpretados como tales.c. Evitar ítems ambiguos.d. Evitar ítems irrelevantes con respeto a la actitud que quiere medir.

[email protected] 47

Page 48: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

e. Los ítems en la escala deben formularse según expresen actitudes o juicios favorables o desfavorables con respecto a la actitud. No se trata de elegir ítems que expresen distintivos puntos en el continuo.f. Evite ítems con los cuales todos o prácticamente nadie concuerden. g. Los ítems deben ser formulados en lenguaje simple, claro y directo. h. Solamente en casos excepcionales exceda de las 20 palabras cuando formule los ítems.i. Los ítems que incluyan palabras como "todos" "siempre" "nadie" etc. Omitirse.j. Un ítem debe contener solo una frase lógica.k. Usar palabras que el entrevistado pueda comprender.1. Combinen los ítems formulados positivamente y negativamente de una proporción aproximada de 50% - 50%

5. Administración de los reactivos a un grupos de "jueces" .La primera versión de los ítems (generalmente entre 30 a 50) se somete a un grupo de "jueces" quienes determinaran la congruencia entre el reactivo y el concepto de la actitud o sus dimensiones. Se entregara a cada juez una definición específica y sus dimensiones. El proceso es lógico y racional aunque existen algunos índices estadísticos para valorar el grado de acuerdo de los jueces respecto a los reactivos.Este paso es opcional pero es conveniente realizarlo para determinar la validez del contenido.

6. Administración de los ítems a una muestra de sujetos.Los ítems (30 o 50 generalmente) se distribuyen a una muestra de jueces (entre 50 a 100) seleccionados al azar de la población de Interés. Los jueces responderán a cada uno de los ítems según su opinión.

7. Asignación de puntajes a los ítems según la dirección positiva o negativa de los ítems.Las afirmaciones pueden tener dirección favorable o positiva y desfavorable o negativa. Y esta dirección es importante para saber como se codifica las alternativas de respuesta.

a. Afirmación Positiva:

Significa que califica favorablemente al Objeto de actitud, si, los sujetos están mas de acuerdo con la afirmación, su actitud es más favorable, es decir, que estar más de acuerdo implica una puntuación mayor.

Ejemplo:La Sunat ayuda a los contribuyentes a resolver sus problemas en el pago de impuestos.

T.A A I D T.D

b. Afirmación. Negativa:Significa que si califica desfavorable al objeto de actitud, si los sujetos están mas de acuerdo con la afirmación, su actitud esmeros favorable, es decir es

[email protected] 48

Page 49: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

mas desfavorable.

Ejemplo:

La Sunat se caracteriza por obstaculizar al contribuyente en el pago de impuestos.

T.A A I D. TD.

ANEXOS

[email protected] 49

Page 50: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

Lectura Selecta Nº 1: De la Teoría Clásica de los Tests a los Tests Adaptativos Computarizados: Una revisión.

Resumen

En los últimos 30 años, la metodología y las técnicas de elaboración de tests han manifestado un desplazamiento cada vez más marcado de los sistemas tradicionales de exámenes, fundamentados en la teoría clásica de los tests, hacia los sistemas adaptativos de evaluación. Esta transición ha sido propiciada por los desarrollos que han tenido lugar en el contexto de la teoría de los tests y, en particular, en la teoría de respuestas por ítem, así como por el desarrollo alcanzado por la tecnología computacional. El desarrollo de la teoría clásica de los tests ha evolucionado de una posición pragmática caracterizada por la elaboración de reactivos y pruebas, cuyo único requisito era mantener cierta consistencia entre sí, hacia una fase en la cual las pruebas cuentan con un mayor sustento en postulados teóricos acerca de la personalidad, el aprendizaje, el comportamiento y los principios que regulan la interacción entre los factores estructurales hereditarios y los factores ambientales. La elaboración de tests de acuerdo a la teoría clásica, conlleva ciertas limitaciones debidas principalmente a la dependencia que hay entre cada reactivo y la prueba de que forma parte, así como la que existe entre cada reactivo y la población utilizada para normar la prueba, lo que limita las posibilidades de predecir el comportamiento ante reactivos específicos. Nuevas aproximaciones, como la teoría de respuestas por ítem, han sido elaboradas para resolver las limitaciones planteadas por la teoría clásica de los tests y han presentado nuevas técnicas para el desarrollo de estos instrumentos de medida. Uno de los resultados de la teoría de respuestas por ítem es que al permitir establecer estadísticos para cada reactivo individual y de manera independiente, se proporciona un modelo teórico excelente para la elaboración de tests adaptativos computarizados, caracterizados básicamente por presentar reactivos diferentes a cada examinado, dependiendo de sus respuestas a los reactivos anteriores. Otra de las herramientas que han sido de considerable valor para los nuevos tests adaptativos computarizados es el desarrollo de los sistemas de cómputo que permiten manejar grandes bases de reactivos de una manera interactiva y con una gran velocidad de proceso.

Introducción

Los últimos treinta años han visto un desarrollo acelerado de los sistemas adaptativos de evaluación aplicados a diversas áreas del conocimiento. Sin embargo, esta tecnología para la evaluación, no habría sido posible sin la evolución de varias áreas del conocimiento entre las que se encuentran la Teoría de Respuesta por ítem (Item Response Theory) y la tecnología computacional que tanto en hardware como en software, ha permitido disponer de herramientas muy rápidas y con una gran capacidad de almacenamiento y recuperación de información. Este trabajo comenta los principales desarrollos

[email protected] 50

Page 51: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

que tuvieron lugar en la Teoría Clásica de los Tests, señalando los problema que motivaron la emergencia de una nueva teoría: la Teoría de Respuestas por Item. Asimismo, relaciona las contribuciones de la Teoría de Respuestas por Item y la tecnología computacional con el desarrollo de los sistemas adaptativos de evaluación.

La Teoría Clásica de los Tests.

Se denomina Teoría Clásica de los Tests (TCT) al conjunto de principios teóricos y métodos cuantitativos derivados de ellos, que fundamentan la construcción, aplicación, validación e interpretación de distintos tipos de tests y que permiten derivar escalas estandarizadas aplicables a una población (Hambleton, 1994). Los principios en que se basa son relativamente simples y se aplican tanto a las pruebas de desempeño, como a las de aptitud. Durante sus diferentes fases de desarrollo, se han elaborado procedimientos de análisis cuantitativo que han sido de gran utilidad, destacándose en lo general, tres grandes etapas que se identifican por su objeto de interés primordial, así como por los métodos cuantitativos y tipos de análisis teóricos que utilizan.

La primera etapa que Cattell (1986b) denomina itemetría, se caracteriza principalmente por la construcción de pruebas conformadas por reactivos cuyas propiedades estadísticas eran el centro de atención principal. Los tests se consideraban como el producto de la integración de un conjunto de reactivos cuyas propiedades estadísticas tenían que ser determinadas antes de que se les incluyera en esa prueba particular.

Esto propició que el concepto de confiabilidad adquiriera prominencia como la principal virtud de la escala y se medía a partir de la correlación entre los reactivos individuales y el instrumento en su conjunto. Si la correlación eral alta, se decía que los reactivos eran los adecuados. Sin embargo, con frecuencia resultaba que la correlación no era tan buena, y el resultando era que se obtenían reactivos deficientes y la prueba en su conjunto era de escaso valor. El concepto mismo de confiabilidad implicaba al de error de la medida y tuvieron que desarrollarse procedimientos distintos para determinar la confiabilidad del test de una manera más precisa. Tal fue el caso de los procedimientos de pruebas paralelas y de división por mitades.

La itemetría hizo contribuciones valiosas a la psicología debido al énfasis que puso en el análisis del error. Entre sus contribuciones se encuentran varios conceptos sobre precisión de la medida, las técnicas para el tratamiento del error y el uso generalizado del error estándar de la medida como la medida básica del error (Kaplan & Saccuzzo, 1993). Además, dio lugar a contribuciones tales como las fórmulas de Spearman-Brown (Spearman, 1904), Kuder-Richardson (Kuder & Richardson, 1937), Alfa de Cronbach (Cronbach, 1951) y a varios principios básicos de escalamiento, así como al uso generalizado de la curva normal, las pruebas de significancia, el uso de las correlaciones múltiples y la fórmula de atenuación, etc. Sin embargo, por lo que respecta a la teoría de la personalidad, a decir de Cattell (1986b), "ésta vivía en

[email protected] 51

Page 52: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

un mundo habitado por ítems y apreciaciones subjetivas sobre conceptos tales como extraversión, superego, inteligencia, persistencia, etc."(p. 5) Es decir, la fase de desarrollo de reactivos y su agrupamiento para conformar tests, fue una fase fundamentalmente pragmática, sin gran sustento en teorías de la personalidad que permitieran relacionar la parte cuantitativa con la conceptual acerca del comportamiento.

La siguiente etapa es la que Cattell (1986b) denomina psicometría estructural y se caracteriza por el uso de las nuevas herramientas estadísticas tales como el análisis factorial con sus variantes técnicas R-, dR- y P- como un medio para encontrar la "estructura natural" de las habilidades en el contexto de los factores culturales, la dotación genética, la personalidad, los rasgos, los motivos dinámicos y las dimensiones que dan lugar a la acción y al comportamiento. Su objetivo primordial no era como tal, aplicar pruebas, sino determinar la relación que hay entre los conceptos clínicos sobre personalidad, y los fundamentos de la investigación experimental multivariada (cuantitativa por naturaleza), así como analizar las interacciones dinámicas entre los rasgos y los estadíos de la personalidad. Los tests se consideraban significativos en la medida que armonizaban con los constructos teóricos (Marx, 1963) formulados conceptualmente. Sus mayores logros los obtuvo en los trabajos de Spearman(1927), Thurstone(1938), Horn(1967), Guilford(1956), Eysenck(1959) y otros que contribuyeron a crear una base uniforme y coherente de los procesos psicológicos, lo cual dio a la teoría de la personalidad una nueva imagen: científica y con mayor sustento experimental.

La construcción de tests verdaderamente estructurados se produjo como resultado de esta etapa, por lo menos en lo que respecta a las fases iniciales de desarrollo de los tests. Un resultado marginal de la convergencia de esta concepción más elaborada de los tests y el desarrollo cuantitativo, hasta cierto punto desarticulado, de los procedimientos psicométricos, fue que las nuevas teorías de la personalidad crecieron en un terreno ya ampliamente abonado por las primeras pruebas y métodos de escalamiento.

La etapa funcional en el desarrollo de los tests es aquella que "trasciende a las aplicaciones inmediatas y simplistas que identificaban a las estadísticas con factores conductuales, y profundiza en las leyes y formulaciones conceptuales del comportamiento: que relaciona rasgos, procesos y estados psicológicos con las mediciones y estrategias estructurales" (Cattell, 1986b, p 6). Ese tipo de leyes, según Cattell, se refieren a las relaciones sistemáticas y consistentes obtenidas de los estudios empíricos sobre el desarrollo, en el conocimiento acerca de los rasgos determinados en forma hereditaria, de los rasgos modificables por las experiencias y el aprendizaje y de la modulación de los estados psicológicos producidos por las relaciones psicofisiológicas.

De esta forma, el uso funcional de los tests es sólo posible en el psicólogo formado con base en las modernas teorías de la personalidad y del aprendizaje y sustentadas en las técnicas de medición y experimentación (Cattell, 1986a). En otras palabras, la observación de correlaciones sistemáticas, consistentes y

[email protected] 52

Page 53: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

significativas entre las medidas obtenidas en diferentes tests se refiere (fuera de la explicación trivial de covariación), no sólamente a una variación concomitante entre medidas, sino a uno o varios posibles factores como el traslapamiento de componentes psicológicos en el individuo o grupo que está siendo observado, la convergencia de condiciones ambientales que determinan patrones específicos de comportamiento, o la acción de factores genéticos estructurales que determinan pautas específicas de comportamiento (Tryon, 1935; y Anastasi, 1970). Así, el sustrato de la etapa funcional en el desarrollo de los tests hace referencia a rasgos que por lo regular connotan niveles de organización en el comportamiento que se manifiestan a través de diferentes medidas captadas en los tests psicológicos.

En resumen, el desarrollo de la teoría clásica de los tests ha procedido de etapas orientadas en forma pragmática para desarrollar tests y validar reactivos, (donde a fin de cuentas, los constructos psicológicos teóricos se definían operacionalmente como "aquéllo que mide la prueba x"); hacia etapas conceptualmente más elaboradas en que los tests se derivan de teorías del comportamiento más articuladas y donde cada reactivo tiene un significado conceptual definido en un contexto teórico particular.

Limitaciones de la Teoría Clásica de los Tests.

De acuerdo a la Teoría Clásica de los Tests (TCT), la elaboración de pruebas de desempeño máximo involucra la selección de reactivos de acuerdo a su contenido, nivel de dificultad y poder de discriminación. Los reactivos más deseables son los que poseen un nivel mayor de discriminación. El nivel de dificultad por su parte, se ajusta de acuerdo a: 1. El propósito de la prueba, y; 2. El criterio preestablecido para el grupo al cual se aplicará la prueba.

Los índices estadísticos empleados por la TCT no se mantienen constantes cuando se aplican a poblaciones que difieren en habilidad respecto de la población empleada para obtener las normas del test. Por lo tanto, el éxito de las técnicas clásicas de selección de reactivos depende de qué tan parecida es la población con la cual se obtuvieron los índices respecto de la población a la que se pretenden aplicar. Si la diferencia es grande, los índices obtenidos de los ítems no serán apropiados para la población objetivo. En otros términos, la teoría clásica de los tests no puede predecir cómo responderá un individuo a los ítems a menos que esos ítems hayan sido previamente administrados a personas similares (Lord, 1980) Durante el trabajo práctico de elaboración de tests, regularmente el grupo a partir del cual se obtienen los índices y el grupo al cual el test va dirigido, difieren considerablemente.

Un caso especial en el cual los índices clásicos de los reactivos se obtienen a partir de grupos que difieren de la población a la que van dirigidos, puede verse al estructurar bancos de reactivos. Al elaborar un banco de reactivos, las características de los ítems que van a ser incluidos en el banco, deben ser determinadas. Los ítems con frecuencia denominados "experimentales", se incluyen en un test que es administrado a un grupo de personas de tal manera

[email protected] 53

Page 54: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

que se obtienen como resultado, los índices de esos reactivos. Por supuesto, no todos los reactivos experimentales serán incluidos en un test particular. Por lo tanto, se crean múltiples formas del test, cada uno de los cuales contiene diferentes reactivos experimentales y las diferentes formas se aplican a grupos distintos de examinados. Dado que generalmente no es posible asegurar que las diferentes formas del examen sean administradas a grupos equivalentes, los índices de los reactivos experimentales que se aplicaron a grupos distintos no pueden ser equivalentes (Hambleton & Swaminathan, 1985). Por lo tanto, si los reactivos fueron incluidos en el examen bajo el supuesto de que sus índices eran comparables, entonces cualquier test construido a partir de ese banco de reactivos no podrá ser apropiado para ninguna de las poblaciones que pudieran ser seleccionadas en un momento dado.

Por otra parte, aún cuando un banco de reactivos se encuentre bien conformado, otro problema de la teoría clásica de los tests está en la precisión de la medición. Y es que en la teoría clásica de los tests, la contribución de un ítem a la confiabilidad de la prueba no depende de las características del reactivo solamente, sino que también depende de la relación que hay entre el reactivo en cuestión y los otros reactivos del test. Por lo tanto, no es posible aislar la contribución de un ítem a la confiabilidad de la prueba y por lo consiguiente, tampoco su participación al error estándar de la medida (Hambleton, Swaminathan, & Rogers, 1991).

Finalmente, no obstante que el desarrollo de la teoría clásica de los tests llegó, con la etapa funcional de los tests, a un punto en que la conceptualización de los resultados de los tests, y consecuentemente su proceso de desarrollo, permitían mediante sofisticados procedimientos estadísticos, sacar a los reactivos de los límites impuestos por la prueba en su conjunto, la limitación teórica aún permanecía y se hacía necesario un nuevo marco conceptual para salvarlo. Este nuevo esquema para la conceptualización de los reactivos como unidades independientes del test y del grupo utilizado para normarlo, se obtuvo con la teoría de respuestas por ítem. No obstante, la contribución principal de este nuevo esquema conceptual no está primordialmente, en el uso de constructos hipotéticos o variables interventoras como explicación del comportamiento; sino más bien, en hacer referencia a las relaciones consistentes y sistemáticas observadas por la investigación experimental como un sustento sobre el cuál fincar la elaboración de los reactivos y su escalamiento para determinar a qué magnitud del rasgo definido corresponden.

La Teoría de Respuestas por Ítem.

La literatura sobre tests registra en los últimos 30 años un desplazamiento progresivo del esquema proporcionado por la Teoría Clásica de los Tests, hacia el contexto y los procedimientos delineados por la Teoría de Respuestas por Item (TRI) [Del inglés: Item Response Theory - IRT]. Esta teoría, fue desarrollada para resolver varios de los problemas que presentaba la Teoría Clásica de los Tests (Hambleton & Swaminathan, 1985) y que no habían sido resueltos de una manera satisfactoria. Algunos de esos problemas son:

[email protected] 54

Page 55: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

(1) El uso de índices de los reactivos cuyos valores dependen de la población particular de la cuál fueron obtenidos, y

(2) La estimación de la habilidad del examinado depende del conjunto específico de reactivos incluidos en la prueba.

Es decir, las características del examinado y las características de la prueba no pueden separarse en un instrumento elaborado conforme a los principios de la Teoría Clásica de los Tests; y por el contrario, cada uno sólo puede ser interpretado en términos del otro.

Las características del examinado en las cuales la teoría TRI está interesada, son la "habilidad" que mide el test. Para la TCT, la noción de habilidad se expresa por medio del llamado puntaje verdadero que se define como "el valor esperado a partir de la destreza observada en la prueba en cuestión" (Hambleton, Swaminathan, & Rogers, 1991)

La habilidad del examinado se define sólo en términos de una prueba específica. Si el test es "difícil", el examinado parecerá tener un nivel bajo de habilidad. Si el test es "fácil", el examinado parecerá tener un mayor nivel de habilidad. Y el nivel de dificultad de la prueba se define como "la proporción de examinados en el grupo de interés, que contestó el reactivo correctamente" (Hambleton, et. al. 1991) Por lo tanto, el que un ítem sea difícil o fácil depende de la habilidad de los examinados a quienes se aplicó la prueba y a su vez, la habilidad de los examinados depende del nivel de dificultad de la prueba.

De la misma forma, el nivel de discriminación de los reactivos y los coeficientes de validez y confiabilidad de la prueba se definen también en base a las características del grupo particular de examinados. Así, las características del test y de los reactivos cambian a medida que cambia el contexto de la prueba. Por lo tanto, es muy difícil comparar examinados a quienes se aplican diferentes tests; o aún, comparar ítems cuyas características se obtuvieron utilizando diferentes grupos de examinados.

Esto significa que los coeficientes de los reactivos son dependientes del grupo al mismo tiempo que son dependientes del test. Esta clase de dependencia es la que se trata de eliminar mediante la TRI. Aunque se reconoce que tal dependencia no es imposible de romper mediante la TCT mediante el uso de técnicas sofisticadas de análisis estadístico (Cattell, 1986b), el problema conceptual aún se mantiene.

Otro problema de la TCT es que es centrada-en-el-test, más que centrada-en-el-reactivo. No se toma en consideración cómo responde el exáminado a un reactivo dado, y por lo tanto, no se tienen bases para determinar qué tan bien podría desempeñarse un examinado particular ante un reactivo individual. Es decir, la teoría clásica de los tests no permite hacer predicciones acerca de cómo se comportará un individuo o grupo particular ante un reactivo dado. Esta

[email protected] 55

Page 56: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

posibilidad de predicción es importante en una gran variedad de situaciones como por ejemplo, cuando se intenta predecir el comportamiento de un profesional ante diferentes tipos de situaciones prácticas.

De acuerdo a Hambleton, et. al., (1991), las principales características de la TRI como una alternativa a la teoría clásica de los tests son:

1. Las características de los reactivos no dependen del grupo del cuál fueron obtenidas;2. Los puntajes que describen la habilidad del examinado no dependen del test en su conjunto;3. El modelo se expresa al nivel del reactivo más que al nivel del test;4. El modelo no requiere de pruebas paralelas para determinar el índice de confiabilidad; y5. Provee una medida de la precisión de cada índice de habilidad.

Algunas otras ventajas de la TRI explican su popularidad, siendo la más importante para fines prácticos, que los examinados no necesitan contestar el mismo conjunto de ítems a fin de ser comparados con una misma escala (Ozen & Reise, 1994)

Los dos principios básicos que de acuerdo con Hambleton, et. al., (1991), sustentan a la TRI, son:

"(1) La ejecución de un examinado en una prueba pueden ser predichos por un conjunto de rasgos, rasgos latentes y habilidades; y (2) la relación entre las respuestas de los examinados a los reactivos y el conjunto de rasgos que subyacen a la respuesta ante el reactivo, pueden describirse por una función monotónicamente incrementada llamada función característica del reactivo o curva característica del ítem (CCI). Esta función especifica que a medida que el nivel del razgo incrementa, también incrementa la probabilidad de una respuesta correcta ante ese reactivo." (p.7)

De acuerdo a los modelos matemáticos utilizados por la TRI, la probabilidad de que un examinado responda correctamente ante un ítem dado, depende de la habilidad del examinado y de las características del reactivo. Los modelos TRI incluyen supuestos acerca de los datos a los que se puede aplicar el modelo, aún cuando la viabilidad de los supuestos no puede determinarse directamente. Evidencias adicionales deben ser reunidas y evaluadas. El ajuste global del modelo a los datos de la prueba puede por supuesto, ser también evaluados.

Son supuestos de la TRI:

1. Sólo puede medirse una habilidad por el reactivo que forma parte del examen; este es el supuesto de la unidimensionalidad; y,

2. La función característica del reactivo refleja la relación real que hay entre las

[email protected] 56

Page 57: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

variables no observables (habilidades) y las variables observables (las respuestas a los reactivos; Hambleton, et. al., 1991)

Si se construye una prueba a partir de la TRI, la dificultad de los reactivos y la habilidad del examinado se miden en la misma escala, haciendo posible seleccionar reactivos que son más útiles en ciertos puntos de la escala de habilidades. Por ejemplo, si se desea determinar el punto de inflexión que separa a profesionales certificados de los profesionales no certificados, la TRI permite seleccionar reactivos para producir una prueba que tenga el nivel deseado de precisión para medir cualquier nivel de habilidad (Hambleton, et. al., 1991)

Para construir una prueba de acuerdo a los principios de la TRI, es necesario construir un banco de reactivos con parámetros estimados para cada ítem, de acuerdo al modelo seleccionado. El procedimiento recomendado por Lord (1977) consiste de los siguientes cuatro pasos:

"1. Decidir acerca de la forma deseada de la función de información de la prueba o curva de información deseada (target information curve).

2. Seleccionar los reactivos del banco cuya curva de información deseada cae bajo el área de la curva de información de la prueba, de tal manera que saturen el área bajo la curva de la función deseada de la prueba.

3. Conforme se adicionan reactivos a la prueba, se recalcula la curva de información de la prueba con los reactivos seleccionados hasta ese momento.

4. Continuar la selección de los reactivos hasta que la función de información de la prueba se aproxime a la función de información deseada con un grado satisfactorio." (p. 23)

Sin embargo, la TRI no se encuentra libre de problemas y su aplicación contiene ciertos puntos riesgosos debido a que el uso de criterios estadísticos para la selección de los reactivos no asegura una prueba con contenidos completamente válidos. Deficiencias en los procedimientos de selección de los contenidos pueden generar una prueba con un bajo nivel de validez de contenido (Hambleton, et. al., 1991).

Otro problema de la TRI es que cuando se utilizan funciones de información de los reactivos durante el desarrollo de una prueba, es probable que los valores sean sobrevalorados y por lo tanto, la función de información podría sesgarse. Una prueba construída con ítems de valores elevados puede ser que no corresponda a los de la prueba esperada. Como consecuencia, la función de información de la prueba será sobrevalorada y por lo tanto, habrá que añadir varios reactivos adicionales para compensar esta sobrevaloración. Otra solución podría ser emplear muestras más grandes, de forma que se realice una estimación más adecuada de los parámetros de los reactivos (Hambleton, et. al., 1991).

[email protected] 57

Page 58: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

En resumen, la TRI es una teoría dirigida a establecer situaciones que permiten predecir el comportamiento del examinado ante ítems particulares de un test, o ante test completos, con base en un rasgo o patrón de comportamiento. Los dos postulados básicos son: que la ejecución del examinado ante el test es parte de una sola habilidad o rasgo y que la relación entre estos dos se manifiesta conforme a una función monotónicamente incrementada llamada función característica del ítem (o función de la respuesta). La TRI es consistente con la teoría de las habilidades latentes que postula que los individuos varían en el rasgo o habilidad que mide el test y que éstos se distribuyen en un contínuo que va de bajo a alto. La probabilidad de responder un ítem correctamente varía con la habilidad y es baja si el nivel de habilidad es bajo y alto para niveles altos de habilidad. Esto se visualiza mediante la curva característica de ítem, la cual es diferente para cada reactivo y para el test en su conjunto. Los modelos de respuesta por ítem tienen múltiples aplicaciones en pruebas de amplia aplicación en los Estados Unidos de Norteamérica como son el Scolastic Assessment Test (SAT) y el General Educational Development (GED). Muchas empresas e instituciones utilizan los modelos de respuesta por ítem en el desarrollo de sus tests, tales como Educational Testing Service (ETS), The Psychological Corporation, CTB/McGraw-Hill y otros importantes desarrolladores de pruebas.

El Desarrollo de la Tecnología de Computadoras.

Varios eventos relacionados con la tecnología computacional han sido significativos para permitir el desarrollo masivo de los sistemas adaptativos de evaluación que pertenecen a la categoría de exámenes hechos a la medida en virtud de que se adaptan a la capacidad de cada examinado. El primero de ellos es indudablemente el desarrollo que a partir de 1970 han tenido las computadoras personales, permitiendo cada vez más una alta velocidad de proceso y una capacidad de almacenamiento muy por encima de lo que hubiera podido pensar en ese año.

Otro evento significativo es la fabricación de software cada vez más potente cuyo inicio se marcó indudablemente, por una parte, con el desarrollo del sistema operativo MS-DOS (2), y por otra, por el sistema D-Base II (3), ambos para computadoras personales. Antes de estos dos desarrollos, tanto los sistemas operativos como las bases de datos operaban sólo en computadoras de las llamadas mainframes y requerían de una capacidad de memoria y dispositivos de almacenamiento muy superiores a lo que las computadoras de aquellos tiempos podían razonablemente manejar. La principal ventaja que se obtuvo con el desarrollo de los modernos sistemas operativos fue la interactividad entre el usuario y la computadora, mientras que con las bases de datos, fue la posibilidad de almacenar y recuperar grandes cantidades de información por medio de procedimientos bastante simples. Ambos elementos con la capacidad para almacenarse en pequeñas computadoras que se encuentran al alcance de cualquier usuario individual.

[email protected] 58

Page 59: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

Recientemente, las bases de datos creadas con una filosofía orientada a objetos facilita el desarrollo de sistemas inteligentes de evaluación que no sólo permiten almacenar y recuperar información de una manera flexible, sino que además, pueden programarse fácilmente de manera que pueden tomar decisiones en base a las respuestas de los usuarios y tomar la forma de sistemas inteligentes o sistemas expertos.

Esto se debe a que la filosofía orientada a objetos permite replicar en el ambiente simbólico del lenguaje de la computadora, las relaciones que se observan en los objetos en el ambiente natural de trabajo de una manera más fiel de lo que sucedía con los sistemas anteriores de programación. De hecho, crear un sistema de cómputo implica crear en la computadora, una imagen de una parte del ambiente real al que ese sistema pretende aplicarse. Lo que sucede con los lenguajes orientados a objetos es que es posible crear en la computadora, entidades simbólicas a las que se les asignan propiedades semejantes a las observadas en la realidad. Y también es posible hacer que esas entidades u objetos se comuniquen entre sí conforme a las propiedades o reglas de interacción que han sido definidas. Así, algunas funciones humanas como el razonamiento deductivo observado en el silogismo y algunas otras operaciones lógicas, pueden reproducirse en el ambiente simbólico de la computadora.

En el caso de los sistemas adaptativos de evaluación, se han identificado las funciones que una base de datos debe poseer para permitir una óptima utilización del sistema. En este caso, la base de datos se conforma en una buena parte por una base de reactivos, cada uno de los cuales es una entidad o registro que posee ciertos atributos. Los parámetros estadísticos básicos del reactivo son los atributos del registro y cada vez que el reactivo es extraído de la base de reactivos y contestado por un examinado, se actualizan estos parámetros.

Los bancos de reactivos fueron explorados por primera vez a fines de los sesenta y principios de los setenta en la Gran Bretaña, pero por lo general, terminaron en fracasos debido a las enormes cantidades de papel y recursos administrativos y de organización que se requerían (Hambleton, 1986). La segunda generación surgió a mediados de los ochenta cuando las computadoras fueron capaces de almacenar, recuperar y evaluar los reactivos de una prueba.

Con un banco de reactivos adecuadamente desarrollado y los reactivos convenientemente valorados, la construcción de las pruebas se convierte en el siguiente paso inevitable. De acuerdo con Hambleton (1986), las características deseables de un banco de reactivos computarizados son las siguientes:

1. Debe proporcionar mecanismos que permitan el fácil acceso a los reactivos así como a la información estadística sobre su uso, representatividad y dificultad asociada con ellos.

[email protected] 59

Page 60: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

2. Debe contener un conjunto de objetivos a los que sirve cada reactivo, así como un esquema adecuado para clasificar esos objetivos.

3. Debe contener algorítmos rápidos de búsqueda y recuperación de los reactivos que se usarán para aplicar las pruebas.

4. Debe poseer algorítmos automatizados para configurar los exámenes.

5. Debe disponer de mecanismos interactivos de presentación de los reactivos.

6. Debe contar con rutinas adecuadas para realizar el análisis de los reactivos y el almacenamiento de los datos asociados con los ítems del examen.

Los bancos de reactivos se hacen más refinados a medida que los exámenes van siendo aplicados y conforme las estadísticas de los reactivos se van acumulando al evaluarse los reactivos. Esta propiedad de retroalimentación es una característica muy poderosa de los bancos de reactivos (Linden, 1986), puesto que cada vez que ese reactivo es administrado, se actualizan los atributos correspondientes de ese registro en la base. Así, los ítems que no identifican la habilidad que con ellos se pretende medir, se modifican o se desechan definitivamente.

Los Sistemas Adaptativos de Evaluación

Las pruebas adaptativas se aplicaron por primera vez a la medición de diferencias individuales por Binet y Simon (DuBois, 1970) en lo que más tarde vendría a ser conocido como las pruebas de inteligencia de Binet. En general, durante el proceso de administración de la prueba, los tests adaptativos involucran la selección de un conjunto de items para cada examinado, que miden de una mejor manera algúna característica psicológica de la persona.

Binet operacionalizó el proceso adaptativo con un examinador experto. En el test de Binet, el examinador hacía primero una estimación del nivel de habilidad de un individuo para determinar un nivel de edad con el cual comenzar el test. Cada pregunta se calificaba a medida que era contestada y el examinador decidía si el siguiente bloque de preguntas deberían ser más fáciles o más difíciles. Este proceso se repetía hasta que se obtenía un efecto de tope y el nivel basal se había establecido. Esos dos niveles, la edad mental en la cual el examinado contesta todos los reactivos incorrectamente y todos los ítems correctamente, definen el rango de medición adecuada para ese individuo. Los reactivos por debajo del nivel basal son demasiado fáciles para el examinado y, por lo tanto, no se administran. Los ítems por arriba del efecto de tope son demasiado difíciles para el examinado y por lo tanto, tampoco se administran. Ninguno de esos dos conjuntos de reactivos proporciona información valiosa respecto de ese individuo y en realidad, son los ítems que se encuentran entre

[email protected] 60

Page 61: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

el nivel basal y el nivel de tope, los que proporcionan información útil acerca del individuo en cuestión.

Los exámenes adaptativos computarizados son una forma especial de los "tests a la medida" que involucran la selección de reactivos mientras el test está siendo administrado, y los reactivos administrados a cada individuo se escogen de acuerdo al nivel de dificultad que requiere el examinado (Weiss, 1983).

La aplicación de un exámen adaptativo se inicia con la aplicación de un reactivo determinado por el examinador y los siguientes reactivos se determinan a partir de las respuestas del examinado a los reactivos anteriores. Los tests adaptativos no son como los tradicionales que aplicaban un conjunto fijo de reactivos a un grupo de examinados, sino más bien, son exámenes individualizados para cada examinado. Los reactivos que se aplican a cada examinado se seleccionan del banco de reactivos dependiendo de la precisión con que respondió a las preguntas anteriores (ERIC, 1983). Cada reactivo de la base de ítems está asociado con un nivel de dificultad, y por lo tanto, mientras el examinado responde correctamente, los siguientes reactivos que se presentan son de una dificultad mayor. Por el contrario, si responde en forma incorrecta, los siguientes reactivos son de menor dificultad.

Entre las ventajas que presenta el uso de exámenes adaptativos está el que los resultados pueden proporcionarse inmediatamente después del examen y que no hay problemas de seguridad de los exámenes dado que cada examen es diferente. También está el hecho de que la estandarización de las condiciones de aplicación del examen mejoran debido, principalmente, a la aplicación computarizada. Entre las ventajas económicas está el que no se necesita de personal especializado para la aplicación de las pruebas (Martois, 1983)

Entre las limitaciones para el uso de los exámenes adaptativos está el que se requiere de una gran capacidad de almacenamiento en grandes bancos de reactivos a fín de asegurar buenos resultados. Los resultados de los exámenes adaptativos dependen, además, de la precisión con que han sido evaluados los reactivos que los conforman (ERIC, 1983). Es también importante contar con una base de reactivos suficientemente grande y correctamente cotejados con la distribución de las habilidades que están siendo evaluadas (Green, Bock, Linn, Lord y Reckase, 1985). Por lo tanto, se requiere de una base de reactivos considerablemente grande y adecuadamente dimensionada respecto de un nivel amplio del rasgo que está siendo medido.

Una limitación importante del uso de los tests adaptativos computarizados (TAC), se relaciona con el supuesto de la unidimensionalidad. Las pruebas adaptativas que se sustentan en la TRI requieren que se mida un sólo rasgo y que la cuantificación se dé en torno a una sola dimensión, de lo contrario, la aplicación podría ser cuestionable (Laurier, 1990).

Otra limitación radica en lo que en las pruebas de lápiz y papel se denomina

[email protected] 61

Page 62: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

"omisión" y que se refiere al hecho de que la pregunta no es contestada. En el caso de los TAC, la prueba no puede continuar mientras no se seleccione una opción. Por lo tanto, no hay nada previsto para las no respuestas (Wainer, 1993). Tampoco hay posibilidades de cambiar una respuesta una vez que ésta se ha contestado, pues de inmediato aparece otro reactivo en la pantalla.

Conclusiones

La Teoría Clásica de los Tests (CTT) ha mostrado diferentes grados de sofisticación que han ido desde una fáse práctica, caracterizada por la elaboración de ítems y tests sin otro fín que obtener relaciones consistentes entre las partes y los tests en su conjunto; hasta la fase, conocida como estructural, en la cual la elaboración de tests se da a partir de los resultados de la investigación empirica y conceptual obtenida de los diferentes campos de la psicología, propiciando el desarrollo de test con un sustento teórico y experimental más sólido.

Han existido sin embargo, problemas conceptuales de la TCT que limitaban su aplicación a condiciones específicas, tales como la dependencia que hay entre cada ítem particular y la prueba de que forma parte, así como la que existe entre cada ítem y la población empleada para normalizar la prueba. Estas limitaciones entre otras, dieron lugar a la formulación de la Teoría de Respuestas por Ítems (TRI), cuyos procedimientos psicométricos y conceptualizaciónes teóricas permitieron superar estos problemas.

Debido a que en un examen adaptativo cada examinado responde a un conjunto de reactivos particular que es diferente al que responden los otros examinados, un modelo que permite determinar los parámetros estadísticos de cada ítem en forma independiente del test del que forma parte resulta ser el medio más adecuado de análisis, y esto es lo que se obtiene mediante el uso de la TRI. Por esta razón, ambos modelos conceptuales son complementarios.

Por otra parte, aunque el concepto de tests adaptativos no es nuevo, sus posibilidades de implementación se han visto renovadas a raíz del desarrollo de la tecnología computarizada que se populariza durante los 80's. Esta es otra razón importante por la cuál es de esperarse que los tests adaptativos computarizados tengan ahora un desarrollo sin precedentes y se conviertan en la forma rutinaria de evaluación a partir de los 90's.

Finalmente, el uso generalizado de los tests adaptativos en educación debe verse acompañado del desarrollo de sistemas computarizados que no sólo permitan su aplicación, sino también, contengan algoritmos de calificación y actualización de los estadísticos básicos de los reactivos conforme a los últimos desarrollos en la teoría de los tests y específicamente, de la teoría de respuestas por ítem.

[email protected] 62

Page 63: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

Referencias.Anastasi, A. (1970). On the formation of psychological traits. American Psychologist, 25, 899-910.

Cattell, R. B. (1986,a). Scales and the Meaning of Standardized Scores. In R. B. Cattell, and R. C. Johnson, (Eds). Functional Psychological Testing: Principles and Instruments. New York: Brunner/Mazel, Publishers.

Cattell, R. B. (1986b). Structural Tests and Functional Diagnoses. In R. B. Cattell, and R. C. Johnson, (Eds). Functional Psychological Testing: Principles and Instruments. New York: Brunner/Mazel, Publishers.

Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometryca, 16, 297-334.

ERIC Clearinghouse on Tests, Measurement, and Evaluation. (1983). Computerized adaptive testing: ERIC Digest. Princeton, N.J.: ERIC Document Reproduction Service.

DuBois, P. H. (1970). A history of psychological testing. Boston: Allyn and Bacon.

Eysenck, H. J. (1959). Intelligence assessment: A theoretical and experimental approach. British Journal of Educational Psychology, 37, 81-98.

Green, B. R., Bock, R. D., Linn, R. L., Lord, F. M. y Reckase, M. D. (1985). A plan for scaling the computerized adaptive Armed Services Vocational Aptitude Battery (ASVAB). San Diego, CA: Navy Personnel Research and Development Center, Manpower and Personnel Laboratory.

Guilford, J. P. The structure of the intellect. Psychological Bulletin, (1956), 53, 267-293.

Hambleton, R. K., & Swaminathan, H. (1985). Item response theory: Principles and applications. Boston, MA: Kluwer-Nijhoff Publishing.

Hambleton, R. K. (1986). The changing conception of measurement: A commentary. Applied Psychological Measurement, 10 (4), 415-421.

Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of Item Response Theory. (Vol-2). Newbury Park, CA: Sage.

Hambleton, R. K. (1993). Principles and selected applications of Item Response Theory. In Linn, R. L. (Ed.) Educational Measurement. Phoenix, AZ: Oryx.

Horn, J. L. (1967). Intelligence: Why it grows, why it declines. Trans-Action, November, 23-31.

[email protected] 63

Page 64: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

Kapan, R. M. & Saccuzzo, D. P. Psychological testing: Principles, applications and issues. Pacific Grove, CA: Brooks-Cole.

Kuder, G. F. & Richardson, M. W. (1937). The theory of the estimation of reliability. Psychometryca, 2, 151-160.

Laurier, M. (1990, April). What we can do with computerized adapting testing... and what we cannot do. Paper presented at the Annual Meeting of the Regional Language Center Seminar, Singapore.

Linder, van der, W. J. (1986). The changing conception of measurement in education and psychology. Applied Psychological Measurement, 10, 325-332.

Lord, F. M. (1977). Practical applications of item characteristic curve theory. Journal of Educational Measurement, 14, 117-138.

Lord, F. M. (1980). Application of Item Response Theory to practical testing problems. Hillsdale, N.J: Lawrence Erlbaum Associates.

Marx, M. H. (1953). The General Nature of Theory Construction. In M. H. Marx (Ed.) Theories in Contemporary Psychology. New York: MacMillan, 1963.

Martois, J. S. (1983). What is computer adaptive testing? Unpublished manuscript.

Ozen, D. J., & Reise, S. P. (1994). Personality assessment. In L. W. Porter & M. R.

Rosenzweig, Annual Review of Psychology. Palo Alto: Annual Reviews.

Spearman, C. E. (1904). The proof and measurement of association between two things. American Journal of Psychology, 15, 201,-293.

Spearman, C. E. (1927). The abilities of man. New York: Macmillan.

Thurstone, L. L. (1938). Primary mental abilities. Psychometric Monographs, 1.

Tryon, R. C. (1935). A theory of psychological components -an alternative to "mathematical factors." Psychological Review, 42, 425-454.

Wainer, H. (1993). Some practical considerations when converting a linearly administered test to an adaptive format. Educational Measurement: Issues and practice, 12 (1), 15-20.

Weiss, D. J. (1983). Introduction: Latent trait theory. In D. J. Weiss (Ed.) New Horizons in testing: Latent trait theory and computer adaptive testing (pp. 1-8). New York: Academic Press.

[email protected] 64

Page 65: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

Weiss, D. J. and Vale, C. D. (1987). Computerized Adaptive Testing for Measuring Abilities and other Psychological Variables. In Butcher, J. N. (Ed). Computerized Psychological Assessment. New York: Basic Books.)

[email protected] 65

Page 66: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

Anexo 1

UNA APLICACION AL ESTUDIO DE ACTITUDES HACIA LA MATEMATICA EN LA UNALM

RESUMENEl propósito de este estudio es reportar los resultados del estudio psicométrico de la escala de actitudes hacia la matemática EAHM-U desarrollada por Bazán (1997) aplicada a ingresantes de la UNALM y discutir si existen diferencias en esa actitud considerando la edad, sexo y especialidad de ingreso. La EAHM-U es una escala tipo Lickert de 31 ítemes dividida en cuatro dimensiones:Afectividad, Aplicabilidad, Habilidad y Ansiedad. Del análisis psicométrico ejecutado se ha obtenido una escala confiable, válida y que permite obtener diferencias por dimensiones y la escala según la edad del ingresante a la UNALM en tres grupos: 16 años, de 17 a 19, y mayores de 20 años. En el estudio de la diferenciabilidad no existe distinción por sexo en la actitud hacia la matemática en la escala y en sus dimensiones. Sólo hay diferencias en la actitud hacia la matemática para la dimensión de Aplicabilidad por especialidad y diferencias en la escala y en sus dimensiones de Afectividad y Habilidad por edad.

INTRODUCCIÓNUn aporte importante de la Psicología es sin duda los denominados Test. Estos se clasifican en formas diversas considerando su contenido, formato y características, sea en el diseño, construcción, análisis estadístico y aplicación. Un grupo de estos son las Escalas de Actitud, los cuales pretenden medir las aproximaciones o tendencias que tenemos las personas hacia un determinado objeto sea concreto o abstracto, animado o no, y que se valoran en términos positivos (aproximación) o negativos (rechazo).

En la Universidad Nacional Agraria La Molina, estudios que reflejan una verdadera preocupación de los docentes del Departamento de Matemática, han postulado diversas variables explicatorias para el deficiente rendimiento alcanzado por los ingresantes en el curso de Matemática I (porcentaje de desaprobados superior al 60 % en los últimos semestres). Estas variables son exógenas a la universidad, como pueden ser: rendimiento escolar, ingresos económicos, instrucción de los padres, tipo de colegio de procedencia, rendimiento en el examen de admisión, etc. o endógenas como pueden ser: valoración de los profesores en términos de diversos criterios, de los exámenes, de los contenidos del curso, de las evaluaciones, etc. (véase informes de investigación financiados por el Fondo de Desarrollo Universitario).

Estas aproximaciones se asientan en juicios y autoreflexiones tanto de los docentes en el primer caso como de los alumnos en el segundo. Nosotros sólo vamos enfatizar un aspecto hasta ahora no apreciado, el de las variables internas, denotando con esto un conjunto de variables psicológicas que

[email protected] 66

Page 67: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

presentan los alumnos, que traen consigo a la universidad y que pueden afectar su rendimiento. Dentro de ellas se quiere enfatizar esta vez en las Actitudes y en particular las actitudes hacia la matemática que traen los ingresantes. Es decir independientemente o antes que el profesor con mota y tiza en la pizarra dé su clase de Matemática I, ¿viene, el alumno, predispuesto a rechazar al curso?. Dicha predisposición ¿varía con la edad, sexo o especialidad de ingreso?. Por tanto el propósito de este estudio es reflexionar sobre la aplicación de la escala desarrollada por Bazán (1997), EAHM-U de actitudes hacia la matemática, en ingresantes a la UNALM, y diferenciando sus resultados considerando la edad, sexo y especialidad de ingreso.

REVISION DE LITERATURAEn lo que respecta a nuestro medio, Yi Yi (1989), realizó un estudio de Actitudes hacia las Matemáticas en una muestra de alumnos de sexto grado de primaria y quinto año de secundaria del distrito de Jesús María. Precisó los niveles de actitud con respecto a variables como el sexo del profesor, el nivel de ayuda de padres y asesores, el tipo de colegio, entre otras. Asimismo usó un estudio de validez de contenido usando jueces psicólogos para evaluar la pertinencia de los ítemes de la escala elaborada por ella en base a la revisión de la literatura pertinente. La versión final de su prueba comprende 32 ítemes. Bazán (1997) presentó el Modelo Psicométrico de la Teoría Clásica de los Test (MPTCT) para medidas paralelas en un nivel de intervalo con composición lineal y aditiva; desarrolló una Metodología estadística de construcción de pruebas (MECP) estudiando la validez, confiabilidad y diferenciabilidad de la prueba así como técnicas para el análisis estadístico de ítemes; y presentó la construcción de una Escala de Actitudes hacia la matemática y su aplicación en ingresantes a la UNALM. En dicho estudio el énfasis es metodológico, parte de los resultados de la metodología sobre el estudio psicométrico de la EAHM-U y los resultados de la aplicación sobre el estudio de la diferenciabilidad de la EAHM-U se presentan aquí, con énfasis en la discusión de los resultados de la aplicación.

Definición de conceptosTeóricamente, los componentes de toda actitud son: cognitivo, que está constituído por los pensamientos, ideas, que tiene la persona sobre el objeto de la actitud, se incluye los conocimientos, las creencias, las opiniones y los prejuicios concernientes al objeto de la actitud; afectivo, que consiste en todos los afectos y emociones de la persona hacia el objeto social específicamente en téminos de las evaluaciones positivas y negativas; comportamental, que incluye la predisposición de la persona a responder a la tendencia a comportarse con respecto al objeto.

Se define la actitud hacia la matemática como el fenómeno que involucra sentimientos (componente afectivo), creencias (componente cognitivo) y las tendencias de los alumnos a actuar de manera particular, acercándose o alejándose del objeto matemática (componente comportamental).

[email protected] 67

Page 68: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

En dicha actitud se hallan contenidos varios aspectos que definen dimensiones tales como: dimensión afectividad (I), que refleja el agrado o desagrado hacia el curso de matemática, dimensión aplicabilidad (II), que refleja la valoración al curso de matemática. dimensión habilidad (III), que refleja la confianza en la propia habilidad matemática y dimensión ansiedad (IV) que refleja las reacciones comportamentales de ansiedad frente al curso.

Se postula que dichas dimensiones son aditivas y forman la actitud hacia la matemática general (EAHM-U)

MATERIALES Y MÉTODOSProcedimiento Estudio psicométrico de la EAHM-U Se realizó un estudio psicométrico de la EAHM-U en las diversas etapas de la metodología de construcción de pruebas (Bazán, 1997), calculando los indicadores de validez por criterio de jueces, el análisis de ítemes, la confiabilidad por alfa de Cronbach y la validez de contructo. Véase Anastasi (1968), Nunnally (1973, 1987) para una revisión de aspectos de la metodología y a Bazán (1997) para el detalle metodológico en la construcción de esta escala.

Inicialmente se realizó un estudio de validez por criterio de jueces. Este, tiene el propósito de recoger el criterio de juez de los profesores titulares del curso de Matemática I del Departamento de Matemática, tanto antiguos y recientes con amplia experiencia.

El criterio de juez consiste en valorar la pertinencia de un ítem a determinada dimensión de la escala y se basa en la definición de la dimensión y de la actitud hacia la matemática en general. Posteriormente se realizó un análisis estadístico de itemes. Este es una etapa de la metodología de construcción de pruebas, consistente en criterios y técnicas para la eliminación de itemes, precede siempre a la estimación de los parámetros de una prueba pues estos se obtienen con una versión denominada Prueba Final o Versión Final de la escala.

El análisis estadístico de ítemes permite un análisis psicométrico preliminar pues elimina ítemes que contribuyen poco a la bondad de los parámetros de la escala: tanto en la validez de constructo como en la confiabilidad. Este proceso puede obtenerse adecuadamente a partir del módulo de confiabilidad del SPSS, especialmente con las estadísticas de ítem y de la escala, así como de la escala si el ítem es eliminado; covarianzas y correlaciones interítem, y sumarios de medias, varianzas, covarianzas y correlaciones, y especialmente el cálculo del alfa de Cronbach como estimador de la consistencia interna de los ítemes. Sin embargo también interviene la pericia y criterio del investigador a fin de decidir que ítemes serán eliminados.

Con la versión final de la escala se realizó el estudio de la confiabilidad. El índice calculado es el alfa de cronbach para los ítemes dentro de las dimensiones de la escala así como de la escala general. Finalmente se realizó un estudio de la validez de constructo o de Construcción, relevante en

[email protected] 68

Page 69: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

situaciones cuando no existe un criterio o universo de contenido aceptado, pero el investigador desea, a partir del puntaje en la escala, hacer inferencias acerca de desempeños que pueden ser agrupados bajo la etiqueta de un particular constructo psicológico.

Se realiza a través las correlaciones que existen entre las diferentes dimensiones de la escala. Se ejecuta en la etapa final del estudio de la validez con la versión final de la escala, así como la correlación entre dimensiones y con la escala general. Esta correlación es tanto espúrea (no se aisla el efecto de autocorrelación cuando se correlaciona una parte con el todo) como corregida (cuando se aísla la autocorrelación).

Estudio de la diferenciabilidad de la EAHM-U Se realizó un estudio de diferenciabilidad de la EAHM-U, evaluando estadísticamente, mediante la prueba no paramétrica del test de medianas, las diferencias en actitud hacia la matemática general y por dimensiones de acuerdo a sexo, edad, y especialidad de ingreso. Véase Siegel (1980).

Los análisis estadísticos fueron procesados a través del software estadístico SPSS versión 6.1 para windows.

Obtención de la muestra y recolección de los datos. Para la obtención de la muestra no existió un diseño muestral estadístico debido a que el propósito era evaluar a toda la población. En la segunda semana de clases, se aplicó la EAHM-U, simultáneamente en las seis aulas de ingresantes durante el horario del curso de Matemática I, para ello se contó con la colaboración de seis estudiantes de Psicología del quinto año instruidos convenientemente y con la presencia del profesor de aula respectivo.

La población de interés son los ingresantes a la UNALM. En el semestre 95- I, ingresaron 315, que de acuerdo a la modalidad de ingreso se distribuían de la siguiente manera:

Tabla 1: Distribución de ingresantes a la UNALM en el semestre 95-I según modalidades

Modalidades Número

Examen de Admisión 203

Centro Preuniversitario 82

Primeros puestos 28

Traslado de matrícula 1

Becarios por Convenio 1

La muestra corresponde a un muestreo no probabilístico intencional y accidental y está conformada por 256 estudiantes el equivalente a

[email protected] 69

Page 70: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

aproximadamente 81.26 % de la población de ingresantes que se depuraron de 282 que contestaron la escala(16 pruebas fueron eliminadas por contener datos faltantes). A continuación se presenta dos tablas.

En la Tabla 2 se observa que el mayor porcentaje de evaluados corresponde a Economía y el menor a Metereología que se corresponden por el número de sus ingresantes. Por el contrario considerando la cobertura lograda, definida como el % de la población de ingresantes cubierto, se evaluó a todos los ingresantes a Biología y sólo a un 69.69 % de los ingresantes a Ingeniería Agrícola.

Tabla 2: Distribución y cobertura de individuos en la muestra por especialidad

Especialidad Casos % CoberturaAgronomía 34 13.3 77.27

Agrícola 23 9.0 69.69Biología 18 7.4 100

Economía 38 14.8 88.37Estadística 20 7.8 76.92Forestales 24 9.4 82.28

I. Alimentarias 29 11.3 82.85Metereología 16 6.3 72.72

Pesquería 28 10.9 84.84Zootecnia 26 10.2 82.25

Total 256 100 81.26

Tabla 3: Distribución de individuos en la muestra por edad y sexoEdad Femenino Masculino Total %

16 3 3 6 2.317 36 32 68 26.618 48 49 97 37.919 13 26 39 15.220 12 16 28 10.921 1 9 10 3.922 1 4 5 2.023 1 1 2 0.824 1 0 1 0.4

Total 116 140 256 100% 45.3 54.7 100

En la Tabla 3 se observa que en la muestra predomina ligeramente el grupo masculino y las edades de 17 y 18 años en la muestra. Esto indica que se trata de una población mixta y preferentemente adolescente (66.8 % hasta 18 años).

Descripción del Instrumento

[email protected] 70

Page 71: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

La Escala EAHM-U es de tipo Lickert, en su versión final es de 31 ítemes (véase Anexo). La aplicación de la escala o prueba es individual y colectiva. La duración es de 15 minutos como máximo, pues se espera una repuesta rápida sin posibilidad de elaborar juicios, enfatizando el aspecto valorativo antes que cognoscitivo. Las calificaciones se basan en la recodificación que se hace de las expresiones TD (Totalmente en Desacuerdo), D (En desacuerdo), I (Indiferente), A (Acuerdo) y TA (Totalmente de Acuerdo) en base al sentido de la escala (si es negativo o positivo), asignándose un valor de 1,2,3,4 y 5 respectivamente y en ese orden si se trata de un ítem negativo, y de 5,4,3,2, y 1 respectivamente y en ese orden si se trata de un ítem positivo. Los puntajes altos, cuando más altos denotan mayor actitud negativa y los puntajes bajos, cuando más bajos, mayor actitud positiva.

RESULTADOSI) Estudio Psicométrico de La EAHM-U. En las siguientes tablas se recoge la distribución de los ítemes por dimensiones, la confiabilidad de las dimensiones y la escala, las estadísticas descriptivas de la escala y sus dimensiones así como los valores que permiten distribuir los puntajes en cinco categorías respecto a la actitud. Así se puede utilizar como criterio de clasificación si se aplicara en otras oportunidades tanto en forma individual como grupal.

Tabla 4: Distribucion de ítemes aceptados por dimensiones según el estudio de validez por criterio de jueces y el análisis estadístico de ítemes y Confiabilidad

por Alfa de Cronbach para la EHAM-U y sus dimensiones

Dimensiones

Itemes aceptados + - Total Alfa de Cronbach

I Afectividad 1,5,9,13,17,21,25,29 4 4 8 0.7640II Aplicabilidad

2,6,10,14,18,22,26,30 6 2 8 0.7600

III Habilidad 3,7,11,15,19,23,27,31 5 3 8 0.7800IV Ansiedad 4,8,12,16,20,24,28 3 4 7 0.7124EAHM-U 1 al 31 18 13 31 0.9063

itemes positivos: 1,2,3,6,8,9,10,11,16,17,18,19,22,24,25,26,27,31

Tabla 5: Validez de constructo: matriz de correlaciones muestralDimensiones D1 D2 D3 D4D1 1.0000D2 0.6043 1.0000D3 0.6712 0.5134 1.0000D4 0.5789 0.4757 0.7213 1.0000

Tabla 6: Validez de Constructo en base a la correlación de Pearson ítem-total espuria y corregida, y de Spearman:

D1 D2 D3 D4EAHM-U 0.8397

(0.7355)0.7945 (0.6077)

0.8771 (0.7478)

0.8112 (0.6903)

[email protected] 71

Page 72: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

0.8258 0.7736 0.8743 0.7928

Tabla 7: Estadísticas Descriptivas de la EAHM-U en Ingresantes a la UNALMEstadística EAHM-U D1 D2 D3 D4Media 105.39 27.63 29.01 25.77 22.08Mediana 108 28 30 26 23Moda 117 29 30 28 30Mínimo 43 10 8 8 9Máximo 148 40 40 40 34Ds. Est. 17.85 5.48 5.82 5.502 4.60

Tabla 8: Categorías de Actitud en base a percentiles de la EAHM-U y de sus Dimensiones en Ingresantes a la UNALM

Categorías de Actitud

EAHM D1 D2 D3 D4

Muy Favorable(<P20)

31-89 8-23 8-24 8-20 7-24

Favorable(P20-P40)

90-102 24-26 25-28 21-24 25-28

Indiferente(P40-P60)

103-111 27-28 29-30 25-27 29-30

Desfavorable(P60-P80)

112-119 29-31 31-33 28-29 31-32

Muy desfavorable (>P80)

120-155 32-40 34-40 30-40 33-35

II) Resultados del Estudio de la Diferenciabilidad de la PruebaA continuación se reportan los análisis que se ejecutaron con la EAHM-U para buscar si existen diferencias en la actitud considerando el sexo, la edad y la especialidad.A continuación se presenta en detalle la distribución de sujetos que puntuaron por encima (>med: más negativas - ) y por debajo (<med: más positivas + ) de la mediana, según edades y para cada dimensión y la escala completa.

Tabla 9: Prueba de Medianas del puntaje de la EAHM y sus dimensiones según sexo, especialidad de ingreso y edad

SEXOc2 valor p

ESPECIALIDADc2 valor p

EDADc2 valor p

EAHM-U 0.1768 0.6742 12.5884 0.1821 16.3216 0.0380*D1 0.2618 0.6089 12.7993 0.1719 13.6382 0.0917**D2 0.7324 0.3921 19.4037 0.0220* 5.9563 0.6521D3 0.0068 0.9342 14.3409 0.1107 14.3329 0.0735**D4 0.0035 0.9530 14.6303 0.1016 11.9014 0.1557

*: p < 0.05 **: p< 0.1

[email protected] 72

Page 73: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

Tabla 10: Distribución de sujetos que puntúan por encima y por debajo de la mediana para la EAHM y sus dimensiones

Edad

EHAM -U D1 D2 D3 D4<Med

>Med

<Med

>Med

<Med

>Med

<Med

>Med

<Med

>Med

16 1 5 3 32 4 1 5 1 517 40 28 45 23 37 31 36 32 34 3418 53 14 51 46 56 41 51 46 57 4019 26 13 23 16 24 15 28 11 23 1620 10 18 11 17 15 13 11 17 12 1621 3 7 4 6 5 5 5 5 3 722 2 3 1 4 1 4 2 3 3 223 0 2 0 2 1 1 0 2 0 224 0 1 0 1 0 1 1 0 0 1

En base a la Tabla 10 se encuentra más estudiantes con actitudes más positivas a la Matemática en los ingresantes menores de 19 años salvo en el grupo de 16 y más negativas en los ingresantes de edades por encima de los 20 años. Estos resultados justifican la formación de baremos en tres grupos de edad: de 16 años, de 17 a 19 y mayores de 20 años.

Se encuentran más estudiantes con actitudes más negativas en la dimensión 1 en los ingresantes con edades por encima de los 20 años, y más positivas por debajo de los 19 años. Se encuentran más estudiantes con actitudes más negativas en la dimensión 2 en los ingresantes con edades de 16, 22 y 24, y más positivas en la escala en los ingresantes de edades de 17, 18, 19 y 20.

Se encuentran más estudiantes con actitudes más negativas en la dimensión 3 en los ingresantes con edades de 16, 20,22, y 23, y más positivas en las edades de 17, 18,19, y 24. Se encuentra más estudiantes con actitudes más negativas en la dimensión 4 en los ingresantes con edades de 16, 20, 21, 23 y 24, y más positivas en las edades de 18, y 19.

Dado estos resultados, se formó categorías de actitud considerando los grupos de edad que se formaron del análisis anterior. Así se identificó a los de 16 años, un segundo grupo entre 17 y 19 años y un último grupo por encima de 20 años. Esto nos llevó a la siguiente tabla.

En la Tabla 11 se recoge los valores que permiten distribuir los puntajes en cinco categorías respecto a la actitud. Así se puede utilizar como criterio de clasificación si se aplicara en otras oportunidades tanto en forma individual como grupal.

[email protected] 73

Page 74: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

Tabla 11: Categorías de Actitud en base a percentiles de la EAHM-U en Ingresantes a la UNALM considerando la edad.

Categorías de Actitud

16 años 17-19 años más de 20

Muy Favorable: 31-P20

31-104 31-89 31-96

Favorable: P20 - P40

105-112 90-101 97-110

Indiferente : P40 - P60

113-116 102-110 111-118

Desfavorable: P60 - P80

117-127 111-120 118-127

Muy desafavorable: P80 -155

128-155 121-155 128-155

DISCUSIONLa EAHM-U fué elaborada en base a los ingresantes a la UNALM que cursaban el curso de Matemática I. El instrumento obtenido presenta alta confiabilidad para la escala general y para sus dimensiones. Lo mismo se dá con respecto a la validez.A partir del instrumento se ha encontrado que en general la actitud hacia la matemática es más bien negativa. Si se detalla las actitudes en forma específica a través de la moda de respuestas se encuentra lo siguiente:

Actitudes específicas de los ingresantes a la Unalm 95-I.Si se revisa la distribución de frecuencias de los ítemes, y se considera la alternativa más frecuente (la moda), se puede ofrecer una interpretación más específica considerando las expresiones de estos ítemes. Así se tiene que en el semestre 95-I, la mayoría de ingresantes a la UNALM está en total desacuerdo de que necesitará de las matemáticas para su trabajo futuro, (36.7%), sería feliz de obtener sus más altas notas en matemáticas (55.9 %)y lo que es grave, poder aprender cualquier concepto matemático si lo explican bien (50 % ). Esto connota una actitud altamente negativa, tanto del sentido de utilidad del curso, como de la expectativa de logro en el.

Así mismo, la mayoría de ingresantes, está en desacuerdo de que las Matemáticas sea un curso valioso y necesario (45.3 %), de que las matemáticas le resultan útiles para su profesión (44.1%), de que la matemática les sirva para hacer estudios de especialización (43.8 %), de que guardarán sus cuadernos de matemáticas porque probablemente les sirvan (44.5 % ), de que el curso de matemáticas sirva para enseñar a pensar (44.1%), y finalmente de sentirse seguros al intentar hacer matemáticas (39.1%),. Esto connota una actitud negativa, en la valoración del curso en términos de su aplicabilidad

[email protected] 74

Page 75: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

presente y futura, en sus expectativas personales frente al curso y en su seguridad personal.

De lo anterior se desprende una predisposición negativa frente al curso de matemática I, en términos tanto de las valoraciones negativas de utilidad y aplicabilidad presentes y futuras de la matemática que expresan, así como la falta de expectativas personales y de logro que traen consigo respecto de la matemática, incluyendo inseguridad. Generalizando, el ingresante viene predispuesto negativamente.

Sin embargo esta predisposición antes que afectiva, de ansiedad o de habilidad se refiere especialmente a la aplicabilidad, un aspecto ligado al plano informacional, académico y curricular, susceptible de ser trabajado desde la universidad.

En suma estas actitudes reflejan la predisposición negativa frente a la Matemática con que vienen los ingresantes a la UNALM. Cuando se trata de diferenciar estas actitudes por sexo, especialidad de ingreso y edad se encuentra que no hay diferencias por sexo ni por especialidades salvo en la dimensión 2 de Aplicabilidad.

Esto se puede interpretar como que en general ni hombres ni mujeres presenta actitudes positivas, y que esta realidad tampoco es distinguible de acuerdo a la especialidad. Sinembargo cuando se trata de establecer el sentido de aplicabilidad de la Matemática las actitudes se presentan diferentes por especialidades. Estos resultados pueden explicarse porque se trata de “profesiones agrarias” y porque estas son de común interés para poblaciones mixtas. Sinembargo esta aparente ¨homogeneidad ¨ de respuestas se hace distinguible cuando se establece la aplicabilidad que puede tener la matemática para una profesión específica.

Las actitudes resultan diferentes cuando se considera la edad en la escala completa y en las dimensiones 1 de Afectividad y 3 de Habilidad; no así en las otras dimensiones. Estos resultados permiten diferenciar tres grupos de edad: los de 16, los de 17 a 19 y finalmente los que tienen más de 20 años. Se encuentra que con la edad las actitudes son más negativas. Esto se puede explicar en base a la suposición de que los ingresantes de estas edades son menos exitosos y que posiblemente ello ocurra en matemática. También se encuentra que entre los de 16 prevalecen actitudes más negativas. Esto se puede explicar en base a la suposición de que la mayoría de los ingresantes de esta edad tienen menos información de la dinámica universitaria y por tanto del nivel del curso lo que parece predisponer a una actitud negativa.

Como un dato adicional, de 312 matriculados, el resultado al finalizar el semestre fue de 209 (66.09 %) de desaprobados en el curso de Matemática I, ingresantes. El propósito de la inclusión de este resultado es establecer la importancia que tienen los esfuerzos por explicarlos.

[email protected] 75

Page 76: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

Lo establecido en este estudio permite afirmar que la prueba en cierta forma es predictiva al haber detectado apenas iniciado el semestre que el grupo de ingresantes mostraba actitudes desfavorables hacia la Matemática, lo cual puede haber incidido en su desempeño académico en el curso, sin excluir la influencia de otras variables.

Las dificultades para la enseñanza de la matemática que pueden inferirse de este estudio son bastante generales en nuestro sistema universitario. De alli que establezcamos la importancia de los enfoques interdisciplinarios, como este, para caracterizar más adecuadamente esta realidad. Se invita a extender los resultados de este estudio en base a la aplicación de la EAHM-U a otros contextosy universidades. Para detalles técnicos respecto a algunos aspectos de la metodología empleada se remite al lector a Bazán (1997).

CONCLUSIONESLa EAHM es un instrumento de 31 ítemes con cuatros dimensiónes en una escalamiento de tipo Lickert de cinco valores que es confiable, válido y permite obtener diferencia por dimensiónes y la escala según la edad del ingresante a la UNALM en tres grupos: de 16 años, de 17 a 19 y mayores de 20 años. A partir del instrumento se ha encontrado que en general la actitud hacia la matemática es más bien negativa en los ingresantes que llevan el curso de Matemática I.

1. No hay diferencias por sexo en la actitud hacia la matemática en la escala y en sus dimensiones. 2. Hay diferencias por especialidad en la actitud hacia la matemática en la dimensión 2 (Aplicabilidad) a un nivel del 5% de significación, pero no hay diferencias en la escala y las otras dimensiónes.3. Hay diferencias por edades, en la actitud hacia la matemática en la escala a un nivel del 5% de significación, y en las dimensiónes 1 (Afectividad) y 3 (Habilidad) a un nivel del 10% de significación. No hay diferencias en las dimensiónes 2 (Aplicabilidad) y 4 (Ansiedad).

REFERENCIASAnastasi, A. (1968) Test Psicológicos. Madrid: Aguilar.Bazán, J. (1997) Metodologia estadistica de construccion de pruebas. una aplicación al estudio de actitudes hacia la matematica en la Unalm. Tesis para optar el Título de Ingeniero Estadístico. UNALM Nunnally, J. (1987) Teoría P s i c o m é t r i c a , México. Ed. Trillas.Nunnally, J. (1973). Introducción a la Medición Psicológica. Buenos Aires: Paidos.Siegel, S. (1980). Estadísticas no paramétricas Aplicadas a las Ciencias de la Conducta. México: Trillas.Yi Yi, P (1989) Actitudes hacia las Matemáticas en un muestra de alumnos de quinto año de secundaria y de sexto grado de primaria del distrito de Jesús María. Memoria de Bachillerato de Psicología. PUCP.

[email protected] 76

Page 77: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

[email protected] 77

Page 78: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

ANEXOESCALA DE ACTITUDES HACIA LAS MATEMATICA EAHM-U NO COLOQUE SU NOMBRE, EL CUESTIONARIO ES ANÓNIMO.

EDAD: SEXO : ESPECIALIDAD:

INSTRUCCIONESEn este cuestionario no hay respuestas correctas ni incorrectas, sólo deseamos saber si Ud. está de acuerdo o en desacuerdo con cada una de las siguientes afirmaciones. Por ejemplo ante la afirmación:Me gustan las matemáticas TD D I A TAUd. indica su opinión haciendo un círculo en una de las 5 alternativas de la derecha.Estas alternativas significan lo siguiente:

TD= Totalmente en DesacuerdoD = En DesacuerdoI = No sabe o no puede responder, indiferente.A = De AcuerdoTA= Totalmente de Acuerdo

No tome mucho tiempo en ninguna de las afirmaciones, más bien asegúrese de responder a cada una de ellas. Trabaje rápidamente pero con cuidado. Recuerde que no hay respuestas correctas o incorrectas, lo que interesa es su opinión. Deje que su experiencia anterior lo guíe para marcar su verdadera opinión.

1. Las matemáticas son amenas y estimulantes para mí.TD D I A TA2. Matemáticas es un curso valioso y necesario.TD D I A TA3. Pienso que podría estudiar matemáticas más difíciles.TD D I A TA4. Las matemáticas usualmente me hacen sentir incómodo y nervioso.TD D I A TA5. Siempre dejo en último lugar mi tarea de matemáticas porque no me gusta.TD D I A TA6. La matemática me servirá para hacer estudios de especialización.TD D I A TA7. Por alguna razón, a pesar que estudio, las matemáticas me parecen particularmente difíciles.TD D I A TA8. Siempre soy capaz de controlar mi nerviosismo en los exámenes de matemática.TD D I A TA9. Yo disfruto con los problemas que me dejan como tarea en mi clase de matemáticas.TD D I A TA

[email protected] 78

Page 79: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

10. El curso de matemáticas sirve para enseñar a pensar.TD D I A TA11. Los términos y símbolos usados en matemáticas nunca me resultan difíciles comprender y manejarTD D I A TA12. Algunas veces me siento tenso e incómodo en clase de matemáticas.TD D I A TA13. El curso de matemáticas no es mi curso favoritoTD D I A TA14. Sólo deberían estudiar matemáticas aquellos que la aplicarán en sus futuras ocupaciones.TD D I A TA15. El curso de matemáticas es muy extenso, no puedo entenderlo.TD D I A TA16. Generalmente me he sentido seguro al intentar hacer matemáticas.TD D I A TA17. No me molestaría en absoluto tomar más cursos de matemáticas.TD D I A TA18. Las matemáticas me resultan útiles para mi profesión.TD D I A TA19. Confío en poder hacer ejercicios más complicados de matemáticas.TD D I A TA20. Sólo en los exámenes de matemáticas me sudan las manos o me duele el estómago.TD D I A TA21. Prefiero estudiar cualquier otra materia en lugar de matemáticas.TD D I A TA22. Guardaré mis cuadernos de matemáticas porque probablemente me sirvan.TD D I A TA23. Generalmente tengo dificultades para resolver los ejercicios de matemáticas.TD D I A TA24. Los exámenes de matemáticas no provocan en mí mayor ansiedad que cualquier otro examen.TD D I A TA25. Sería feliz de obtener mis más altas notas en matemáticas.TD D I A TA26. Necesitaré de las matemáticas para mi trabajo futuro.TD D I A TA27. Puedo aprender cualquier concepto matemático si lo explican bien.TD D I A TA28. Mi mente se pone en blanco y soy incapaz de pensar claramente cuando hago matemáticasTD D I A TA29. Ojalá nunca hubieran inventado las matemáticas.TD D I A TA30. Sólo deberían enseñarse en matemáticas las cosas prácticas que utilizaremos cuando salgamos de la universidad.

[email protected] 79

Page 80: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

TD D I A TA31. Las matemáticas no son difíciles para mí.TD D I A TA

Lectura Selecta Nº 2.

Medición

La operación de la medición consiste en dar valores a los fenómenos que interesan en el marco de un planteamiento geográfico. Por una parte, sirve inicialmente para caracterizar los atributos de los objetos que se estudian y entonces se emplea al comienzo de todo tratamiento. Por otra parte, interviene al final para caracterizar formas espaciales, describir la naturaleza y la intensidad de relaciones, calificar semejanzas, etc. En el primer caso la medición está inserta en la fase de adquisición de los datos e informaciones necesarios para tratar la cuestión estudiada. Estas informaciones provienen, ya sea de fuentes estadísticas de organismos públicos o privados, ya sea de encuestas (relevamientos de terreno, sondeos, etc.). En el segundo caso, se trata de la ayuda de mediciones apropiadas, de rendir cuenta de resultados originados en tratamientos, estadísticos u otros.

Elaborar un sistema de medición supone identificar de antemano los objetos y los atributos pertinentes en relación con las problemáticas planteadas. Según el fenómeno estudiado, los objetos pueden ser de naturaleza muy diferente: conceptos, entidades espaciales, individuos, grupos sociales, mapas, son ejemplos de objetos observables a los cuales se pueden asociar atributos. Según las informaciones disponibles y/o medibles, puede haber un desfase más o menos importante entre el fenómeno que se desea medir y lo que es efectivamente observable (oprima sobre ilustraciones para tener ejemplos). Se trata, en cada caso, de tener hipótesis sólidas sobre la cadena de causalidad que vincula lo que es medible con el fenómeno estudiado.

En numerosos casos, los objetos estudiados son entidades espaciales. Éstas pueden constituir una partición del espacio (el conjunto de las comunas de una región, el conjunto de regiones de un continente, etc.), pueden ser segmentos de redes o simples puntos localizados (establecimientos, ciudades, ...). Se utiliza la expresión "matriz de información geográfica" para describir la matriz que tiene, en líneas, el conjunto de las entidades espaciales consideradas y, en columnas, el conjunto de los atributos elegidos para caracterizar el fenómeno estudiado.

En una tabla estadística, se utilizan indistintamente los términos "caracteres", "indicadores", "variables", para designar a los atributos. Según el objetivo de la investigación y la naturaleza de esos atributos, existen diferentes herramientas de representación y de tratamiento. La principal distinción se refiere a la naturaleza cuantitativa (conteo, relación, medida) o cualitativa (categoría, orden) de las variables. Los tratamientos más clásicos emplean métodos

[email protected] 80

Page 81: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

estadísticos. Cuando el objetivo es efectuar una tipología, o poner en evidencia las interrelaciones dentro de un conjunto de variables, se recurre a los métodos de análisis de datos, análisis en componentes principales si se trata de variables medibles, análisis de correspondencias si se trata de variables cualitativas. En estos análisis estadísticos las variables desempeñan papeles simétricos. Cuando se estudia la variabilidad de un fenómeno particular en función de otros factores, se utilizan los modelos estadísticos (regresión múltiple, análisis de la varianza, análisis de la covarianza, modelo logarítmico, etc., según la naturaleza de la variable llamada "para explicar" y de las variables denominadas "explicativas").

Hay diferentes niveles de integración del espacio en los tratamientos estadísticos, según los métodos utilizados y los atributos elegidos para caracterizar los objetos estudiados. El espacio puede estar presente por el simple hecho de aplicar los métodos estadísticos clásicos a individuos estadísticos que son entidades espaciales. A un nivel de integración más elevado, se pueden tomar en cuenta atributos que contengan una dimensión espacial: los más clásicos son la distancia a un objeto estructurador y la caracterización de la vecindad. Por último, existen métodos de tratamiento que integran explícitamente el espacio (geoestadístico, estadísticas espaciales, medidas fractales, morfología matemática).

Otros métodos utilizan también la medición. Tal es el caso de los modelos que están formalizados por medio de ecuaciones matemáticas, o de los que siguen reglas lógicas, o aun de aquellos construidos a partir de una combinación de ambos. Tales modelos sirven para describir y para explicar el estado de un sistema, la evolución de ese estado, o la intensidad de las interacciones entre diferentes objetos (por ejemplo, el modelo gravitatorio, si los objetos son entidades espaciales). Algunos modelos permiten efectuar simulaciones y son utilizados para controlar (mediante tests) argumentaciones y hacer previsiones (modelos dinámicos).

[email protected] 81

Page 82: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

La validez de constructo en educación. Alcances y límites

Gustavo Rosales Estrada*

Introducción

El concepto de validez es un problema central en toda investigación científica. Tal importancia le permite vincularse a los conceptos de contrastación, verdad, utilidad, de adecuación a la realidad, etcétera.

Desde este punto de vista, se habla de validez con referencia a conceptos, modelos, hipótesis, diseños experimentales, medidas, juicios de valor, evaluaciones, procesos, etcétera (Bartolomé, 1983).

La validez de un método es la exactitud con que pueden realizarse procedimientos de medida en forma significativa y adecuada con él, en el sentido de que midan realmente los rasgos o variables que pretenden "... un test o instrumento de medición, cuya (con) fiabilidad es conocida, será válido, si mide aquello para lo que fue construido..." (Magnuson, 1966: 153).

Es claro que cuando requerimos estimar la validez de un instrumento de medida, necesitamos saber qué rasgo deseamos que se mida. A éste suele denominarse variable de criterio.

Se requiere saber el grado en el cuál se corresponden las posiciones de los individuos, en la distribución de las puntuaciones obtenidas en el test a validar y los datos usados, con un grado conocido de certeza, como índices para las puntuaciones de los individuos en la variable criterio.

En la mayoría de las mediciones de variables psicopedagógicas, "la distancia entre el objeto o variable a medir y el instrumento, es lo suficientemente grande como para que no sea evidente, ni siquiera fácilmente demostrable, la relación entre ambos" (Pérez-Juste, 1983).

Bartolomé (op. cit.: 3), afirma "... si la relación entre el instrumento y las variables es evidente, el tema de la validez carece de importancia. Cuando tal evidencia no aparece es cuando debemos investigar profundamente el proceso de validación..."

El estudio de un rasgo o variable es complejo y presenta varios problemas: a) El carácter indirecto de la medición (puesto que nunca se mide un rasgo directamente, sino algunas de sus manifestaciones conductuales). En este

[email protected] 82

Page 83: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

sentido, no puede decirse que un instrumento sea válido o no, sino en qué grado es válido para precisar lo que pretende medir. b) Población en que la validez es estimada. Un instrumento podrá ser válido (en un cierto grado) para una determinada población y no (en el mismo grado) para otra distinta.

Múltiples son los enfoques semánticos que se le ha asignado al proceso de validez: aparente, concurrente, de contenido, predictiva, de utilidad y de constructo; este último también denominado de construcción, de hipótesis de trabajo, diferenciadora, etcétera, sin duda es el más importante desde el punto de vista científico.

Los principales tópicos que pretende cubrir el estudio de la validez, son (Martínez, 1981 y Cronbach, 1971): adecuación con lo que mide la conducta bajo estudio; capacidad de diagnosticar la conducta real de una persona; sensibilidad para detectar un objetivo; seguridad en las decisiones y utilidad. Con este enfoque podemos resumir que: 1. La validez no es un concepto único, adopta diversas formas e interpretaciones según la variable a validar, los objetivos del instrumento de medida, la población a la que se le aplique dicho instrumento, etcétera.

2. Lo que se valida no es estrictamente el instrumento, sino la interpretación de los datos obtenidos por un procedimiento específico (Cronbach, op. cit. y Magnuson, op. cit.).3. La validez no debe entenderse como el cálculo de un simple índice que relaciona el test y el criterio, sino como un proceso continuo (Nunnally, 1978), que requiere la acumulación de datos procedentes de distintas investigaciones empíricas y de procesos lógicos. 4. La validez no puede determinarse en términos absolutos respecto a ninguna variable de nuestro campo de estudio, sino que es una cuestión de grado. 5. La elección de uno u otro tipo de validez o de varios tipos a la vez, dependerá de las funciones típicas u objetivos que cumplirá el instrumento de medición particular que sea estudiado.

I. El concepto de validez de constructo y su problemática

El problema básico de la validez de constructo ha radicado en la dificultad de comprobar los rasgos a medir con la conducta abierta, de una manera simple y directa.

Megarges (1971), pretende resolver esta cuestión al distinguir los conceptos de pertinencia y equivalencia de la conducta; es decir, si es imposible para el investigador encontrar una medida de criterio equivalente, puede recurrir a otras conductas observables que, aunque no son equivalentes al rasgo, están relacionadas con él.

[email protected] 83

Page 84: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

Se pretende verificar hipótesis sobre las relaciones de las variables con otras (surgidas de la propia teoría), para tener confianza en el instrumento, a la vez que se pretende también validar la red de relaciones teóricas que dicho rasgo estableció. Cronbach y Meehl (1967), definen un constructo como "... algún atributo postulado acerca de la persona, que supuestamente se refleja en la ejecución de un test..."

Un constructo es un concepto, una abstracción, y en este sentido el constructo de la personalidad misma descansa en la creencia de que las consistencias conductuales de los individuos existen con amplitud y justifican gran parte de la varianza de su conducta. Los constructos siempre están insertos en una teoría científica, pues para ser válidos necesitan anclarse en un sistema (Bunge, 1976).

La validez de constructo -el único tipo de validez completa- tiene como propósito fundamental validar la teoría subyacente al sistema de evaluación o medida, sea ésta una teoría de la personalidad o conductual. Los constructos son los que determinan qué conductas han de relacionarse para su observación y la situación en que se aplicarán.

Un instrumento de medida estará ligado al sistema de constructos dentro del que fue construido; es este tipo de validez el que nos indicará el grado en que el instrumento de evaluación es una medida adecuada del constructo y hasta qué punto las hipótesis derivadas de él pueden confirmarse mediante la utilización del instrumento.

Fiske (1971), afirma que el investigador debe describir "la única cualidad a la cual su constructo se refiere, es decir, debe establecer el "corazón" del constructo, semejando un camino que integre todas las manifestaciones que el conceptualizador desee incluir bajo la variable"; es decir, en el momento de la construcción del instrumento de evaluación "es necesario establecer las especificaciones de los objetivos del mismo y el dominio conductual al que han de referirse los elementos del instrumento de evaluación" (Martínez, op. cit.: 285).

II. Aspectos relevantes en la validación del constructo

El proceso de validez requiere de todo el soporte metodológico para llevar a cabo sus objetivos; es claro que no existe un tipo de técnica de validez concreta, que responda a un tipo de procedimiento de validación; generalmente son diversos y muy complejos los procedimientos usados para tal fin, incluso se

[email protected] 84

Page 85: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

llegan a crear nuevos soportes metodológicos específicos (técnicas) para validar algún aspecto de la red de leyes lógicas, planteadas en la definición de un constructo.

De acuerdo a Nunnally (op. cit.), son tres los aspectos más importantes a tomar en cuenta en la validación de constructos:

1. Definición del dominio del constructo. Este aspecto se refiere a la especificación de los contenidos o conductas presumiblemente constitutivas del mismo. Sería algo semejante a la definición de la red nomológica del constructo, lo que Cronbach y Meehl (op. cit.) denominan "elucidación de lo que es un objeto y exposición de las leyes bajo las cuales ocurre".

Este aspecto es de una importancia capital en la investigación sobre variables de construcción, porque según cómo se defina el dominio del constructo y cuáles sean sus contenidos definidos por hipótesis, dependerá en gran parte todo el trabajo posterior de validación, así como la importancia de sus conclusiones.

Aunque todos los investigadores le dan un gran valor a este aspecto, no siempre se realiza con la precisión necesaria y con el suficiente rigor. Es claro que si no se tiene todavía un criterio definido, en su lugar pueden utilizarse diversas muestras de conducta del rasgo fundamental o variable del constructo.

Esto suele ser necesario en las primeras definiciones de un constructo y ello está perfectamente justificado, debido a que cuando la teoría no está suficientemente establecida en sus orígenes o cuando la orientación del propio constructo es eminentemente práctica, "... las primeras formulaciones de las relaciones de la red pueden ser meramente descriptivas..." (Cronbach, 1971).

Aun las denominadas ciencias duras, no pueden establecer con rigor y precisión el dominio del constructo en sus orígenes. En las ciencias (sociales en lo general y pedagógicas en lo particular), en la mayoría de las ocasiones no disponemos de una red de relaciones consistente, ni siquiera de formulaciones absolutamente explícitas, que nos permitan la definición inicial del dominio de un constructo.

A medida que investigamos, en las siguientes fases del proceso de validación podemos definir con precisión dicho dominio, así como las relaciones que se presumen entre distintos observables implicados en el constructo. En esta fase de continuas definiciones y redefiniciones del constructo, los modelos exploratorios de investigación pueden orientar la definición progresiva de hipótesis con certeza.

2. ¿Los observables tienden a medir la misma cosa, algunas o muchas? Para resolver esta propuesta señalada por Nunnally (op. cit.) se utilizan básicamente

[email protected] 85

Page 86: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

métodos analíticos y correlacionales.

Algunos de los procedimientos de la psicometría tradicional -tales como la validez predictiva y concurrente, estudios sobre consistencia interna de pruebas, de fiabilidad, de índices de homogeneidad, dificultad o validez de elementos, etcétera- apoyan también con frecuencia determinados aspectos de la red teórica emanada del constructo, al permitir una mayor precisión en la definición de hipótesis sobre el dominio del mismo.

Cronbach y Meehl (op. cit.) señalan que "... al profesional que le interese la validez con fines prácticos (pedagogo, psicólogo) le concierne encontrar no un criterio imperfecto, sino un criterio de cualquier manera, en especial en el campo diagnóstico, puesto que no puede esperar un claro y unitario criterio..." más aún cuando existen otros instrumentos de una dimensión o constructo en estudio; "... sólo como medida de un criterio definido específicamente, un test puede ser validado con objetividad; pretender que un test mida algo más que su criterio es pura especulación"; "... los tests pueden ser interpretados provechosamente si conocemos la relación entre la conducta examinada y otras muestras de conducta, sin que ninguna de éstas ocupe necesariamente la posición preeminente de un criterio..."

Como respuesta a lo planteado, puede utilizarse la evidencia procedente de muchos tipos de estudios, tanto exploratorios como confirmatorios, pero pensamos que estos últimos son los que más luz pueden arrojar sobre el constructo y su medida; entendemos por estudio confirmatorio, no sólo aquel que se realiza en contextos experimentales o causales, sino a todo aquel cuyo objetivo sea el de validar hipótesis teóricas emanadas de una red nomológica de un constructo; estudios exploratorios, serían aquellos en los que, por imposibilidad o dificultad, no han podido definirse hipótesis específicas sobre los datos o variables objeto de una investigación concreta.

3. ¿Hasta qué punto las medidas supuestas del constructo producen resultados que son predecibles a partir de hipótesis teóricas altamente aceptadas, concernientes al constructo?

Para dar respuesta, se precisa la integración de evidencias procedentes de varios tipos de investigación. El problema a resolver es la determinación del comportamiento de las medidas supuestas del constructo, en investigaciones científicas basadas en la teoría subyacente en el constructo.

Muchos pueden ser los procedimientos y técnicas en estos estudios, pero no hay que olvidar que no son otra cosa que instrumentos usados para dar respuesta a las cuestiones específicas más o menos complejas; por ello, la determinación de qué tipo de procedimiento o qué técnicas deberán utilizarse en cada caso, dependerá del objetivo específico de cada estudio, en concordancia con las hipótesis que se pretendan validar y del tipo de datos seleccionados.

[email protected] 86

Page 87: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

En general, para abordar esta cuestión, desde la perspectiva de la validación de constructo pueden utilizarse estudios experimentales o ex-post-facto, en los cuales se puede determinar el comportamiento diferenciador de las medidas supuestas del constructo, así como la forma, magnitud y dirección de las relaciones que mantiene con otras variables afines o implicadas en su teoría.

Los modelos confirmatorios (en contextos experimentales o no experimentales) son los que pueden ofrecer evidencias más valiosas para la clarificación de un constructo. De modo orientador, se presenta la siguiente clasificación:

Estudios exploratorios:

Validez de contenido Análisis correlacionales y estudios de características técnicas de

instrumentos de medida Análisis factorial exploratorio Análisis de conglomerados Análisis de correspondencias

Estudios confirmatorios:

Estudios experimentales Análisis factorial como técnica de validación de constructo Matriz multirasgo-multimétodo Modelos estructurales causales Análisis factorial confirmatorio Análisis cluster confirmatorio Estudios diferenciales.

III. Etapas en la validación de un constructo

El proceso de validación de un constructo no difiere en su esencia del proceso científico que se utiliza para desarrollar y contrastar teorías; tampoco difiere del propio proceso de la investigación científica (problema, hipótesis, variables, diseño, etcétera) aplicado a las ciencias sociales.

Podemos definir el proceso de validación de un constructo como un proceso iterativo, interactivo y de integración de resultados. Iterativo, porque requiere la repetición de un proceso esquemático básico para la confirmación de hipótesis concretas y específicas, implicadas en la teoría sobre un constructo. Y de integración de resultados, porque los distintos estudios realizados sobre la base de un constructo será necesario interpretarlos de forma integrada, y descubrir qué contradicciones se manifiestan en los resultados de los distintos estudios y qué coincidencias muestran estos estudios diversificados.

IV. Explicitación de la teoría sobre el constructo

[email protected] 87

Page 88: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

Este paso es similar a la definición del problema en el proceso de la investigación científica. No es posible admitir un constructo científico si no se define su contexto teórico; es decir, no se define la red nomológica (según la terminología de Cronbach y Meehl, op. cit.) mínima de asociaciones o proposiciones en torno al constructo.

Si dicha red no hace contacto con las observaciones (si no hay definiciones operativas de variables), ni se explicita o manifiesta claramente, la validez de constructo no puede exigirse.

Los constructos deben entenderse como compendios inductivos, es decir, la teoría que subyace a ellos no tiene porqué estar establecida en sus orígenes; es más, en las primeras etapas de desarrollo de un constructo y en ocasiones en las más avanzadas, sobre todo cuando la orientación es práctica, interviene poco o nada la teoría entendida en su sentido usual, por lo cual las primeras formulaciones de las relaciones de la red pueden ser meramente descriptivas. Con la propia investigación y las continuas redefiniciones del constructo, se formularán las leyes de la red con mayor precisión.

La vaguedad de las leyes pedagógicas y/o psicológicas suponen también una restricción importante del esquema de la red. En la práctica, aun las más avanzadas leyes de las ciencias físicas sólo se aproximan a este ideal y la pedagogía o las ciencias sociales en general, que trabajan con formulaciones crudas o semiexplícitas, se encuentran en bastantes ocasiones en la imposibilidad de establecer una red consistente.

El significado de un constructo no está determinado cuando la red está incompleta o tiene muchas hebras perdidas o algunos constructos están unidos sólo por finos hilos, dado que su definición explícita es poco precisa y por tanto no sabremos qué es determinado constructo; mientras tanto, nuestra hipotética red de relaciones está sin validar.

En esta primera fase, los estudios exploratorios pueden ser una poderosa herramienta de investigación, debido a que permitirán afinar las posibilidades de definición de variables no implicadas directamente en la red.

V. Formulación de hipótesis derivadas de la red teórica y de los estudios exploratorios sobre el constructo

Este segundo paso es la consecuencia lógica de establecer la red teórica de relaciones del constructo y de los primeros estudios exploratorios realizados sobre variables implicadas.

La formulación de dichas hipótesis exige la definición operativa de las variables, sean propuestas como medidas del propio constructo o bien como variables explícitas en la red de relaciones del constructo.

Los procesos de validación del constructo se proponen como objetivo

[email protected] 88

Page 89: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

fundamental, garantizar su existencia en las condiciones exigibles a cualquier otro modelo o teoría científica, a través de medidas (directas o indirectas) del mismo.

Esta formulación de hipótesis deberá ser precisa, tanto si exigen posteriormente estudios experimentales o no experimentales de tipo confirmatorio, preferentemente. Es evidente que dichos estudios sólo podrán aceptar o rechazar (en sentido amplio) las hipótesis que se propongan.

VI. Puesta a prueba de hipótesis. Estudios confirmatorios

El siguiente paso de todo proceso de investigación científica -una vez definidos sus determinantes: problema, hipótesis y variables- es el diseño de un plan o estrategia de investigación, cuyo objetivo es la prueba de las hipótesis definidas.

Dicho diseño -en el amplio sentido que utiliza Kerlinger (1973)- exige la decisión sobre aspectos como muestreo, selección de instrumentos, control, elección de modelos estadísticos adecuados para el contraste de hipótesis, análisis de los datos, marco interpretativo de los datos, etcétera.

En esta fase, las técnicas confirmatorias que se han descrito (experimentales y no experimentales) serán la base del análisis de resultados, aunque no se excluye que algunas hipótesis sobre la significación de simples relaciones entre variables, puedan ser evaluadas a través de técnicas correlacionales o de estudios de características técnicas de instrumentos de medida (técnicas exploratorias).

Si las evidencias experimentales o correlacionales muestran acuerdo con las hipótesis que se derivan de la red, el constructo se establece. Pero, ¿qué ocurre si las predicciones del investigador y sus datos son discordantes con las derivaciones de la red?

Esto se puede interpretar de tres formas:a) Los tests propuestos no miden la variable de constructo. b) La red teórica que generó las hipótesis es incorrecta. c) El diseño experimental o correlacional (de validación en términos más generales) fracasó, por no haber probado adecuadamente las hipótesis.

En función de cada interpretación, la investigación posterior deberá corregir el error. Es decir, si el test no mide el constructo, no puede ser propuesto como medida del mismo, pues para ello se exige un fuerte ajuste positivo entre las predicciones y los datos subsecuentes. Si la red es incorrecta, habrá que modificarla en el sentido oportuno y probar nuevas derivaciones. Si el diseño o procedimiento de validación es incorrecto, se deberá diseñar o ejecutar un nuevo estudio adecuado.

VII. Evaluación e integración de resultados

[email protected] 89

Page 90: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

De lo anterior se desprende la necesidad de investigar secciones separadas (independientes) de la red, pues cuanto más diversificadas estén las predicciones del sistema, mayor confianza podremos tener en que solamente pequeñas partes de la red total resultarán defectuosas, sin afectar la validez general del constructo establecido teóricamente.

Todo ello indica -según Cronbach y Meehl (op. cit.) y Mischel (1977)- que la validez de constructo no puede expresarse en la forma de un coeficiente simple y que sería necesario realizar múltiples investigaciones para corroborar las distintas partes de la red total. La fase de evaluación de resultados, provenientes de diversos estudios realizados sobre hipótesis derivadas de la red total, exige un esfuerzo lógico y teórico de integración, que debe realizarse a partir de la propia teoría sobre el constructo.

En ocasiones, estas tareas integradoras no se realizan con la frecuencia y minuciosidad necesarias, por lo que es común observar la repetición del mismo tipo de estudio (sobre la base de la misma hipótesis) por distintos autores o investigadores, y se diferencian únicamente las muestras de análisis o bien la inclusión o no de alguna variable empírica en el estudio.

Todo proceso de validación de constructo exige la acumulación de resultados procedentes de distintos tipos de estudios, pero también se precisa su integración para que permitan dotarlo del marco teórico que le proporcione cierta unidad.

En la integración de resultados, las técnicas implicadas en el meta-análisis pueden ser muy valiosas, debido a que permiten aplicar procedimientos formales para combinar los resultados de experimentos y estudios correlacionales, e inferir generalizaciones sobre la consistencia de una red teórica subyacente a un constructo. El resultado final de esta fase de evaluación o integración de resultados, es la consolidación de distintas hipótesis emanadas de la red, o bien, la formulación de la propia red teórica (siempre y cuando los resultados de las investigaciones sean consistentes).

VIII. Formulación de nuevas hipótesis, prueba a través de estudios confirmatorios,

evaluación de resultados y reformulación de la red de relaciones del constructo

Es una vuelta al segundo paso del proceso de validación y surge como resultado del proceso de evaluación, que consolida o reformula la propia red del constructo. Estas nuevas hipótesis obtenidas deberán ponerse a prueba a través del diseño de estudios confirmatorios.

Los resultados de dichos estudios deberán evaluarse e integrarse entre sí, con la consiguiente modificación o consolidación del constructo.

IX. Análisis. El estudio de constructos en el ámbito pedagógico

[email protected] 90

Page 91: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

Los estudios de validación de constructo se han realizado principalmente desde la psicología; el objeto fundamental es validar variables o dimensiones intelectuales, de aptitudes y de personalidad. En el campo educativo, las variables de rendimiento han sido el tipo más estudiado.

Aunque el producto educativo -en su sentido más amplio- se presente como una realidad compleja, y en cierto grado evasiva por sus dificultades intrínsecas operacionales, no deja de ser cierto que sin su consideración, gran parte de la razón de ser de la investigación en las distintas áreas pedagógicas se perdería.

El rendimiento, como producto de la educación, se considera en términos de estructura como el núcleo de conductas organizadas y facilitadoras de los problemas y nexo entre distintas materias de enseñanza y no sólo como una simple adquisición de datos y destrezas vinculadas a determinados contenidos (De la Orden, 1985). La reconsideración del estudio de rendimiento, como variable dependiente por excelencia, supone un cambio radical en su medida y por ello el tema de la validez de constructo se hace más imperioso.

En realidad, se trata de validar variables o constructos que subyacen a otras variables representativas del producto educativo. Ello evidencia -como afirma De la Orden- el apoyo a la teoría que sirve de base a la variable, tanto como a la medida de la misma. La validez de constructo expresará si las variables derivadas de una teoría son adecuadas.

El problema fundamental es que las variables utilizadas en la mayoría de las ocasiones, y que representan el rendimiento, no han sido derivadas de una teoría sino seleccionadas en forma ecléctica y pragmática, por lo que hablar de validez de constructo de dichas medidas no tiene sentido.

Hasta ahora la metodología general de investigación en educación ha acudido prioritariamente a los modelos experimentales (entendidos en su sentido más amplio), cuando la metodología exploratoria y confirmatoria en campos multivariados no ha sido suficientemente explotada.

De la Orden (op. cit.) afirma que "... la validación de constructo, especialmente para la interpretación del producto de la educación, con base en medidas de referencia criterial, es una necesidad inesquivable que puede abrir caminos prometedores hacia una conceptualización más adecuada de los resultados de la instrucción..."

X. Dificultades y posibilidades de los procesos de validación de constructo en el ámbito pedagógico

Las dificultades inherentes a los procesos de validación de constructo son, ciertamente, las mismas que afectan a la investigación básica en cualesquiera de las ciencias sociales, es decir, el ser un camino largo, lento y a veces oscuro que no siempre están dispuestos a afrontar los investigadores y estudiosos de

[email protected] 91

Page 92: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

nuestro campo.

Un camino que exige la acumulación de datos y resultados provenientes de múltiples fuentes y tipos de estudios, y que exige tareas arduas de integración de resultados.

En nuestro país falta claridad en las líneas de investigación, que tengan como objetivos finales la validación de constructos, a lo que se suma la limitación en los presupuestos y equipos de trabajo mínimos (personales y materiales) para afrontar este tipo de tareas. A lo anterior suelen sumarse dificultades de acceso a fuentes documentales (resuelto en la actualidad con el uso de las redes de comunicación vía internet, aunque no al alcance de todos los investigadores educativos) o instrumentales, básicas para las tareas de recopilación de información, aplicación de instrumentos y procesamiento de datos.

Las técnicas estadísticas multivariadas, el uso de los paquetes estadísticos informáticos (SPSS, OSIRIS, LISREL, SPADE, ADDAD, BMDP, etcétera) y las técnicas actuales de integración de datos cuantitativos de la investigación empírica (técnica de meta-análisis) son algunos elementos que facilitarán esta tarea.

BIBLIOGRAFÍA

Baltes, P. (1981). Métodos de investigación en psicología evolutiva. Universidad de Barcelona, Barcelona.

Bartolomé, M. (1983). Validez de los instrumentos empleados en los procesos de medida. Universidad de Barcelona, Barcelona.

Bechtold, H. (1959). "Validez de constructo: una crítica", en Mergargeb, E. Métrica de la Personalidad. 2 Vols. Trillas, México.

Bunge, M. (1976). La investigación científica. Ariel, Barcelona.

Campbell, D. y Fiske, D. (1957). "Convergent and Discriminant Validation by the Multitrait-Multimethod Matrix", en Memrens y Ebel (1967), pp. 273-302.

Carlberg, C. (1984). "Meta-analysis in Education (a Reply to Slavin)", en Educational Researcher, 13 (8): 6-15.

Cooper, H. y Rosenthal, R. (1980). "Statistical Versus Traditional Procedures for Summarising Research Findings", en Psychologycal Bulletin, Núm. 87.

Cronbach, L. _____ y Meehl, P. (1967). "Construct Validity in Psichologycal Tests", en Mehrens: Principles of Educational and Psychologycal Measurements. A book of Selected Readings. Rand McNally, Chicago.

[email protected] 92

Page 93: EVALUACION

MÓDULO I EVALUACIÓN EDUCATIVA

_____ (1971). "Tesis Validation", en Thornike, R. (ed.); Educational Measurement. American Council of Education, Washington. pp. 443-507.

Cuadras, C. (1981). Métodos de análisis multivariado. Eunibar, Barcelona.

De la Orden, A. (1985). Análisis causal. La Investigación Educativa, Madrid.

Fiske, P. (1971). Measuring the Concepts of Personality. Aldine, Pub., Chicago.

García-Ramos, J. (1984). Validación y medida del constructo; dependencia-independencia de campo perceptivo. Tesis doctoral. Universidad Complutense, Madrid.

Glass, G. (1977). "Integratin Findings. The Meta-analysis of Research", en Review of Research in Education. Núm. 5.

Haertel, E. (1985). "Construct Validity and Criterion-Referenced Testing", en Review of Educational Research. 5, 1.

Joserskog, K. (1983). LISREL V y VI. Universidad Uppsala, Sweden.

Kerlinger, F. (1973). Investigación del comportamiento. Técnicas y metodología. Interamericana, México.

Magnuson, D. (1966). Teoría de los tests. Trillas, México.

Martínez, A. (1981). "Validez de constructo", en Fernández Ballesteros. Evaluación Conductual. Pirámide, Madrid.

Megarges, E. (1971). Métrica de la personalidad. Trillas, México.

Mischel, W. (1977). Personalidad y evaluación. Trillas, México.

Nunnally, J. (1978). Psicometric Theory. McGraw-Hill, New York.

Pérez-Juste, R. (1983). Pedagogía experimental. Unidad Didáctica, Madrid.

Popham, W. (1990). Problemas y técnicas de la evaluación educativa. Madrid-Anaya.

Slavin, R. (1984). "Meta-analysis in Education: How has it been used?", en Educational Researcher. Psychological Bulletin. Núm. 83. USA.

Witkin, H. (1977). "Field Dependence Revisted", en Princeton. Educational Testing Service. Research Bulletin. USA.

[email protected] 93