estrategias de evaluación y medición del comportamiento en psicología

346
Estrategias de Evaluación y Medición del Comportamiento en Psicología

Upload: rodrigo-cuellar-hidalgo

Post on 30-Nov-2015

257 views

Category:

Documents


10 download

DESCRIPTION

Aldo Bazán Ramírez y Alvaro J. Arce Ferrer (Editores).Rodrigo Cuellar Hidalgo (Encargado de Difusión en la Web).

TRANSCRIPT

Estrategias de Evaluación yMedición del

Comportamiento enPsicología

Estrategias de Evaluación yMedición del Comportamiento

en Psicología

Aldo Bazán Ramírez y Alvaro J. Arce Ferrer(Editores)

Instituto Tecnológico Universidad Autónomade Sonora de Yucatán

EDITORES : Aldo Bazán RamírezÁlvaro J. Arce Ferrer

CUIDADO EDITORIAL yREVISIÓN DE ESTILO : Beatriz A. Sánchez Hernández

EDICIÓN Y DISEÑO : Perseo Sánchez Fimbres

Primera Edición, Enero de 2002

La publicación de este libro fue financiada por el InstitutoTecnológico de Sonora (ITSON) y la Universidad Autónomade Yucatán (UADY), derivado de una colaboración académicaentre el Departamento de Psicología y Educación del ITSONy la Facultad de Educación de la UADY.

ISBN 97092889-2-X

Instituto Tecnológico de SonoraDivisión de Ciencias Sociales y Humanidades.Calle 5 de Febrero 818 SurCiudad Obregón, Sonora, MéxicoC.P. 85000www.itson.mx

Impreso en la República Mexicana

Esta obra se terminó de imprimir en enero de 2002 en los talleresgráficos del Instituto Tecnológico de Sonora. El tiraje consta de 1,000ejemplares.

ÍNDICE

INTRODUCCIÓN...........................................................................7

Capítulo 1:Hacia una evaluación de la actividad cotidiana y sucontexto: ¿presente o futuro para la metodología?. ......... 11María Teresa AngueraUniversidad de Barcelona

Capítulo 2:Integración de teoría sustantiva, diseño de pruebas ymodelos de análisis en la medición psicológica. .............. 87Rafael J. Martínez Cervantes y Rafael Moreno RodríguezUniversidad de Sevilla

Capítulo 3:Explorando la utilidad de los análisis clásicos y Raschen la determinación de la consistencia interna desubpruebas cortas de homogeneidad alta ......................... 121Sandra Castañeda FigueirasUniversidad Nacional Autónoma de México -Centro Nacional de Evaluación para la Educación Superior

Capítulo 4:La medición de la aptitud académica general: unaaplicación del análisis factorial confirmatorio jerárquico.135Alvaro J. Arce Ferrer, José E. Canto y Rodríguezy Zulema N. Aguilar SoberanisUniversidad Autónoma de Yucatán

Capítulo 5:Un modelo estructural de la motivación intrínseca enestudiantes universitarios ..................................................... 165Javier Aguilar Villalobos*, Alejandra Valencia Cruz*,Mario Martínez Jiménez*, y Alma Vallejo Casarín***Universidad Nacional Autónoma de México, **Universidad Veracruzana

Capítulo 6:Temores y realidades en la evaluación en el periodode adquisición formal de la lengua escrita ...................... 187Aldo Bazán Ramírez, Beatriz A. Sánchez Hernández,Cruz I. Corral Cárdenas y Cecilia Murrieta QuezadaInstituto Tecnológico de Sonora

Capítulo 7:Influencia de la Orientación Motivacional, los Estilos deAprendizaje y los Factores de carrera sobre eldesempeño escolar. .............................................................. 201Daniel González Lomelí y Ma. de los Angeles Maytorena NoriegaUniversidad de Sonora

Capítulo 8:Sistema Computarizado de Exámenes ............................... 227Eduardo Backhoff Escudero y Martín Rosas MoralesUniversidad Autónoma de Baja California

Capítulo 9:Diagnosticidad e interpretabilidad: retos a la mediciónde resultados de aprendizaje .............................................. 247Sandra Castañeda FigueirasCentro Nacional de Evaluación para la Educación Superior –Universidad Nacional Autónoma de México

Capítulo 10:La escala de salud del niño, un método de detecciónpara instituciones de primer nivel en salud ..................... 269Alberto Terrones González, Angélica María Lechuga Quiñónezy Jaime Salvador MoysenUniversidad Autónoma de Durango

Capítulo 11:Congruencia de la estructura factorial de escalaspsicológicas: Validación vía procrustes. ............................. 283Álvaro J. Arce FerrerUniversidad Autónoma de Yucatán

Capítulo 12:Prueba de aptitudes y competencias para el aprendizajeescolar en el nivel de educación superior (PACES) ........ 305Carlos Ibáñez BernalUniversidad Autónoma de Chihuahua

INTRODUCCIÓN

La idea de elaborar el libro “Estrategias de Evaluación y Medicióndel Comportamiento en Psicología ” representa el siguiente pasodespués de la edición del libro “Aportes Conceptuales y Metodológicosen Psicología Aplicada” publicado en 1999 por el Instituto Tecnológicode Sonora, idea editorial a la que se sumó la Universidad Autónomade Yucatán, conjugando de esta forma los esfuerzos de cooperacióninterinstitucional en el fomento y difusión de investigaciones realizadaspor académicos de distintas universidades mexicanas.

Cabe destacar que este libro no sólo muestra una parte del estadodel arte de la investigación en evaluación y medición que se lleva acabo en México en las áreas de evaluación y medición, sino tambiénpresenta aplicaciones de teoría y métodos para estudiarcientíficamente variables importantes del comportamiento realizadaspor investigadores de dos universidades de España.

El presente libro constituye una fuente importante parainvestigadores, estudiantes de postgrado y estudiantes de pregradoen Psicología y disciplinas afines, y presenta característicasimportantes a considerar. Primero, la obra constituye una guíapráctica para el desarrollo de estrategias de evaluación queactualmente cuentan con el reconocimiento de la comunidad científicainternacional. Todos los capítulos del presente libro se avocan aestudiar los retos que conlleva la definición de constructospsicológicos y educativos y el desarrollo de metodologías paravalorarlos.

Segundo, el libro contiene información que es valiosa parainvestigadores y estudiantes preocupados por el uso apropiado y eldesarrollo de procedimientos de evaluación y medición delcomportamiento, toda vez que los procesos de evaluación y demedición pueden introducir errores en los resultados de lasinvestigaciones. En ese sentido, el libro constituye una guía paraentender la importancia de evaluar los efectos de los métodos quese utilizan para construir el conocimiento científico. Los capítulos deMa. Teresa Anguera y de Rafael Martínez y Rafael Moreno reflejanla necesidad de un análisis crítico de los aspectos conceptuales ymetodológicos en la evaluación y medición del comportamiento.

Anguera aborda con mucha precisión la pertinencia de la evaluacióndel comportamiento en situaciones naturales o cotidianos, resaltandola importancia tanto de la metodología cualitativa como de lametodología cuantitativa en la recolección de la información. Martínezy Moreno enfatizan que en la práctica de la medición no se debesustituir la función de la teoría psicológica por modelos estadísticosde análisis de items y tests. Los capítulos de Sandra Castañeda yde Álvaro Arce y colaboradores, representan un ejemplo del tipo deinvestigaciones en las que el objeto de estudio es el método en sí.

Tercero, otro aspecto importante del libro “Estrategias deEvaluación y Medición del Comportamiento en Psicología” es ladiversidad de aproximaciones teóricas y metodológicas que presenta.Esta característica facilitará a los profesionales y estudiantes endisciplinas científico-prácticas la generación de investigacionesempíricas, sustentadas en la evaluación y medición en distintoscampos de aplicación del conocimiento psicológico. Por ejemplo, loscapítulos de Javier Aguilar, Alejandra Valencia, Mario Martínez y AlmaVallejo; Aldo Bazán, Beatriz Sánchez, Cruz I. Corral y CeciliaMurrieta, y de Daniel González y Ma. De los Ángeles Maytorena,muestran el uso de modelos estructurales en la evaluación delcomportamiento en el contexto educativo. Por otra parte, el capítulode Alberto Terrones, Angélica Lechuga y Jaime Salvador presentauna escala de evaluación infantil en el campo de la salud. Lasistematización de la evaluación para selección de aspirantes ainstituciones de educación superior es tratada en los capítulos deEduardo Backhoff y Martín Rosas, y de Carlos Ibáñez.

RECONOCIMIENTOS

La obra constituye un ejemplo de colaboración académica entreinvestigadores de distintas universidades públicas de México y deEspaña, por ello nuestro agradecimiento y reconocimiento a loscolegas que participan en este volumen con sus capítulos, y tambiénnuestro agradecimiento a los colegas que inicialmente participaronen la concepción de este proyecto a partir de dos simposia sobreevaluación y medición que presentamos en un congreso de Psicologíaen abril del 2001: John McArdle, Víctor Corral, Martha Frías e ImeldaGarcía.

Nuestro agradecimiento a las autoridades del Instituto Tecnológicode Sonora y de la Universidad Autónoma de Yucatán por el apoyomoral y material para la publicación de este libro. Así mismo, nuestragratitud a nuestros alumnos y colegas con quienes interactuamoscotidianamente y son nuestros referentes mas importantes.

Un reconocimiento especial a Beatriz López quien inició con lastrascripciones de los originales de estos capítulos.

Aldo Bazán RamírezAlvaro J. Arce Ferrer

Enero 2002

Capítulo 1

HACIA UNA EVALUACIÓN DE LAACTIVIDAD COTIDIANA Y SU CONTEXTO:

¿PRESENTE O FUTURO PARA LAMETODOLOGÍA? 1

María Teresa Anguera.Universidad de Barcelona

1. ¿Qué entendemos por actividad cotidiana?

La aparente simpleza del término nos cautiva, precisamente porsu densidad y la carga semántica que puede albergar. En cualquierser humano algunos días de su vida han tenido un especial significado,en ellos han ocurrido eventos de su esfera personal, familiar,profesional o social que tienen una concreta ubicación en uncalendario y que frecuentemente han constituido un referente gozosoo desdichado, trascendente o que quisiéramos olvidar, pero casi nuncaindiferente.

Pero si separamos estas fechas concretas, miles de días ymillones de horas ocupan la actividad cotidiana de un individuo.Cotidianeidad que por supuesto no es estanqueidad en un quehacerconstante, no es quedarse anclado en un día “tipo”, y no es tampoco–al menos no debiera serlo- sumirse en una atonía monocorde yaburrida que olvida el movimiento constante del péndulo y el avancede las manecillas del reloj.

La actividad cotidiana supone un avance continuado en el tiempoen donde se suceden diversas conductas, homogéneas o dispares, esun recorrido por el curso vital de cada uno, es un proceso dinámicosumamente complejo del que en muchas ocasiones no somosconscientes de cuánto alberga. El análisis de la cotidianeidad implicauna contemplación de conductas diversas desde distintos niveles que

1 Discurso de ingreso como académica numeraria electa. Barcelona: ReialAcademia de Doctors. Depósito Legal: B-49153-1999. Reproducido en estelibro, bajo autorización.

12 l Estrategias de Evaluación y Medición...

se sitúan en una estructura piramidal.

Si nos situamos en la cúspide de la pirámide, mediante lacotidianeidad se avanza en la trayectoria vital de cualquier individuo deacuerdo o no con su potencial o real proyecto de vida, con todas lastonalidades de grises que quepan entre el blanco y el negro relativos ala presencia o ausencia de uno o varios proyectos. Al descender en lapirámide desglosamos la cotidianeidad en diferentes planos (familia,profesión, relaciones sociales, ocio, ...) y la contemplamos desdediferentes ámbitos transversales (salud, afecto, tensión, satisfacción,conflictos).

A medida que seguimos descendiendo, se va desvelando unaestructura arbórea que muestra cómo se siguen subdividiendojerárquicamente los estratos que seccionan la pirámide,manifestándose un amplio espectro de posibilidades desdesituaciones en las que interrelacionan conductas tendentes a lamolaridad con los contextos en que se producen, hasta la base de lapirámide, que se halla conformada por una infinita variedad deconductas perceptibles cada vez más moleculares.

Al pretender la evaluación de la actividad cotidiana y su contextose imponen dos claras acotaciones a tener en cuenta, una de caráctersustantivo o de contenido, mientras que la segunda seráprocedimental o metodológica.

La primera decisión a adoptar, la de carácter sustantivo, consistiráen la delimitación temática de la actividad cotidiana (comportamientoperceptible del día-a-día) que nos interese evaluar, y deberácontemplarse en interacción con el entorno. Es decir, al objetivoposible de evaluación le afectarán tres únicas restricciones: Sucarácter perceptible, el hecho de que forme parte de la vida cotidianade un individuo, y la relación interactiva ambiente-conducta (apartado2). Cumplidas todas ellas, se puede ya delimitar el dominio temáticoque nos planteamos someter a evaluación. Como consecuencia, nospreguntamos ¿qué conductas?. Nos interesan todas las que tienen uncarácter perceptible, y, por consiguiente, las que captamos a través denuestros órganos sensoriales (esencialmente vista y oído), aunque esobvio que no cubren el contenido semántico de la cotidianeidad, pero

13I. Hacia una evaluación... l

sí el de la cotidianeidad que percibimos. Ésta se halla conformada porinnumerables conductas de contenido sumamente diversificado y deamplitud igualmente diferenciada, haciendo gala del carácter relativode molaridad y molecularidad, así como de su ubicación en algúnlugar del rico espectro que contempla infinitas combinaciones entreellas.

La segunda acotación es metodológica, por lo que nosplanteamos para la evaluación de la actividad cotidiana la siempredifícil segmentación en unidades de conducta (apartado 3), conectadaindudablemente a una segunda decisión acerca de la vertientepredominante en la complementariedad entre lo cualitativo y locuantitativo, y asimismo piedra sillar de la actividad evaluadora haciala que nos dirigimos. Estas dificultades anunciadas nos llevan aformular serios interrogantes para los que no sabemos si existerespuesta, aunque lo intentaremos, así como a revisarposicionamientos tradicionalmente heterodoxos que posibiliten, desdela metodología, combinar en un feliz anclaje una amplia flexibilidadpropia del análisis de lo cotidiano con el rigor del método científico.

2. La conducta cotidiana en interacción con el ambiente

Se parte de la consideración del ambiente en la Psicología actualcomo marco amplio de referencia que estudia las relacionesexistentes entre la conducta y el entorno físico, entendido éste comoel conjunto molar compuesto por los lugares definidos en el espacioen que ocurren diferentes actividades humanas que caracterizan elcomportamiento diario del individuo.

Este planteamiento da lugar al establecimiento de una serie depropuestas metodológicas de carácter general y otras específicas.Respecto a las primeras, se tiene en cuenta la aplicación concurrentede varios criterios que permiten acotar enormemente la cuestiónrelativa a la interacción ambiente-conducta y, consecuentemente,reducir el problema, y además facilitan que el segundo tipo depropuestas metodológicas, las de carácter específico, se utilicen conmayor grado de adecuación.

14 l Estrategias de Evaluación y Medición...

2.1 Vicisitudes históricas de la conceptualización interactivaambiente-conducta

Como punto de partida, consideramos la Psicología Ambientalcomo marco amplio de referencia que estudia las relacionesexistentes entre el individuo y su medio ambiental, término éste muyamplio e impreciso, y que, según el Oxford Dictionary, es todo aquelloque nos envuelve, especialmente «los condicionantes e influencias enque se desenvuelve o vive una persona». De hecho, y según Craik(1973) y Lee (1981) resulta más informativo decir que la PsicologíaAmbiental se ocupa de los diferentes conceptos creados por elindividuo como representaciones del espacio y de las respuestas delser humano ante la multitud de estímulos a que se halla sometidocuando se desplaza selectivamente dentro de los intervaloscomprendidos entre los objetos, sean éstos atractivos o repulsivos.Profundizando más, el individuo no tiene una relación pasiva yunilateral con su medio ambiente, sea artificial o natural; es unorganismo activo, capaz tanto de seleccionarlo como de modificarloen su vida cotidiana.

A fin de especificar la primera expresión, puede afirmarse que laPsicología Ambiental permite estudiar las relaciones entre la conductay el entorno físico –y, por ende, la cotidianeidad-, entendido el entornofísico como el conjunto molar compuesto por los lugares definidos enel espacio en que ocurren diferentes actividades humanas quecaracterizan el comportamiento diario del individuo.

Pero, precisamente por concretar más, resultan necesariasvarias matizaciones con el fin de evitar cualquier distorsión en suinterpretación. Esencialmente nos referiremos a dos de ellas: 1) Datos-que resultarán claves a nivel metodológico para la posteriorconfiguración de un esquema básico- que permiten trazar un sucintobosquejo a modo de marco amplio de referencia, y 2) caracterizacióndel entorno como marco en el cual se desarrolla la conducta cotidiana.

2.1.1 Marco amplio de referencia

Es precisamente la existencia de un marco amplio de referencia loque permite la coordinación de diferentes perspectivas. Precisamente

15I. Hacia una evaluación... l

algunos datos que juzgamos especialmente significativos sobre lapropia trayectoria histórica (Anguera, 1991a) seguida han contribuidoa que se pueda poseer dicho marco de referencia sobre la base de unabanico de diferentes tendencias y orientaciones que han jalonado sucurso desde su inicio, que se sitúa hacia mitad del siglo XX.

Quizá porque en aquel momento la enfermedad mental era unproblema importante en el cual el espacio y la posibilidad de realizarciertas conductas eran elementos críticos, resultó que el hospitalpsiquiátrico se convirtió en un importante «locus» para talescomienzos, y así, un grupo de psicólogos del Topeka State Hospitalen Topeka, Kansas, conjuntamente con un arquitecto, recogían datosobservacionales a partir de los pacientes y del personal comoelemento base para diseñar un nuevo hospital psiquiátrico. Al mismotiempo, Ittelson (1960), con Proshansky, Ittelson y Rivlin (1970),iniciaba un programa de investigación sobre la influencia del diseño deledificio (hospital mental) en la conducta de los sujetos. Estos primerospasos implicarían la revisión de literatura entonces relevante y eldesarrollo de otra nueva que, a su vez, iba guiando la formulaciónespecífica de problemas de esta índole, iniciándose ya en 1962 unaprimera investigación sistemática que dio lugar a la obra deProshansky, Ittelson y Rivlin (1970) de forma parecida a la llevada acabo por Osmond (1957) o por Sommers & Osmond (1961), ademásde otras centradas en el concepto de territorialidad (Sommers & Ross,1958).

También aproximadamente de forma simultánea, en Centroeuropasurgían intereses paralelos, y se consolidaban equiposmultidisciplinares formados principalmente por psiquiatras yarquitectos que trabajaban en la misma dirección al servicio de laOrganización Mundial de la Salud (Baker, Davies & Sivadon, 1960). Deallí a la incorporación de psicólogos ya sólo distaba un pequeño paso(Bailey, Branch & Taylor, 1961), así como científicos verdaderamentepreocupados por la enorme incidencia del espacio .

En efecto, Hall (1959, 1966), antropólogo, sensibilizaba de formacontundente respecto a la incidencia del marco físico en laconducta y la adquisición de un buen número de experiencias, con

16 l Estrategias de Evaluación y Medición...

las que se introducía el término de proxemia para definir lasobservaciones interrelacionadas sobre cómo los sujetosaprovechan el espacio , lo cual permitía distinguir entre losarquitectónicos o fijos, que actuaban de forma normativa para laorganización de actividades de los individuos y grupos,establecimiento de distancias, zonas y ángulos de orientación einteracción social, y, a su vez, de elemento desencadenante paranuevos intereses, que no eran otros que los del espacio urbano, contoda la problemática que conllevaría a nivel de su representación(Lynch, 1960; Appleyard, Lynch & Meyer, 1966) y de confección demapas cognitivos (Aragonés, 1983), así como de sus relacionescon los conductuales (Riba, 1985).

Ya en la década de los sesenta se desarrolló aceleradamente elcampo de la Psicología Ambiental («environmental psychology»),sustituyendo al de «man-environment relations» (Ittelson, 1964;Studer, 1966), y también al de Psicología Arquitectónica(«architectural psychology»), a la vez que se deslindaban los ámbitosde forma mucho más matizada (Alexander, 1964; Fitch, 1965),implantándose la idea de que debían estudiarse los patrones deconducta a través de unidades de análisis correctas que incorporaranlos marcos físicos en la observación de la conducta cotidiana.

Mientras, el crecimiento de la Psicología Ambiental estabamovilizando tanto a científicos de la conducta como a arquitectosrespecto a problemas más específicos, como trabajos deterritorialidad y apiñamiento en ratas (Calhoun, 1962, 1964),interacción social, distribución del espacio en instituciones geriátricas,etc., a la vez que se incorporaban geógrafos que se interesaban poraspectos conductuales de marcos geográficos amplios, detectándoseun avance progresivo en el planteamiento y estrategia de talesinvestigaciones, pudiendo citar, como representativas, las de Gans(1959, 1961), Winker & Sasonoff (1965), Altmann & Haythorn (1967),Lowenthal (1967), Izumi (1970), Esser (1971), Gutman (1972), ydebiendo aquí destacar, por su relevancia e incidencia posterior, laaportación de Barker (1963, 1968) y sus seguidores, dado que alhallarse la Psicología Ecológica muy relacionada con la definición demarcos como base para la organización de actividades humanas

17I. Hacia una evaluación... l

desde los niveles social y cultural, empieza a recabar la atención lanecesidad de un estudio sistemático y más riguroso del "transcurrir"de los marcos naturales.

En 1967, un equipo de estudiosos del tema en la Universidad deUtah (Salt Lake City) iniciaron la publicación de ArchitecturalPsychology Newsletter , que posteriormente, con la incorporación deEsser y su pequeño grupo, dio lugar a la revista Man-EnvironmentSystems , publicada en Orangeburg (New Jersey), y que actuaba comoportavoz de la Association for the Study of Man-Environment Relations.Sus aportaciones se complementaban con la publicación periódicainglesa Architectural Psychology Newsletter , que surgió en 1969, yla norteamericana Environmental Sociology Newsletter , desde1974. Dado que en los años inmediatamente anteriores los trabajosconceptuales y empíricos en Psicología Ambiental se habíanpublicado en revistas científicas diversas, como Journal of SocialIssues , Representative Research in Social Psychology , o inclusoen American Psychologist -el famoso trabajo de Wohlwill (1970)sobre «The emerging discipline of Environmental Psychology»-, enScience (Milgram, 1970), o en Annual Review of Psychology(Craik, 1973; Stokols, 1978), quedaba definitivamente establecida lanueva disciplina con posibilidades reales de difusión y un número depersonas interesadas en ella.

Un nuevo impulso se le daría al fin de la década de los sesenta ycomienzo de la siguiente con la aparición, en 1969, de nuevaspublicaciones periódicas de prestigio, como Environment andBehavior , de Design and Environment , el mismo año, y la posteriorde Nonverbal Behavior and Environmental Psychology . Se habíallegado ya a un punto en donde el proceso era irreversible, dada laeclosión de publicaciones que convergían desde ángulos diversos.

Otro factor interesante que compartía la responsabilidad en cuanto

al avance a producirse eran las conferencias, symposiums,reuniones científicas o congresos que ponían en contacto acientíficos interesados y se propiciaban sus discusiones . Algunas

de ellas fueron especialmente relevantes, como la Second Conference

on Architectural Psychology (1966), la Dalandhui Conference on

18 l Estrategias de Evaluación y Medición...

Architectural Psychology (1970) (Canter, 1970), la Architectural

Psychology Conference at Kingston Polytechnic en 1971 (Honikman,

1971), la Architectural Psychology Conference at Surrey en 1974(Canter & Lee, 1974), la emergencia del grupo Environmental Design

Research Associates (EDRA), igualmente interesado en problemas de

la conducta en interacción con el entorno, y que se reuniría

periódicamente (Sanoff & Cohen, 1970). Y destacamos la celebración

en España en 1982 de la VII Conferencia Internacional sobre el

Hombre y su Entorno Físico (IAPS) (Pol, Morales y Muntañola, 1984).

Como fiel reflejo de la emergencia de esta nueva disciplina seformó el grupo Task Force on Environment and Behavior en 1973, que

impulsó la idea, y consiguió que se constituyera una División -División

34- en la American Psychological Association (A.P.A.), denominada

«Population and Environmental Psychology», que marca su definitiva

institucionalización.

De forma complementaria, entre 1960 y 1970 se introdujo laEnvironmental Psychology como especialización en diversas

Universidades (Utah, New York, Vancouver, Irvine, Arizona, Harvard,

North Carolina, Berkeley, Los Angeles, Clark, Lawrence, etc., en

E.E.U.U., y Surrey en Inglaterra) a nivel de Licenciatura, y también

líneas de especialización en Doctorado en New York, Pennsylvania y

Wisconsin.

En este primer gran tramo de su historia, se había constituido,

pues, un sólido bagaje con un contenido rico y ciertamente

diversificado, y no sólo en Estados Unidos, sino también en Europa

(Pol, 1988). Con el fin de establecer la identidad de las diversas

direcciones que confluían, debía de partirse de una sistematización de

los conocimientos incorporados, y ello corrió especialmente a cargode Sommer (1969), Proshansky, Ittelson & Rivlin (1970), Wohlwill &

Carson (1972), Ittelson, Proshansky, Rivlin & Winkel (1974), Moos &

Insel (1974), Altman (1975), Stokols (1976), Altman & Wohlwill (1977),

Proshansky & O’Hanlon (1977), y otros.

19I. Hacia una evaluación... l

2.1.2 Caracterización del entorno en la vida cotidiana

Además del entorno "físico" entendido de forma restringida ,como pudiera erróneamente parecer, existen otros niveles de entorno«físico», considerado con criterio lato , que se han referidotradicionalmente a cualquier elemento perceptible (variables decomportamiento, estructura organizativa, variables demográficas, etc.),e incluso de carácter encubierto al entenderlo como conjunto molarcompuesto por los lugares definidos en el espacio en queocurren diferentes actividades humanas que caracterizan encualquier caso el comportamiento diario del individuo .

Ello sugiere que nos preguntemos brevemente por el propioconcepto de espacio .

A partir de la diferenciación antiquísima entre espacio absoluto yrelativo, se ha considerado como un marco que existeindependientemente de nada contenido en él, por una parte, y comoexpresión de una serie de relaciones entre objetivos por otra,respectivamente. Desde este segundo punto de vista, resulta obvioque el espacio cambia a consecuencia de las alteraciones en laposición de los objetos.

En una rápida ojeada histórica desde las raíces filosóficas delproblema, el concepto de espacio absoluto ha estado representadopor los trabajos de Platón y Clarke, y el de espacio relativo por losde Leibnitz y Kant, mientras que en Física se produjo igualmente uncambio evidente desde la noción de espacio absoluto sostenida porNewton hasta la de espacio relativo de Einstein.

Esta diferenciación ha tenido realmente tal importancia que se lapuede considerar como la segunda en lo que se refiere a lasdefiniciones de espacio (Cassirer, 1950; O’Keefe & Nadel, 1971), y esinteresante hacer notar que a pesar del pluralismo conceptual tanto enFísica como en Filosofía, buena parte del trabajo psicológico enconceptos espaciales (Piager & Inhelder, 1947) parece que asumaimplícitamente que el concepto maduro de espacio es (y tendría queser) un modelo absoluto y euclidiano.

Si, por otra parte, consideramos el espacio relativo , tiene que

20 l Estrategias de Evaluación y Medición...

incluirse la distinción adicional del "lugar", con lo que se derivará a lavez la diferenciación entre "entorno" y "abstracción espacial", es decir,entre los lugares o emplazamientos en particular, y los conceptosespaciales o abstracciones en general, lo cual es básico reconocer. Anivel ya propiamente psicológico, se deriva respectivamente unaconcomitancia con los términos de espacio psicológico y espaciofísico . En este sentido, O’Keefe & Nadel (1971, p. 6-7), definen elespacio psicológico como «cualquier espacio que se atribuye a lamente (...) y que no existiría si las mentes no existiesen (...). Encontraste, el espacio físico es cualquier espacio atribuido al mundoexterno independientemente de la existencia de mentes». A pesar dela dicotomía marcada, también el espacio físico tiene que incluirseen el objeto de estudio de los psicólogos que creen que el espaciopsicológico se aprehende directamente del espacio físico , perocomo éste no se puede medir independientemente de la mente, seesfuma en el sentido de la diferenciación entre ambos.

Como en muchas otras áreas, hay tres posicionesepistemológicas radicalmente distintas respecto a la ontogenia delespacio psicológico :

a) La empirista , según la cual el espacio psicológico derivaríadirectamente de la experiencia con el espacio físico, y, por tanto,el espacio psicológico sería una copia del físico, y de aquíisomórfico con él;

b) La nativista , por la que el desarrollo del espacio psicológicoestaría determinado por la dotación heredada del organismo, y, portanto, los individuos se hallarían genéticamente equipados (ya seade simples estructuras o de mecanismos sensorialesespecializados, según las diversas modalidades de esta posición);y

c) La constructivista , según la cual el espacio psicológico se hace(se construye) activamente por el sujeto, por lo que interactuaríanfactores heredados y experienciales. Es desde esta última, dondese halla el mayor arraigo de la Psicología Cognitiva, donde sederivarían conexiones relativas a la incidencia que puede tener larevisión de las teorías del esquema (en el ámbito de la memoria),

21I. Hacia una evaluación... l

de las imágenes mentales y de los estilos cognitivos, así comosus interrelaciones.

Por lo que se refiere al entorno físico hay que tener en cuentaque la percepción, representación, diseño y uso del espaciosurgió espontáneamente de varias disciplinas. Mientras lospsicólogos cognitivos han estado interesados en cómo los individuosrepresentan su entorno espacial y cómo manipulan estasrepresentaciones, los psicólogos evolutivos han tratado de explicarel desarrollo de los cambios interpretativos a lo largo del ciclo vital, losgeógrafos se han centrado en cómo los sujetos construyenrepresentaciones internas de lo que les envuelve e interpretan y utilizanmapas ya elaborados, profesionales como urbanistas y arquitectostrabajan a partir del diseño actual de los distintos entornos, y cada vezcon mayor conciencia y sensibilización por la creciente necesidad detener en cuenta los factores psicológicos que influyen en cómo puedeser utilizado el espacio, y, por fin, los psicólogos ambientales tratande conocer cómo percibimos el hábitat que nos envuelve y la forma enque dichas percepciones afectan nuestra conducta desde perspectivasmuy variadas.

Dado que desafortunadamente no se han presentado más que deforma anecdótica ciertas oportunidades para un diálogo entreintegrantes de estas diversas disciplinas, muchas de lasconceptualizaciones, estrategias metodológicas y técnicaspropuestas que proceden de una de ellas han sido reinventadas pormiembros de otra(s).

2.2 Pautas para el estudio ambiente-conducta en la vidacotidiana

A lo largo de estos breves apuntes históricos es posible que segenere la pregunta sobre la naturaleza de las demandasexistentes , cuestión muy relevante en relación a las metodologíasque mejor se adaptan a cada una de las posibles situaciones aplantear en el ámbito de la relación ambiente-conducta en la vidacotidiana.

22 l Estrategias de Evaluación y Medición...

Habría que encontrarse una respuesta a la necesidad, sentida deforma apremiante en instituciones como escuelas, hospitales, oficinas,factorías, teatros, etc., y también en zonas particulares, de abordar elestudio sobre cómo la distribución del espacio, las características delentorno, y su constancia o modificación ejercían una influencia sobrelas conductas manifiestas de los sujetos que las habitaban, uocupaban con asiduidad –y que denominamos actividad cotidiana-. Aello habría contribuido, esencialmente, el período que siguió a laSegunda Guerra Mundial, con una expansión del deseo de acrecentarla calidad de vida y los esfuerzos por operativizarlo.

De ahí que, como se ha indicado anteriormente, se formaranequipos multidisciplinares formados por psicólogos, arquitectos,geógrafos, psiquiatras, urbanistas, etc., dado que eran complejos losproblemas a resolver, tanto en lo que se refiere a su facetacomportamental (por tener que conceptualizar y explicar la conductahumana) como de espacio físico.

Se trataba de dos caras de una moneda que no tardarían enprovocar una crisis -de crecimiento, por supuesto- en torno a 1970,que permitió un avance en la clarificación de ideas y en definir demanera nítida la(s) orientación(es) de la interacción conducta-ambiente, muy influida por cuestiones sociales (Pol, 1988).

En efecto, sin que en este ámbito se acepte una diferenciaciónentre investigación básica y aplicada, se precisa de instrumentosmetodológicos adecuados que permitan delimitar y esclarecer lanaturaleza de las relaciones entre los sujetos y su entorno físico; setrata de definir, observar y analizar los eventos en el propiocontexto en que ocurren .

En primer lugar, habrá que fijar un listado de cuestiones a dirimirpara que sea más fácil -o menos complejo-, establecer unos ejes dereferencia en los que puedan ubicarse las innumerablescuestiones que se plantean en la interacción ambiente-conducta , así como articularse adecuadamente en su análisisevaluativo:

A) En cualquier caso, lo que si es cierto es que se requiere una

23I. Hacia una evaluación... l

delimitación espacio-temporal-situacional del problema aestudiar:

a. Espacial —> Aunque la más en boga sea la de espacio natural/construido, otras quizá han sido seguidas por poco número deinvestigadores, pero entiendo que funcionan, como la existenciavs. ausencia de límites con suficiente "opacidad" (ej.: casa deacogida, barrio de chabolas, etc., que, por supuesto, no sesustraen a la cotidianeidad de quienes residen allí), y, anidada enella, tanto atributos propios del espacio físico consideradosanalíticamente, como configuraciones específicas de carácterespacial pero que se hallan revestidas de indudablesconnotaciones psicológicas a nivel de las transacciones sujeto-entorno; basta recordar en este sentido los denominados «espaciosociófugo» y «espacio sociópeto».

b. Temporal —> Si al estudiar el ambiente es obvio tener en cuentasu carácter intrínsecamente dinámico, como igualmente lo es lasucesión de comportamientos, resulta evidente fijar unos límitestemporales que acoten el flujo interactivo conducta-ambiente,posibilitando un estudio diacrónico en su transcurso (al margen deque, como veremos más adelante, se sugiera la posibilidad deconsiderar, y mejor de complementar, las perspectivasretrospectiva y prospectiva).

c. Situacional —> Indudablemente se introduce aquí uncomponente de carácter psicológico, ausente en los casosanteriores. La delimitación situacional implica tanto elconocimiento de las personas presentes, actividad(es)realizada(s), como cualquier elemento característico que permitedefinir la situación de cotidianeidad.

Un ejemplo acerca de la triple delimitación lo pueden constituir los«behavior settings» de Barker (1968), elementos centrales en laPsicología Ecológica que él propugnó, y estudiados con profusión(Hernández Hernández, 1985).

Así, tal como fue concebido por Barker, los «behavior settings»constituyen partes del medio físico-social, gozan de extraordinaria

24 l Estrategias de Evaluación y Medición...

plasticidad, y sustentan una relación sinomórfica establecida entre elsoporte físico delimitativo y la(s) acción(es) desarrollada(s) que formanel flujo de conducta cotidiana. Los diversos componentes interactúande forma ordenada, y la correspondencia entre las acciones delindividuo y las características de los objetos físicos es lo que sedenomina sinomorfia conducta-ambiente (Schoggen, 1983).

Un marco de conducta tiene atributos estructurales y dinámicos.Desde la perspectiva estructural , un marco de conducta consta deuno o más patrones estables de conducta/medio, siendo el mediocircunyacente y sinomórfico a la conducta. Desde la perspectivadinámica , las partes conducta-medio de un marco de conductatienen un grado específico de interdependencia entre ellos que esmayor que su interdependencia con partes de otros marcos deconducta. Wicker (1979) cita el ejemplo de que un restauranteMcDonald podría ser un marco de conducta: Sus límites temporales yespaciales serían respectivamente las horas en que está abierto y susparedes, y la situación vendría dada por las personas presentes(empleados, clientes), así como objetos de todo tipo, siendo lainteracción entre sí la que tendría lugar desde la preparación de lacomida hasta que ésta hubiese sido consumida. Y, por supuesto,forma parte de la vida cotidiana.

B) Una vez efectuada la delimitación mencionada, nos enfrentamos ala difícil tarea de establecer y fijar las unidades que nospermitan lograr una sistematización dentro de los márgenesde plasticidad que se requieren . En otras ocasiones noshemos ocupado de esta cuestión (Anguera, 1985a), que juzgamosque consiste en uno de los mayores problemas pendientes en lainteracción conducta-ambiente. Según Rosenblum (1978, p. 15),se trata de establecer, de «forma inambiguamente comunicable aotros» aquellos segmentos de conducta que son factibles de seridentificados y codificados ... Es evidente que una taxonomía de laconducta nunca es «completa» ni «correcta» en sentido estricto,y siempre existe un cierto sesgo; en idéntico sentido semanifiestan Bakeman & Gottman (1987). El primero y más difícilde subsanar es el uso del lenguaje descriptivo, ya que en símismo implica una selección y clasificación en cuanto a la

25I. Hacia una evaluación... l

naturaleza de los términos utilizados.

En sentido amplio, el entorno se compone de un númerovirtualmente infinito de estímulos discriminables, y una de lasfunciones a desempeñar es la de conseguir clasificaciones delentorno por las cuales estímulos no idénticos puedan ser tratadoscomo equivalentes.

La categorización de la conducta complementada conmoduladores, por una parte, y la elaboración de formatos de campo,por otro, pueden considerarse en este sentido como los instrumentosque permiten obtener la descripción del entorno en términosconductuales, cualquiera que sea su nivel de complejidad (Anguera,1990a, 1991b; Anguera y Losada, en prensa).

C) Con el fin de que la descripción de conductas cotidianas enrelación con el entorno se pueda llevar a cabo con una ciertafacilidad sugerimos la estructuración en forma de sistemajerárquico en cualquiera de los dos instrumentos adecuadospara el estudio de la cotidianeidad (sistema de categoríascon moduladores o formatos de campo) , a los que nosreferiremos posteriormente, en los cuales se disponen distintosniveles homogéneos en cuanto a la naturaleza de las categorías ocódigos de formatos de campo, respectivamente, así comorespecto a su amplitud. La adopción de este sistemajerárquico implica una gradación en el "continuum" demolaridad (nivel más alto) a molecularidad (nivel más bajo) .Las relaciones de inclusión no son taxativas, y así, en un estudiosobre el uso del espacio en un determinado barrio, a unacategoría o código relativo a mantenimiento de limpieza (en unnivel) le corresponderían, a otro nivel inferior, una serie (repertorio)de conductas específicas que corresponden a la función delimpieza antes indicada, si bien es de destacar que por la mismarazón habrá conductas que no queden exhaustivamente asignadasa una categoría o código más molar.

D) El grado de intervención es un criterio sumamente importante,y tradicionalmente la amplia gama de procedimientos que se sitúanentre la presencia y la ausencia de intervención del investigador o

26 l Estrategias de Evaluación y Medición...

profesional ha conllevado enormes posibilidades en los diseños,aunque consideremos útiles y necesarias ciertas restricciones:

La primera se sitúa a nivel de su habitual carácter deinvestigación naturalista , señalada enfáticamente por el propioBarker (1978, p. 36-37):

“Ecological problems and methods of science can be differentiatedwith precision from experimental problems and methods.Ecological phenomena occur without input from the investigator;they consist of things and events unchanged by the techniquesused to observe them or by conditions imposed by the investigator(...)”.

“Ecological approaches to scientific problems are not incompleteor defective experimental approaches. On the contrary, theyprovide knowledge that the best experimentation cannot provide,because experimentation by arranging conditions according to theconcerns of the experimenter destroys the very thing an ecologicalinvestigation seeks to determine”.

Ello no significa que en ocasiones pueda desarrollarse un estudioen situación provocada o artificial, pero a sabiendas de su repercusiónen la validez externa y ecológica, y máxime teniendo en cuenta elgrado elevado de complejidad en la practica totalidad de lassituaciones de vida cotidiana. En consecuencia, la metodologíaobservacional , a la que nos referiremos en un próximo apartado, y apesar de acertadas críticas que se le han formulado (en especial, la desu carácter periférico en el estudio del comportamiento humano, y, envirtud de la polémica existente en la actualidad, la todavía dudosaviabilidad de esta metodología en el análisis de conductas encubiertas),sigue siendo, con mucho, la que dispone de más posibilidades yofrece mayores y mejores recursos procedimentales en el estudio dela cotidianeidad y las relaciones conducta-ambiente que en ella seestablecen.

En definitiva, el papel del investigador en el marco natural tendríaque ser cuidadosamente examinado con el fin de evitar cualquier tipode manipulación, el cual distorsionaría las relaciones que se pretenden

27I. Hacia una evaluación... l

estudiar, y que se extienden en el espacio y tiempo (Proshansky &Altman, 1979). De aquí se deduce que el estudio deberíarealizarse "in situ", y en la mayoría de los casos respetando lanaturalidad de la situación , por lo que la metodología observacionales la que mejor se acomoda al objetivo indicado2 , aunque porsupuesto se pueden utilizar tanto la metodología selectiva como laexperimental si en el objetivo se revela -sea explícita o implícitamente-una necesidad parcial o total de intervención respectivamente.

3. Delimitación de unidades de conducta

Se nos impone la importante tarea de acotar la realidad de laactividad cotidiana. Ésta es realidad pluriforme, a modo de poliedro deinfinitas caras, pero que se puede desmitificar en cuanto noscentramos en casos concretos, por heterogéneos que sean. No envano forman parte de la cotidianeidad actividades repetitivas diarias oactuaciones singulares, trayectorias urbanas macro en determinadosmedios de comunicación o trayectorias micro en nuestro lugar detrabajo, producciones verbales continuadas con desconocidos comoforma habitual de interacción en el ámbito profesional o discusionesprolongadas en profundidad con un mismo interlocutor, y seguiríamoscon un infinito espectro de posibilidades de carácter intermedio. Y losejemplos se podrían multiplicar ad infinitum, dada la extraordinariariqueza de datos, situaciones y contextos que nos ofrece lacotidianeidad.

Inicialmente podemos contemplar la cotidianeidad como una larga“película de los hechos” que transcurre en una o varias ubicacionesespaciales, unos períodos temporales determinados –circunscritosunos a otros-, unos contextos sociales estables o cambiantes, ylargas ristras o tandas de actividades absolutamente heterogéneas.Para pretender una futura evaluación de la cotidianeidad es precisojustificar el establecimiento de un rango jerárquico de unidades deconducta. Y para materializar este establecimiento se requiere la

2 Son muy significativas en este sentido las palabras de Proshansky & Altman(1979, p. 16): “Then the descriptive properties and relationships of person-environment transactions must be established by means of systematicobservation and other forms of unobtrusive recordings of these events andtheir changes over time”.

28 l Estrategias de Evaluación y Medición...

adopción de unos criterios-base sobre la segmentación de laconducta , la cual depende a su vez de la naturaleza de losparámetros del comportamiento que se poseen y de los finesespecíficos de la investigación (Scherer & Ekman, 1982), con lo quese establecerá el carácter predominantemente molar, molecular omixto (Meazzini & Ricci, 1986) del sistema taxonómico, que está enestrecha relación con un nivel elevado o prácticamente inexistente deabstracción, el interés por una taxonomía predominantemente natural,estructural, o funcional y, de forma relativamente más distante, con lasuperposición de niveles en la estructura de la conducta al puntualizarsu disposición jerárquica (Yela, 1974).

En la base de tal diferenciación se sitúa la delimitación de losdiferentes eventos de la vida cotidiana, y la consideración de lacorriente o flujo de conducta como una secuencia de unidadesdiscretas (Dickmann, 1963; Condon & Ogston, 1967) que comportaráevidentemente una definición de las unidades de conducta(Thomson, 1986; Zeiler, 1986), previa descripción, y con el fin deconseguir su operativización. En cualquier caso, dependerá del planojerárquico de la vida cotidiana que nos interese analizar, por lo que suelección es de las más importantes y difíciles decisiones de nuestropropósito, dado que será crucial para su validez. Altmann (1965)señala, en este sentido, que las unidades de conducta presentan losproblemas básicos de cuándo dividirse y cuándo agruparse, y en estosubyace el problema del "continuum" establecido entre molaridad ymolecularidad, con sus contrapesos respectivos de alto nivel deabstracción (con la ventaja de globalidad y no pérdida de vista delcontexto) y desmembración de unidades mínimas vacías de contenido(con la ventaja de objetividad).

En un extremo de dicho “continuum” cabría una progresivamolecularización del tamaño de la unidad, pero incurriríamos en elgrave riesgo de aislar unidades sin sentido, que nada aportarían a laevaluación de la cotidianeidad; la principal ventaja de lamolecularización es la objetividad, pero el inconveniente que comportaes una desvertebración del registro que nos imposibilita una cabalinterpretación de los resultados. En el otro extremo, una molarizaciónnos llevaría ante el no menos grave riesgo de subjetividad, aunquetiene la ventaja de permitir una integración holística de la información.

29I. Hacia una evaluación... l

Mucho se ha discutido acerca de la incidencia que tiene una opcióndeterminada tendente hacia la molecularización o hacia lamolarización (Zeiler, 1986; Thompson, 1986; Meazzini & Ricci, 1986),pero nuestra opción –contrastada en estudios diversos- se inclina pordisponer, en el nivel inferior de la estructura jerárquica piramidal a laque nos hemos referido, de las menores unidades posibles, perocon una triple restricción , fundada en que sean:

a) Identificables por sí mismas , y, por consiguiente, separables ydistinguibles de otras, con lo cual adquieren entidad propia.

b) Denominables , de forma que la asignación de un nombre, a suvez, permite materializar la distinción respecto de otras unidades.

c) Definibles , con lo cual se consolida la entidad diferenciada queadquieren, a la vez que se las dota de la base necesaria para suoperatividad en la actividad evaluativa posterior.

Mucho quedaría por añadir respecto a las modalidades deunidades de conducta identificables en el transcurso de lacotidianeidad, y se han vertido ríos de tinta sobre ello (Scott, 1950;Delgado & Delgado, 1962; Lehner, 1979). Nos podríamos preguntaracerca de cadenas de unidades de conductas repetitivas, o deesquemas comportamentales complejos en los cuales se combinandiversas unidades, o de innumerables manifestaciones de conductainteractiva en donde la unidad de conducta será individual endeterminadas ocasiones, pero social (entre los individuosinteractuantes) en otras. Todavía podríamos particularizar más, y, deacuerdo al esquema básico de Delgado y Delgado (1962), cabríadistinguir entre un carácter estático o dinámico, y, en éste, entre unmovimiento localizado o generalizado. Y si hemos identificadounidades complejas formadas por un conglomerado de unidadessimples, éstas pueden tener una diferenciación temporal según seansimultáneas o secuenciales entre sí.

4. Enclave de opciones metodológicas para el estudio dela cotidianeidad

Se nos impone una honda reflexión a los investigadores yprofesionales de las Ciencias del Comportamiento. En muchos

30 l Estrategias de Evaluación y Medición...

momentos podemos tener una angustiosa sensación de que elestudio del comportamiento humano, en general, y el de laactividad cotidiana, en particular, nos aportará resultadoscontradictorios, o, cuando mínimo, distintos, precisamenteporque partimos de procedimientos encontrados entre sí, y, loque es más grave, porque nos situamos aún con relativafrecuencia en una posición o marco de referencia –que muchoshan denominado paradigma- cualitativo o cuantitativo, más allá deun uso prioritario –aunque no exclusivo-, que hemos justificado,de la metodología observacional . La radicalización a que se hallegado está comportando actitudes de mutuo desprecio, e inclusoinjuriosas, como si alguna de ambas opciones metodológicas fuesecapaz de resolver en su totalidad los problemas que surgen a diario.

Como reto metodológico nos hemos propuesto la evaluación de lacotidianeidad que percibimos y su entorno, y podrían plantearsecuestiones sumamente heterogéneas entre sí. Citamos algunas amodo de ilustración: Cuestionario a amas de casa acerca de sudistribución diaria del tiempo en las labores del hogar; entrevista enprofundidad a un profesional liberal del ámbito artístico acerca de sutrabajo diario; recuento del número de veces que un profesional de unservicio de atención a la infancia cambia los pañales a los niñosacogidos de los cuales se encarga; medición del tiempo de reacciónal inicio de las sesiones de entrenamiento de un deportista; densidadde ocupación del patio de una escuela durante el tiempo de recreomatutino; número de piezas supervisadas por un operario en unafábrica de componentes industriales; y seguiría un larguísimoetcétera. En cualquiera de estas situaciones -perceptibles todasellas- podemos plantearnos un estudio evaluativo, para lo cualserá necesario acudir a alguna de las formas específicas derecogida de datos que permite captar la riqueza informativarequerida, y que se adapta al contexto natural en que seproducen. Y en todas ellas también, se requerirá unacomplementariedad entre formas de proceder y técnicaspropias de las metodologías cualitativa y cuantitativa.

Tanto la contrastación empírica de los hechos, como lainterpretación y análisis de los discursos que se generan en la

31I. Hacia una evaluación... l

interacción social que a todos nos envuelve en la vida cotidiana,constituyen enfoques parciales y vías estrechas para el acceso aesta realidad humana que pretendemos estudiar. No bastanconstrucciones metodológicas como clásicamente se han presentado,incapaces de abarcar y desentrañar por sí solas toda la intrincada einsondable densidad real del análisis de la cotidianeidad.

En efecto, la vieja polémica avivada recurrentemente acerca de lasposibilidades de las metodologías consideradas como cualitativas ycuantitativas no se ha acompañado siempre de la necesaria serenidadpara favorecer una objetividad que pudiera constituirse en premisabásica. Muy al contrario, los partidarios de unas y otras se hanencastillado en sus posiciones, endureciéndolas e imposibilitando unnecesario diálogo entre sí.

4.1 Perfiles diferenciadores de posiciones antagónicas

Nos referimos, siguiendo el discurso del apartado anterior, altradicional posicionamiento antagónico entre los rasgos propios de lasmetodologías cualitativa y cuantitativa.

4.1.1 Adecuación y posibilidades de la metodologíacualitativa en una primera fase

En su acepción más extendida y aceptada, “las metodologíascualitativas se refieren a procedimientos de investigación que danlugar a datos descriptivos (...)” (Bogdan & Taylor, 1975, p. 4). Estaafirmación, sin embargo, comporta implícitamente un trasfondo que seconfiguró en la década de los setenta a partir de la cristalización de laperspectiva humanista iniciada anteriormente, y que en la actualidadse halla en fase de depuración –no exenta de una sofisticaciónprobablemente exagerada- que permite pensar claramente en sucomplementariedad con una metodología cuantitativa, a la que inclusopuede llegar a superar en algunos casos en grado de formalización(Haberman, 1978, 1979).

Hasta hace unos años, se trataba de una opción metodológicaclaramente marginal y con escaso poder de convocatoria. La situación

32 l Estrategias de Evaluación y Medición...

en la actualidad parece comenzar a cambiar, aunque el paradigmavigente (en términos kuhnianos, pero sin el sentido excluyente que élle da) siga siendo el empírico positivo. Benoliel (1984, p. 3) describióla investigación cualitativa como “modos de cuestionamientosistemático enfocados a entender a los seres humanos y a lanaturaleza de sus interacciones con ellos mismos y con su entorno”.Con frecuencia, la investigación cualitativa se describe como holística,preocupándose por los seres humanos y su ambiente en toda sucomplejidad. Podríamos decir que, de entrada, se adaptaría al estudiode la cotidianeidad de un individuo, un grupo, o una organizacióndeterminada, pero de forma altamente disciplinada.

En un trabajo anterior nos atrevimos a definirla como "unaestrategia de investigación fundamentada en una depurada y rigurosadescripción contextual del evento, conducta o situación que garanticela máxima objetividad en la captación de la realidad, siemprecompleja, y preserve la espontánea continuidad temporal que le esinherente, con el fin de que la correspondiente recogida sistemática dedatos, categóricos por naturaleza, y con independencia de suorientación preferentemente idiográfica y procesal, posibilite unanálisis (exploratorio, de reducción de datos, de toma de decisiones,evaluativo, etc.) que dé lugar a la obtención de conocimiento válidocon suficiente potencia explicativa, acorde, en cualquier caso, con elobjetivo planteado y los descriptores e indicadores a los que se tuvieraacceso" (Anguera, 1986, p. 24).

Se imponen varias matizaciones a esta conceptualización(Anguera, 1985b, 1995a), que pueden estructurarse en torno a criteriosepistemológicos, metodológicos, técnicos y de contenido, los cualesfacilitan su justificación:

a) La vía hipotético-deductiva , implantada tradicionalmente enbuen número de líneas de investigación, ofrece graves dificultadesen la investigación cualitativa, ya que habitualmente conduce auna pérdida de flexibilidad en la descripción y a sudescontextualización. Por el contrario, y sin asumir de formageneralizada la vía inductiva, ésta se revela con mayor viabilidad,lo cual se halla en consonancia con el carácter previamente no

33I. Hacia una evaluación... l

consolidado de los estudios temáticos a los que se dirige (Miles &Huberman, 1984).

b) Metodológicamente , los datos cualitativos deben ofrecer unaconsistencia suficiente, obteniéndose a partir de una descripcióny registro cuidadosos, aunque su contenido es variable y suanálisis difícil debido a la nula estandarización de las respuestasy su compleja sistematización. El papel fundamental lo juega elproceso de categorización o de elaboración de códigos (Lofland,1971), ya que no se puede aspirar a una adecuada «captación dela realidad en sus propios términos» si no se logran elaborar lascategorías o sistemas de códigos que la hacen explicable y dancoherencia al flujo de eventos y/o conductas necesariamentecontextualizados. En este mismo sentido, Denzin (1970) y Patton(1980) están de acuerdo en que la tarea de un metodólogocualitativo es la de suministrar un marco dentro del cual lossujetos respondan de forma que se representen fielmente suspuntos de vista respecto al mundo y su experiencia.

c) A nivel genérico , las descripciones detalladas procedentes deregistros directos y datos documentales (Patton, 1980)constituyen el grueso de los datos cualitativos, que, por otra parte,requerirán diversos instrumentos de medida, a pesar delimportante papel jugado por lo interpretativo (Smith, 1983). Deforma particularizada, las técnicas que más propiamente abarca lametodología cualitativa son el registro de conducta en observación-y de forma especial en observación participante (Becker & Geer,1970), entrevista, y material documental, entendiendo que la fasedefinitoria es la de recogida de datos (Blaxter, 1979), ya que nadaimpide que el análisis al cual se sometan los datos impliqueadentrarnos en lo cuantitativo (Blanco, 1983).

d) Desde un criterio de contenido , existe una primera granrestricción relativa al nivel de perceptibilidad, y,consecuentemente, al de observabilidad (Norris, 1984), y aunquela posición oficial del cognitivismo rechaza los procedimientosintrospectivos (Nisbett & Wilson, 1977), se progresa en el caminoque pretende el acceso a los fenómenos mentales,

34 l Estrategias de Evaluación y Medición...

reconociéndose que los individuos tienen acceso directo a unagran cantidad de hechos privados. La necesaria contextualizacióninherente a la metodología cualitativa y sus implicaciones a nivelde los términos acuñados «ad hoc» en el proceso decategorización (Bulmer, 1979), así como la indudable tradición deinteraccionismo simbólico (Schwartz & Jacobs, 1984) que lo hapropiciado, muestran una inclinación o mejor predisposicióntemática con dicha orientación, sin dejar de relacionarse con lateoría de la titulación de Howard Becker, la inducción analítica deFlorian Znaniecki, la teoría fundamentada de Barney Glaser, o laetnografía básica de John Lofland, por citar algunos de ellos. En laactualidad, y siguiendo a Punch (1986), la investigación cualitativase entronca, desarrolla y aplica principalmente en psicología,educación, sociología, antropología, relaciones humanas, yjusticia; hasta en medicina existen estudios exhaustivos sobre eltema (Donabedian, 1980).

La investigación cualitativa ha sido considerada desde el rango deparadigma en sentido kuhniano, cuyo punto básico de partida es eldesarrollo de conceptos y teorías derivados de los datos.Precisamente este interés por los significados sociales y lainsistencia en que tales significados sólo pueden ser examinados enel contexto de la interacción de los individuos es lo que caracteriza aeste paradigma (Filstead, 1986).

Erickson (1977) dice textualmente que "lo que la investigacióncualitativa hace mejor y más esencialmente es describir incidentesclave en términos descriptivos funcionalmente relevantes y situarlos enuna cierta relación con el más amplio contexto social, empleando elincidente clave como un ejemplo concreto del funcionamiento deprincipios abstractos de organización social" (p. 61).

Si pensáramos aplicarlo tal cual al estudio de la actividadcotidiana, son innumerables las discusiones y polémicas que puedendesprenderse de estas palabras, y de forma especial la detección yplasmación de incidentes clave en términos descriptivos, así como elsituarlos en una cierta relación con el más amplio contexto social.¿Cómo se logra sin caer en una mera praxis acientífica y exenta de

35I. Hacia una evaluación... l

rigor? ¿Es que la metodología cualitativa debe quedar proscrita a unmero estudio exploratorio? ¿Se trata de una etiqueta conconnotaciones de única verdad para algunos y peyorativas para otros?

La metodología cualitativa parte de unos supuestos, y se delimitaa partir de unas determinadas características, que son las que laconfiguran, por lo que no cabe atribuirle valoraciones en ningúnsentido. Método o metodología significa "camino para", y su encuadreen el ámbito de las Ciencias del Comportamiento lo acota en cuantoal contenido y, por consiguiente, delimita las cuestiones sustantivas alas que puede y debe aplicarse: En ocasiones cabe una opción encuanto al reduccionismo inicial que implica la obtención del dato (porejemplo, para un practicante de actividades deportivas, sería latranscripción de un partido de hockey o de un combate de judo, en loscuales es posible tanto una descripción minuciosa de las accionesconcretas en que se plasma la estrategia de juego, como un merolistado de longitudes de desplazamientos, tiempos, ángulos, etc.); porel contrario, en otros casos no cabe otra vía por la propia naturalezade la situación y el anclaje del marco teórico (por ejemplo, el procesode elaboración del duelo por la muerte inesperada de un familiarcercano a través de una intervención psicoterapéutica). Y ambospueden formar parte de la vida cotidiana, aunque sólo en el primero deestos dos ejemplos podemos referirnos propiamente a la ocurrencia deconductas perceptibles.

En el fondo se trata de un problema de operativización, o, lo que eslo mismo, de "licitud" del reduccionismo que permitirá seleccionar lainformación considerada relevante, y como consecuenciarecoger los datos de una u otra forma . Éste es el núcleo delproblema, y la cuestión esencial en torno a la cual se conforman lasactitudes a favor o en contra, y, por tanto, dando lugar a lavertebración de una metodología cualitativa o cuantitativa. En laprimera fase de la indagación sobre la cotidianeidad seimpone la metodología cualitativa, dadas sus amplísimasposibilidades en la obtención de los datos.

Es un término –cualitativo, así como también cuantitativo- con el

36 l Estrategias de Evaluación y Medición...

que tenemos nuestras reservas, precisamente porque se ha acuñadocomo epicentro de interpretaciones de todo tipo, siendo algunassumamente libres, y de ahí que la expresión metodologíacualitativa -como igual ocurre con la de metodología cuantitativa ,que parece delimitarse por exclusión- requiera de urgente acotaciónque elimine malos entendidos y permita la elaboración de unasistemática -pues de lo contrario no sería "metodología"-, pero en lacual se tomen en consideración el fuerte influjo del marco teórico y laamplia casuística de situaciones problema, habitualmente de grancomplejidad.

Este influjo del marco teórico, a su vez, tiene lugar en un doblesentido. Por una parte, el investigador intenta averiguar qué esquemasde explicación son empleados por las materias sometidas a estudiopara proporcionar un sentido al ámbito psicológico en que se hallan, y,por tanto, "qué teorías, conceptos y categorías sugieren los propiosdatos" (Filstead, 1986, p. 65); se trata de una vía inductiva , por loque no resulta extraño oír que un investigador cualitativo prefiere que lateoría emerja de los propios datos. En este sentido, es un hecho quela proximidad al mundo cotidiano, y el hallarse presente en lasituación -habitualmente va más allá de ser mero espectador-proporciona un sólido refuerzo respecto a la "completitud" del procesoque se estudia y proporciona una mayor garantía inferencial. Perotambién se halla presente una vía deductiva en tanto en cuanto quelos propios conceptos que se toman como punto de referencia, y lostérminos utilizados en la descripción se hallan indudablementemodulados e incluso conformados por un marco de referencia teórico,el que sea (cognitivo, dinámico, conductista, humanista, etc,.).

La estrategia que inspira la metodología cualitativa implicaun intercambio dinámico entre la teoría, los conceptos y losdatos con retroinformación e incidencia constante de los datosrecogidos . En muchas ocasiones, además, el marco teórico, siexiste, se halla sumamente debilitado (por la falta de comprobaciónempírica de sus postulados, sin que por realizar dicha afirmación senos pueda acusar de reduccionismo), por lo que actúa de manerapuramente referencial, a modo de metateoría. De ahí que se afirmeque el paradigma cualitativo se ha caracterizado por una preocupación

37I. Hacia una evaluación... l

por el descubrimiento de la teoría más que por el de su comprobación.

Las situaciones problema no plantean un necesariocumplimiento de requisitos, a menos que en su formulaciónquede explícita la operativización que conlleve a iniciar yproseguir el proceso de investigación mediante unametodología cuantitativa ; si nos planteamos un estudio relativo atiempos de reacción ante determinado estímulo es indudable que noresulta pertinente la metodología cualitativa, pero en cambio esindiscutible en una investigación sobre pautas de crianza de los hijos,o de irrupción de sujetos extraños en conducta comunicativa, o en elanálisis de redes de apoyo social en tercera edad.

La matización que acabamos de realizar tiene una enormetrascendencia posteriormente. La inicial decisión sobre laselección de determinada información entresacada delentramado que constituye el problema va a conformar unatrayectoria de partida correspondiente a la metodologíacualitativa o cuantitativa, aunque en un momento posterior, yen virtud de la complementariedad que defendemos, sequiebre para dar paso a la posición alternativa.

Es posible que en fases posteriores predomine el caráctercualitativo o cuantitativo de las operaciones a realizar, pero a nuestrojuicio es secundario, a pesar de que tenga su importancia. Lanaturaleza del dato de partida la vamos a considerarconstitutiva para la caracterización de la metodologíacualitativa , aunque no todos los autores están de acuerdo con estaconsideración.

A partir de lo dicho, podemos ya aventurar una relación decaracterísticas propias de la metodología cualitativa queresultan idóneas para ser aplicadas a las fases iniciales deestudio de la cotidianeidad (Anguera, 1995a):

a) La fuente principal y directa de los datos son las situacionesnaturales . Ningún fenómeno puede ser entendido fuera de susreferencias espacio-temporales y de su contexto.

b) El investigador se convierte en el principal «instrumento» de

38 l Estrategias de Evaluación y Medición...

recogida de datos , en el sentido de actor del proceso que implicala captación de la realidad, y con la capacidad para aportar datostan fiables como los generados por medios más objetivos. Entrelas principales ventajas que ello reporta, destacan:- Su adaptabilidad para registrar información simultánea sobre

múltiples factores y a varios niveles.- Visión holística, es decir, capacidad para captar el contexto

de forma global.- Mayor amplitud de conocimientos.- Posibilidad de explorar respuestas atípicas e idiosincráticas,

las cuales son difíciles de captar por medios ordinarios, ytienen una enorme relevancia para lograr una más óptimacomprensión.

c) Incorporación del conocimiento tácito , es decir, elcorrespondiente a intuiciones, aprehensiones o sentimientos queno se expresan de forma lingüística pero que se refieren aaspectos conocidos de algún modo, aunque se debe actuar congran cautela, dado un indudable riesgo de inferencia. Muchos delos matices de la realidad sólo pueden ser captados por esta vía,a la vez que muchas de las interacciones entre investigador einvestigado ocurren en este nivel.

d) Aplicación de técnicas de recogida de datos de carácterdescriptivo , por adaptarse mejor a las influencias mutuas y sermás sensibles para detectar patrones de comportamiento.

e) Muestreo intencional . La selección de la muestra no pretenderepresentar a una población con el objeto de generalizar losresultados, sino que se propone ampliar el abanico y rango de losdatos tanto como sea posible, a fin de obtener la máximainformación de las múltiples realidades que pueden serdescubiertas.

f) Búsqueda de generalizaciones empíricas en los datos . Elloimplica una primera descripción de las situaciones de cada uno delos casos o eventos estudiados, con el fin de detectarprogresivamente la existencia de unas regularidades entre ellosque constituyen la base o germen de una futura teoría adecuada a

39I. Hacia una evaluación... l

las condiciones y valores locales.

g) La teoría se genera a partir de los datos de una realidadconcreta , no partiendo de generalizaciones «a priori». Autoresrelevantes como Goetz y LeCompte (1988) definen la teoría como:- Generativa, por preocuparse por el descubrimiento de

constructos y proposiciones.- inductiva, pues las teorías se desarrollan desde abajo, a

través de la interconexión de evidencias y datos recogidos.- constructiva, dado que las unidades de análisis comienzan a

aparecer en el curso de la observación y descripción.- subjetiva, entendido como el propósito de reconstruir

categorías específicas que los participantes utilizan paraconceptualizar sus propias experiencias y su visión de larealidad.

h) El diseño de la investigación es emergente y en cascada ,ya que se va elaborando a medida que avanza la investigación. Lasituación generadora del problema da lugar a un cuestionamientocontinuado y a una reformulación constante, en función de laincorporación de nuevos datos. Esta filosofía de "diseños noestándar" flexibiliza el estudio de forma acorde con la propiarealidad y los datos que se obtienen, lo cual le aporta infinitonúmero de posibilidades. Además, este tipo de diseños permiteuna adecuación a las múltiples realidades, a los contextosespecíficos y a las interacciones entre investigador y contexto. Undiseño previo prefijado relegaría la realidad vivencial.

i) La metodología cualitativa se plantea criterios de validezespecíficos , utilizando técnicas propias que garantizan lacredibilidad de los resultados.

En cuanto a las posibilidades , y de acuerdo a lo dicho, puedesurgir una serie de dudas sobre la calidad que se requiere a lametodología cualitativa , y, en consecuencia, a los datos que van aobtenerse mediante diferentes técnicas para el estudio de lacotidianeidad. Patton (1980, p. 22) ha señalado que "los datoscualitativos consisten en descripciones detalladas de situaciones,eventos, sujetos, interacciones y conductas observadas; citas directas

40 l Estrategias de Evaluación y Medición...

de sujetos acerca de sus experiencias, actitudes, creencias ypensamientos; y fragmentos o pasajes enteros de documentos,correspondencia, registros e historias de casos". Pero, ¿qué garantíaofrece este tipo de material?

Se pueden señalar diversos marcos de exigencias (Erickson,1986; Zabalza, 1991) respecto a las condiciones de legitimidadmetodológica :

A) Representatividad, relevancia y plausibilidad de los datos(validez semántica de la investigación) . Este requisito implicaidentificar las diversas perspectivas de significación, proceder auna correcta contextualización, y constatar con objetividad lossucesos, o eventos, o conductas que se presentan.

Ello significa -y en este sentido estamos de acuerdo con Zabalza(1991)- cumplir determinadas condiciones:

- Ampliar al máximo el contexto de análisis, de manera quepuedan incorporarse a la situación analizada todas las variables,sujetos o elementos que puedan aportar un papel clarificadorrespecto al ámbito estudiado. De aquí que se recomiende latriangulación, o uso complementario de varias -al menos tres-modalidades distintas de recogida de datos, lo cual minimizará lascarencias de alguna de ellas al complementarse con las virtudesde otras.

- Describir el propio proceso seguido en la obtención y análisis de lainformación. La investigación cualitativa tiene una naturalezadeliberativa, apenas existe estandarización, no existe uniformidaden los procesos seguidos, y algunos de los datos obtenidospueden ser considerados confusos o parciales; la debilidad queello comporta exige en contrapartida que el investigador dé cuentade cómo planteó y desarrolló cada uno de los pasos de suinvestigación, de manera que ésta pueda ser valorada, y, en sucaso, replicada en otros contextos.

- Configurar la investigación como un auténtico proceso debúsqueda deliberativa, en el que se van presentando -y debenresolverse- cadenas de dilemas de muy diversos órdenes, y sobre

41I. Hacia una evaluación... l

los que hay que tomar decisiones (por ejemplo, sobre si anotar undeterminado aspecto observado, si conceder o no la suficienterelevancia a una determinada dimensión de un texto, etc.).Además, es frecuente la obtención de una inmensa cantidad dedatos (sobre todo en el ámbito de descripciones casuísticas), quecolocan frecuentemente al investigador ante una perplejidaddecodificadora, y con verdaderos problemas al tratar de simplificarla información sin perder datos que pudiesen ser relevantes.

B) Fundamentación teórica de la investigación y de losanálisis e interpretaciones que incluye (validezhermenéutica de la investigación) . La dialéctica entreinductivismo y deductivismo adquiere un especial sentido enmetodología cualitativa, pues no en vano se basafundamentalmente en interpretaciones, o al menos acudefrecuentemente a ellas para dar sentido a los datos einterpretaciones. Consideramos obvio que no se puedecomprender sin un bagage previo de preconcepciones, ni tampocoal margen del equipamiento interpretativo del que actúa deintérprete.

Pero hay que matizar que esta estructura o marco general designificaciones previas (en cuyo seno se puede entender la nuevasituación o la nueva información) no constituye una barrera inflexible,sino que se trata de un conjunto de componentes cognitivos yexperienciales que van alterando sus contenidos y filtros sobre labase de la interacción con cada nuevo proceso de conocimiento einterpretación.

C) Dinámica relacional de la investigación (validezpragmática) . Se incluyen esencialmente cuestiones relativas acondiciones metodológicas, optimización de los procesos que seestudian, y salvaguardar los derechos de las personas queparticipan en la investigación. Se pueden concretar en lossiguientes puntos:- Indicación a los participantes de los objetivos del trabajo3 , y,

3 No se cumple en los casos en que se obtiene un registro de conducta mediantela observación directa.

42 l Estrategias de Evaluación y Medición...

en su caso, información sobre el proceso de negociaciónprevia.

- Audiencias a las que se debe acudir, y que son los distintos

colectivos, o comunidades, o individuos, relacionados con la

cuestión que interesa. Resulta obvio considerar la incidencia

del colectivo, sea cual sea, así como el papel de los propios

participantes en la investigación como audiencia preferente.

4.1.2 Caracterización y aplicación de la metodologíacuantitativa en una segunda fase

El estudio sobre la cotidianeidad, que en una primera fase ha

requerido un especial cuidado para justificar el encaje de lametodología cualitativa, y donde la gran dificultad estribaba en la

obtención del dato, una vez éste se ha obtenido –y se ha llevado a

cabo su control de calidad para la detección de posibles errores y su

subsanación- en una segunda fase deberá someterse a los análisisadecuados en función del diseño evaluativo adecuado .

Tradicionalmente se ha afirmado que los seguidores de lametodología cuantitativa tienden a traducir sus observaciones en

cifras, y estos valores numéricos proceden de conteo o recuento,

medida, o de constatación del iter u orden, permitiendo descubrir,

verificar o identificar relaciones simétricas o no entre conceptos que

derivan de un esquema teórico elaborado de acuerdo con los criterios

que rigen cada una de las situaciones de cotidianeidad que intereseestudiar.

Desde los planteamientos de la metodología cuantitativa ,

para llevar a cabo el contraste de la hipótesis será preciso cumplir el

requisito de representatividad y aleatorización, lo cual comportará a su

vez unas adecuadas técnicas de muestreo, a la vez que pueden

proponerse sofisticadas técnicas de análisis.

Si nos circunscribimos al ámbito nacional, en España es justa lacrítica de una endémica debilidad metodológica de la gran

mayoría de los estudios en contextos naturales que son puestos en

práctica por parte de instituciones tanto públicas como privadas. En

43I. Hacia una evaluación... l

los países en los que existe una mayor tradición (Estados Unidos y

Canadá) se aprecian, cada vez de forma más generalizada,

importantes avances consistentes en el uso de recursosmetodológicos sofisticados que permiten un rigor mucho más

elevado (Anguera, 1990b), y que, si bien no todos proceden de

estudios realizados en contextos naturales, sí serían análisis

adecuados en muchos de ellos, siempre que se dispusiera de los

datos adecuados.

A modo de ilustración, podemos señalar en este sentido la

aplicación del análisis de supervivencia (Wheeler & Hissong, 1988) ytablas de vida (Benedict, Glasser & Lee, 1989), análisis probabilísticos

de evaluación del riesgo (Nichols & Wildavsky, 1988), series de tiempo

en cuidadosos estudios longitudinales (Boruch & Pearson, 1988),

toma de decisiones (Dawson & Cebul, 1990), análisis de la causalidad

en estudios retrospectivos (Holland & Rubin, 1988) y con secuencia

temporal de variables (Curry, Yarnold, Bryant, Martin & Hughes, 1988),análisis de discontinuidad en la regresión (Stanley & Robinson, 1990),

búsqueda de parámetros en modelos logísticos (Kaplan & Abramson,

1989), análisis logit anidado (Bertrand, Stover & Porter, 1989),

estimación de parámetros en diseños de carácter sincrónico-

diacrónico (Maxim, 1989), clasificación de modelos mediante análisisde superficie para la búsqueda de dimensiones (Williams, 1989), y

estudios de impacto (Ridge, Stern & Watts, 1990), aparte de

cuidadosos análisis psicométricos en la construcción de escalas

(Alberty & Mihalik, 1989) o de optimizar la complementariedad entre

análisis de muy distinto orden (Hennessy & Saltz, 1989).

La cuestión básica a la que nos tenemos de referir es que, enfunción del diseño planteado y de la naturaleza de los datos,procederá una u otra técnica analítica . En cualquier caso, si la

metodología cualitativa nos ayudó en la obtención del dato, la

cuantitativa nos suministra los recursos para su análisis más

conveniente.

44 l Estrategias de Evaluación y Medición...

4.2 Posición metodológica privilegiada

4.2.1 Uso complementario de opciones metodológicas

En los apartados anteriores nos hemos manifestado acerca delrespectivo encaje de las metodologías cualitativa y cuantitativa en lasfases primera y segunda del análisis de la cotidianeidad,respectivamente. Podíamos haber avisado entonces –aunque lohacemos ahora- de que el proceso lógico de investigación, con sulógica sucesión de etapas de forma organizada, se incardina en elseno de una determinada metodología específica. Y tal metodologíadebe permitir este cambio de perspectiva (de lo “cualitativo” a lo“cuantitativo”) de forma pacífica, sin tensión interna en el seno delprocedimiento a seguir.

Es innegable que investigadores y profesionales de las Cienciasdel Comportamiento manifiestan una preferencia marcada y casiexcluyente por la evaluación cuantitativa, mientras que otros prefierenla cualitativa. Pero cada vez es mayor el número de los que optan porla combinación de ambos, contemplando la utilización de técnicaspropias de uno y otro conforme a las características del estudio arealizar. Nosotros igualmente nos pronunciamos en este sentido,considerando que debería intentarse una redefinición del debate, yeliminando lo que durante décadas se ha propuesto como necesariaelección del paradigma (Cook y Reichardt, 1986). Un estudioso de lacotidianeidad no tiene por qué adherirse ciegamente a uno de ambosparadigmas, sino que puede elegir libremente una relación de atributosque indistintamente provengan de uno u otro si así se logra unaadaptación flexible a su problemática.

Ambas metodologías pueden beneficiarse mutuamente entre sí, yson muchas las ocasiones en que se utilizan de manera conjunta,dando garantía de su posible complementariedad. Es cierto que enocasiones presenta graves problemas por su costo en tiempo y dinero,o por falta de personal preparado el efecto, pero en cualquier caso setrata de superar la posición enfrentada de ambas perspectivas.

El empleo conjunto de la metodología cualitativa y de lacuantitativa, además, dado que se interesa por el proceso y el

45I. Hacia una evaluación... l

resultado, potencia la vigorización mutua de los dos tipos deprocedimientos, y facilita la triangulación a través de operacionesconvergentes (Cook y Reichardt, 1986).

Diversos autores estudiosos de la cuestión coinciden enconsiderar que buena parte de las técnicas de recogida de datos sonpropias de una determinada metodología, o, lo que es lo mismo, queexisten instrumentos tanto cualitativos como cuantitativos.

En una primera aproximación, las entrevistas en profundidad,técnicas etnográficas, análisis histórico o historias de vida, son propiasde la metodología cualitativa, mientras que indicadores estadísticos,observación sistemática, escalas de apreciación o cuestionarios, loson de la cuantitativa.

No obstante, se puede elaborar una sistemática más completaacerca de la naturaleza de las diversas técnicas de recogida de datos,así como de las posibilidades de ser utilizadas desde una u otrametodología, para lo cual hemos partido de diversos autores (Cook yReichardt, 1986; Marshall & Rossman, 1989; Aguilar y Ander-Egg,1992) y de nuestra opinión. En este sentido reproducimos una Tablapublicada anteriormente (Anguera, 1995b, 1998).

La naturaleza de la cotidianeidad, su complejidad y su caráctermultifacético, suponen una diversidad metodológica en cuanto aformas de abordaje de la misma. Incluso los autores que másclaramente fueron tildados de cuantitativos reconocen que ningúnmétodo tiene patente de exclusividad científica.

Es innegable que habrá estudiosos de la cotidianeidad, así comoinvestigadores en general, que manifiestan una preferencia marcada ycasi excluyente por la evaluación cuantitativa, mientras que otrosprefieren la cualitativa. Pero cada vez es mayor el número deprofesionales e investigadores que optan por la combinaciónde ambos planteamientos, contemplando la utilización detécnicas propias de uno y otro conforme a las características delestudio a realizar . Nosotros igualmente nos pronunciamos en estesentido, considerando que debería intentarse una redefinición deldebate, y eliminando lo que durante décadas se ha propuesto como

46 l Estrategias de Evaluación y Medición...

necesaria elección del paradigma. Un evaluador no tiene por quéadherirse ciegamente a uno de ambos paradigmas, sino que puedeelegir libremente una relación de atributos que indistintamenteprovengan de uno u otro si así se logra una adaptación flexible a suproblemática.

Ambas metodologías pueden beneficiarse mutuamente entre sí, yson muchas las ocasiones en que se utilizan de manera conjunta,dando garantía de su posible complementariedad. Y es cierto que enocasiones presenta graves problemas por su costo en tiempo y dinero,o por falta de personal preparado al efecto, pero en cualquier caso setrata de superar la posición enfrentada de ambas perspectivas.

El empleo conjunto de la metodología cualitativa y de lacuantitativa, además, debido a que se interesa por el proceso y elresultado, potencia la vigorización mutua de los dos tipos deprocedimientos, y facilita la triangulación a través de operacionesconvergentes.

A ello ayuda también el hecho de que cada vez sea mayor elnúmero de situaciones en que un equipo multidisciplinar, a partir deuna pluralidad de técnicas, trata de aunar esfuerzos en aras a unamayor rigurosidad de la evaluación realizada. El camino está cada vezmás despejado, pero todavía requerirá considerables esfuerzos en elfuturo para consolidar nuevas posibilidades de colaboración.

4.2.2 Priorización de la metodología observacional

Registro de conducta, entrevista, cuestionario, encuesta y análisisde contenido, como acabamos de ver, presentan unas característicasque pueden adaptarse a una metodología tanto cualitativa comocuantitativa. No obstante, habrá que seguir afinandometodológicamente teniendo en cuenta que, si bien hasta ahora noshemos referido a metodologías generales –o, como indicamosanteriormente, paradigmas-, debemos en este momento apostar poraquella o aquellas metodologías específicas que mejor se adecúen alos planteamientos derivados del estudio de la actividad cotidiana. Esperfectamente sabido en la actualidad que las tres metodologíasespecíficas adecuadas en Ciencias del Comportamiento son laobservacional, selectiva y experimental, de forma que, si

47I. Hacia una evaluación... l

establecemos un criterio o “continuum” respecto al grado deintervención del estudio o control interno, ocupan respectivamente lasposiciones de bajo, medio y elevado nivel interventivo.

Tabla 1. Técnicas de recogida de datos en las metodologías cualitativa ycuantitativa.

TÉCNICA EN AMBAS

TÉCNICAS OBJETIVO TÉCNICAS OBJETIVO

Registro en conducta Descripción rigurosa del comportamiento

Registro de conductas Descripción rigurosa del comportamiento

Registro de conducta

Observación participante

Implicación de observador

Indicadores cuantitativos

Datos de agregación Entrevista

Entrevistas en profundidad

Conversación "con un propósito"

Pruebas de ejecución Rendimiento Cuestionario

Cuestionarios Forma estándar de recogida de información

Pruebas de conocimiento

Exámenes de logro Encuesta

Encuestas Información superficial "en bloque"

Escalas de apreciación Calificación en un "continuum"

Análisis de contenido

Películas, fotografías y videos

Captación de la vida diaria

Entrevistas, cuestionarios

Elicitación oral de información

Técnicas proyectivas y test psicológicos

Aspectos subjetivos de la personalidad

Encuestas Forma estándar de recogida de información

Técnicas proxémicas y kinestésicas

Uso del espacio y movimientos del cuerpo

Análisis de contenido Información superficial "en bloque"

Técnicas etnográficas Estudios de base cultural

Organización del material documental

Análisis histórico Establecimiento de trayectorias

Historias de vivienda Desarrollo de la vida de una persona

Análisis de contenidoOrganización de información

METODOLOGÍA CUANTITATIVAMETODOLOGÍA CUALITATIVA

Con estas premisas, nuestra toma de decisión se justifica con lossiguientes argumentos:

A) En el estudio de la actividad cotidiana destaca especialmente sucarácter de comportamiento espontáneo y su ubicación encontextos naturales o habituales para el individuo o la colectividad.Estas dos características configuran el núcleo básico de lametodología observacional.

B) Cada una de las tres metodologías específicas indicadas disponede sus técnicas propias de recogida de información. El registro deconducta, el análisis de contenido, y las entrevistas abiertas opoco estructuradas son específicos de la metodologíaobservacional, mientras que las entrevistas estructuradas, el

48 l Estrategias de Evaluación y Medición...

cuestionario y la encuesta son propios de la metodologíaselectiva. Ahora bien, dado que estas últimas implican unaelicitación de la respuesta (ya que requieren una pregunta oral oescrita, individual o colectiva, dirigida por el estudioso de laconducta al individuo que desempeña una actividad cotidiana), nosinteresan de forma relativa, y, en cualquier caso, complementaria,respecto de las primeras, en las que prima claramente laespontaneidad en su realización, y, por consiguiente, la nomediatización de ningún artefacto metodológico (como sería elsesgo de reactividad).

C) Nos podemos preguntar en qué medida la metodologíaobservacional se ajusta a la caracterización realizada de lametodología cualitativa en una primera fase y a la aplicación de lacuantitativa en una segunda fase. Elegimos dos autores comobotón de muestra, al margen de que ésta ha sido siempretambién nuestra posición: Por una parte, Bakeman y Gottman(1989) se pronuncian taxativamente definiéndola como una formaparticular de cuantificar la conducta, y, en efecto, la cuantifican yanalizan con rigor, pero ellos mismos dedican varios capítulos desu obra a la explicación y ejemplificación de registros, así como asu posterior codificación, momento de inflexión que permitirá elencaje entre lo cualitativo y lo cuantitativo. Y, por otra parte,Blanco (1997), en un trabajo titulado Metodologías cualitativas enla investigación psicológica, desarrolla el procedimiento propio dela metodología observacional, insistiendo, una vez se ha llegado ala codificación del registro, en el muestreo de conductas, en elsignificado de la fiabilidad, precisión y validez para garantizar lacalidad del registro, y en el análisis de los registros e investigaciónde patrones de conducta, cuestiones que no podríanmaterializarse desde una metodología cualitativa. Podemosafirmar de forma rotunda que la metodología observacional es laque mejor se adapta a la complementariedad entre lo cualitativo ylo cuantitativo, ya que, simplificando drásticamente, siemprerequerirá de la elaboración de un instrumento ad hoc a partir delcual se efectuará un registro (metodología cualitativa), y éstedeberá someterse a un control de calidad y un análisis adecuado(metodología cuantitativa).

49I. Hacia una evaluación... l

D) Hay que añadir un cuarto argumento relativo a la naturaleza delinstrumento utilizado en la obtención de los datos. Enmetodología observacional no se puede disponer de uninstrumento estándar, sino que debe elaborarse ad hoc para cadaestudio con el fin de que se adapte totalmente a la conducta y alcontexto que interesan (Bakeman y Gottman, 1989), y dado quetanto las conductas (aquí, actividades cotidianas) como loscontextos en los cuales tienen lugar son sumamenteheterogéneos, resulta obvia la especificidad singularizada delinstrumento, que puede revestir especialmente dos formasdistintas, sistema de categorías –con o sin moduladores- yformatos de campo, de las cuales, el sistema de categorías hasido tradicionalmente el instrumento de observación porexcelencia, muy laborioso en su elaboración pero también dotadode una excesiva rigidez, mientras que los formatos de campo, dereciente incorporación, se han ido consolidando rápidamente porsu gran funcionalidad4 . Por el contrario, en metodología selectivase cuenta con instrumentos estándar o semi-estándar, como sonlos items de un cuestionario, las preguntas de una encuesta, o lapauta de una entrevista altamente estructurada.

Por estos tres argumentos, nuestra decisión es clara e indudablea favor de la priorización de la metodología observacional en el estudiode la actividad cotidiana y su contexto, aunque no de su exclusividadabsoluta, que podría conducir en ocasiones a su complementacióncon la metodología selectiva por dos motivos: Por una parte, lametodología observacional no resulta especialmente adecuada en losestudios realizados sobre colectivos o grandes grupos de individuos,sino que tiene un corte particularista, entendido en un sentido lato deltérmino, que sí funciona bien cuando se observan grupos reducidos de

4 Si cotejamos los dos tipos de instrumentos –sistema de categorías (SC) yformatos de campo (FC), las principales diferencias entre ellos son:

a) El SC es de difícil utilización en situaciones complejas, en las cuales noofrece problema el FC.

b) El FC se puede elaborar en ausencia de marco teórico, y por tanto ensituaciones empíricas, mientras que el SC requiere marco conceptual y datosde la realidad.

c) El FC es un sistema abierto (se pueden añadir códigos una vez se hainiciado su utilización), lo que contrasta con la rigidez del SC.

d) El SC es unidimensional, mientras que el FC es multidimensional.e) El SC es un sistema de código único, mientras que el FC es de código

múltiple.f) El SC, una vez elaborado, es rígido, mientras que el FC tiene una elevada

capacidad de autorregulación.

50 l Estrategias de Evaluación y Medición...

individuos (entiéndase, los miembros de una familia, los alumnos deuna guardería o escuela que se sientan en una mesa para larealización de una actividad compartida, etc.). Y, en segundo lugar, porimperativos de las normas éticas en conductas privadas, o porlimitaciones de recursos disponibles (humanos, temporales,instrumentales, etc.), cuando no se pueda acceder a una situación deobservación determinada, nos quedará el recurso a la elicitación de larespuesta a la cual nos hemos referido.

El uso habitual de la metodología observacional para el estudio dela actividad cotidiana y su contexto implica el seguimiento de unproceso que en la actualidad se halla perfectamente especificado enla literatura propia de este ámbito, y en el cual no juzgamos necesariointroducirnos5 .

5 Nos limitamos a unas rápidas y breves pinceladas sobre el proceso a seguir,el cual se vertebra en cuatro grandes fases:

a) Correcta delimitación de la(s) conducta(s) y situación de observación . Laacotación del objeto de estudio y una delimitación precisa de su contenidodeterminan en gran medida el éxito del estudio y facilitan la toma dedecisiones. Resulta obvio que se precisa delimitar cuidadosamente la actividadcotodoana de qué se trate, el período de tiempo que interesa, el(los)individuo(s) sobre los que se trabaja, y el contexto situacional. Toda laplanificación y diseño del estudio no sólo mejoran sensiblemente al disponerde esta información, sino que ésta se revela como absolutamente necesariapara adecuar la serie de pasos específicos del procedimiento al contenido.De forma especial, en esta primera fase resulta imprescindible el cumplimientode requisitos de homogeneidad inter e intrasesional, ya que una de las másacertadas críticas a la metodología observacional en su época clásica (hastala década de los ochenta) se basaba en que la heterogeneidad existenteentre diversas sesiones o incluso en el transcurso de una de ellas impedíancualquier posible análisis del proceso sometido a estudio. Asimismo, seplanteará la evitación de sesgos, especialmente los de reactividad yexpectancia.

b) Recogida y optimización de datos . El flujo de conducta en cualquier situaciónde observación es mucho más rico de lo que parece inicialmente, por lo que,una vez delimitado el objetivo según el apartado anterior, será precisoproceder a la codificación de las conductas que interesan, habiendo fijadocuáles son las unidades de conducta, y habiendo construído un instrumentoad hoc. No obstante, el registro que así se obtendría podría ser muy tosco yde baja calidad según cuestiones tan diversas como el criterio de inicio delas sesiones de observación, el que se eligiera discrecionalmente un día uotro, la existencia de períodos intrasesionales de inobservabilidad, el quedurante la sesión se registrase de forma continua o por intervalos, la posibledesincronización de los observadores en caso de haber varios o habiéndosegrabado la sesión, la falta de consistencia de un observador consigo mismopor efecto del azar, y un largo etcétera. Luego se precisa someter el registroa los requisitos derivados del muestreo observacional y a un control de calidadde los datos, que actuará a modo de filtro y dotará al observador de unasgarantías sobre los datos que harán factible el análisis posterior. Se manifiestaen este apartado la viva polémica a la que nos hemos referido, y que en losúltimos años ha tratado de dicotomizar las metodologías entre cualitativa ycuantitativa: Si se propone la cuantificación es precisamente porque el meroregistro de conducta como forma de recogida de datos en observación directaes, por naturaleza, cualitativo. Fuera del marco de la metodología cualitativaqueda desnaturalizado el concepto de la metodología observacional, ya queno serían posibles las operaciones que la sustentan, del mismo modo que es

51I. Hacia una evaluación... l

Lo que sí queremos puntualizar es que, al margen de la taxonomíaexistente en la metodología observacional, en el estudio de laactividad cotidiana y su contexto cabe partir de una distinta forma deobtener información de la situación cotidiana estudiada y de sucontexto.

Resulta obvio que en estudios empíricos realizados bajo estacobertura se producen datos al traducir la realidad a sistemas denotación escrita. Pero surge una primera y provisional dicotomización(no una dicotomía real) en función de la manera de llevarlo a cabo, lacual, a su vez, se halla supeditada en buena medida a la propianaturaleza del problema6 .

de justicia constatar claramente que el control de la calidad del dato y elanálisis posterior de dicho dato requerirá de la contribución de “lo” cuantitativo.

c) Análisis de datos . No tendría ningún sentido realizar un análisis de datos sinhallarse vertebrado en un diseño determinado elaborado en función del estudioque interesa. Y decimos elaborado porque existen diseños estándar u noestándar, según, respectivamente, que se adapte o no el plan de investigacióna algunos de los diseños que existen preestablecidos como tales. Es enmetodología experimental en donde existe un amplio elenco de diseñosestándar (factoriales, intrasujeto, jerárquicos, etc.), mientras que la flexibilidadpropia de la metodología observacional y su especificidad impiden el uso dediseños prototipo, por lo que, si bien marcaremos unas pautas básicas dediseño (diseños diacrónicos, sincrónicos, y diacrónico/sincrónicos), éstos no sonreactivos para el estudio de la actividad cotidiana y su contexto, y, en cambio,sí sugieren unos determinados análisis de datos que resultan especialmenteadecuados por sus características.

d) In terpretación de resultados . El análisis de datos aboca directamente a laobtención de resultados, que constituyen la respuesta al objeto de estudio, y,en consecuencia, deben ponerse en relación con el planteamiento delproblema que hizo en su día el profesional encargado de su estudio. Lo queahora se obtiene es el resultado del proceso, que, en determinadas ocasiones,puede constituir un punto de partida o base para iniciar una intervención, oadoptar una serie de decisiones.

6 El tipo o modalidad de descripción en el registro de conducta repercute deforma determinante. No existe criterio unánime en la literatura especializada,pero se ha ido imponiendo el criterio de los etólogos. Así, Lehner (1979) distingueentre descripción empírica o topográfica y descripción funcional, quecorresponden, respectivamente, a la “descripción por operación” y “descripción porconsecuencia”. Las categorías obtenidas a partir de una descripción topográficaintentan simplemente catalogar conductas -generalmente motoras- con finalidadnormativa, y no es muy habitual en psicología, aunque sí en etología. Un ejemplosería la lista suministrada por McGrew (que aparece en el apéndice de Hutt &Hutt, 1970) de 111 conductas motoras de niños en una guardería. Por otra parte,las descripciones funcionales suministran información que puede resultar másvaliosa, pero que implica más inferencia por parte del observador, así como mássuposiciones implícitas al elaborar las categorías. Por ejemplo, nadar, montar acaballo, etc.

a) Con un ligero matiz diferencial, Martin & Bateson (1992) proponen tres tipos dedescripción: 1) Descripción de la estructura, apariencia, forma física o pautastemporales de la conducta. La conducta se describe en términos de postura ymovimientos de los sujetos, pudiendo alcanzar un gran detalle, y requiriéndose dela capacidad y habilidad del observador para percibir sutiles diferencias. 2)Descripción en función de las consecuencias, o efectos de la conducta en elcontexto (en sentido amplio, abarcando tanto a otros sujetos como a objetosmateriales, como a la especial disposición en que se hallan) en el que se produce

52 l Estrategias de Evaluación y Medición...

Así, como caso poco habitual, si se trata de un estudio detiempos en natación que se presenta en un monitor, lógicamente larecogida de datos implicará determinado tipo de datos, seguramenteexpresados en unidades convencionales de tiempo (segundos,décimas de segundo, milisegundos,...). Pero es muy elevado elnúmero de ámbitos de estudio en que se producen igualmente«datos», pero en los cuales no es posible su operativización, o noresulta factible sin incurrir en un grave reduccionismo; así, enprogramas de atención a familias multiproblemáticas, ¿sería factiblerealizar el recuento de algún tipo de cantidad? No, dadas las múltiplesmanifestaciones de los problemas existentes, la borrosidad dealgunas de ellas, la necesaria contextualización, los distintoscondicionantes implicados, y seguiría un largo etcétera.

Las diversas modalidades en la obtención de datos para el estudiode la actividad cotidiana y su contexto se caracterizan en común porlas características indicadas de espontaneidad y ocurrencia encontextos naturales o habituales, pero cabe establecer una gradaciónen función de su naturaleza, que a su vez da lugar a la propuestataxonómica indicada en la Tabla 2.

su ocurrencia, o en el propio sujeto que la emite, aunque sin referencia a cómose producen tales efectos. Así, categorías como «obtener alimento» o «esquivar aun sujeto» serían un claro ejemplo. Su diferenciación de la anterior es clara, y eneste sentido, no hay duda de que «apagar la luz» es una descripción en términosde consecuencias, mientras que «apretar con el dedo la pequeña placa salientedel interruptor» es una descripción estructural. 3) Una tercera forma de descripciónse efectúa en términos de la relación espacial entre sujetos en un determinadoentorno, por lo que el énfasis se halla no en lo qué hace el sujeto, sino dónde ycon quién. Por ejemplo, «aproximarse» o «salir» se pueden definir en términos decambios en la relación espacial entre dos sujetos.

b) Desde una consideración cercana al grado de implicación del observador,también se distingue entre descripción ética (Coll, 1981; Headland, Pike & Harris,1990), que tiene un indudable carácter externo, objetivo y exhaustivo, haciendoreferencia a categorías previamente explicitadas en donde no actúa una selecciónde lo relevante y todos los detalles tienen igual importancia, y una descripciónémica, que se sitúa en un nivel de identificación y precisión de las categoríassignificantes para el sujeto, y que se lograría intentando componer y relacionar lasinformaciones éticas extraidas por el observador.Si se dispone de una flexibilidad en los niveles descriptivos más adecuados, deforma que exista una gradación continuada que incluya una gama de nivelesdescriptivos intermedios no situados en los extremos de posiciones bipolares, serámayor el ajuste y la articulación entre percepción e interpretación, con lo cualresulta beneficiada la calidad del registro observacional. Podria argüirse en contraque aumentaría la complejidad en la codificación y posterior análisis, pero ellopuede solventarse adecuadamente si se hace uso adecuado de los parámetrosobservacionales establecidos y se lleva a cabo un tipo de análisis que se adecúea los datos recogidos.En buena parte de los casos, la inclusión en un mismo registro de varios nivelesdescriptivos daría lugar a la superposición de diversas unidades y de cubrir el«continuum» de conducta, lo cual permitirá establecer una convergencia entrediferentes tipos de análisis (Blanco, 1983).

53I. Hacia una evaluación... l

Tabla 2. Criterios taxonómicos en la recogida de datos en metodologíaobservacional.

OBSERVACIÓN DIRECTA Registro de conducta

CONDUCTA VERBAL TRANSFORMABLE EN MATERIAL

DOCUMENTAL

Entrevistas en profundidad no estructuradasDiscusión de grupo

MATERIA DOCUMENTALDocumentos personalesRegistros biográficosRegistros proporcionados por terceras personas

Existe una gradación que recoge el abanico de posibilidades quese disponen ordenadas entre los datos procedentes del registro deconductas perceptibles -que serán los más fáciles de codificar ycuantificar posteriormente- y los propios de informes o «dossiers»documentales, en los que igualmente es posible la cuantificación, perose halla sujeta a un proceso más complejo.

5. Evaluación de baja intensidad interventiva

La evaluación ha experimentado en el último cuarto de siglo unproceso exponencial de expansión. Se ha constituido en disciplinacientífica sin lugar a dudas, y esta afirmación no es gratuita, sino quelo avalan multitud de publicaciones de todo tipo, eventos científicosnacionales, europeos e internacionales, constitución de sociedadescientíficas, así como la puesta en marcha de proyectos de granenvergadura respaldados por instituciones públicas y privadas de lospaíses más desarrollados.

Se ha creado un ámbito de conocimiento que ha pasado ya porvicisitudes diversas, como un rápido crecimiento, una proliferación demodelos teóricos, una cierta parcelación posterior al desarrollarseaspectos fragmentarios de la evaluación (por ejemplo, estudiospsicométricos de altísimo nivel que se circunscriben a cuestionessumamente puntuales relativas a la elaboración o uso dedeterminados instrumentos de evaluación), y en la actualidad creemosnecesario un maduro proceso de reflexión y autocrítica que permitaoptimizar una estructura lógica del proceso en la cual se hayan

54 l Estrategias de Evaluación y Medición...

insertado una serie de elementos que son fruto del avance logrado enlas últimas décadas en cuestiones puntuales esencialmente decarácter metodológico.

Llevado a nuestro ámbito de estudio de la actividad cotidiana y sucontexto, y contemplado desde la perspectiva del psicólogo, lainiciativa de efectuar un análisis depurado del comportamiento seinscribe en una de las vertientes evaluativas que en mayor medida sehan desarrollado, que es la evaluación de programas. Pero surgeinmediatamente la pregunta: ¿Qué programas? ¿Qué es unprograma? ¿Qué incidencia tienen en la vida cotidiana?

El propio concepto de evaluación de programas no es monolítico(Anguera, 1989), y las diversas posturas adoptadas oscilan entre laconstrucción de un corpus de conocimientos que pudiera garantizarleel carácter de disciplina básica, y la mera recogida de información quetrata de dar cuenta de la ejecución de ciertas actividades realizadaspreviamente, como un servicio dedicado a ... (Cordray, Bloom & Light,1987), pasando por el análisis de los efectos netos de los programaso por la primacía de razones políticas –y no técnicas- respecto a laoportunidad de algunos programas.

De forma genérica podemos afirmar que en estas últimas décadasha ido en aumento de manera constante la necesidad de intervenir deforma estructurada ante problemas o carencias de diverso tipo. A partirde un previo análisis de necesidades, sigue la elaboración delprograma o plan de intervención teniendo en cuenta el objetivo, elcontexto y los recursos, procediéndose después a la implementaciónde dicho programa, y, en función del modelo básico seguido se evalúadicho plan de acción (Veney & Kaluzny, 1984).

Forman parte de nuestra actividad cotidiana la implementación denumerosos programas o planes de intervención, de los que de muchosde ellos probablemente no somos ni conscientes. Son innumerableslos ejemplos que podríamos citar: Campañas de vacunación paraprevenir la gripe, entrenamiento en una actividad física o deporte, dietade adelgazamiento, curso de formación ocupacional, aprendizaje deun idioma, servicio de atención domiciliaria a una persona de terceraedad, programa ambiental de clasificación de residuos en distintos

55I. Hacia una evaluación... l

contenedores, medidas de prevención de accidentes de circulación enfechas de especial riesgo, programa transversal de incremento de laprosocialidad en centros educativos o cívicos, plan de saneamientoindustrial de un barrio, eliminación de barreras arquitectónicas en unapoblación, animación social para el fomento del voluntariado,programas de mantenimiento en actividad física de tercera edad,programas de apoyo social en barrios o comunidades en las que sehan ubicado familias procedentes de países en guerra, programas deeducación para la salud en guarderías o en residencias geriátricas,programas de asistencia a familias maltratadoras o negligentes en laspautas de crianza de sus hijos, programas preventivos del SIDA enadolescentes, programas de apoyo a familiares de jóvenes fallecidospor accidente, programas de relajación en deportistas, programas desocialización en centros penitenciarios, o en centros de acogida demenores, etc. Sin duda, el espectro de ámbitos de aplicación essumamente amplio.

No completaríamos nuestro interés por la actividad cotidiana y sucontexto sin referirnos a una multitud de programas en los quecualquier ciudadano puede hallarse involucrado. Ahora bien, no todoslos programas presentan un perfil semejante. Tradicionalmente,durante largas décadas, únicamente se contemplaban lasintervenciones “fuertes”, es decir, aquéllas en las cuales se ejercía undominio sobre la situación a evaluar, y se daban consignas a losusuarios del programa con el fin de que su ejecución permitiera laimplementación del programa según el plan previsto por los expertos.Sin embargo, cada vez es más incesante el incremento de programasque se implementan sin la imposición de consignas y en los contextosnaturales y/o habituales para los usuarios del programa, aprovechandoactividades espontáneas y/o habituales para ellos. En este caso nosreferimos a programas de baja intensidad interventiva, y que son lospropios de la actividad cotidiana.

En la práctica, la evaluación de programas de intervención, yaparte de cuestiones ajenas de carácter político (FernándezBallesteros, 1987), ha comportado la aparición de un buen número deproblemas, en su gran parte de carácter metodológico, que no siemprehan sido resueltos correctamente. Podemos afirmar con contundencia

56 l Estrategias de Evaluación y Medición...

que en los diversos ámbitos del comportamiento humano consideradoen sentido amplio (sanitario, escolar, deportivo, laboral, serviciossociales, etc.), las mayores lagunas, muchas no superadas, son deprocedimiento, y no por falta de que se arbitren vías de solución, sinoporque no se han llevado a la práctica.

Ello se debe, en buena parte de los casos, a la complejidad queofrece la realidad social en que se inserta la actividad cotidiana, en lacual los individuos o colectivos sometidos a programas de intervenciónno sólo no constituyen una realidad compacta, sino que la dinámicade los procesos seguidos no es uniforme, existen serias dudas sobrepresuntas relaciones de causalidad, y en ocasiones resultaverdaderamente difícil una recogida de datos que cumpla todos losrequisitos de rigurosidad requeridos.

5.1. Criterios básicos

El rápido desarrollo de los conocimientos y praxis de la evaluaciónha incidido en los planteamientos metodológicos. Chelimsky (1995)insiste en la necesidad de utilizar complementariamente variasposibilidades metodológicas con el fin de que se logre un aumento dela eficacia.

El esquema de partida lo estructuramos en tres grandesdimensiones: Usuarios del programa, naturaleza de los datos, ymomento temporal (Anguera, en preparación), que, respectivamente,se constituyen a modo de referentes desde una perspectivametodológica: 1) A quiénes va dirigido el programa, ya que de locontrario éste perdería su razón de ser, motivo por el que los usuariosocupan el primer lugar. 2) Tipo de información que se obtiene,habitualmente de carácter cambiante a lo largo del proceso deimplementación y en función de las diversas acciones que se llevan acabo, por lo que la naturaleza de los datos es un referente obligado. 3)Carácter diacrónico del proceso de evaluación.

A) Usuarios del programa

Los usuarios del programa son los individuos en los que sedetectó una necesidad y a quiénes van dirigidas las acciones del

57I. Hacia una evaluación... l

programa. Dicho en otros términos, y de forma genérica, son losciudadanos a los que se implementa alguno de los programas a losque nos hemos referido, u otros. Habitualmente se trata de individuosque contestan las preguntas de las entrevistas, rellenan loscuestionarios, y, en algunos casos, aceptan que se observe sutrabajo, o que no permiten ninguna de estas formas de obtención deinformación, en cuyo caso no será posible la evaluación del programa.

El conjunto de personas al que se destina el proyecto se ledenomina usuarios, población-objetivo, población-meta, grupo-meta, ogrupo focal. Una vez establecida la población-objetivo y sulocalización espacial se pueden ya diferenciar los diferentessubcriterios desde los cuales se pueden fijar las características de losusuarios, así como delimitar el propio colectivo:

a) Impacto del programa. Se pueden distinguir:

- Usuarios directos: Individuo que recibe los efectos delprograma sin mediación de ningún tipo. Por ejemplo, enfermode cáncer que podría curarse al descubrirse un nuevomedicamento.

- Usuarios indirectos: Reciben impactos positivos de laimplementación del programa aún cuando su situación no sehaya tenido en cuenta en la toma de decisiones. En elejemplo anterior, serían los enfermos de cáncer que, al saberde la existencia de tratamiento, perderían miedo a laenfermedad. A su vez, podrían diferenciarse (Cohen y Franco,1992) en legítimos (cuando su favorecimiento concuerda con el“espíritu” del programa) e ilegítimos (cuando el beneficio quese logra no era lo buscado con el programa).

- Beneficiarios públicos: Cuando se beneficia toda la sociedad.Por ejemplo, en una campaña de vacunación contra lameningitis.

b) Nivel social. Es un subcriterio próximo a la implicación delusuario, aunque con matices diferenciales:- Usuario activo: Usuario que participa en las acciones del

programa. Por ejemplo, anciano en residencia geriátrica queda ideas y organiza actividades pertenecientes al programa de

58 l Estrategias de Evaluación y Medición...

ocio.- Usuario pasivo: Usuario sobre el que recaen las acciones del

programa. Por ejemplo, bebés en centros de acogida.- Potencial usuario: En los programas que se dirigen a la

población en general, como en muchos programasinstitucionales, o en otros de carácter más específico,depende de la propia voluntad del individuo el que se adscribao no a un programa. Por ejemplo, programas dedeshabituación al tabaco.

- Allegado: Con precaución cabría considerar la figura del (delos) individuo(s) que colabora(n) en la implementación delprograma desde su posición de cercanía física y/o psicológicacon el usuario.

c) Pluralidad. Caben varios niveles:

- Un individuo. Por ejemplo, asistencia domiciliaria a personasde tercera edad.

- Un grupo de individuos. Por ejemplo, programas deintervención en familias maltratadoras o negligentes.

- Colectividad en general. Por ejemplo, programa de animaciónsocial en una población promovido por una ONG paraconseguir un grupo de voluntariado.

d) Cobertura y extensión de uso. Dado que buena parte de losproyectos sociales y sanitarios tienen cono objetivo suministrarservicios a un grupo focal, un concepto esencial es lamaterialización de la asistencia con que se resuelven lasnecesidades de los usuarios (Cohen y Franco, 1992). Los tresgrandes pilares que permiten diferenciar la cobertura óptima y laspatologías que se derivan de ella son: 1) que se haya efectuadouna detección de necesidades a los usuarios, 2) que lascaracterísticas del programa se ajusten a los usuarios o población-objetivo, y 3) que sean usuarios del programa. La cobertura idealse produce cuando se solapan totalmente los tres pilares, y laspatologías que se derivan corresponden a las interseccionesparciales de cualesquiera dos de ellos (patología leve) o a loscasos en que sólo se cumple uno (patología grave).

59I. Hacia una evaluación... l

e) Selección. Nos hemos referido antes a las razones de diversoorden que impiden ajustarnos a unos requisitos metodológicos. Escierto, en este sentido, que en muchas ocasiones no será posibleun muestreo probabilístico, sea porque los usuarios de undeterminado programa serán todos los sujetos en los que se hadetectado determinada necesidad (carácter censal del grupo desujetos), o porque la incorporación al programa se realiza enfunción de la aparición del caso y mientras se cuente conrecursos. No obstante, en algunas ocasiones, especialmente enprogramas institucionales dirigidos a amplios colectivos, y sin quepretendamos ser reduccionistas, sí cabe una selección muestralde usuarios, con el fin de que sobre esta base se puedan realizarinferencias a la totalidad de la población. Ello implica un gradomedio de intervención (metodología selectiva) ya que existeelicitación de respuestas al usuario, puesto que debe aportar lainformación que se le pide, habitualmente se utilizan entrevistas,encuestas, o cuestionarios, y en todos estos casos -con maticesentre ellos- el objetivo último es el manejo de datos cuantitativos,por lo que se deberá proceder previamente a una codificación delas respuestas, o a un análisis de contenido si se trata de itemsabiertos. En este caso la información se recoge únicamentesobre una fracción de la población, representativa de la misma,denominada muestra, cuyos elementos se determinan mediantealgún diseño muestral de tipo probabilístico (Martínez Arias, 1995).

B) Naturaleza de los datos

Dada la amplia casuística de las acciones de un programa, losdatos que se obtienen de los usuarios pueden tener variadanaturaleza. Pueden contemplarse diversos criterios:

A. Cualitativos/cuantitativo. Se trata de una cuestión que haresultado ser altamente polémica (Alvira, 1983; Cook y Reichardt,1986; Fernández-Ballesteros, 1995; Hernández López, 1995; Ianni yOrr, 1986; Trend, 1986), y de la que nos hemos ocupadoanteriormente.

B. Según características del instrumento. Las técnicas derecogida de datos aportan datos de una u otra naturaleza, que guarda

60 l Estrategias de Evaluación y Medición...

una relación -no absoluta- con el carácter del instrumento utilizado,cuestión que interactúa frecuentemente con el carácter cualitativo,cuantitativo o de complementación entre ellos.

El evaluador dispone de una gama de técnicas de recogida dedatos que comprenden desde las que requieren una interacciónmínima con un programa (como medidas discretas o revisión de losdatos archivados) a las que implican una moderada interacciónpersonal con la situación (como escalas, tests y encuestas) y las querequieren una interacción activa con los usuarios del programa (comoobservación y entrevistas poco estructuradas).

C. Sistema de registro. Sin perder la vinculación con lossubcriterios anteriores, hay también que considerar la forma cómo serecoge la información (Hernández López, 1995), optando por unsistema escrito, oral, mecánico, automático, icónico, etc., que facilitesu almacenamiento.

El plano en que se sitúa el registro deberá permitir una necesariaelaboración posterior, y consecuentemente, la codificación haráposible la transformación de una información inicial, muchas vecesnarrativa, a un sistema de símbolos altamente estructurado y quepermita un tratamiento cuantitativo.

C) Momento temporal

La tercera dimensión hace referencia a cuándo se lleva a cabo larecogida de datos, y las posibilidades más diferenciadas, al margende que quepan diversas posiciones intermedias relativas a puntos decorte en el proceso de implementación, son:

A. Puntual. La recogida de información tiene lugar sólo en unmomento temporal, que suele ser una vez se terminó de implementarel programa. Habitualmente se utilizan instrumentos estándar para darcuenta de los resultados.

B. Seguimiento. El seguimiento o continuidad prospectiva sigue elcurso de un proceso en la recogida de datos, y en cada fase delproceso cabe obtener y analizar los datos.

Asimismo, cabe distinguir el seguimiento intersesional y el

61I. Hacia una evaluación... l

intrasesional:

- El seguimiento intersesional o extensivo se apoya únicamente enun análisis descriptivo de datos relativo a una serie o conjunto desesiones a partir del parámetro frecuencia en la recogida de datos.

- El seguimiento intrasesional o intensivo requiere el parámetroorden en la recogida de datos, no siendo suficiente el defrecuencia; no olvidemos en este sentido que los parámetrosprimarios frecuencia, orden y duración se vinculan entre símediante relaciones progresivas de inclusión.

Por supuesto cabe combinar ambos tipos de seguimiento(seguimiento intersesional-intrasesional).

C. Continuidad retrospectiva. Se plantea esencialmente un tiempodespués de haber terminado la implementación de un programa. Esfrecuente la evaluación retrospectiva en estudios de impacto (social yambiental).

Los principales problemas que plantea se refieren a la validez de lainformación recogida:

- Si es material de archivo, se pudo haber recogido mediantecriterios distintos de los que ahora interesan para la evaluación.

- Si se requieren informantes, o se recoge la información de losusuarios, la información elicitada puede estar afectada de olvido,distorsión, o falta de contextualización adecuada por el tiempotranscurrido.

5.2. Diseños adaptativos

Una de las primeras preocupaciones que plantea la evaluación deprogramas de baja intensidad debe ser la elaboración de un adecuadodiseño, término que utilizamos desde su acepción no normativa, y portanto sin que implique una construcción estándar. Entendemos eldiseño en evaluación de programas de baja intensidad como laestrategia integral del proceso, y, en consecuencia, el curso de accióno secuencia de decisiones acerca de cómo recoger, organizar yanalizar los datos de la actividad cotidiana que nos interesa, siempre

62 l Estrategias de Evaluación y Medición...

subordinado, claro está, a la fijación de los objetivos del programa.

Un programa de intervención, cualquiera de ellos, se hallaestructurado sobre la base de un sistema de factoresinterrelacionados que actúan de una u otra forma en referencia altiempo. Son menos frecuentes los casos en que interesa unaevaluación de un programa de intervención realizada puntualmente enun momento determinado, ya que dicha instantánea cercenaríacualquier perspectiva de la dinámica del proceso, pero pueden resultarútiles como información insertada en determinados momentos de unaintervención prolongada (Johanson, 1991); y son habituales los casosen que conviene conocer cómo actúan los usuarios de un programa alo largo de una determinada continuidad temporal en su vida cotidiana.

Son diversos los criterios que se pueden tomar como punto dereferencia para establecer una casuística primero, y una taxonomíadespués, de los diseños evaluativos de baja intensidad (Anguera,1991c) y llevar a cabo posteriormente su desarrollo sistemático.Tendremos en cuenta para ello, como se apuntó anteriormente, que lametodología de investigación más adecuada en estas situaciones esla observacional (sin olvidar su posible complementación con laselectiva).

Lo ilustra el ejemplo siguiente: Si debemos evaluar un programa derehabilitación de carácter cognitivo-conductual que se aplica en uncentro adecuado a un grupo de personas de tercera edad conproblemas de locomoción, y la intervención se focaliza en aspectoscomo estabilidad, equilibrio, etc., resulta más recomendable el uso detécnicas de registro que, de forma sistemática, sean capaces de daruna información adecuada al respecto. Y en este caso deberíanelaborarse instrumentos ad hoc (sistemas de categorías o formatos decampo) que abarcasen el «universo» de conductas realizables en losámbitos mencionados, para poder registrar tanto las concurrenciasentre categorías o códigos de dichos sistemas (perspectivamultidimensional, por la confluencia de los sistemasunidimensionales) como su secuenciación, con el fin de estudiar laconsistencia de las configuraciones de conductas registradas enambos casos. Ello sugeriría como altamente recomendable un

63I. Hacia una evaluación... l

registro continuo en todas las sesiones previamente fijadas en funciónde los criterios de muestreo observacional que se arbitrasen, y a suvez, que el seguimiento se prolongase -mediante la fijación de lascorrespondientes sesiones de registro- con una cobertura temporalabarcadora de la estancia del usuario del programa en el centro derehabilitación, dado que el concepto «rehabilitación», en aras al cualse interviene, no presenta un alcance o momento final delimitadocomo en el ejemplo anterior, y para tener garantía de su certeza(relación de causalidad entre la intervención y los efectos) serequerirían muchas más contrastaciones empíricas.

De ahí que exista una indudable necesidad de estructuración eneste ámbito, en el que deben fijarse las coordenadas básicas, paradespués incidir en aquellas cuestiones de carácter metodológico quesupongan una optimización en el correspondiente diseño evaluativo.No es éste el momento de desarrollar toda la estructura que en laactualidad se ha elaborado acerca de estos diseños de baja intensidadinterventiva, ni de enfatizar la tarea que aún queda pendiente en estesentido, pero sí juzgamos adecuado mencionar únicamente unaspautas básicas en las cuales, de forma adaptativa, sea posible situarcualquier estudio evaluativo de actividad cotidiana.

Además, debemos ser conscientes de que la Administración ymúltiples instituciones se plantean como tarea obligada la evaluaciónde los programas que se implementan, y en la gran mayoría de losprogramas que seguimos en nuestra actividad cotidiana laAdministración (estatal, autonómica, local, o simplementeinstitucional) es la patrocinadora. Flota en la atmósfera el hecho deque se consumen recursos (que son públicos en el caso de laAdministración, así como en el de numerosas instituciones), y elloconlleva además su forzosa evaluación por parte de los patrocinadorespara dar cuenta de dichos recursos, tanto si son públicos comoprivados.

Los dos criterios que entendemos más útiles para delimitar losdiseños evaluativos de baja intensidad son:

1) En primer lugar, un criterio básico es el carácter idiográfico onomotético en función de los usuarios del programa de

64 l Estrategias de Evaluación y Medición...

intervención. No siempre adquiere la misma relevancia, peroplantea importantes cuestiones a nivel metodológico (Posavac &Carey, 1986) según se trate de sujetos individualmenteconsiderados o de una colectividad (o muestra representativa deella), si atendemos a la propuesta clásica de Allport (1942) enrelación a los términos idiográfico vs. nomotético.

Ahora bien, a tal propuesta se han incorporado variantesadaptativas a las diversas situaciones evaluativas:

a. Se considerarán también como idiográficos estudios queamplían o restringen la propuesta clásica consistente en un individuo.Por una parte, entre los primeros se hallarán todos aquellos casos enque los usuarios son varios individuos entre los cuales existe uncriterio de afinidad, agrupación, o reglas del juego a seguir; porejemplo, un programa de intervención familiar, independientemente decuántas personas componen aquella unidad familiar. Y, por otra parte,los que restringen el concepto clásico de idiográfico se centran en unsolo nivel de respuesta, sea de un individuo único, o de varios; porejemplo, si consideramos únicamente el nivel de conducta verbal, yevaluamos la resolución de un conflicto entre miembros de una familiaa partir de la discusión de los respectivos puntos de vista y balanceentre pros y contras de cada opción de solución.

b. Nomotéticas serán también aquellas variantes en que,independientemente de que tengamos un usuario o un grupo deusuarios, interesan varios niveles de respuesta. Así, en un programade atención psicológica a enfermos infartados y sus familiaresinteresan los niveles de respuesta verbal y no verbal. Luego,nomotéticos serán todos aquellos diseños evaluativos en que seconfigura un elemento de pluralidad de unidades, sean individuos(propuesta clásica) o niveles de respuesta (variante posteriormenteintroducida).

Una vez delimitado el número de participantes en un estudioevaluativo (individuos sobre los que se interviene), el evaluador deberádecidir si todos deberán formar parte o no de la correspondienteevaluación, o incluso vincular esta decisión a distintas fases delproceso.

65I. Hacia una evaluación... l

Los principales argumentos a favor de la inclusión del colectivocompleto o de una muestra representativa del mismo son de índolemetodológica (análisis de los efectos en toda la cobertura relativa apersonal), pero también ética, y, en ocasiones, política. Así, encentros asistenciales infantiles (Chacón y López, 1993, 1995); o biensi un centro hospitalario ofrece una unidad de atención psicológica aenfermos infartados por segunda vez, y es mayor la demanda que elnúmero de plazas que puede cubrir el servicio, ¿se podría hablar de uncriterio más “ético” que otros?, ¿cabe, desde los principios éticos,extraer una muestra representativa cuando todo el colectivo presentaun mismo tipo de necesidad demandada?

No faltan tampoco argumentos para el estudio evaluativo de los

efectos de un programa en fases diferenciadas, de forma que a un

primer análisis efectuado de forma nomotética le sigue un segundo

basado en el estudio de sujetos individuales. La perspectiva idiográfica,

desde la expansión e incidencia actual de la Psicología de las

diferencias individuales, está alcanzando una gran relevancia en la

implementación y evaluación de programas sociales y sanitarios.

Cada vez los profesionales son más sensibles a la consideración

diferencial de sujetos que por su trayectoria vivida (circunstancias

personales, «event-life», rasgos de personalidad, etc.), requieren un

análisis específico e individualizado de los efectos de un determinado

programa de intervención. Pensemos en niños con trastornos

comportamentales en el aula y con historias de vida absolutamente

distintas (Herrero, 1989), o en enfermos con repetidos infartos que

tenían muy diferente nivel de calidad de vida (Tuset, 1990), o en

internos penitenciarios que cumplen una condena de igual duración a

partir de un historial personal y delictivo completamente distinto

(Redondo, 1992), o en deportistas que presentan determinadas

peculiaridades en sus tácticas de juego (Hernández Mendo y Anguera,

1998).

2) Temporalidad del registro. La configuración básica de los diseños

diacrónicos se articula además en torno a este criterio, que

permite distinguir entre registro puntual y seguimiento. El registro

66 l Estrategias de Evaluación y Medición...

puntual permitirá realizar un análisis de la situación en un

momento dado en el tiempo, mientras que el seguimiento implica

disponer de un determinado número de sesiones a lo largo del

período de implementación del programa.

Este criterio permite tener también en cuenta el punto de partida

(previo, durante, o después de la aplicación de la intervención, o,

expresado en otros términos, de la implementación del programa), y el

periodo de cobertura en la recogida de datos (hasta el fin de la

intervención, seguimientos puntuales periódicos hasta un determinado

momento, ídem con un seguimiento continuo, etc.).

Es muy fácil argumentar cuál es el óptimo o ideal, partiendo del

presupuesto de la existencia de recursos suficientes: Evidentemente,

desde antes del inicio de la intervención, durante el tiempo que

implique su puesta en práctica, y efectuando un seguimiento posterior

a medio o largo plazo que posibilite un análisis riguroso de los efectos

del programa.

Ahora bien, las distintas posibilidades que implica el barajar estos

elementos, la necesidad de adecuarse a recursos generalmente

limitados (Fienberg & Tanur, 1987), y la propia naturaleza de la

intervención, deben dar lugar a las decisiones relativas al registro

(cómo, desde cuándo, hasta cuándo, con qué periodicidad, con qué

garantías en la formación del personal que participa en la evaluación,

etc.), en el más amplio sentido del término (Blanco y Anguera, 1991).

Finalmente, será conveniente distinguir, en este criterio relativo al

carácter continuo o discreto de la observación a lo largo del tiempo,

entre la recogida de datos actuales (Plewis, 1985), y los retrospectivos

(Holland & Rubin, 1988), como por ejemplo los referidos a material de

archivo, tanto si se trata de datos censales o estadísticos, como de

protocolos o informes personales (autobiográficos o realizados por

terceras personas), siempre que se mantenga la homogeneidad de los

criterios seguidos en su recogida y, en su caso, codificación (como

categorías en un análisis de contenido de autoinformes), y no

entorpezca su utilización el tan frecuente problema de los missing

67I. Hacia una evaluación... l

data (Little & Rubin, 1987).

En la Figura 1 se expresan gráficamente los cuadrantes

resultantes, de los cuales, los I, III y IV darán lugar, respectivamente,

a los diseños diacrónicos, sincrónicos y mixtos:

IDISEÑOS DIACRÓNICOS

Seguimiento

II

Puntual

IDISEÑOS MIXTOS O

LAG-LOG

IIIDISEÑOS SINCRÓNICOS

DISEÑO IDIOGRÁFICO

IDISEÑOS DIACRÓNICOS

Seguimiento

II

Puntual

IDISEÑOS MIXTOS O

LAG-LOG

IIIDISEÑOS SINCRÓNICOS

DISEÑO IDIOGRÁFICO

Figura 1. Diseños evaluativos de baja intensidad: Tipos básicos.

Limitaciones de espacio no nos permiten desarrollar cada uno de

estos diseños evaluativos de baja intensidad interventiva, pero sí

queremos finalizar diciendo que la amplia casuística existente en

actividad cotidiana se puede ubicar en su totalidad en los cuadrantes

I, III y IV. Cada uno de estos grandes tipos de diseños da lugar, a su

vez, a otros diseños más específicos en función de diversos criterios7 ,

y nos interesa destacar especialmente que en todos ellos –que se

apoyarán en los datos obtenidos en la fase inicial mediante la

metodología cualitativa- se implican unos análisis cuantitativos

depurados que aportarán la respuesta relativa a la eficacia del

7 Así, los diseños diacrónicos pueden ser extensivos –y éstos, a su vez, depanel, de tendencia, de series de tiempo- e intensivos –que se desglosan, asu vez, en secuenciales y de coordenadas polares; los diseños sincrónicospueden ser simétricos y asimétricos; y los mixtos o lag-log dan lugar, a suvez, a veinticuatro diseños, que se obtienen en función del carácter extensivovs. intensivo del diseño, combinación del número de usuarios con el deniveles de actuación o de respuesta, y naturaleza del tipo de relación entreunidades.

68 l Estrategias de Evaluación y Medición...

programa evaluativo que se trata de evaluar.

En cualquier caso, el anverso y reverso de la moneda estáservido: Flexibilidad adaptativa a la situación evaluativa, por una parte,y gran rigor metodológico, por otra.

5.3. Conflictos entre la praxis y los requisitos metodológicos

La evaluación de programas de baja intensidad interventivaimplementados en algún ámbito de actividad cotidiana se desarrolla alo largo de un proceso lógico que sustancialmente no difiere delproceso de investigación en un ámbito aplicado, en que se cuentacon una realidad compleja, pero tangible, en programas en que seimplementan acciones que a veces no se ajustan al calendario, o queno se ejecutan por igual en todos los sujetos, pero en dónde el qué, elcómo y el cuándo son registrables. El sector de la actividad cotidianaen que se ubica la necesidad, las características del entorno en que seenclava, y la propia naturaleza de la carencia condicionan la ampliacasuística de programas, y sobre todo, les imponen fuerteslimitaciones que chocan frontalmente con los requisitos que impone elrigor del método científico.

Presentamos a continuación una relación de puntos de colisiónhabituales entre los requisitos metodológicos y la deformación que setiende a producir en la realidad, propiciado por la rutina, las dificultadesreales que ofrece la praxis diaria, y, en definitiva, bajo el amparo de laAdministración y las instituciones. Con ello pretendemos únicamenteponer en dedo en la llaga de múltiples desajustes que se estánproduciendo en nuestros días, en cualquier población de nuestro país,y a los que cualquier ciudadano estamos expuestos en nuestraactividad cotidiana (Anguera, en prensa). Por suerte, no se producentodos ellos ni siempre ni en cualquier evaluación de programas, peroestán ahí, constituyendo un reto pendiente de solución:

A. Detección y priorización de necesidades. Todo programa seelabora –mediante el concurso de expertos- a partir de una previadetección de necesidades o carencias. La detección denecesidades dispone de sus propias técnicas de objetivación, pero

69I. Hacia una evaluación... l

está en muchas ocasiones sesgada por un especial interés“direccionado” de la Administración y/o las instituciones enpriorizar aquellos ámbitos de actuación en los que mejor pueden“lucirse” con posterioridad; una ocasión propicia para ello lahallamos cuando se acude a determinados informantes-clavehaciendo uso de una de las técnicas posibles para la detecciónde necesidades. Asimismo, la priorización de necesidades deberíaefectuarse en función de los informes de los técnicos, de maneraque estableciera una gradación en cuanto a intensidad de lascarencias detectadas; pero son los políticos los que ordenan deforma priorizada tales necesidades, con la tentación de actuarcon miras electoralistas.

B. Evaluación de resultados vs. de proceso. La evaluación deresultados ha sido tradicionalmente el modelo evaluativo(evaluación sumativa) en que se han basado la Administración ylas instituciones de muchos países europeos hasta la década delos ochenta, y todavía es seguido parcialmente en España.Metodológicamente presenta el grave problema de que laimplementación del programa actúa como una “caja negra”, ya queno se someten a evaluación más que los resultados finales, con elconsiguiente riesgo que conlleva la debilidad inherente a errorescometidos en cualquier momento del proceso, versus las ventajasde una evaluación de proceso (evaluación formativa), en la cualcada fase se evalúa.

C. Selección de usuarios. En los manuales metodológicos, ysimplificando mucho, se insiste en la práctica –casi podríamosdecir que se fuerza a su opción- del muestreo probabilístico si seopta por una vía deductiva, y por tanto, siempre que nos situemosbajo la cobertura de un marco teórico consolidado. Este muestreoprobabilístico, por ser equiprobable, además de representativo,¿garantizaría el componente de equidad en los potencialesusuarios?, ¿cómo los funcionarios de una determinadaAdministración deciden los usuarios de un programa? En elmomento en que bajamos a la arena de lo cotidiano en evaluaciónde programas, si tenemos que evaluar un programa domiciliario deatención geriátrica se descarta de entrada una respuesta

70 l Estrategias de Evaluación y Medición...

afirmativa, ya que serán los propios usuarios, o sus allegados, olos responsables de Servicios Sociales de la zona, los que trataránde recabar la adscripción al programa. Aquí no cabe de plano elmuestreo probabilístico (los distintos casos no son equiproblables,ni se eligen al azar, y ni siquiera se puede afirmar, al menos deforma general, que sean representativos del colectivo afectado porla necesidad), independientemente de que exista o no undeterminado marco teórico relativo al problema y a su probableintervención, e independientemente también de que existansuficientes recursos (humanos, temporales, económicos, etc.)para que todos ellos sean atendidos. En consecuencia, nopodemos hablar de equidad desde el mismo momento en que seplantease una selección mediante muestreo probabilístico deusuarios.

D. Uso de instrumentos. La tendencia habitual que se ha seguido por

la Administración y las instituciones ha sido la de utilizar

instrumentos preexistentes, incluso en aquellos casos en que

resulta forzada o incluso inadecuada la adecuación de su uso. No

siempre se tienen en cuenta las garantías métricas, yfrecuentemente, en lugar de elaborar instrumentos específicos adhoc, se llevan a cabo traducciones simples de instrumentos

baremados en otros países. Además, en muchos programas de

baja intensidad la intervención se efectúa en contextos naturales,

en donde debe recogerse información en forma de registros de

conducta o de material documental, y en estos casos, resultaimprescindible la elaboración de un instrumento ad hoc(especialmente en forma de sistemas de categorías y de formatos

de campo), lo cual no se tiene en cuenta en numerosas ocasiones,

forzándose el uso de otros instrumentos ya elaborados que

carecerán, en consecuencia, del carácter sumamente específico

que se requiere.

E. Elaboración de estándares de calidad. En la actualidad se ha idoimponiendo la elaboración de estándares de calidad, pero sólo se

logra satisfactoriamente en pocas ocasiones. En muchas

instituciones se apuesta en este sentido, pero se carece de la

71I. Hacia una evaluación... l

necesaria formación de los profesionales para lograrlo con éxito,

obteniéndose unos estándares sesgados y sin la suficiente

garantía como tales.

F. Monitorización de casos. La monitorización de casos implica unaatención continuada a la implementación adaptada del programa,

así como a la recogida de datos y al “ritmo” propio de cada uno de

los usuarios en su actividad cotidiana, frente a unas pautas

habitualmente más rígidas que se propician desde la

Administración y las instituciones. Si pensamos, por ejemplo, en

un programa de atención domiciliaria a la tercera edad, deberemosintroducir la necesaria flexibilidad en cada uno de los usuarios

atendidos para lograr una adecuada adaptación a la especificidad

de aquel caso concreto.

G. Equilibrio entre eficacia/eficiencia/equidad. Estos tres

componentes de la evaluación constituyen un triángulo entre cuyos

vértices habitualmente se establece una tensión importante. Laequidad en muchas ocasiones colisiona con la eficacia, y, de

forma más sutil, ésta con la eficiencia. Si en una Comunidad

Autónoma se decide adquirir un equipo quirúrgico de elevada

especialización en unidades de vigilancia intensiva, de forma que

se prevea un grado muy elevado de eficacia, ¿dónde se instala?

Con toda seguridad la equidad es utópica en este caso, ya que aalgunos ciudadanos les será muy fácil por cercanía el ingreso en

el centro en que se instale, mientras que a otros el acceso

resultará más complicado.

H. Evaluación económica de costo-utilidad. La evaluación económica

completa de programas se asentaba esencialmente en el costo-

eficacia y en el costo-beneficio, sin considerar en ningún momentoel feed-back del usuario, al que la Administración y las

instituciones no le “oían”. Por suerte, en estos últimos años ha

ganado terreno el análisis económico de costo-utilidad, en donde

la satisfacción del usuario-ciudadano se tiene en cuenta y se

operativiza, pudiendo incidir en la progresiva implementación del

programa.

72 l Estrategias de Evaluación y Medición...

6. Epílogo: ¿Realidad actual de la metodología o reto para elfuturo?

Es momento de hacer balance, de reflexionar críticamente, y deanalizar las vicisitudes que ha supuesto la evaluación de la actividadcotidiana y su contexto, partiendo de la realidad histórica de quedurante el último cuarto de siglo hemos podido asistir a escenarios yvaloraciones muy diversas sobre el fondo y la forma.

El fondo o ámbito sustantivo ha sido juzgado como irrelevante enmuchas ocasiones, objetivo plano al que no valía la pena dedicarleesfuerzos, pero que paulatinamente ha adquirido vitalidad yconsistencia. Por suerte, cada vez son más los estudios, artículos enpublicaciones periódicas, comunicaciones en eventos científicosnacionales e internacionales, y proyectos en los cuales diversassituaciones propias de la vida cotidiana, o, expresado en otrostérminos, evaluación del comportamiento en contextos naturales ohabituales, interesan cada vez en mayor medida a científicos,profesionales y Administraciones diversas. La edad de oro de estudiosrealizados en un marco artificial ha dado paso a objetivos mucho máshumildes –la cotidianeidad no aparece reseñada en los Tesauros odirectorios- pero a la vez mucho más grandes si medimos surelevancia desde criterios sociales, éticos y metodológicos.

En cuanto al procedimiento o forma de llevar a cabo este tipo deestudios, podemos congratularnos de una legítima satisfacción sitenemos en cuenta las metas alcanzadas y la experiencia adquiridaen investigaciones diversas. Constituyen ya un elenco relevante losámbitos diversos de la cotidianeidad que han sido evaluados medianteun buen número de programas de baja intensidad interventiva, ygracias a ellos, se ha dotado a la metodología de elementos, técnicasy recursos que incrementan potencialmente la validez de susresultados.

Pero no está ni mucho menos completada la tarea, que siguesiendo un reto para el futuro. Existen diversas cuestiones pendientes,como la inclusión de moduladores en el sistema de categorías, o eldesarrollo analítico de los 24 diseños mixtos o lag-log, por citaralgunas, que necesitan aún dedicación para que produzcan sus

73I. Hacia una evaluación... l

frutos. La depuración metodológica es una realidad tangible enmuchos aspectos, pero constituye igualmente un reto para el futuroque hay que vencer. La objetividad y rigurosidad sin concesiones enestudios sumamente complejos por su propia naturaleza debefructificar en pos del avance del conocimiento, sin duda, pero tambiény especialmente, revirtiendo en beneficio de la sociedad y de losciudadanos que la conforman.

REFERENCIAS

Aguilar, M.J. y Ander-Egg, E. (1992). Evaluación de servicios yprogramas sociales. Madrid: Siglo XXI.

Alberty, S. & Mihalik, B.J. (1989). The use of importance-performance analysis as an evaluative technique in adulteducation. Evaluation Review, 13 (1), 33-44.

Alexander, C. (1964) Notes on the synthesis of form. Cambridge,Mass.: Harvard University Press.

Allport, G.W. (1942). The use of personal documents inpsychological science. New York: Social Science Research.

Altman, I. (1975) Environment and social behavior: Privacy, personalspace, territory and crowding. Monterrey, Calif.: Brooks Cole.

Altman, I. & Haythorn, W. (1967) Ecology of isolated groups.Behavioral Science, 12, 169-182.

Altman, I. & Wohlwill, J.F. (1977) Human behavior and environment:Advances in theory and research, vol. 2. New York: PlenumPress.

Altmann, J. (1965). Sociobiology of rhesus monkeys. II. Stochasticsof social communication. Journal of Theoretical Biology, 8, 490-552.

Alvira, F. (1983). Perspectiva cualitativa – Perspectiva cuantitativaen la metodología sociológica. Revista Española deInvestigaciones Sociológicas, 22, 53-75.

74 l Estrategias de Evaluación y Medición...

Anguera, M.T. (1985a) Establecimiento de pautas para la viabilidaden la categorización y reducción de datos en la transformaciónde marcos de conducta. Documento no publicado. Barcelona:Universidad de Barcelona.

Anguera, M.T. (1985b). Posibilidades de la metodología cualitativavs. cuantitativa. Revista de Investigación Educativa, 3 (6), 127-144.

Anguera, M.T. (1986). Investigación cualitativa. Educar, 10, 23-50.

Anguera, M.T. (1989). Innovaciones en la metodología de evaluaciónde programas. Anales de Psicología, 5, 13-42.

Anguera, M.T. (1990a, Diciembre). Interacción ambiente-conducta:Bases metodológicas y pautas para su evaluación. IV Seminariode Psicología El ambiente en la Psicología actual, organizadopor «Si ..., entonces ...». Tarragona.

Anguera, M.T. (1990b). Programas de intervención. ¿Hasta quépunto es factible su evaluación? Revista de InvestigaciónEvaluativa, 8 (16), 77-93.

Anguera, M.T. (1991a). Metodología en la Psicología Ambiental.En Psicología Ambiental. Etiología de la conducta (pp. 53-66). Oviedo: Servicio de Publicaciones de la Universidad deOviedo.

Anguera, M.T. (1991b) Proceso de categorización. En M.T. Anguera(Ed.) Metodología observacional en la investigación psicológica.Barcelona: P.P.U., vol. I.

Anguera, M.T. (1991c). Evaluación de comportamientos en contextosnaturales. Revista de Psiquiatría de la Facultad de Medicinade Barcelona, 18 (6), 277-287.

Anguera, M.T. (1995a). Metodología cualitativa. En M.T. Anguera,J. Arnau, M. Ato, R. Martínez, J. Pascual y G. Vallejo,Métodos de investigación en Psicología (pp. 513-522). Madrid:Síntesis.

75I. Hacia una evaluación... l

Anguera, M.T. (1995b). Metodología de la evaluación: Evaluacióncualitativa frente a evaluación cuantitativa. En La evaluación... ¿Proceso final? Actas de las VI Jornadas Municipales dePsicopedagogía (pp. 27-36). Torrent (Valencia): GabinetePsicotécnico Municipal.

Anguera, M.T. (1998). Metodología de la investigación en programascomunitarios. En E Rebolloso (Ed.), Evaluación de programas.Ámbitos de intervención (pp. 77-103). Barcelona: TextosUniversitarios “Sant Jordi”.

Anguera, M.T. (2000). Diseños de evaluación de programas: ¿Unreto para la Administración y las instituciones? En A. Blanco,D. Rojas, L. de la Corte, J.D. Delius, J.J. Miguel Tobal, R.Fernández-Ballesteros, M.T. Anguera y M.J. Díaz-Aguado,Psicología y Sociedad (pp. 127-158). Valencia: Real SociedadEconómica de Amigos del País.

Anguera, M.T. (Ed.) (en preparación). Evaluación de programassociales y sanitarios. Abordaje metodológico.

Anguera, M.T. y Losada, J.L. (1999). Reducción de datos en marcosde conducta mediante la técnica de coordenadas polares. EnM.T. Anguera (Coord.). Observación de la conducta interactivaen marcos naturales: Aplicaciones (pp. 163-188). Barcelona:EUB.

Appleyard, D., Lynch, K. & Meyer, J. (1966) The view from theroad. Cambridge, Mass.: M.I.T. Press.

Aragonés, J.I. (1983) Marcos de referencia en el estudio de losmapas cognitivos de ambientes urbanos. Estudios dePsicología, 14-15, 36-84.

Bailey, T., Branch, C. & Taylor, C.W. (Eds.) (1961) Architecturalpsychology and psychiatry: An exploratory national researchconference. Salt Lake City: University of Utah.

Bakeman, R. y Gottman, J.M. (1989). Observación de la interacción:Introducción al análisis secuencial. Madrid: Morata (ed. orig.,1986).

76 l Estrategias de Evaluación y Medición...

Barker, R.G. (Ed.) (1963) The stream of behavior. New York:Appleton-Century-Crofts.

Barker, R.G. (1968) Ecological Psychology: Concepts and methodsfor studying the environment of human behavior. Stanford:Stanford University Press.

Barker, R.G. (1978) Behavior settings. In R.G. Barker (Ed.) Habitats,environments, and human behavior: Studies in ecologicalpsychology and ecobehavioral science from the MidwestPsychological Field Station, 1947-1972 (pp. 29-35). SanFrancisco: Jossey-Bass.

Becker, H. & Geer, G. (1957). Participant observation andinterviewing: A comparison. Human Organization, 16 (3), 28-32.

Benedict, M.B., Glasser, J.H. & Lee, E.S. (1989). Assessinghospital nursing staff retention and turnover. A life tableapproach. Evaluation & Health Professions, 12 (1), 73-96.

Benoliel, J.Q. (1984). Advancing nursing science: Qualitativeapproaches. Western Journal of Nursing Research, 6, 1-8.

Bertrand, J.T., Stover, J. & Porter, R. (1989). Methodologies forevaluating the impact of contraceptive social marketingprograms. Evaluation Review, 13 (4), 323-354.

Blanco, A. (1983) Análisis cuantitativo de la conducta en suscontextos naturales: Desarrollo de un modelo de series dedatos para el establecimiento de tendencias, patrones ysecuencias. Tesis Doctoral no publicada. Barcelona:Universidad de Barcelona.

Blanco, A. (1997). Metodologies qualitatives en la investigaciónpsicológica. Barcelona: Edicions de la Universitat Oberta deCatalunya.

Blanco, A. y Anguera, M.T. (1991). Sistemas de codificación. EnM.T. Anguera (Ed.), Metodología observacional en lainvestigación psicológica (pp. 193-239). Barcelona: P.P.U., Vol.I.

77I. Hacia una evaluación... l

Blaxter, M. (1979). Symposium on the handling on qualitative data.Introduction. Sociological Review, 27 (4), 649-650.

Bogdan, R. & Taylor, S.J. (1975). Introduction to qualitative researchmethods. New York: Wiley & Sons.

Boruch, R.F. & Pearson, R.W. (1988). Assessing the quality oflongitudinal surveys. Evaluation Review, 12 (1), 3-58.

Bulmer, M. (1979). Concepts in the analysis of qualitative data.Sociological Review, 27 (4), 651-677.

Calhoun, J.B. (1962) Population density and social pathology.Scientific American, 206, 138-148.

Calhoun, J.B. (1964) The social use of space. In W. Mayer & R.Van Gelder (Eds.) Physiological mammalogy. New York:Academic Press.

Canter, D. (Ed.) (1970) Architectural Psychology: Proceedings ofthe Dalandhui Conference. London: RIBA Publications.

Canter, D. & Lee, T. (Eds.) (1974) Psychology and the builtenvironment. Proceedings of the Architectural PsychologyConference at Surrey, England. New York: Wiley.

Cassirer, E. (1950). The philosophy of symbolic forms. New Haven,Con.: Yale University Press.

Chacón, S. y López, J. (1993). La metodología de la evaluación deprogramas de intervención: Una aplicación en centrosasistenciales infantiles. Apuntes de Psicología, 37, 41-60.

Chacón, S. y López, J. (1995). La metodología de la evaluación deprogramas de intervención: Una aplicación en centrosasistenciales infantiles, II. Apuntes de Psicología, 45, 69-89.

Chelimsky, E. (1995). Where we stand today in the practice ofevaluation: Some reflections. Knowledge and Policy: TheInternational Journal of Knowledge Transfer and Utilization, 8(3), 8-19.

Cohen, E. y Franco, R. (1992). Evaluación de Proyectos Sociales.Buenos Aires: Grupo Editor Latinoamericano.

78 l Estrategias de Evaluación y Medición...

Coll, C. (1981) Algunos problemas planteados por la metodologíaobservacional: Niveles de descripción e instrumentos devalidación. Anuario de Psicología, 14 (1), 111-131.

Condon, W.J. & Ogston, W.D. (1967) A segmentation of behavior.Journal of Psychiatric Research, 5, 221-235.

Cook, T.D. y Reichardt, Ch.S. (Eds.) (1986). Métodos cualitativosy cuantitativos en investigación evaluativa. Madrid: Morata.

Cordray, D.S., Bloom, H.S. & Light, R.J. (Eds.) (1987). Evaluationpractice in review. San Francisco: Jossey-Bass.

Craik, K. (1973) Environmental Psychology. Annual Review ofPsychology, 24, 403-422.

Curry, R.H., Yarnold, P.R., Bryant, F.B., Martin, G.J. & Hughes,R.L. (1988). A path analysis of medical school and residencyperformance. Implications for houssestaff selection. Evaluation& Health Professions, 11 (1), 113-129.

Dawson, N.V. & Cebul, R.D. (1990). Advances in quantitativetechniques for making medical decisions. The last decade.Evaluation & Health Professions, 13 (1), 37-62.

Delgado, R.R. & Delgado, J.M.R. (1962). An objective approach tomeasurement of behavior. Philosophy of Science, 29, 253-268.

Denzin, N.K. (1970). The research act: A theoretical introduction tosociological methods. New York: McGraw-Hill.

Dickmann, H.R. (1963) The perception of behavioral units. In R.G.Barker (Ed.) The stream of behavior (pp. 23-41). New York:Appleton-Century-Crofts.

Donabedian, A. (1980). The definition of quality and approaches toits assessment. Ann Arbor: Health Administration Press, 2vols.

Erickson, F. (1977). Some approaches to injury in school-communityethnography. Anthropology and Education Quarterly, 8, 58-69.

Erickson, F. (1986). Qualitative methods in research on teaching.In M.C. Wittrock (Ed.), Handbook of research on teaching.New York: McMillan.

79I. Hacia una evaluación... l

Esser, A.H. (Ed.) (1971) Behavior and environment. New York:Plenum Press.

Fernández Ballesteros, R. (1987, Septiembre). Ciencia, ideología ypolítica en evaluación de programas. Conferencia pronunciadaen el curso “Evaluación de programas y servicios para elbienestar social: Un enfoque pluridisciplinario”. Santander:Universidad Internacional Menéndez Pelayo.

Fernández-Ballesteros, R. (1995). Cuestiones conceptuales básicasen evaluación de programas. En R. Fernández-Ballesteros(Ed.), Evaluación de programas. Una guía práctica en ámbitossociales, educativos y de salud (pp. 21-47). Madrid: Síntesis.

Fienberg, S.B. & Tanur, J. (1987). The design and analysis oflongitudinal surveys: Controversies and issues of costs andcontinuity. In R.F. Boruch & R.W. Pearson (Eds.), Designingresearch with scarce resources. New York: Springer-Verlag.

Filstead, W. (1986). Métodos cualitativos. Una experiencia necesariaen la investigación evaluativa. En T.D. Cook y Ch. S. Reichardt(Eds.), Métodos cualitativos y cuantitativos en investigaciónevaluativa (pp. 59-79). Madrid: Morata.

Fitch, J. (1965) Aesthesics of function. Annals of the New YorkAcademy of Sciences, 128, 706-714.

Gans, H. (1959) The human implications of current redevelopmentand relocation planning. Journal of the American Institute ofPlanners, 25, 15-25.

Gans, H. (1961) Planning and social life. Friendship andneighborhood relations in suburban communities. Journal ofthe American Institute of Planners, 28, 135-139.

Goetz, J. y LeCompte, M. (1988). Etnografía y diseño cualitativoen investigación educativa. Madrid: Morata.

Gutman, R. (Ed.) (1972) People and buildings. New York: BasicBooks.

Haberman, S.J. (1978). Analysis of qualitative data. Vol. I:Introductory topics. New York: Academic Press.

80 l Estrategias de Evaluación y Medición...

Haberman, S.J. (1979). Analysis of qualitative data. Vol. II: NewNew developments. New York: Academic Press.

Hall, E.D. (1959) The silent language. New York: Doubleday.

Hall, E.D. (1966) The hidden dimension. New York: Doubleday.

Hennessy, M. & Saltz, R.F. (1989). Adjusting for multimethod biasthrough selection modeling. Evaluation Review, 13 (4), 380-399.

Hernández Hernández, F. (1985). La psicología ecológica de R.G.Barker como metodología de análisis de la cotidianeidad. TesisDoctoral no publicada. Barcelona: Universidad de Barcelona.

Hernández López, J.M. (1995). Procedimientos de recogida deinformación en evaluación de programas. En R. Fernández-Ballesteros (Ed.), Evaluación de programas. Una guía prácticaen ámbitos sociales, educativos y de salud (pp. 117-147).Madrid: Síntesis.

Hernández Mendo, A. y Anguera, M.T. (1998). Análisis decoordenadas polares en el estudio de las diferenciasindividuales de la acción de juego. En M.P. Sánchez y M.A.Quiroga (Coords.), Perspectivas actuales en la investigaciónpsicológica de las diferencias individuales (pp. 84-88). Madrid:Centro de Estudios Ramón Areces.

Herrero, M.L. (1989). Incidencia de la historia personal en elcomportamiento en el aula: Estudio observacional analítico.Tesis Doctoral no publicada. Barcelona: Universidad deBarcelona.

Holland, P.W. & Rubin, D.B. (1988). Causal inference inretrospective studies. Evaluation Review, 12 (3), 203-231.

Honikman, B. (Ed.) (1971) Proceedings of the ArchitecturalPsychology at Kingston Polytechnic. London: RIBAPublications.

Hutt, S.J. & Hutt, C. (1974). Direct observation and measurementof behavior. Springfield, Il.: Charles C. Thomas.

81I. Hacia una evaluación... l

Ianni, F.A. y Orr, M.T. (1986). Hacia un acercamiento entre lasmetodologías cuantitativas y cualitativas. En T.D. Cook y Ch.S.Reichardt (Eds.), Métodos cualitativos y cuantitativos eninvestigación evaluativa (pp. 131-146). Madrid: Morata.

Ittelson, W. (1960) Some factors influencing the design and functionof psychiatric facilities (Progress Report). New York: BrooklynCollege of the City University.

Ittelson, W. (1964) Environmental Psychology and architecturalplanning. Paper presented at the American Hospital AssociationConference on Hospital Planning. New York.

Ittelson, W., Proshansky, H.M., Rivlin, L.G. & Winkel, G. (1974).Introduction to environmental psychology. New York: Holt,Rinehart & Winston.

Izumi, K. (1970) Psychosocial phenomena and building design. In

Johanson, E. (1991). High precision registration of complicatedlongitudinal and cross-sectional data. Quality & Quantity.International Journal of Methodology, 25 (3), 321-326.

Kaplan, E.H. & Abramson, P.R. (1989). So what if the programain’t perfect? A mathematical model of AIDS Education.Evaluation Review, 13 (2), 107-122.

Lee, R. (1981). Psychology and environment. London: Methuen.

Lehner, P.N. (1979). Handbook of ethological methods. New York:Garland Press.

Little, R.J. & Rubin, D.B. (1987). Statistical analysis with missingdata. New York: Wiley.

Lofland, J. (1971). Analyzing social settings. Belmont, Ca.:Wadsworth.

Lowenthal, D. (Ed.) (1967) Environmental perception and behavior.Unpublished manuscript. Chicago: University of Chicago,Department of Geography.

Lynch, K. (1960) Images of the city. Cambridge, Mass.: M.I.T.Press.

82 l Estrategias de Evaluación y Medición...

Marshall, C. & Rossman, G.B. (1989). Designing qualitative research.Newbury Park: Sage.

Martin, P. Y Bateson, P. (1992). La medición del comportamiento.Madrid: Alianza Universidad.

Martínez Arias, R. (1995). El método de encuestas por muestreo:Conceptos básicos. En M.T. Anguera, J. Arnau, M. Ato, R.Martínez, J. Pascual y G. Vallejo, Métodos de investigaciónen Psicología (pp. 385-431). Madrid: Síntesis.

Maxim, P.S. (1989). The impact of design effects on standard errorsin roadside traffic surveys. Evaluation Review, 13 (2), 157-173.

Meazzini, P. & Ricci, C. (1986). Molar vs. Molecular units ofbehavior. In T. Thompson & M.D. Zeiler (Eds.), Analysis andintegration of behavioral units (pp. 19-43). Hillsdale, N.J.:Lawrence Erlbaum Associates.

Miles, M.B. & Huberman, A.M. (1984). Qualitative data analysis.Beverly Hills: Sage.

Milgram, S. (1970) The experience of living in cities. Science, 167,1461-1468.

Moos, R. & Insel, P. (1974) Issues in social ecology. Humanmilieus. Palo Alto, Calif.: National Press Books.

Nichols, E. & Wildavsky, A. (1988). Regulating by the numbers:Probabilistic risk assessment and nuclear power. EvaluationReview, 12 (5), 528-546.

Nisbett, R.E. & Wilson, T.D. (1977). Telling more than we canknow: Verbal reports on mental processes. PsychologicalReview, 84 (3), 231-259.

Norris, S.P. (1984). Defining observational competence. ServiceEducation, 68 (2), 129-142.

O’Keefe, J. & Dostrovsky, J. (1971). The hippocampus as a spatialmap. Preliminary evidence from unit activity in the freely movingrat. Brain Research, 34, 171-175.

83I. Hacia una evaluación... l

Patton, M.Q. (1980). Qualitative evaluation methods. Beverly Hills:Sage.

Piaget, J. et Inhelder, B. (1947). La representation de l’espace chezl’enfant. Paris: P.U.F.

Pol, E. (1988) La psicología ambiental en Europa. Análisissociohistórico. Barcelona: Anthropos.

Pol, E., Morales, M. y Muntañola, J. (Eds.) (1984) Home-Environament. Aspectes qualitatius / Man-Environment.Qualitative aspects / Hombre-Entorno. Aspectos qualitativos.7ª Conferencia del I.A.P.S. Barcelona: Ediciones de laUniversidad de Barcelona.

Posavac, E.J. & Carey, R.G. (1985). Program evaluation. Methodsand case studies. Englewood Cliffs, N.J.: Prentice-Hall.

Proshansky, H. & Altman, I. (1979) Overview of the field. In W.P.White (Ed.) Resources in environment and behavior (pp. 3-36). Washington: American Psychological Association.

Proshansky, H. & O’Hanlon, T. (1977) Environmental psychology:Origins and development. In D. Stokols (Ed.) Perspectives onenvironment and behavior (pp. 101-129). New York: PlenumPress.

Proshansky, H., Ittelson, W. & Rivlin, L. (Eds.) (1970) Environmentalpsychology: Man and its physical setting. New York: Holt,Rinehart & Winston.

Punch, M. (1986). The politics and ethics of fieldwork. Beverly Hills:Sage.

Redondo, S. (1992). Evaluar e intervenir en prisiones. Barcelona:P.P.U.

Riba, C. (1985) Conocimiento del entorno y conducta en el entorno.En F. Hernández, A. Remesar y C. Riba. En torno al entorno(pp. 79-83). Barcelona: Els Llibres de Glauco.

84 l Estrategias de Evaluación y Medición...

Ridge, R.S., Stern, G.A. & Watts, R.K. (1990). Econometric modelevaluation. Implications for program evaluation. EvaluationReview, 14 (3), 308-314.

Rosenblum, L.A. (1978) The creation of a behavioral taxonomy. InG.P. Sackett (Ed.) Observing Behavior. Vol. II: Sata collectionand analysis methods (pp. 15-24). Baltimore: University of ParkPress.

Sanoff, H. & Cohen, S. (Eds.) (1970) Proceedings of EDRA 1.Raleigh: University of North Carolina.

Scherer, K.R. & Ekman, P. (Eds.) (1982). Handbook of methods innonverbal behavior research. Cambridge: Cambridge UniversityPress.

Schoggen, P. (1983) Utility of the behavioral settings approach. InD.G. Forgays (Ed.) Primary prevention of Psychopathology,vol. II: Environmental influences (pp. 165-179). Hanover: NewHampshire.

Schawrtz, H. y Jacobs, J. (1984). Sociología cualitativa. Métodopara la reconstrucción de la realidad. México: Trillas.

Scott, J.P. (1950). Methodology and techniques for the study ofanimal societies. Annual of New York Academy of Sciences,51 (6), 1001-1122.

Smith, J.K. (1983). Quantitative versus interpretative: The problemof conducting social inquiry. In E.R. House (Ed.), Philosphyof evaluation (pp. 27-51). San Francisco: Jossey-Bass.

Sommer, R. (1969) Personal space: The behavioral basis of design.Englewood Cliffs, N.J.: Prentice-Hall.

Sommer, R. & Osmond, H. (1961) Symptoms of institutional care.Social Problems, 8, 254-258.

Sommer, R. & Ross, H. (1958) Social interaction on a geriatricsward. International Journal of Social Psychiatry, 4, 128-133.

85I. Hacia una evaluación... l

Stanley, T.D. & Robinson, A. (1990). Sifting statistical significancefrom the artifact of regression-discontinuity design. EvaluationReview, 14 (2), 166-181.

Stokols, D. (Ed.) (1977) Perspectives on environment and behavior:Theory, research and applications. New York: Plenum Press.

Stokols, D. (1978) Environmental Psychology. Annual Review ofPsychology, 29, 253-295.

Studer, R. (1966) On environmental programming. ArchitecturalAssociates Journal, 81, 290-296.

Thompson, T. (1986). The problem of behavioral units. In T.Thompson & M.D. Zeiler (Eds.), Analysis and integration ofbehavioral units (pp. 13-17). Hillsdale, N.J.: Lawrence ErlbaumAssociates.

Trend, M.G. (1986). Sobre la reconciliación de los análisiscualitativos y cuantitativos: Un estudio de casos. En T.D. Cook& Ch.S. Reichardt (Eds.), Métodos cualitativos y cuantitativosen investigación evaluativa (pp. 105-130). Madrid: Morata.

Tuset, A. (1990). Análisis de las respuestas al test de Rorschachde un grupo de sujetos afectados de un primer infarto demiocardio. Tesis Doctoral no publicada. Barcelona: Universidadde Barcelona.

Veney, J.E. & Kaluzny, A.D. (1984). Evaluation and decision makingfor health services program. Englewood Cliffs, N.J.: Prentice-Hall.

Wheeler, G.R. & Hissong, R.V. (1988). A survival time analysis ofcriminal sanctions for misdemeanor offenders: A case foralternatives to incarceration. Evaluation Review, 12 (5), 510-527.

Wicker, A. (1979). An introduction to ecological psychology.Belmont, Ca.: Woodsworth.

Willems, E.P. (1977) Behavioral ecology. In D. Stokols (Ed.)Perspectives on environment and behavior: Theory, researchand applications (pp. 39-68). New York: Plenum Press.

86 l Estrategias de Evaluación y Medición...

Williams, J.E. (1989). A numerically developed taxonomy ofevaluation theory and practice. Evaluation Review, 13 (1), 18-31.

Winker, G. & Sasonoff, R. (1965) Approaches to an objectiveanalysis of behavior in architectural space. Seattle, Washington:College of Architecture and Urban Planning.

Wohlwill, J.F. (1970) The emerging discipline of environmentalpsychology. American Psychologist, 25, 303-312.

Wohlwill, J.F. & Carson, D. (Eds.) (1972) Environment and the socialsciences: Perspectives and applications. Washington:American Psychological Association.

Yela, M. (1974). La estructura de la conducta: Introducción general.Madrid: Real Academia de Ciencias Morales y Políticas.

Zabalza, M.A. (1991). Los diarios de clase. Documento para estudiarcualitativamente los dilemas prácticos de los profesores.Barcelona: P.P.U.

Zeiler, M.D. (1986). Behavioral units: A historical introduction. In T.Thompson & M.D. Zeiler (Eds.), Analysis and integration ofbehavioral units (pp. 1-12). Hillsdale, N.J.: Lawrence ErlbaumAssociates.

Capítulo 2

INTEGRACIÓN DE TEORÍA SUSTANTIVA,DISEÑO DE PRUEBAS Y MODELOS DE

ANÁLISIS EN LA MEDICIÓN PSICOLÓGICA1

Rafael J. Martínez Cervantes y Rafael Moreno RodríguezUniversidad de Sevilla2

La preocupación inicial por los aspectos teóricos de la mediciónestaba vinculada a las discusiones del positivismo y elreconstruccionismo lógico sobre las 'reglas de correspondencia' entreobjetos medidos y números (Losee, 1972/1985). La interpretación quepara la medición psicológica hizo Stevens (1935) del concepto dedefinición operacional de Bridgman consistió precisamente enentenderla como ajuste al canon del positivismo lógico sobre lasreglas de correspondencia, haciéndolo incluso de manera no correctacomo ha mostrado Houts (1994).

Estas primeras teorías operacionales de la medida, yposteriormente la teoría axiomática, tuvieron como principal inspiradora la formulada por Campbell (1921/1952), para quien debe darse unisomorfismo entre la cantidad y las magnitudes de la propiedad amedir. Stevens (1946) señaló que no es necesario que los númerosasignados como medidas a los objetos hayan de seguir las leyes decantidad, sino que se pueden establecer otros tipos de reglas,determinando así distintos tipos de escalas -nominales, ordinales,intervalo y razón- cuantitativas y no cuantitativas. Lo que Stevensmostró es que en todos estos casos se tratan las relaciones entre unsistema empírico y un sistema numérico-formal que pueden serrepresentadas no exclusivamente desde la de cantidad. Lo común atodos los modelos de medida es que mediante un homomorfismodefinen un modelo representacional de los fenómenos. Stevens (1951)resumía estas ideas en su conocida definición de que "medir esasignar numerales a objetos o acontecimientos de acuerdo con

1 Una versión previa del presente trabajo formó parte de la tesis doctoral delprimer autor dirigida por el segundo.

2 Dirección postal: Facultad de Psicología. Calle Camilo José Cela s/n. 41005Sevilla. España

88 l Estrategias de Evaluación y Medición...

ciertas reglas" (p. 17), en un proceso en el que a cada objeto oacontecimiento individual se le hace corresponder una medidanumérica igualmente singularizada. Posteriormente, la teoríaaxiomática plantearía esta definición de una manera formal mediantedos estructuras relacionales, una empírica propia de los objetos ofenómenos estudiados y otra formal perteneciente al conjunto de losnúmeros, con una determinada correspondencia entre ambasestructuras (Castro, 1987).

Un problema importante de estas definiciones de la medidaestriba en que no diferencian suficientemente entre el fenómeno uobjeto bajo estudio y sus propiedades o características medidas, nitampoco tienen en cuenta los procedimientos con los que se logranesas medidas. La aparente simplicidad de medidas como las del pesoo la distancia, utilizadas como ejemplares de medidas científicas enlas primeras teorías de la medición, contribuyó a asimilar un modelode asociación directa 'número-objeto'. Sin embargo, incluso el peso yla distancia son propiedades abstraídas de la observación de uncuerpo físico mediante instrumentos de medida como las balanzas olas reglas métricas. Estas propiedades se obtienen como resultado dela observación de los objetos y, a pesar de su aparente estabilidad eindependencia respecto al observador, han de ser concebidas comoun proceso de interacción entre cuerpos físicos en una determinadasituación espacio-temporal instrumentada por el científico. A pesar deello y por dejar implícitos tales elementos, las nociones clásicas sobremedición diluyen el papel de la teoría sustantiva así como de losinstrumentos y procedimientos específicos utilizados por elinvestigador en el proceso de medición.

Aunque es cierto que las teorías sobre la medida han evolucionadohacia enfoques representacionales que se caracterizan por reconocerque la medición en cualquier ciencia está integrada dentro de unateoría (Fraser, 1980/1998), puede afirmarse como señala Muñiz(1998a) que continúa predominando una visión desligada del contenidosustantivo de la Psicología, que trata de garantizar la representabilidadfundamentalmente desde una perspectiva formal, sin servirse de lateoría o la práctica psicológica ni aportar nada específico a éstas.

89II. Integración de Teoría Sustantiva... l

Ese problema teórico se concreta además en la práctica de lamedición, sustituyéndose la función de la teoría psicológica por el usode modelos estadísticos de análisis de items y tests. La TeoríaClásica de los Tests, la Teoría de la Generalizabilidad y, sin duda, laTeoría de Respuesta a los Items, constituyen los fundamentosbásicos de la teoría de tests actual sin cuyas aportaciones resultaimposible entender la mayoría de las aplicaciones y desarrollosactuales en el ámbito de la medición psicológica. Sin embargo, frenteal énfasis prioritario y casi exclusivo puesto por los modelosestadísticos en los componentes formales de la medida, cada vez sereclama más una nueva orientación de la teoría de tests que señale laimportancia del contenido y de los constructos psicológicos a medir.En este sentido y como señala Muñiz (1998b) se olvida a menudoque el énfasis en desarrollar la Psicología como ciencia cuantitativa,propio de la psicometría, será juzgado a la larga por la consistencia ysignificación de sus principios psicológicos.

En tal sentido, es posible encontrar opiniones -ver por ejemplo lasrecopiladas por Frederiksen, Mislevy y Bejar (1993)- que expresan unacierta preocupación por la desconexión entre los desarrollostecnológicos de fuerte base estadística con el contenido psicológico alque tratan de aplicarse y también por la insuficiencia de los modelosestadísticos para el desarrollo de una adecuada teoría de testspsicológica. Para Prieto y Delgado (1999) estos métodos no hanlogrado determinar con rigor los procesos que subyacen a laconducta, dejando así implícita la definición precisa de los constructosasociados a las pruebas psicológicas. En esos métodos el significadosustantivo de lo que mide un test se suele subordinar a lainterpretación de las puntuaciones numéricas globales y de suscorrelaciones sistemáticas con otras pruebas psicológicas. Lohman eIppel (1993) comentan que sólo recientemente se empieza areconocer que un programa de investigación dominado por el análisisfactorial de las intercorrelaciones entre tests ha sido incapaz deproducir una teoría explicativa del comportamiento. Como posibleexplicación de estos fallos, Mislevy (1993) señala que la teoría detests actual supone la aplicación de estadísticas del siglo XX aconceptos psicológicos del siglo XIX y que la fundación de una nueva

90 l Estrategias de Evaluación y Medición...

teoría de tests ha de venir de la aplicación de modelos estadísticosactuales a modelos psicológicos modernos.

Una representación sintética de los elementos del procesode medición mediante pruebas psicológicas

Teniendo en cuenta la situación descrita, la propuesta que en estetrabajo queremos subrayar y argumentar es que en el proceso demedición la correspondencia entre la representación formal-numéricay los fenómenos empíricos ha de considerarse mediada por laspropiedades abstraídas por el investigador de dicho fenómenos, deacuerdo con algún modelo teórico y con la ayuda de su instrumentalmetodológico. En este sentido se puede considerar que los elementosque componen el proceso de medición son de tres tipos: objetos,propiedades y medidas. Los objetos representan hechos o fenómenosempíricos que pueden identificarse de manera individual y concreta enel espacio y/o en el tiempo. Las propiedades observadas en losobjetos se expresan mediante la definición de los constructospsicológicos en términos operativos, que permiten identificar a éstosen las respuestas de los sujetos ante los items de una pruebapsicológica. Las medidas de esas propiedades observadas en losobjetos están representadas en la asignación de una puntuaciónnumérica en función de las respuestas dadas por los sujetos a lositems o situaciones que componen una prueba psicológica. Estarepresentación numérico-formal es la que permite finalmente escalar alos objetos (estímulos o respuestas) según las propiedadesidentificadas en ellos.

Con esos elementos, en toda medida hay una serie detransformaciones necesarias: entre los objetos o fenómenos bajoestudio y la abstracción de alguna propiedad compartida por ellos,entre la noción teórica de dicha propiedad y su operacionalización enun instrumento de medida, y entre las observaciones que permitedicho instrumento y su representación numérico-formal. La primeraimplica la delimitación teórica del constructo psicológico, la segundael desarrollo de un diseño de observación que lo operativice mediantela construcción de una prueba psicológica, y la tercera supone laaplicación de un modelo matemático formal para obtener medidas de

91II. Integración de Teoría Sustantiva... l

la propiedad o constructo a partir de las respuestas a los elementosde dicha prueba psicológica.

Resumimos gráficamente estos planteamientos en la figura 1. Porun lado se diferencian los distintos elementos del proceso demedición (propiedades, objetos y medidas), y por otro distintos nivelesde generalidad (constructos y sus indicadores, operacionalizadosmediante las respuestas a las pruebas psicológicas y suspuntuaciones) así como las transformaciones o relaciones entre ellos.En este esquema no incluimos elementos y relacionescorrespondientes a una etapa de desarrollo nomotético (Embretson,1983, 1993) que implicarían a otros constructos distintos a Q y suscorrespondientes diseños de observación y modelos de medida. Encambio sí pretendemos sintonizar en dicha representación con lostres aspectos de lo que se ha dado en llamar la Santísima Trinidad dela validez (Muñiz y Hambleton, 1999), relacionados con los elementosy transformaciones de los que venimos hablando: de constructo, decontenido y predictiva, entendiendo que estos tres aspectos no sonindependientes sino que influyen unos en otros como facetas de untodo (Muñiz, 1998b). La validez de constructo se refiere a las garantíasde que las evidencias empíricas son indicadores adecuados delconcepto o modelo teórico evaluado; la validez de contenido se refierea las garantías de que una prueba constituya una muestra adecuadadel dominio de contenido que se pretende evaluar; la validez predictiva,por su parte, se refiere al grado en que se puede predecir la medida deuna variable a partir de las puntuaciones obtenidas en una prueba -aunque en este caso nos limitamos a representar la modalidadpredictiva concurrente, consistente en dos medidas de la mismavariable-.

Este esquema nos permite además subrayar algunos de losproblemas que Crocker y Algina (1986) consideran comunes y básicosal desarrollo de todo instrumento de medición psicológica. Uno deellos es la no existencia de un único procedimiento aceptado demanera universal para la medición de cualquier constructo, lo que ennuestro esquema se representa mediante la posibilidad de planteardiversos diseños de observación asociados a diferentes concrecionesde un mismo constructo psicológico Q (constructo i,... constructo n).Se contesta así a la afirmación que a veces se hace de que la variable

92 l Estrategias de Evaluación y Medición...

o rasgo psicológico que define el universo de dominio evaluadocoincide con el dominio representado por el conjunto de reactivosdisponibles. Si los tests psicológicos sólo sirvieran para predecir elcomportamiento de los sujetos ante dichas pruebas, toda la teoría detests no sería más que un ejercicio de razonamientos tautológicoscuyo único fin sería mantenerse a sí misma. Es obvio que no puedenser éstos los planteamientos adecuados para desarrollar uninstrumento de medida psicológico. Siempre debe ser posibleseleccionar o muestrear tipos muy diferentes de conductas orespuestas para definir operacionalmente el mismo constructo.

Esta selección implica que las medidas psicológicas estánbasadas usualmente en muestras limitadas de conducta (pruebai,...prueba n) siendo otro problema principal de la medición psicológicadeterminar el número de items y situaciones y la variedad de contenidonecesaria para proporcionar una muestra adecuada del dominiocomportamental del constructo.

CONSTRUCTOΘ

DOMINIO PUNTUACIÓN

Constructo n Prueba n Puntuación n

Constructo i Prueba i Puntuación i

a) Diseño de observación b) Modelo de medida

PROPIEDADES OBJETOS MEDIDAS

replicación predicción

Figura 1. Elementos y transformaciones implicados en el proceso demedición.

A su vez, al estar basadas en muestras limitadas deobservaciones, las mediciones obtenidas están sometidas al errordebido al muestreo de tareas u ocasiones. Por ello, otro problema de

93II. Integración de Teoría Sustantiva... l

las medidas psicológicas es la estimación del grado de error presenteen un determinado conjunto de observaciones a partir de las distintaspuntuaciones obtenidas (puntuación i,... puntuación n) lo que seplantea mediante modelos estadísticos de medida y la estimación delas puntuaciones-dominio. Por último, pero no menos importante, unamedida psicológica tendrá poco significado y utilidad si no puede serinterpretada a la luz del constructo psicológico subyacente, el cualdebe estar definido al menos en términos de su relación conconductas observables y, en una posterior etapa de desarrollonomotético, mediante sus relaciones con otros constructos dentro deun mismo sistema teórico. En lo que sigue comentaremos algunos deestos aspectos

Integración de la teoría sustantiva en la medición psicológica.El caso de la Modelización Generativa de Respuestas (MGR).

A pesar de la relevancia de los constructos en el proceso demedida, en el ámbito de la teoría de tests se puede reconocer unaespecial resistencia a asumir como propia la definición teórica precisade los constructos y dominios psicológicos que se están evaluando.Las referencias a constructos psicológicos se realizan con términosgenerales como rasgo, aptitud, habilidad o variable, que de maneraabstracta y desligada permiten incluir en ellos a cualquiercaracterística psicológica particular evitando así tener que referirse ateorías y dominios psicológicos concretos. Desde esta perspectiva seadopta el supuesto de que dichas variables o característicaspsicológicas están adecuada o suficientemente definidas desde unplano teórico. Asumir este supuesto obviando las implicaciones deaquellos casos particulares en que no sea así, permite concentrar losintereses de la teoría de tests en el desarrollo de las aplicacionesestadísticas de amplio espectro. Sin embargo, es necesario reiterarcomo fundamental para la metodología científica la íntima conexiónentre desarrollos metodológicos particulares con avances teóricos encampos concretos de investigación.

En tal sentido van opiniones como las de Mislevy (1993) y Cole(1993) sobre que el desarrollo de pruebas o tests psicológicos en el

94 l Estrategias de Evaluación y Medición...

futuro incluirá de una manera intrincada la teoría del dominio en uso.Para este último autor, en lugar de pensar en la tecnología de los testscomo un campo en sí mismo y en la teoría de tests como unadisciplina a estudiar por separado, el desarrollo de pruebas en el futuroserá una actividad enraizada en la teoría sustantiva de lascaracterísticas que estén siendo evaluadas.

Para este objetivo una propuesta metodológica con ya ciertatradición es la de evaluar el impacto de distintas facetas psicológicasen las respuestas a los items mediante la aplicación de los métodosde la Psicología experimental. Esta idea, como señalan Nunnally yBernstein (1995), proviene en último término de Cronbach (1957/1981)quien describió la existencia de una medición diferente en el ámbitoexperimental que busca diferencias entre grupos y en el ámbito de lapsicometría que busca las diferencias individuales. Junto a lautilización de los métodos de manipulación experimental, la idea deconstruir items alrededor de principios de la teoría psicológica seremonta a Guttman (1971) y a su noción de tests diseñados porfacetas que implica manipular la dificultad de los items o lasdemandas de las tareas para probar hipótesis sobre la "psicología deltest". Desafortunadamente, como señalan Lohman e Ippel (1993), sonmuy escasos los tests modelados según los métodos experimentalesde la psicología, así como tareas experimentales que se hayanmodelado según los tests de habilidad.

Esta preocupación por el desarrollo y validación de pruebasinspiradas psicológicamente, en opinión de Haertel y Wiley (1993),aumenta la atención que se presta al análisis de la estructura fina delas habilidades que subyacen a la ejecución en una prueba y a losprocesos mediante los cuales se adquieren. Snow y Lohman (1993)señalan en el mismo sentido que los avances en la investigación enteoría psicológica pueden y deben enlazarse con la nueva teoría detests y los nuevos diseños de pruebas. Un aspecto fundamental paraeste propósito es especificar los componentes de habilidad requeridosen la ejecución de una prueba o test, donde una parte básica delproblema es comprender las fuentes de dificultad de los items. Puestoque éstas últimas habitualmente no son sistemáticamente controladaspor los escritores de items, todavía está por lograr el construir tests

95II. Integración de Teoría Sustantiva... l

útiles de habilidades generales mediante la manipulación o variaciónsistemática de unas pocas fuentes de dificultad de los items.

En este sentido la Modelización Generativa de Respuestas (enadelante MGR) puede considerarse una variante de especial relevanciadentro del contexto de la construcción de pruebas o tests basada enmodelos psicológicos. La MGR, cuyo principal impulsor es Isaac I.Bejar investigador del Educational Testing Service de Princeton(EUA), es una aproximación al diseño de tests psicológicos yeducativos conectada con las teorías de la medida y fundamentada enel dominio sustantivo que se pretende evaluar. En otras palabras laMGR supone una aproximación al diseño de pruebas desde lavalidación de constructo, ya que por un lado integra el modelo decontenido y de respuesta y por otro integra la consistencia y ladificultad de la tarea implicados en la validación del modelo de medida(Bejar, 1993).

Un modelo generativo de respuestas se basa en la formulación deun modelo sobre cómo los sujetos realizan o resuelven una tareapsicométrica. Este modelo determina la eficacia para representar elconstructo psicológico de interés, a la vez que fundamenta suvalidación mediante el análisis de la consistencia de las respuestascon dicho modelo. Según Bejar (1993) dos ingredientes básicos deMGR para lograr este propósito son : a) conocimiento suficiente sobreel proceso de respuesta de los sujetos y b) un mecanismo paragenerar items.

En primer lugar por tanto resulta prioritario la identificación deldominio psicológico a evaluar, lo que facilita la selección del conjuntode indicadores apropiados para representar el nivel de los sujetos enel constructo que se pretende medir. Estos indicadores se concretana su vez en items o tareas que susciten las conductas significativasdel sujeto por estar asociadas al constructo mediante definicionessemánticas. El objetivo por tanto es establecer definiciones precisasde constructos e indicadores que impliquen un conocimiento lo máscompleto posible del proceso de respuesta exigido al sujeto por laprueba. Supone así la MGR que al formular la estructura de unepisodio psicológico -por ejemplo, los pasos en el razonamiento de unindividuo para hallar la solución de un problema-, podemos buscar "unasimilitud estructural entre la estructura observada y alguna

96 l Estrategias de Evaluación y Medición...

característica organizada de las condiciones que la han engendrado"(Harré, Clarke y De Carlo, 1989. p. 59).

A partir de ese conocimiento se puede desarrollar el mecanismopara generar items incluso automáticamente -objetivo central de laMGR-. Ese mecanismo se puede describir en pocas palabras como elconjunto de reglas de construcción de items sobre una temática entérminos de una serie de operadores. La idea es parecida a la de unagramática generativa a la manera chomskyana. La forma genérica deun ítem (ítem-form) sería el equivalente a su estructura profunda, esdecir a su representación en términos de los operadores utilizadospara generar los items. Esta forma genérica puede ser compartida poruna variedad de items aparentemente distintos. Por ejemplo, la formade adición de dos sumandos admite generar innumerables items deesa habilidad sólo con cambiar los dígitos componentes de cadasumando (ver figura 2).

A+B

________

1+2

________

3+5

________

7+4

________

6+8

________... ... ... ...

ESQUEMA DE ITEM

Figura 2. Ejemplo de esquema para la generación de items sobre

sumas con dos sumandos de un dígito.

En este sentido se utiliza el concepto de 'clones' o items'isomorfos' para referirse precisamente a aquellos items con la mismarepresentación subyacente pero que parecen visualmente diferentes.Esta característica es especialmente relevante en la Modelización

97II. Integración de Teoría Sustantiva... l

Generativa de Respuestas ya que implica que podemos clasificar acualquier ítem dentro de una taxonomía según sus distintas formasgenéricas. Significa además que no es necesario disponermaterialmente de todos los items de un determinado dominio sino tansolo de las reglas sobre cómo generar cualquier ítem de dichodominio. En el símil con la gramática generativa se podría decir que noes necesario tener almacenadas todas las frases gramaticalmenteposibles sino disponer de las reglas que nos indican cómo construircualquier frase. Como complemento necesario, la MGR se planteaademás la generación de la respuesta correcta a cada ítem mediantereglas mecánicas automáticas. Volviendo al símil de la gramáticagenerativa, se trataría de ser capaz de evaluar la corrección gramaticalde cualquier posible frase generada mediante reglas automáticas.

La MGR aborda por tanto una cuestión como la metodologíaapropiada para la construcción de los items y su corrección, que nosuele ser tratada en los manuales más clásicos de Psicometría yTeoría de los Tests. Para Prieto y Delgado (1996):

"La raíz del problema podía encontrarse en las conviccionesmantenidas por los [psicómetras] clásicos de que la redacción deitems es una tarea más propia del especialista en una área sustantivaque del metodólogo y de que es un arte dependiente de la creatividade inventiva que de la aplicación automática de unas reglas." (p. 108).

Estos planteamientos se aplican no sólo a la construcción decada ítem sino también a la de pruebas o tests. Un supuesto básicode estas construcciones es que existe un universo de contenido quedefine el constructo en estudio, del que lo preguntado en un test debeser una muestra representativa (Nunnally y Bernstein, 1995). En talsentido se pueden utilizar diversos modelos teóricos de muestreo deitems: desde la obtención de muestras no aleatorias consideradasequivalentes hasta el muestro aleatorio de un conjunto de items. Sinembargo, en la práctica la construcción de un test entendida como unmuestreo del dominio rara vez es real puesto que no existe ununiverso identificado de items del cual muestrear (Prieto y Delgado,1996).

En el peor de los casos los tests son una colección arbitraria de

98 l Estrategias de Evaluación y Medición...

items reunidos sin criterios explícitos, y en otros mejores consisten encolecciones de items juzgados por expertos en la materia comorelevantes y representativos de algún universo de contenido pero quepermanece definido implícitamente (Bejar, 1983). En ninguno de esoscasos sin embargo podría generalizarse desde el test al dominio decontenido -como plantean la Psicología cognitiva y del aprendizaje- yaque los métodos para generar los items y los criterios para incluirlosen una prueba determinada no suelen ser formulados o definidosexplícitamente en términos operacionales.

En esta situación, un avance importante en la construcción detests ha sido el desarrollo de métodos de construcción de bancos deitems, de modo que cada uno de éstos esté bien clasificado tanto porsu contenido como por sus parámetros psicométricos estadísticos(como la dificultad y discriminabilidad entre sujetos hábiles y no),pudiendo realizarse a partir de ellos procedimientos válidos deconstrucción de tests basados en distintos modelos de muestreo deitems. La MGR trata de abordar este objetivo proponiendo unmecanismo generador de todos los items de un universo de contenidodelimitado, a la vez que trata de asignar una descripción psicométricaa cada ítem de ese universo (Bejar y Yocom, 1991). Con esta idea delprincipio generativo no se requiere que los items de una pruebaconstituyan una muestra aleatoria de los items disponibles; en sulugar se propone que los items sean generados conjuntamente con laestimación de sus parámetros psicométricos en función de losintereses de evaluación particulares de cada ocasión. De esta maneraes posible construir tests o pruebas 'a la carta', mediante lageneración de aquellos items que respondan a unos determinadosrequisitos de contenido y psicométricos.

Aunque existen aplicaciones de la MGR en ámbitos como laevaluación de habilidades espaciales (tests de rotación mental -Bejar,1990; Prieto et al., 1993-, y de figuras ocultas - Bejar y Yocom, 1991),de razonamiento (inductivo y analógico -Bejar, Chaffin y Embretson,1989; Butterfield et al., 1985; Embretson, 1998-) y de habilidad verbal(vocabulario y comprensión lectora -Bejar, Stabler y Camp, 1987-), larelativa novedad del enfoque hace que se convierta en un objetivomostrar las potencialidades en nuevos dominios sustantivos y enfoque

99II. Integración de Teoría Sustantiva... l

teóricos como por ejemplo el interconductual que nosotros mismoshemos intentado (Martínez, 2000; Martínez, Moreno y Carmona, endictamen). Como señala Braum (1993), "este programa deinvestigación [MGR] es valioso no sólo porque sus objetivos tenganmérito sino también porque hay mucho que aprender a lo largo delcamino" (p. 387). Sintoniza así con la apreciación de Anastasi yUrbina (1997) que, desde el punto de vista de la teoría y lainvestigación básica, la relación entre la psicometría y la teoríapsicológica ha de entenderse como recíproca, en la que cada parteayuda a clarificar a la otra y que ambas en combinación puedenayudar a mejorar nuestra comprensión del comportamiento.

Con un modelo generativo capaz de generar y corregir cualquierítem, o con algún otro procedimiento eficiente, el dominio sustantivoqueda delimitado de forma precisa. Sin embargo, el proceso completode elaboración de una prueba psicológica no se detiene aquí puesexige un análisis de sus propiedades psicométricas. Una vezelaborado y aplicado un determinado instrumento de medida esposible estimar sus propiedades psicométricas, que al serreintroducidas en el sistema permiten rediseñar el test en función deestos parámetros. Este último aspecto es el que tradicionalmente seha abordado en psicometría manipulando la longitud de un test enfunción de su fiabilidad o validez estimada, o más recientementedesde la Teoría de la Respuesta al Ítem (TRI) mediante la selección deaquellos items previamente calibrados que cumplen con unosrequisitos psicométricos determinados que maximizan la función deinformación para determinados niveles de competencia de los sujetos.Veamos una perspectiva de estas teorías estadísticas de los tests ysu relación con el diseño de observación o recogida de datos para elestudio de un constructo psicológico.

Teorías estadísticas de los tests y los elementos del procesode medición

Sin duda alguna las distintas teorías estadísticas de los tests sonhoy día un componente fundamental en el proceso de desarrollo demedidas científicas en psicología. Estas teorías se pueden

100 l Estrategias de Evaluación y Medición...

caracterizar por su especialización en la lógica y los modelosmatemáticos subyacentes a la construcción y uso de tests (Crockery Algina, 1986; Muñiz, 1998b). Sin embargo, la relación con el diseñode observación en las distintas teorías se establece con énfasis enaspectos diferentes.

La Teoría Clásica de los Tests (TCT) asume como uno de sussupuestos fundamentales la definición de tests paralelos. Un test seconsidera una muestra seleccionada de un universo compuesto poritems equivalentes, réplicas unos de otros, siendo considerados todoslos items indicadores similares del constructo medido. Esto supone noconsiderar diferencias entre items de pruebas psicológicas concretasmediante el supuesto de una relación de equivalencia universal entreellas. En consonancia con este supuesto se hace abstracción de lasdiferencias entre diversos tests productos de diseños de observaciónconcretos, suponiendo que todos ellos sirven por igual comoindicadores del mismo constructo subyacente; del mismo modo, losdiferentes constructos psicológicos específicos a medir son tratadosde forma generalizada como rasgos, aptitudes o habilidades, loscuales en la práctica resultan interesar sobre todo como contexto paradesarrollar métodos de estimación de sus medidas verdaderas (V) conel menor error (e) posible mediante un modelo que se entiende comúna todos ellos. En este planteamiento, las puntuaciones P de lossujetos en las pruebas se resume en la fórmula siguiente:

P = V + e

Un cambio en el énfasis sobre los elementos del proceso dedesarrollo de medidas psicológicas lo supuso la Teoría de laGeneralizabilidad (TG). Este cambio se puede interpretar como unaatención explícita a la unión que el modelo de medida tiene con eldiseño de observación, de manera que permite diversificarconceptualmente las condiciones de medida frente a la consideraciónclásica de una única condición equivalente o paralela a todas lassituaciones. Este vínculo entre el diseño de observación y el modelode medida se concreta mediante la estimación de la variabilidadproducida en las puntuaciones o medidas por distintos factores ofacetas presentes en el diseño de observación (codificadores,

101II. Integración de Teoría Sustantiva... l

instrumentos, momentos, situaciones, etc...). Este tratamientopermite así analizar y diseñar procedimientos ideales de medidasegún el papel jugado en la fiabilidad de las puntuaciones por aquellosfactores que introducen variaciones importantes. A nivel técnico la TGconstituye una ampliación del acercamiento clásico a la fiabilidadmediante técnicas de análisis de la varianza, de manera que permiteestimar la fiabilidad de un instrumento de medida en situaciones enlas que intervienen múltiples fuentes de error o variabilidad (Paz,1998). La TG especifica para ello distintas facetas del contexto deobservación para estimar el grado en que puedan afectar al error demedida y por tanto a la fiabilidad de la medida. Por eso, la formularesumen del objetivo de la TG establece que las puntuaciones P sonel resultante no sólo del dominio D en estudio (la V en TCT) y del erroraleatorio (e), sino también del contexto de observación o recogida dedatos (O), es decir:

P = D + O + e

Aunque la TG es conocida en la investigación psicométrica sobre

todo por los aspectos técnicos de evaluación de la fiabilidad, estamos

de acuerdo con Silva (1993) en que quizás su aportación más

importante está en su concepción epistemológica sobre los dominiospsicológicos y métodos para su estudio. En la perspectiva clásica la

pregunta sobre la fiabilidad de las medidas se relaciona con el grado

de error que se comete al estimar la puntuación verdadera, entendida

ésta como algo trascendente y perteneciente al objeto al margen del

proceso específico de medición. A partir de la Teoría de la

Generalizabilidad la estimación de la puntuación verdadera seconvierte en una pregunta sobre la generalización de la muestra al

universo, y en consecuencia la fiabilidad se transforma en una medida

de la precisión de dicha generalización. Desde esta perspectiva toda

puntuación es relativa al conjunto, dominio o universo hacia el que se

pretende generalizar a partir de la muestra y circunstancias utilizadas

(sujetos, situaciones, instrumentos, etc.). En consecuencia coloca enla base de todo el proceso a la pregunta de qué es lo que se pretende

medir, con qué objetivo y mediante qué procedimientos. De este modo

la noción de la validez se convierte en la pregunta fundamental que

102 l Estrategias de Evaluación y Medición...

subordina a la de la fiabilidad. Si medimos la propiedad que

pretendemos medir, y esta propiedad es concebida con una

determinada estabilidad o consistencia al margen del conjunto devariaciones que puedan darse en determinados factores o

circunstancias ajenos a dicha propiedad, entonces la consistencia o

estabilidad debe mantenerse cuando se generaliza la medida a través

de dichos conjuntos o universos de factores considerados

secundarios.

A pesar de sus avances conceptuales y técnicos, la TG fue

relegada a un segundo plano en la teoría de los tests (Muñiz, 1998b)por la aparición en psicometría de la Teoría de Respuesta a los Items

(TRI), dirigida fundamentalmente a resolver problemas pendientes en la

Teoría Clásica de los tests. Ésta se encuentra afectada por un

problema básico para el cual no tiene adecuada solución: la

interdependencia entre sujetos evaluados e instrumentos de medida.

Esto significa que la medición de las propiedades o variables referidasa los sujetos dependen del instrumento utilizado y,

complementariamente, que las propiedades del instrumento dependen

de los sujetos usados para establecerlas. Es esa una situación

similar a la que ocurriría si el peso de una persona dependiera de las

balanzas bien calibradas que se utilizaran, o que las distintas balanzaspesaran de modo diferente según el sujeto que pesaran. La solución

que aporta el modelo de Rasch, el más elemental dentro de la TRI,

está basada en el logro de lo que Andrich (1988) considera una

medición fundamental, la cual en su forma más simple permite la

estimación de parámetros invariantes -independientes- de los sujetos

respecto a los instrumentos de medida y viceversa. Para entendercómo lo logra, veamos primero algunas características de dicha

teoría.

Características de la Teoría de Respuesta a los Items para eldiseño de pruebas basado en modelos psicológicos

La TRI aporta un análisis detallado de las propiedades

psicométricas de la unidad mínima de observación y su relación con la

103II. Integración de Teoría Sustantiva... l

unidad de medida utilizada, a diferencia de la perspectiva global

respecto a las pruebas psicológicas de la Teoría Clásica y la TG. En

la TRI las propiedades estadísticas globales de un instrumento demedida se estiman a partir de las propiedades de la unidad de

observación que en las pruebas psicológicas no es otra que la

'respuesta a cada ítem'.

La denominación "Teoría de Respuesta a los Items" hace

referencia a un conjunto de modelos matemáticos que asumen la

existencia de una relación funcional, en principio entre la variable que

miden los items de un test y la probabilidad de las respuestas aéstos, es decir entre los distintos niveles del constructo, θ, que se

está midiendo y la probabilidad de responder adecuadamente un ítem

concreto, Pi(θ). Esta relación se representa gráficamente en las

Curvas Características de los Items (CCI) (ver figura 3).

En éstas y en la relación que representan, la TRI también incluye

junto con la competencia de cada sujeto la influencia de determinadosparámetros característicos de ese ítem. En el caso de pruebas de

aptitud y de rendimiento, las propiedades consideradas en los items

se representan mediante parámetros que recogen su dificultad, su

sensibilidad discriminativa a los diferentes grados de competencia de

los sujetos y las posibilidades de adivinar la respuesta correcta usando

claves espurias del formato del ítem. Según se asuman para unconjunto de items valores fijos o variables en dichos parámetros, se

obtienen los denominados modelos de uno, dos o tres parámetros. El

más popular de estos modelos, el modelo logístico de un parámetro o

modelo de Rasch, contempla sólo el parámetro de dificultad de los

items y suele expresarse matemáticamente del siguiente modo:

( )( )

( )i

i

bD

bD

i e

eP −

+= θ

θ

θ1

Donde Pi(θ) es la probabilidad de acertar el ítem i a determinado

nivel de habilidad; θ representa los valores de los niveles de habilidaden la variable medida; bi es el índice de dificultad del ítem i; e es la

104 l Estrategias de Evaluación y Medición...

base de los logaritmos neperianos; y D es una constante que adeterminado valor permite aproximar la función logística a la curvanormal acumulada.

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

-6 -3 0 3 6

2

P i

bi = -3 bi = 0 bi = 3

Figura 3. Curvas Características de Items para tres valores del parámetrob de dificultad.

En ese modelo y en la TRI en general, al igual que en la TeoríaClásica, el error de medida se obtiene en función de la diferencia entrela puntuación observada y la puntuación dominio o verdaderarepresentada por el parámetro θ, siendo el error típico de medida iguala la desviación típica de dichas diferencias. Pero, en contraste con laTeoría Clásica, este error típico no es el mismo para todos los sujetospues depende del nivel que éstos presenten en la variable medida, locual implica admitir que un test puede no ser igualmente preciso paratodos los niveles de competencia de los sujetos. En la TRI este errortípico de medida se expresa mediante la información que proporcionaun test para cada nivel de la variable, siendo la información igual a lainversa de los errores de medida para cada nivel de θ. La función deinformación es así una medida de la precisión de un test, que secalcula estimando la información para todos los niveles de la variable

θ

105II. Integración de Teoría Sustantiva... l

θ, y corresponde a la suma de las funciones de información de susitems. Esto último posibilita que se pueda elaborar la forma de lafunción de información de un test a conveniencia a partir de lasfunciones de los items elegidos para una prueba. Esto ha convertido ala función de información en uno de los procedimientos de análisis deitems más utilizado actualmente ya que permite a los constructoresde tests elaborar pruebas psicológicas adecuadas a sus necesidadesconcretas (Muñiz, 1992). Pero en todo caso, esa elección de itemspara una determinada prueba está justificada porque -como yaapuntamos- las propiedades de esos items pueden representarse entérminos de parámetros invariantes respecto de los sujetos.

La invarianza de los parámetros estimados mediante modelos TRIdescansa en el establecimiento de una unidad de medida constantetanto en los niveles de items como en los de sujetos. Como hademostrado matemáticamente Andrich (1988), para el modelo deRasch se cumple que al establecer una comparación numérica entrelos valores escalares de los items, dicha comparación esindependiente -invariante respecto- de los parámetros de habilidad θ decada sujeto. De forma análoga, se puede demostrar que los niveles dela habilidad estudiada en dos personas pueden compararse mediantesus respuestas a un conjunto de items independientemente de losvalores escalares de dichos items. Ese mismo modelo se desarrollapara casos de más de dos items, en los que las soluciones a losparámetros han de estimarse mediante procedimientos iterativos.

Desde la perspectiva de los modelos de medida fundamentadospsicológicamente es muy interesante esta independencia de losparámetros de dificultad de los items respecto a los parámetros dehabilidades de las personas pues permite considerar qué variablespsicológicamente relevantes pueden ser incorporadas al modelo(Embretson, 1993). Si las propiedades psicométricas de los items soninvariantes respecto a los sujetos es porque descansan encaracterísticas estimulares que configuran los items y que afectan demanera sistemática a los procesos psicológicos implicados en laejecución de la tarea. En la Teoría Clásica la dificultad estimada paraun ítem depende del nivel de ejecución de los sujetos, de manera que

106 l Estrategias de Evaluación y Medición...

un mismo ítem puede resultar fácil o difícil según la competencia de lamuestra de sujetos a la que se aplica sea alta o baja respectivamente.Esta situación convierte a cualquier intento de determinar las fuentespsicológicas de dificultad de los items en un argumento circular: unítem es considerado fácil cuando la competencia de los sujetos esalta, y la competencia del sujeto se considera alta cuando los itemsde un test le resultan fáciles. En cambio, la invarianza mencionada delos parámetros de los items permite que la explicación delescalamiento relativo de la dificultad de los items no se fundamente enla propia competencia medida en los sujetos, siendo así posiblereferirla a los atributos estimulares de los reactivos.

En la relación de la TRI con el diseño de observación convieneconsiderar dos supuestos adicionales relacionados entre sí: launidimensionalidad y la independencia local de los items. Launidimensionalidad de un test supone que la puntuación de unapersona depende únicamente en lo que a habilidad se refiere del nivelque posea en la variable medida por el test. La independencia local delos items requiere que las respuestas a cada ítem seanindependientes de las respuestas a otros items, es decir que elacierto o error en un ítem no conlleve asociado el acierto o error en otroítem. Estos dos supuestos restringen en cierto sentido el ámbito deaplicación de estos modelos TRI, siendo un caso ilustrativo de suaplicación los tests de habilidades o aptitudes homogéneas, mientrasque resultan más difíciles de aceptar dichos supuestos en ámbitosdonde la multidimensionalidad y la conexión entre preguntas puede sercaracterístico, como parece ser lo habitual en determinadas pruebasde rendimiento educativo (García, Gil y Rodríguez, 1999). En todocaso consideremos con algún detenimiento este supuesto de launidimensionalidad en relación a los constructos psicológicos aevaluar.

Unidimensionalidad de las pruebas psicológicas

Aunque el concepto de unidimensionalidad es una noción básicaen la teoría de la medida (Oort, 1993), sólo en las últimas décadas sele ha prestado el interés que merece como consecuencia de la

107II. Integración de Teoría Sustantiva... l

implantación dentro de la psicometría de la TRI. Como señalan McIvery Carmines (1986) y Andrich (1988) los modelos unidimensionales dela TRI están potenciando la conexión del análisis estadístico con elconstructo de interés y el diseño para su estudio.

Aunque con frecuencia, de acuerdo con concepciones positivistas,se discute en términos ontológicos si la realidad "es" o nounidimensional, desde posiciones epistemológicas más actuales cabeconsiderar que la función del científico no puede ser la descripción dela realidad 'tal cual es' porque implicaría admitir que los hechospueden ser identificados de manera independiente al que conoce. Latarea del investigador se entiende más bien que es construirconceptos -en forma de hipótesis, modelos o teorías- que intentanrepresentar su objeto de estudio pero sin considerar que dichosconceptos son la realidad, ya que todo acto de observación supone elrecurso a alguna teoría desde la cual un determinado hecho espercibido (Hanson, 1958/1977).

Por ello, más que discutir sobre la cuestión ontológica de 'cómoes la realidad', debemos centrarnos en cómo es razonable concebirlay estudiarla. En consecuencia en lugar de considerar launidimensionalidad como propiedad de la realidad psicológica, setrataría de concebirla como una exigencia metodológica de control devariables contaminantes de la medida, como se deriva de laspropuestas de Oort (1993). En ese sentido, la unidimensionalidadpuede ser entendida por ejemplo como unidimensionalidad esencial(Stout, 1987; 1990), considerando que en la ejecución en una pruebapsicológica el sujeto puede poner en juego diversas habilidades, peroque no todas tienen igual peso. Se distingue así entre la habilidaddominante o principal que trata de medir un test de otras habilidadessecundarias que ejercen su influencia sobre grupos parciales de items.Otra posición, no incompatible con la anterior considera que launidimensionalidad de una prueba psicológica se refiere a unacombinación constante de destrezas psicológicas necesarias pararesolver la tarea. Como señala Bejar (1983) la unidimensionalidad asíconsiderada no implica que la ejecución en los items sea debida a unúnico rasgo psicológico, sino que la ejecución en cada ítem estéafectada por los mismos procesos y de la misma forma (Reckase,

108 l Estrategias de Evaluación y Medición...

Ackerman y Carlson, 1988). Por lo tanto un test será unidimensionalaun cuando los items sean muy complejos en términos de lasdestrezas necesarias para la solución, siempre que todos los itemsdel test requieran una combinación similar de destrezas (Cuesta,1996).

Cualquiera que sea la noción que se adopte, según Cuesta (1996)son tres las razones por las que se puede considerar central para lamedición psicológica al supuesto de unidimensionalidad: 1) evitar quela variable medida esté contaminada por los niveles que se posean enotras variables; 2) facilitar la interpretación de las puntuacionesindividuales obtenidas en una prueba psicológica, y 3) facilitar lautilización de los modelos TRI más comunes o populares.

La primera y primordial razón tiene que ver con el hecho de que elrasgo o aptitud medido con una determinada prueba psicológica estédelimitado en el plano teórico de una manera clara y excluyenterespecto a otros. Resulta difícil defender que la medición de unavariable psicológica no está contaminada por los niveles de otrasvariables si dicha variable no está definida de manera clara y conlímites excluyentes de otras variables.

Respecto a la segunda razón, la adecuada interpretación de lasdiferencias individuales medidas mediante una puntuación totalobtenida en una prueba, cobra pleno sentido únicamente cuandodichas puntuaciones reflejan diferencias en un único rasgo odimensión, siendo en cambio más problemática su interpretacióncuando son producto de múltiples rasgos o dimensiones reflejados enla prueba. En este caso, las medidas individuales obtenidas medianteuna única puntuación total, producto de múltiples dimensionespsicológicas, no permite establecer a cuál o cuáles de lasdimensiones implicadas se pueden atribuir las diferenciasencontradas entre dos sujetos cualesquiera.

El último argumento, de orientación más pragmática, podríaconsiderarse irrelevante desde un punto de vista teórico, puesto que silos conceptos psicológicos no se pudieran delimitarunidimensionalmente poco sentido tendría justificarlo por el modelopsicométrico; sin embargo tiene su sentido si tenemos en cuenta la

109II. Integración de Teoría Sustantiva... l

potencialidad de las aplicaciones prácticas que ofrece la TRI, muchasde las cuales se basan en el desarrollo de modelos unidimensionales.Éste es el argumento que por ejemplo utiliza Navas (1996) respecto ala metodología habitual desarrollada para la equiparación depuntuaciones entre diversos tests cuyo primer requisito es que midanel mismo constructo en un modelo unidimensional. También es el queutiliza Fidalgo (1996) para el desarrollo de pruebas psicológicas nosesgadas o neutrales basadas en la detección del funcionamientodiferencial de los items provocado por el incumplimiento de launidimensionalidad del test.

A pesar de estos argumentos parece ser un hecho aceptado quelos tests psicológicos se han resistido continuamente a lademostración empírica de unidimensionalidad mediante las pruebashabituales (Cuesta, 1996). Se plantea así la conveniencia de utilizar,además de los unidimensionales, modelos multidimensionales que seajusten mejor a los datos. En tal sentido el desarrollo de modelospsicométricos multidimensionales es una de las líneas que seconsideran más prometedoras dentro de la TRI (Hambleton, 1997) yaque aparentemente favorecen una mayor integración entre la teoríapsicológica y psicométrica, dado su énfasis en ajustar los modelospsicométricos a la 'realidad psicológica' entendida comomultidimensional.

A pesar de ello y por asumir que los modelos unidimensionalesson los utilizados mayoritariamente en las aplicaciones prácticas, aconsecuencia de su mayor simplicidad matemática y facilidad deinterpretación, se ha desarrollado una amplia línea de investigaciónpara valorar en qué medida los modelos unidimensionales sonrobustos a las violaciones de este supuesto (p. ej. Gaviria, 1990;Cuesta y Muñiz, 1994, 1995). Aunque en general los resultados deestas investigaciones muestran una gran robustez de los modelosunidimensionales, esta orientación supone aceptar una ciertaseparación entre los aspectos teóricos de una prueba psicológica ylos psicométricos, o por lo menos no priorizar una adecuadaintegración entre ambos. En opinión de Cuesta (1996) una opción másadecuada sería diseñar instrumentos de medición verdaderamenteunidimensionales antes que usar modelos unidimensionales para

110 l Estrategias de Evaluación y Medición...

datos multidimensionales, pero esta opción "es ciertamente difícil enla medición de constructos psicológicos" (p. 281).

Nuestra posición es que para la teorización psicológica siguesiendo útil desarrollar instrumentos de medida unidimensionales, y quesu posible mayor dificultad práctica no puede convertirse enargumento para no abordarla. En nuestra opinión, éste es unplanteamiento acorde con el objetivo de avanzar en la delimitaciónteórica de los constructos psicológicos que venimos subrayando eneste capítulo.

El desarrollo de instrumentos unidimensionales de medidasencaja bien con una estrategia analítica que trata de descomponer larealidad estudiada en sus diversos elementos básicos -cada una delas dimensiones- para así comprender mejor el objeto de estudio.Además, si habitualmente ha sido problemático establecer la validezde constructo de los tests en el caso unidimensional (Embretson,1998), esta dificultad se incrementa necesariamente cuando se tratasimultáneamente con más de un constructo. Ello se aplica también alprocedimiento habitual que confía exclusivamente en el algoritmo deestimación de parámetros -es decir en modelos matemáticos- comoúnico procedimiento para identificar o delimitar los constructos odimensiones que pueda medir una prueba. El hecho de que seobtenga un mejor ajuste de modelos multidimensionales a los datosobservados en una prueba psicológica es un resultado estadístico queno significa que se tenga una mejor comprensión teórica de la realidadpsicológica estudiada. En cierto modo es la misma crítica quetradicionalmente se le ha hecho al análisis factorial exploratorio comoúnico método heurístico de teorización psicológica, al utilizar ésteexclusivamente como mecanismo inferencial a las correlaciones entrevariables observadas y la interpretación a posteriori de lasdimensiones encontradas en los datos. Pero en todo caso, dada lamayor dificultad de estimación de parámetros de los modelosmultidimensionales (Muñiz, 1997) y su mayor complejidadmatemática, existe en este caso un mayor riesgo de desequilibrio enel diseño de tests a favor de los requisitos y criterios exclusivamenteestadísticos, tales como una necesidad de mayores tamañosmuestrales y mayor número de items, frente a criterios sustantivos o

111II. Integración de Teoría Sustantiva... l

teóricos, como la necesidad de mejorar la delimitación teórica deldominio evaluado que para nosotros es primordial.

En definitiva, si aceptamos que la delimitación teórica del rasgo ovariable psicológico a medir es de utilidad esencial en el logro de lavalidez del constructo teórico, y coincidiendo con Embretson(1993,1998) en que ésta debe ser una etapa básica en el desarrollo decualquier prueba psicológica, se puede considerar de nuevo a ladelimitación del constructo teórico como un componente fundamentaldel cual además se pueda derivar el logro de pruebasunidimensionales. Esto exige mejorar nuestra comprensión delconstructo medido en una prueba que pretenda ser unidimensional ypor tanto la necesidad de incorporar a la teoría psicológica al diseño depruebas.

Epílogo

La integración que venimos defendiendo entre teoría sustantiva,diseño de las pruebas para evaluar un constructo psicológico ymodelos de análisis de las puntuaciones obtenidas puedeesquematizarse en una serie de fases como las representadas en lafigura 4. El proceso comienza con 1) la definición del constructopsicológico a evaluar mediante el estudio de los procesos psicológicosque interesan estudiar y las diversas teorías explicativas de dichofenómeno; 2) en una segunda fase de delimitación del dominiocomportamental sustantivo se trata de desarrollar un modelogenerativo derivado del constructo psicológico que mediante reglas, aser posible automáticas, nos permitan disponer virtualmente de todoun conjunto de items relativos a dicho dominio. Esto se puedeoperacionalizar mediante el establecimiento de esquemas de items oformas genéricas (ítem-form), vacíos de contenido estimular concreto,que representan la tarea a nivel genérico del dominio; 3) en un tercermomento se han de elaborar pruebas psicológicas concretas de caraa estudiar el peso de los distintos factores implicados en la generaciónde los items sobre los parámetros psicométricos de éstos; 4) porúltimo el análisis psicométrico de estas pruebas permitirá no sóloestimar directamente sus propiedades (por ejemplo de dificultad y

112 l Estrategias de Evaluación y Medición...

discriminabilidad), sino también estimar la validez del modelo a niveldel conjunto de items generable y al nivel de los procesos psicológicosimplicados en la definición del constructo psicológico.

CONSTRUCTO

TAREA DOMINIO

PRUEBA PSICOLÓGICA

PUNTUACIÓNAnálisis psicométricos

Construcción deModelo Generativo

Generación de items

Aplicación de items

Figura 4. Fases del proceso de medición de una variable psicológicamediante un modelo integrador.

De ese modo se trata de integrar en un mismo marco el desarrollode items, el ajuste a modelos de respuestas desde una perspectivaestructural y la validación de todo ello. Desde este marco, laconstrucción de items es guiada por el conocimiento del dominiopsicológico implicado y por la descripción psicométrica de los itemsgenerados (por ejemplo mediante la estimación de los parámetros deun modelo TRI).

Este enfoque tiene implicaciones importantes para el desarrollo,aplicación y evaluación de pruebas psicológicas (Bejar, 1993), ya quepor un lado implica tener una comprensión bastante completa delproceso de respuesta subyacente a una prueba, y por otro lado facilita

113II. Integración de Teoría Sustantiva... l

la interpretación de las puntuaciones puesto que el proceso degenerar los items se establece explícitamente. En último término, lacapacidad para asignar anticipadamente una descripción psicométricaa cada ítem posibilita la predicción de las propiedades de las pruebaspsicológicas, como permiten por ejemplo los modelos de análisis queincorporan factores cognitivos en los modelos de medida para explicarla dificultad de los items; entre éstos puede citarse al LLTM (Linear -logistic- Latent Trait Model) que descompone el parámetro b dedificultad del modelo de Rasch en una suma ponderada del peso dedistintos componentes cognitivos (Fisher, 1973). Se vincula así laconstrucción de items y el modelado de las respuestas en un sólopaquete de manera que ese vínculo, es decir, las predicciones sobrelas respuestas, es puesto a prueba cada vez que es administrado untest. De este modo, la administración de un test se convierte en unexperimento psicológico, lo que en contrapartida puede llevar a lamejora tanto de las teorías psicológicas como de los tests (Bejar,1993).

Junto a todas estas aportaciones como la TRI y la MGR, uno delos aspectos que han transformado el presente y futuro inmediato dela medición psicológica proviene de la aplicación de la tecnologíainformática en el desarrollo y aplicación de pruebas psicológicas. Lasposibilidades que ofrecen los ordenadores o computadoras lleva aconsiderar que el futuro de la psicometría estará marcado por el usode tests informatizados (Braum, 1993). Una de las razones se debe aque los ordenadores ofrecen nuevas posibilidades en el desarrollo detareas complejas, transferibles a los contextos académicos ylaborales, así como procedimientos de puntuación de la ejecuciónmediante rutinas automatizadas que simulan la conducta de unexperto (Bennet, 1993). Una de las grandes ventajas de lasaplicaciones informáticas de pruebas psicológicas se basa en el usode microcomputadoras que facilitan la observación individual intensivay la recogida de cientos o miles de datos en cortos períodos detiempo. Para Muñiz y Hambleton (1999) entre las ventajasinstrumentales que aporta el uso del ordenador para aplicar pruebasestán la presentación precisa y controlada de los items, la correccióny archivo automatizado de las respuestas, y la rapidez a la hora de

114 l Estrategias de Evaluación y Medición...

obtener los resultados.

Estas perspectivas de los ordenadores o computadoras junto conla ya citada construcción de tests basada en modelos psicológicoshace pensar que los factores que marcarán la psicometría futura seránel diseño de tests bien controlados experimentalmente, confundamentos de teoría psicológica, e implementados mediantetecnología informática (Samejima, 1997).

REFERENCIAS

Anastasi, A. y Urbina, S. (1997). Psychological testing. UpperSaddle River, NJ: Prentice-Hall.

Andrich, D. (1988). Rasch models for measurement. Newbury Park,CA: Sage.

Bejar, I. I. (1983). Achievement testing. Recent advances. BeverlyHills, CA: Sage.

Bejar, I. I. (1990). A generative analysis of a three-dimensionalspatial task. Applied Psychological Measurement, 14, 237-245.

Bejar, I. I. (1993). A generative approach to psychological andeducational measurement. En N. Frederiksen, R.J. Mislevy eI.I. Bejar (Eds.). Test theory for a new generation of tests (pp.323-357). Hillsdale, NJ: Lawrence Erlbaum.

Bejar, I. I., Chaffin, R. y Embretson, S. (1989). Cognitive andpsychometric analysis of analogical problem solving. NuevaYork: Springer-Verlag.

Bejar, I. I., Stabler, E. P. y Camp, R. (1987). Syntactic complexityand psychometric difficulty: A preliminary investigation. (Informede investigación. Nº. RR-87-25 ETS). Princeton, N.J.:Educational Testing Service. (Servicio de Reproduccióndocumental de ERIC).

Bejar, I. I. y Yocom, P. (1991). A generative approach to themodeling of isomorphic hidden-figure items. AppliedPsychological Measurement, 15, 129-137.

115II. Integración de Teoría Sustantiva... l

Bennett, R. E. (1993). Toward intelligent assessment: an integrationof constructed-response testing, artificial intelligence and modelbased measurement. En N. Frederiksen, R. Mislevy e I. I.Bejar (Eds.). Test theory for a new generation of test (pp. 99-123). Hillsdale: Lawrence Erlbaum.

Braum, H. I. (1993). Comments on chapters 11-14. En N.Frederiksen, R. J. Mislevy y I. I. Bejar (Eds). Test theory fora new generation of test (pp. 385-390). Hillsdale, NJ: LawrenceErlbaum

Butterfield, E. C., Nielsen, D., Tangen, K.L. y Richardson, M.B.(1985). Theoretically basic psychometric measures of inductivereasoning. En S. E. Embretson (ed.), Test design:Developments in Psychology and Psychometrics. (pp. 77-147).Nueva York: Academic Press.

Campbell, N. R. (1921). What is Science? [reimpreso en 1952].Nueva York: Dover.

Castro, C. de (1987). Introducción a la medición axiomática en lasciencias comportamentales I. Estructuras de ordenación.Theoria, 5-6, 401-426.

Cole, N. S. (1993). Comment on Chapters 1-3. En N. Frederiksen,R. J. Mislevy y I. I. Bejar (Eds). Test theory for a newgeneration of test (pp. 72-77). Hillsdale, NJ: Lawrence Erlbaum.

Crocker, L. y Algina, J. (1986). Introduction to classical and moderntest theory. Nueva York: Holt, Rinehart and Winston.

Cronbach, L. J. (1981). Las dos disciplinas de la psicologíacientífica. En F. Alvira, M. D. Avia, R. Calvo y J. F. Morales.(Comps.). Los dos métodos de las ciencias sociales (2ª ed)(pp. 93-124). Madrid: Centro de Investigaciones Sociológicas.(Trabajo original publicado en 1957)

Cuesta, M. (1996). Unidimensionalidad. En J. Muñiz (Coord.).Psicometría (pp. 239-291). Madrid: Universitas.

116 l Estrategias de Evaluación y Medición...

Cuesta, M. y Muñiz, J. (1994). Utilización de modelosunidimensionales de teoría de respuesta a los items con datosmultifactoriales. Psicothema, 6 (2), 283-296.

Cuesta, M. y Muñiz, J. (1995). Efectos de la multidimensionalidaden la estimación de parámetros desde modelosunidimensionales de teoría de respuesta a los items.Psicológica, 16 (1), 65-86.

Embretson, S. E. (1983). Construct validity: Construct representationversus nomothetic span. Psychological Bulletin, 52, 179-197.

Embretson, S. E. (1985). Test design: Developments in psychologyand psychometrics. Orlando, FL: Academic Press.

Embretson, S. E. (1993). Psychometric models for learning andcognitive processes. En N. Frederiksen, R.J. Mislevy e I.I.Bejar (Eds.). Test theory for a new generation of test (pp.125-150). Hillsdale, NJ: Lawrence Erlbaum.

Embretson, S. E. (1998). A cognitive design system approach togenerating valid tests: application to abstract reasoning.Psychological Methods, 3 (3), 380-396.

Fidalgo, A. M. (1996). Funcionamiento diferencial de los items. EnJ. Muñiz (Coord.). Psicometría (pp. 371-455). Madrid:Universitas.

Fisher, G. H. (1973). Linear logistic test model as an instrument ineducational research. Acta Psychologica, 37, 359-374.

Fraser, C. O. (1998). Medición psicológica. En J. Muñiz (Comp.)Teoría Clásica de los Tests (pp. 281-295). Madrid: Pirámide.(original publicado en 1980)

Frederiksen, N., Mislevy, R. J. y Bejar, I. I. (1993). Test theory fora new generation of tests. Hillsdale, NJ: Lawrence Erlbaum.

García, E., Gil, J. y Rodríguez, G. (1999). Elaboración de un TAIsobre contenidos escolares. En J. Olea, V. Ponsoda y G.Prieto (Eds.). Tests informatizados. Fundamentos yaplicaciones (pp. 357-378). Madrid: Pirámide.

117II. Integración de Teoría Sustantiva... l

Gaviria, J. L. (1990). El supuesto de unidimensionalidad en la teoríade rasgo latente: aportaciones metodológicas. Tesis Doctoralno publicada: Universidad Complutense de Madrid

Guttman, L. (1971). Integration of test design and analysis.Proceedings of the 1969 Invitational Conference on TestingProblems, 1970. Princeton, NJ: Educational Testing Service.

Haertel, E. H. y Wiley, D. E. (1993). Representations of abilitystructures: implications for testing. En N. Frederiksen, R.J.Mislevy y I.I. Bejar (Eds). Test theory for a new generation oftest (pp. 359-384). Hillsdale, NJ: Lawrence Erlbaum.

Hambleton, R. K. (1997). Perspectivas futuras y aplicaciones. EnJ. Muñiz, Introducción a la teoría de respuesta a los items(pp. 203-213). Madrid: Pirámide.

Hanson, N. R. (1977). Patrones de descubrimiento. Observación yexplicación. Madrid: Alianza. (trabajo original publicado en 1958)

Harré, R., Clarke, D. y DeCarlo, N. (1989). Motivos y mecanismos.Introducción a la psicología de la acción. Barcelona: Paidós.

Houts, A. C. (1994). Operational Analysis, Behavior Analysis, andEpistemology in Science and Technology Studies. RevistaMexicana de Análisis de la Conducta, 20 (monográfico), 101-143.

Lohman, D. F. y Ippel, M. J. (1993). Cognitive diagnosis: fromstatistically based assessment toward theory-basedassessment. En N. Frederiksen, R. J. Mislevy y I. I. Bejar(Eds.). Test theory for a new generation of test (pp. 41-71).Hillsdale, NJ: Lawrence Erlbaum.

Losee, J. (1985). Introducción histórica a la filosofía de la ciencia(4ª ed.). Madrid: Alianza. (Trabajo original publicado en 1972)

Martínez, R. J. (2000). Diseño de items y niveles de interacciónpsicológica. Universidad de Sevilla: Tesis Doctoral nopublicada.

118 l Estrategias de Evaluación y Medición...

Martínez, R. J., Moreno, R. y Carmona, J. (pendiente de dictamen).Generación y corrección automáticas de items de una tareade discriminación condicional de segundo orden.

McIver, J. P. y Carmines, E. G. (1986). Unidimensional scaling.Beverly Hills, CA: Sage.

Mislevy, R. J. (1993). Foundations of a new test theory. En N.Frederiksen, R.J. Mislevy y I.I Bejar (Eds.). Test theory for anew generation of test (pp. 11-39). Hillsdale, NJ: LawrenceErlbaum.

Muñiz, J. (1992). Teoría de respuesta a los items. Un nuevo enfoqueen la evaluación psicológica y educativa. Madrid: Pirámide

Muñiz, J. (1997). Introducción a la teoría de respuesta a los items.Madrid: Pirámide

Muñiz, J. (1998a). La medición de lo psicológico. Psicothema, 10(1), 1-21.

Muñiz, J. (1998b). Teoría clásica de los tests. Madrid: Pirámide.

Muñiz, J. y Hambleton, R. K. (1999). Evaluación psicométrica delos tests informatizados. En J. Olea, V. Ponsoda y G. Prieto(Eds.) Tests informatizados. Fundamentos y aplicaciones (pp.23-52). Madrid: Pirámide.

Navas, M. J. (1996). Equiparación de puntuaciones. En J. Muñiz(Coord.). Psicometría (pp. 293-369). Madrid: Universitas.

Nunnally, J. C. y Bernstein, I. H. (1995). Teoría psicométrica (2ªed.). México: McGraw-Hill.

Oort. F. J. (1993). Theory of violators: assessing unidimensionalityof psychological measures. En R. Steyer, K.F. Wender y K.F.Widaman (Eds.). Psychometric methodology. Proceedings ofthe 7th European Meeting of Psychometric Society in Trier(pp. 377-381). Sttutgart: Gustav Fischer Verlag.

Paz, M. D. (1998). Teoría de la Generalizabilidad. En J. MuñizTeoría clásica de los tests (pp. 80-98). Madrid: Pirámide.

119II. Integración de Teoría Sustantiva... l

Prieto, G., Carro, J., Orgaz, B. y Pulido, R. F. (1993). Análisiscognitivo de un test informatizado de visualización espacial.Psicothema, 5 (2), 293-301.

Prieto, G. y Delgado, A. R. (1996). Construcción de items. En J.Muñiz (Coord.). Psicometría (pp. 105-138). Madrid: Universitas.

Prieto, G. y Delgado, A. R. (1999). Medición cognitiva de lasaptitudes. En J.Olea, V.Ponsoda y G.Prieto (Eds.) Testsinformatizados (pp. 207-226). Madrid: Pirámide.

Reckase, M. D., Ackerman, T. A. y Carlson, J. E. (1988). Buildinga unidimensional test using multidimensional items. Journalof Educational Measurement, 25(3), 193-203.

Samejima, F. (1997). Departure from normal assumptions: a promisefor future psychometrics with substantive mathematicalmodelling. Psychometrika, 62 (4), 471-493

Silva, F. (1993). Evaluación conductual y criterios psicométricos.Madrid: Pirámide.

Snow, R. E. y Lohman, D. F. (1993). Cognitive Psychology, Newtest design, and New Test Theory: An introduction. En N.Frederiksen, R. J. Mislevy y I. I. Bejar (Eds). Test theory fora new generation of test (pp.1-17). Hillsdale, NJ: LawrenceErlbaum.

Stevens, S. S. (1935). The operational definition of psychologicalconcepts. Psychological Review, 42, 517-527.

Stevens, S. S. (1946). On the theory of scales of measurement.Science, 103, 667-680.

Stevens, S. S. (1951). Mathematics, measurement andpsychophisics. En S. S. Stevens (Ed.) Handbook ofExperimental Psychology (pp. 1-30). Nueva York: Wiley.

Stout, W. (1987). A nonparametric approach for assessing latenttrait unidimensionality. Psychometrika, 52(4), 589-617

Stout, W. (1990). A new item response theory modeling approachwith applications to unidimensionality assessment and abilityestimation. Psychometrika, 55(2), 293-325.

Capítulo 3

EXPLORANDO LA UTILIDAD DE LOSANÁLISIS CLÁSICO Y RASCH EN LA

DETERMINACIÓN DE LA CONSISTENCIAINTERNA DE SUBPRUEBAS CORTAS

DE HOMOGENEIDAD ALTA.Sandra Castañeda Figueiras

Universidad Nacional Autónoma de México -Centro Nacional de Evaluación para la Educación Superior

Toda vez que el especialista administró el examen piloto a unamuestra de sujetos, una variedad de marcos de trabajo y técnicas deanálisis para controlar la calidad de los componentes que utilizará enla construcción del examen final, le serán provistos por la extensaliteratura disponible de las aproximaciones psicométricas existentes.

A lo largo del proceso de construcción del examen, variaspreocupaciones aparecen en el panorama del especialista, entre otras:a) identificar items particulares que fallan por no contribuir coninformación importante acerca de la variable que está siendo medida;b) identificar items que fallan por no discriminar adecuadamente entresustentantes del grupo superior y el inferior; c) identificar laconsistencia interna que los items exitosos guardan con el resto delexamen, en vías de asegurar la precisión en la medición, así como d)estimar la longitud del instrumento y las de las porciones específicasdel mismo.

En vías de resolver lo que le preocupa, el especialista deberáelegir la aproximación que le asegure el mayor control en todos ycada uno de los pasos que constituyen el proceso de construcción delexamen. Esta tarea no es fácil, el especialista requiere conocer lossupuestos que subyacen a las diversas aproximaciones. Revisaremosalgunos de ellos, en función de las aproximaciones de la TeoríaClásica de los Tests (TCT, Anastasi, 1967) y de la Teoría deRespuesta al ítem (TRI, Hambleton, Swaminathan y Rogers, 1991).

122 l Estrategias de Evaluación y Medición...

Supuestos:

Invarianza de parámetros: obtener mediciones invariantesrespecto a los instrumentos utilizados y los sujetos implicados.

En el acercamiento clásico se reconoce que la medida de unavariable es inseparable del instrumento utilizado para medirla y que laspropiedades del instrumento estén en función de los objetos medidos(Cronbach, 1990).

El que la medición de un variable dependa del instrumentoutilizado plantea problemas serios al tratar de establecer laequivalencia entre las puntuaciones de dos o más exámenesdistintos, que midan una misma variable: ¿Qué seguridad tenemos deque dos o más exámenes paralelos ofrezcan las mismasoportunidades a los sustentantes, es decir, sean iguales de difíciles,si las puntuaciones de cada una de ellos no provienen de una escalacomún?

El que las propiedades del instrumento de medida, los items y,por lo tanto, el examen, estén en función de los sujetos a los que seles aplican, es otro problema a superar: por ejemplo, el que el índicede dificultad de un ítem dependa del grupo de sujetos utilizados paracalcularlo. Cuando el grupo de referencia es competente, el índice dedificultad será fácil, en cambio, si tal grupo no es competente, serádifícil. Así, un mismo ítem puede tener distinto índice de dificultad enfunción de la muestra utilizada.

En términos generales, la varianza de parámetros debe resolverdos problemas fundamentales: el de las propiedades de losinstrumentos en función de las personas evaluadas y el de losexámenes empleados, en otras palabras, no es adecuado que lalongitud de los objetos dependa del tipo de regla con la que se miden(validez = lo que mide mi examen) o bien, que las cualidades de labalanza dependan de los objetos pesados.

El acercamiento de respuesta al ítem, por el contrario, permitemediciones invariantes respecto del instrumento utilizado y de laspersonas evaluadas, dado que éstos son medidos en una mismaescala común, F (theta), que no es la escala del instrumento y sus

123III. Explorando la Utilidad de... l

valores pueden ir de -µ y +µ.

Modelo utilizado por la aproximación: otra diferencia entreTCT y TRI está dada por el modelo que utilizan uno y otro.

En la teoría clásica, el modelo utilizado es lineal y la puntuaciónempírica es igual a la verdadera, más el error. En la TRI, la función querelaciona las puntuaciones empíricas con las verdaderas es curvilínea,viene dada por el tipo de curva adoptada por el modelo que es,habitualmente, logística. Las asunciones del modelo clásico songenerales y es fácil que la mayoría de los datos empíricos lascumplan, su fuerza está en su generalidad, son aplicables asituaciones muy variadas, por lo que se las reconoce como débiles.En TRI, las asunciones son más fuertes, más restrictivas, se sacrificala generalidad para ganar precisión predictiva.

Discriminación de los reactivos

En la TCT, los buenos items discriminan entre examinados conpuntajes totales altos de aquellos con puntajes totales bajos. En otraspalabras, los puntajes de los items particulares correlacionanpositivamente con el puntaje total (el criterio de interés). Así, laconsistencia interna del puntaje total se ve maximizada cuando todoslos items del examen tienen índices de discriminación adecuados(correlación item-puntaje total). Se asignan valores para identificaritems que tienen valores de discriminación indeseables (regularmente,menores a .20).

Los análisis basados en el modelo Rasch de un parámetro (TRI),en cambio, identifican si el ítem particular se ajusta o no al modelo otendencia latente observada considerando a todos los items comoigualmente discriminantes, pero quizá desigualmente difíciles(parámetro “b”, conocido como “dificultad”).

Muñiz (1997), interesado en poner a prueba la imprecisión deestimar los parámetros “a” (discriminación) y el “c” (aciertos al azar)con muestras pequeñas, mostró lo poco que gana en la robustez delas estimaciones del modelo Rasch, al incluir la medición de losparámetros “a” y “c” en los modelos de dos y tres parámetros de TRI.

124 l Estrategias de Evaluación y Medición...

Así, las estimaciones del modelo Rasch y, por lo tanto, su ajuste, seven poco afectadas por la presencia de aciertos al azar y menos aúnpor la de índices de discriminación variables.

Esta ventaja resulta particularmente importante cuando eldiseñador de exámenes debe tomar en cuenta la incidencia delnúmero de items y sujetos, así como los valores y distribuciones de Fy de “b”

Coeficiente de consistencia interna

La TCT establece que los coeficientes de confiabilidad seránmenores en tanto los grupos sean homogéneos. Esta relaciónesperada se basa en el supuesto de constancia en el error estándarde medida (EEM): se asume que el EEM está distribuidonormalmente y es igual para todos los niveles de puntajes. Entonces,una baja varianza en los puntajes observados, es el resultado de unavarianza baja en los puntajes verdaderos.

Sin embargo, esta noción ha sido vulnerada por estudios de TCTque han examinado tanto la estabilidad del EEM, como la relaciónentre los coeficientes de confiabilidad y la varianza de los puntajesverdaderos, así como los de error.

Feldt y Qualls (1999), exploraron empíricamente 170 distritosescolares, dentro de un estado de la unión americana. Encontraronque el coeficiente de confiabilidad no es sólo una función de lamagnitud de la varianza verdadera, sino que también depende de lavarianza de error, particularmente de la razón entre ambas varianzas.Como consecuencia de esta evidencia, Feldt y Qualls (op. cit.)recomiendan reportar en los manuales de exámenes a gran escala, loscoeficientes de consistencia interna con base en los coeficienteslocales y el error estándar de medida local.

En este sentido y, desde la perspectiva de la Teoría deRespuesta al ítem, se han revisado algunas reglas de medición, entreellas, la referida al error estándar de medida.

La regla clásica establece que el EEM aplica a todos los puntajesen una población particular; en cambio, la nueva regla establece que el

125III. Explorando la Utilidad de... l

error estándar de medida difiere a lo largo de los puntajes (o patronesde respuesta), pero se generaliza entre poblaciones.

Embretson (1996) graficó, en puntajes z, resultados de EEM, porlos niveles en tendencia latente observada en dos poblacionesdiferentes, sobre una prueba de 30 items, con un rango de dificultadnormal y 1,000 casos por población (véase la figura 1).

-3 -2 -1 0 1 2 3

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0

* *

**

++ + + + + + + + + + + + + + + + + + + + + + + + + + + +. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

* * * * * * * * * * * * * * * * ** *

*

**

Error estándar de medida

* TRI, todos + TCT, población 1 . TC T, población 2

Niveles en la tendencia observada

-3 -2 -1 0 1 2 3

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0

* *

**

++ + + + + + + + + + + + + + + + + + + + + + + + + + + +. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

* * * * * * * * * * * * * * * * ** *

*

**

Error estándar de medida

* TRI, todos + TCT, población 1 . TC T, población 2

Niveles en la tendencia observada

Figura 1. Dos versiones de medición de error: TRI y TCT.

Como puede verse en la figura 1, los valores TRI para EEM sonidénticos en las dos poblaciones, dado que tanto el nivel en latendencia latente observada, como su EEM estimado dependensolamente del patrón de respuesta del sustentante.

Sin embargo, EEM no es constante entre los diversos niveles dela tendencia o atributo observado: son bajos para niveles moderadosen la tendencia observada (por ejemplo, puntajes cercanos a cero) ymás altos para niveles extremos. Las diferencias de los EEM entre losniveles de la tendencia observada, refleja la distribución de la dificultaddel ítem. TRI estima valores altos de EEM para puntajes extremos.

Este error típico tiene una característica notable respecto al de lateoría clásica: su valor no es el mismo para todos los sujetos, está en

126 l Estrategias de Evaluación y Medición...

función del valor F, lo que representa que la precisión con la que semide en las diferentes porciones de un examen no es uniforme a lolargo de la escala sino que va a depender del nivel alcanzado por lossujetos en la variable medida.

En TRI es posible estimar, entonces, el valor de F y una medidade precisión de las estimaciones dadas por el EEM, para esto utilizala función de información (FI), que es la inversa del error, es decir,cuanto menor error haya en la medición, más información se aportasobre lo medido. Esta característica constituye una ventaja importantedado que permite construir intervalos de confianza para puntajesindividuales e interpretar diferencias de puntajes entre pruebas y parael caso que nos ocupa, entre subpruebas diferentes.

Con base en los aspectos considerados hasta aquí y buscandoaportar elementos para la toma de decisiones de los especialistas enconstrucción de exámenes a gran escala, interesó identificar la utilidadpotencial que cada aproximación aportaría al especialista interesadoen establecer la consistencia interna cuando las subpruebas queconstituyen un examen deben diferir en el número de reactivos ycuando el número de sustentantes disponibles para establecer laconsistencia interna varía importantemente.

La variabilidad en el número de reactivos por subprueba y en elnúmero de sustentantes disponibles es tanto un aspecto técnicoimportante para el constructor de exámenes, como un aspectopráctico. Los pesos que las diferentes porciones del examen(subpruebas) deben tener sobre el total posible son establecidos,regularmente, a partir del juicio intersubjetivo entre expertos en eldominio de conocimiento, es decir, son establecidos racionalmente.Así, algunas porciones del examen (subpruebas) deberán tener unaextensión considerable, en tanto que otras una mínima. Toda vezdefinidos los pesos (y en consecuencia, el número de reactivos quedeberá tener cada porción), el especialista requiere seleccionar de subanco de reactivos aquellos reactivos que satisfagan los requisitospsicométricos.

Suele suceder, con una frecuencia mayor a la deseable, que losreactivos de las subpruebas cortas muestran dificultad para satisfacer

127III. Explorando la Utilidad de... l

los requerimientos psicométricos aun cuando los especialistas encontenido y los de redacción técnica los consideraron adecuados eindispensables para las finalidades de lo que se quiere evaluar.Entonces, el especialista enfrenta, entre otros muchos, dosproblemas a resolver: ¿desechar un buen número de reactivoscalificados como adecuados e indispensables por los expertos? y¿cómo y dónde disponer de más sustentantes? Obviamente,desechar reactivos técnicamente adecuados y conseguir sustentantesa toda prisa representan opciones a seguir, sin embargo, queda poraclarar si los índices psicométricos mostrados por esos reactivos sedeban a las asunciones del modelo psicométrico utilizado, en otraspalabras ¿el problema detectado es un problema inherente al clavo oal martillo que se usó?

Método

Sujetos: 742 voluntarios, hombres (15.79%) y mujeres (82.85%),

egresados de la licenciatura en Psicología en el país, con una media

de edad de 31.5 años, 62.82% solteros y 35.99% casados, que en su

mayoría no interrumpió sus estudios (91.68) y no estaban titulados al

momento del estudio (95.84%).

Instrumentos: Cinco subpruebas objetivas, sobre fundamentos

teóricos, técnicos y valorales en Psicología, de lápiz y papel, con

reactivos de opción múltiple, con cuatro distractores verosímiles, de

los cuales sólo uno es la respuesta correcta.

La extensión de reactivos en cada subprueba y el número de

sustentantes en cada una de ella se muestra en la tabla No. 1.

Todos los reactivos habían satisfecho los requisitos de calibraciónestablecidos tanto por TCT como por TRI, en el estudio piloto.

Procedimiento

Con las respuestas de los 742 sustentantes, se corrieron análisisfundamentados en Teoría Clásica de los Tests usando tres paquetes:Kalt-C (Tristán, 1999); Iteman (Assessment Systems Co. , 1993) y el

128 l Estrategias de Evaluación y Medición...

paquete estadístico SPSS (release, 8.0). En los dos primeroscalibradores se computaron los índices de dificultad, los dediscriminación y el coeficiente de correlación punto biserial (r

pbis) entre

el puntaje de ítem y el puntaje total obtenido en la subprueba elegida.En SPSS, sólo se computó el (r

pbis).

Tabla 1. Distribución de la extensión de reactivos de las subpruebas y delnúmero de sustentantes.

EXTENSIÓN DESUPRUEBAS

NÚMERO DE SUSTENTANTES

186 reactivos 742

65 reactivos 742

19 reactivos 742

17 reactivos 375

17 reactivos 64

Resultados

Las dificultades medias de cada subprueba obtenidas en Kalt-C eIteman fueron las mismas y muy semejantes entre las cincosubpruebas, sin importar el número de sustentantes. La tabla No. 2muestra sus valores.

Tabla 2. Medias de valores P de las diversas subpruebas.

EXTENSIÓN DESUPRUEBAS

DIFICULTADMEDIA

NÚMERO DE SUSTENTANTES

186 reactivos 0.49 742

65 reactivos 0.48 742

19 reactivos 0.5 742

17 reactivos 0.49 375

17 reactivos 0.48 64

129III. Explorando la Utilidad de... l

Las medias de discriminación de cada subprueba, obtenidas en

Kalt-C e Iteman fueron las mismas. Como puede observarse en la

tabla 3, no variaron significativamente entre las muestras de reactivos

cuando el total de sustentantes fue mayor a 375 sustentantes. En

cambio, sí variaron cuando la N de reactivos y la de sustentantes

disminuyó notablemente (véase tabla 3).

Tabla 3. Medias de rbis de las subpruebas.

EXTENSIÓN DESUPRUEBAS

MEDIA DE rbisNÚMERO DE

SUSTENTANTES

186 reactivos 0.28 742

65 reactivos 0.28 742

19 reactivos 0.28 742

17 reactivos 0.21 375

17 reactivos 0.15 64

Las diferencias entre las medias de discriminación motivaron

obtener índices TRI para apoyar la toma de decisiones al respecto de

la consistencia interna de las subpruebas. Con las mismas

respuestas de los sustentantes, se corrieron análisis Rasch de un

parámetro, utilizando el calibrador Rascal (Assessment Systems Co.,

1992). Los grupos de resultados fueron comparados para observar si

los índices de consistencia interna obtenidos en cada aproximación

generaban índices diferenciales en las diversas subpruebas. Un

resumen de los índices obtenidos se presenta en la tabla No. 4.

En los tres análisis TCT, cuando el número de reactivos y el

número de sujetos fue extenso, los índices de consistencia interna

obtenidos satisficieron los requisitos establecidos como deseables por

esta aproximación. Cuando el número de reactivos bajó, pero el

número de sujetos se mantuvo, el índice de consistencia interna

mostró un ligero decremento. Sin embargo, en los tres análisis TCT,cuando el número de reactivos bajó un poco más y el número de

130 l Estrategias de Evaluación y Medición...

sujetos bajó considerablemente, los índices de consistencia interna

se vieron sensiblemente afectados, tal y como se ha postulado para

los coeficientes de correlación.

Tabla 4. Índices de consistencia interna obtenidos en ambasaproximaciones.

ANÁLISIS TRI

EXTENSIÓN DE SUBPRUEBAS

KALT-C ITEMAS SPSS RASCAL No. SUJETOS

186 reactivos 0.9 0.9 0.87 0.97 742

65 reactivos 0.76 0.77 0.76 0.92 742

19 reactivos 0.64 0.59 0.64 0.76 742

17 reactivos 0.18 0.18 0.07 0.81 375

17 reactivos 0.21 0.2 0.04 0.73 64

ANÁLISIS TCT

Por el contrario, los índices obtenidos por el análisis Rasch

mostraron ser más resistentes a variaciones en el número de reactivosy en el de sujetos. Al usar la estimación estadística de la magnitud

del rasgo latente observado, simbolizada como F y, correlacionar los

reactivos con esta estimación, en los diversos niveles de la habilidad

evaluada, fue capaz de representar, con mayor precisión, lo que se

mide en las diferentes porciones de un examen.

Para tal fin, usa la inclinación de la línea de trazo para describir la

discriminación, al igual que se usa en psicofísica. Al haber ciertacantidad de personas en cada punto de la línea de trazo, los atributos

son continuos, de modo que, en teoría, es posible hacer

discriminaciones más precisas. Así, la línea de trazo mostró la

probabilidad de respuesta esperada para las personas en ese nivel del

atributo o tendencia latente observada, tal y como se observó en la

gráfica 1. Esta característica de los modelos TRI, constituye uno desus puntos más fuertes: permite elegir reactivos, en un rango amplio

de dificultades, a fin de poder discriminar entre los diversos niveles de

F, lo que maximiza la confiabilidad.

131III. Explorando la Utilidad de... l

Esta ventaja es de gran utilidad cuando el especialista necesita

construir subpruebas cortas de homogeneidad alta, como los

presentados aquí, esto sucede, con mucha frecuencia, en exámenes

de certificación de competencias laborales y profesionales. También,

apoya al especialista a tomar decisiones sobre reactivos particulares

que, por experiencia son difíciles de lograr, en los exámenes de

certificación de resultados de aprendizaje, como el aquí citado.

Esta ventaja se asocia, también, con la longitud de las

subpruebas. Por ejemplo, un calibrador TCT prescribió las siguientes

longitudes para que las subpruebas analizadas en este trabajo

obtuvieran una confiabilidad de .90 (véase la tabla 5).

Tabla 5. Extensión de subpruebas para lograr confiabilidad de .90. *Estasubprueba ya había logrado el .90 de confiabilidad

EXTENSIÓN DESUPRUEBAS

EXTENSIÓN PRESCRITA

186 reactivos* 233 reactivos

65 reactivos 184 reactivos

19 reactivos 94 reactivos

17 reactivos 700 reactivos

17 reactivos 564 reactivos

Los datos son reveladores de que aun cuando la profecía

Spearman-Brown establece que manteniendo otras cosas iguales, el

incremento de la extensión de una prueba, con partes paralelas,

producirá un incremento en la confiabilidad, consideración

situacionales como el tiempo disponible, la producción innecesaria de

fatiga, así como consideraciones teóricas, como la complejidad

cognitiva entre las diferentes tareas y la capacidad de los modelos

TRI para construir subpruebas cortas de homogeneidad alta deberán

ser tomadas en cuenta por los especialistas para elegir la extensión

adecuada de las subpruebas.

132 l Estrategias de Evaluación y Medición...

Comentarios concluyentes

Las aproximaciones aquí revisadas proveen de información útil parael establecimiento de la consistencia interna de los instrumentos. Elreto para los constructores de exámenes a gran escala es poderutilizar estratégicamente los supuestos que le permitan, antediferentes extensiones de subpruebas en los exámenes y ladisponibilidad de sujetos suficientes, asegurar la precisión en lasdiferentes porciones de un instrumento.

En las dos últimas décadas se ha visto que los profesionales de lamedición se han movido de la Teoría Clásica de los Tests hacia laTeoría de Respuesta al ítem, debido a los beneficios que ésta últimaha mostrado en la calibración de los reactivos que constituyen unexamen. En este trabajo, se ha mostrado su utilidad para la toma dedecisiones sobre índices de consistencia interna basados en F y noen estimaciones clásicas que muestran dependencia del número dereactivos y de sujetos disponibles. La determinación racional de lalongitud de las pruebas constituye otro aspecto atendido brevementeen el trabajo.

Queda en la agenda establecer los índices de consistencia internapara la medición de los gradientes de complejidad cognitiva queconstituyen las diferentes porciones de los exámenes.

REFERENCIAS

Anastasi, A. (1967). Psychology, psychologists, and psychologicaltesting. American Psychologist, 22(4), 297-306.

Cronbach, L.J. (1990), Essentials of psychological testing (5a. ed.),Harper y Row: Nueva York.

Embretson, S. E. (1996). The New Rules of Measurement.Psychological Assessment, 8(4), 341-349.

Feldt, L. S. y Qualls, A. L. (1999). Variability in ReliabilityCoefficients and Standard Error of Measurement From SchoolDistrict to District. Applied Measurement in Education, 12(4),367-381.

133III. Explorando la Utilidad de... l

Hambleton, R. K., Swaminathan, H. y Rogers, H. J. (1991),Fundamentals of item response theory, Beverly Hills, CA,SAGE.

Iteman (1993). Conventional Item Analysis Program, version 3.5.Assessment Systems Corporation: Minnesota.

Muñiz J. (1997), Introducción a la teoría de respuesta a los items.pp. 83-95, PIRÁMIDE: Madrid.

Rascal (1992). Rasch Analysis Program, version 3.5. AssessmentSystems Corporation: Minnesota.

Tristán, A. (1999). Kalt Criterial. Ingeniería y EstadísticaEspecializada: México.

Capítulo 4

LA MEDICIÓN DE LA APTITUDACADÉMICA GENERAL:

UNA APLICACIÓN DEL ANÁLISISFACTORIAL CONFIRMATORIO JERÁRQUICO.

Alvaro J. Arce Ferrer, José E. Canto y Rodríguez yZulema N. Aguilar Soberanis

Universidad Autónoma de Yucatán

Las pruebas estandarizadas han sido un elemento familiar en losprocesos de desarrollo profesional y selección de estudiantes delicenciatura y postgrado en los Estados Unidos (Adams, 1988; Linn,1990). Aunque la entrega de calificaciones de pruebas estandarizadasno es un requisito para todas las universidades, la gran mayoría de losestudiantes que solicitan ingreso requieren de tomar las pruebasexternas como la batería de pruebas académicas del "AmericanCollege Testing Program (ACT)" o la prueba "College Board'sScholastic Aptitude Test (SAT)" (Donlon, 1984). De manera similar alos estudios de pregrado, los estudiantes que solicitan ingreso aprogramas de postgrado necesitan incluir muestras de susdesempeños en pruebas estandarizadas, como el "Graduate RecordExaminations (GRE) General Tests" (Adams, 1988; American CollegeTesting, 1973; Braun, Ragosta, y Kaplan, 1988; Breland, 1979; Linn,1990).

En México también se han utilizado las pruebas estandarizadasen los procesos de selección de estudiantes a las universidades;éstas han elegido sistemas de evaluación externos para auxiliar susprocesos. Por ejemplo, la Universidad Autónoma de Guanajuatoadministra el Examen de Habilidades y Conocimientos Básicos(Backhoff y Tirado, 1992), mientras que la Universidad de QuintanaRoo administra el Examen Nacional de Ingreso a la EducaciónSuperior (Ceneval, 1999). Otras universidades, dependen más del usode pruebas desarrolladas internamente, como por ejemplo, laUniversidad Autónoma de Yucatán (UADY) quien utiliza la Prueba de

136 l Estrategias de Evaluación y Medición...

Aptitud Académica General (PAAG).

Independiente de la modalidad de contratación de los servicios demedición (externos o internos a las universidades), los exámenes quese utilizan en la toma de decisiones de ingreso deben estarrespaldados por un cúmulo de evidencias que apoyen no sólo elsignificado de sus puntuaciones sino también el uso que se les darán(APA, AERA, NCME, 1999; CENEVAL, 2000).

Las líneas de evidencias varían dependiendo del nivel de desarrolloteórico del atributo que pretende medir la prueba. La mayoría de laspruebas utilizan la idea del dominio para identificar y describir lanaturaleza de las tareas vinculadas con el atributo que se planeamedir. La definición del dominio de una prueba estandarizada deaptitudes es un componente esencial al momento de interpretar yutilizar las puntuaciones (Crocker & Algina, 1986; Ebel & Frisbie,1991; McDonald, 1999, Mesick, 1989). Así como una muestrarepresentativa de personas conduce a inferencias propias en unapoblación, una muestra representativa de tareas definidas a partir deun dominio puede contribuir al entendimiento del concepto medido.

El dominio que concretiza la definición de un atributo, en este casola aptitud académica, usualmente se caracteriza por áreas. Lacantidad de éstas así como su naturaleza depende de los propósitosde la prueba y de una teoría que la sustente. Mientras que el dominiode la parte común del Examen Nacional de Ingreso a la EducaciónSuperior se divide en un área de razonamiento y otra área deconocimientos específicos, el dominio de la Prueba de AptitudAcadémica General se divide en un área de lenguaje y otra decapacidad para el razonamiento matemático básico (CENEVAL, 1999;UADY, 1998).

Es importante resaltar que la documentación del dominio de unaprueba es un aspecto fundamental en la medición (APA, AERA,NCME, 1999; CENEVAL, 2000). El contar con esta documentaciónpermite obtener, entre otros, información acerca de los propósitos dela prueba, una caracterización de lo que se esperara medir y elproceso que se espera seguir para medir. El análisis del dominio deuna prueba provee información del esfuerzo puesto en construir una

137IV. La Medición de la Aptitud.. l

prueba que a "prima facie" refleje tareas para cada área del dominio.

La aproximación teórica que ha dominado la construcción depruebas para el ingreso a las universidades es común a la mayoría delas pruebas existentes, independientemente de su carácter externo einterno. Ésta establece que la aptitud puede ser medida con grupos detareas homogéneas cuyos aspectos comunes indican la porción de laaptitud. Es decir, la solución de éstas tareas depende más de lacantidad de aptitud que posee el examinado y menos de los aspectosúnicos (e.g., errores de medición) de las tareas. El Examen Nacionalde Ingreso a la Educación Superior utiliza tareas de aritmética,álgebra y conceptos básicos de geometría euclidiana, geometríaanalítica, cálculo, probabilidad y estadística para definir alrazonamiento matemático (CENEVAL, 1999). La Prueba de AptitudAcadémica General utiliza tareas que involucran el uso deoperaciones aritméticas básicas, el conocimiento de símbolosalgebraicos y resolución de ecuaciones, el conocimiento de conceptosde geometría y el conocimiento de los principios básicos deestadística (UADY, 1998).

La documentación del dominio de una prueba de aptitudacadémica es una condición necesaria más no suficiente. Si bienproporciona información acerca de lo planeado, queda silenciosa encuanto a qué tanto de lo que se planeó realmente se alcanzó. Porejemplo, un aspecto a lograr en el desarrollo de una prueba es lahomogeneidad de las tareas incluidas. El proceso de poner a pruebala hipótesis de homogeneidad requiere de contar con datos empíricosque describen el comportamiento de quienes toman las pruebas encada uno de los reactivos. Por el contrario, centrarse únicamente en elanálisis del dominio para juzgar la homogeneidad de las tareasdescribirá lo que un grupo de "expertos" entiende por homogeneidad.

Se necesitan fuentes adicionales de información, como lo sería lanaturaleza del dominio y la cobertura de la prueba. Las pruebas deselección que se utilizan en México poseen diversos nombres. Paraalgunas pruebas el nombre describe la naturaleza del dominio querepresentan y para otras el nombre prescribe el uso y la cobertura delos resultados. Mientras que el nombre del "Examen de Habilidades y

138 l Estrategias de Evaluación y Medición...

Conocimientos Básicos" (Backhoff y Tirado, 1992) indica la naturalezacognitiva de tareas vinculadas con habilidades (i.e., aptitudes) yconocimientos escolares básicos, el nombre del "Examen Nacional deIngreso a la Educación Superior" (CENEVAL, 1999) señala el uso quese le dará a los resultados así como la cobertura de los mismos. Sinembargo, un análisis de la documentación de este examen permiteesclarecer la naturaleza de su dominio (CENEVAL, 1999).Técnicamente, tanto el EXCOBA como el EXANI-II son pruebas quecombinan la medición de la aptitud académica (i.e., habilidades yrazonamiento) con la medición de los conocimientos adquiridos en laescuela.

Existen otros exámenes de ingreso con identidades construidasen torno a la especificidad de la estructura que da sustento al dominioy al puntaje que se recomienda interpretar. La Prueba de AptitudAcadémica General (PAAG) en su nombre declara la presencia de unfactor general que puede ser medido mediante grupos de tareasrelacionadas con el uso del lenguaje y el razonamiento matemáticobásico (UADY, 1998). Esta concepción es similar a las de habilidad yrazonamiento en el EXCOBA y el EXANI-II, respectivamente. Sinembargo, la PAAG va más allá para establecer que la aptitudacadémica que mide tiene un carácter general y por consiguiente quela toma de decisiones debe sustentarse en el uso del puntaje generalque proviene de la medición de este aspecto (UADY, 1993, 1998,1999).

El declarar lo general de una aptitud como parte del nombre deuna prueba de ingreso pudiera parecer una sutileza en el uso dellenguaje; sin embargo, tiene implicaciones para las líneas deevidencias que se deben recabar en los estudios de validación.Cuando lo general de la aptitud proviene de sus característicaspsicométricas, las evidencias de validación que deben acompañar aluso de las puntuaciones de las pruebas de admisión que la aspiran amedir incluyen las siguientes:

- Demostrar la presencia de grados altos de homogeneidad de lastareas.

- Demostrar la presencia de una estructura jerárquica.

139IV. La Medición de la Aptitud.. l

- Demostrar la precisión con la que las tareas definen lo general dela aptitud.

En el contexto de la teoría de la medición, un atributo psicológicoes general si proviene de un grupo homogéneo de tareas que puedenser modeladas a partir de una estructura jerárquica (McDonald, 1999).En dicha estructura cada tarea se encuentra anidada en su respectivogrupo de tareas, a un nivel intermedio en un área y a un nivel mayor degeneralización dentro de un factor general.

Sin embargo, la generalidad de la aptitud académica también sepuede vincular con la cobertura que se desee tenga la prueba. En estecaso, se puede pensar que lo general en la aptitud académica provienemás de la selección de una palabra que denote que los resultados dela prueba pueden ser de utilidad para cualquier carrera en cualquieruniversidad. Si ésta fuese la intención, líneas de evidencias deben sergeneradas para investigar en que medida se cumple.

Probar lo general de un constructo bajo la perspectiva decobertura requiere de contar con dos líneas de evidencias queprovengan de sendos estudios de validación. La primera requiere dedemostrar la generalidad de la aptitud académica como constructopsicológico. Esta línea de evidencia se basa en la investigación de lahomogeneidad, la naturaleza jerárquica y la precisión de las tareasincluidas en el dominio. La segunda línea requiere la demostración deuna correspondencia alta entre las tareas incluidas en la prueba y losperfiles de ingreso para cualquier carrera en cualquier universidad y laexistencia de una discrepancia baja entre los perfiles de ingreso adichas carreras.

El estudio que se discute en lo que resta de este capítulo tuvocomo propósito principal genera líneas de evidencias para darsustento a la naturaleza general de la aptitud académica desde laperspectiva de la medición. En este estudio también se investigó laposibilidad de reportar un único puntaje para medir la aptitud general.Los propósitos secundarios del estudio fueron derivar información paravalidar el éxito obtenido en la medición de la aptitud académicageneral mediante el uso de tareas vinculadas con el lenguaje y elrazonamiento matemático básico. Particularmente, se buscaron las

140 l Estrategias de Evaluación y Medición...

evidencias que se requieren de establecer para apoyar lo general deun constructo desde la perspectiva de la medición, siendo lassiguientes:

- Precisión de cada uno de los grupos de tareas en la medición desus respectivas dimensiones (i.e., lenguaje y razonamientomatemático básico);

- Homogeneidad de los grupos de tareas dentro de cada dimensión;- Modelo de medición que da sustento a la Prueba de Aptitud

Académica General;- Puntuaciones generales y/o puntuaciones específicas por áreas

de la prueba para apoyar decisiones de admisión a los estudiossuperiores.

En este estudio se trabajó con la Prueba de Aptitud AcadémicaGeneral; sin embargo, estudios similares pueden ser llevados a cabocon otras pruebas de ingreso sean internas o externas a lasuniversidades.

MÉTODO

Población y Muestra

La población en este estudio está definida por 3892 estudiantesque solicitaron ingreso a las licenciaturas de la UADY durante el cicloescolar 1998-1999. Del total de estudiantes 51.8% son masculinos y48.2% son femeninos. Con respecto a la edad de los estudiantes, el 33% indicó tener alrededor de 18 años y el 18.8% 21 años o más.Respecto del bachillerato de procedencia, la especialidad deBiológicas contribuyó con la mayor cantidad de estudiantes (36.7% deltotal), y la especialidad de Matemáticas contribuyó con el menornúmero (14.4%). Los especialidades de Sociales y Socioeconómicascontribuyeron con cantidades relativamente iguales de estudiantes,siendo éstas 23% y 24% , respectivamente (UADY, 1998).

La Prueba de Aptitud Académica General (PAAG)

Para definir la habilidad del uso del lenguaje y el razonamiento

141IV. La Medición de la Aptitud.. l

matemático básico, la PAAG utiliza 90 tareas correspondientes a lasáreas de español y matemáticas (UADY, 1998). Las Tablas 1 y 2describen el contenido para las dos áreas mencionadas.

Variables e Indicadores

Las variables en este estudio son de dos tipos: las latentes y lasmanifiestas. Las variables latentes describen cada uno de losatributos medidos en su forma pura, es decir libres de error (Bollen,1989). Las variables manifiestas describen los atributos en su formaoperativa; es decir, parte pura y parte de error.

Las variables latentes que se han considerado en este estudio sonla habilidad verbal y la habilidad numérica. La primera se ha definidocomo la capacidad del estudiante para entender lo que lee y suamplitud de vocabulario.

Tabla 1. Contenido del Area del Dominio del Lenguaje de la PAAG.

Comprensión de la Lectura: Incluye la capacidad para entenderlo que se lee y para entender lasinferencias lógicas de la lectura.

Completar Oraciones: Incluye relaciones entre partes de laoración y significado de las palabras.

Detección de Errores: Bajo esta rúbrica se ubican losreactivos orientados a la detecciónde errores de construcción deoraciones y selección de palabras.

Antónimos: Los reactivos aquí incluidos seorientan a la identificación delsignificado de palabras a partir depalabras con significados opuestos.

Analogías: Ésta incluye relaciones entrepalabras y significado de laspalabras.

142 l Estrategias de Evaluación y Medición...

Dominio del Lenguaje Peso en la pruebaNúmero de reactivos

en la prueba

Vocabulario 60% 30

Antónimos 30% 15

Sinónimos 30% 15

Lectura de comprensión 40% 20

Completar oraciones 20% 10

Preguntas acerca de un párrafo 20% 10

Información obtenida de Dirección General de AsuntosAcadémicos de la UADY

Tabla 2. Contenido del Area de Razonamiento Matemático Básico de laPAAG.

Aritmética: Ésta incluye uso de operaciones básicascon números enteros y fracciones, elsistema decimal y porcentajes.

Algebra: Ésta incluye símbolos, resoluciones deecuaciones, números negativos yprocedimientos de substitución.

Geometría: Bajo esta rúbrica se ubican los conceptosde perímetro, área y volumen, el teoremade Pitágoras, las propiedades de lostriángulos y de los ángulos, y lascoordenadas geométricas.

Estadística Descriptiva: Ésta incluye principios básicos para lainterpretación de datos tales como lamedia, moda y mediana.

Razonamiento Matemático Peso en la PruebaNúmero de reactivos

en la prueba

Básico

Aritmética 40% 16

Algebra 30% 12

Geometría 20% 8

Estadística Descriptiva 10% 4

143IV. La Medición de la Aptitud.. l

Información obtenida de la Dirección General de AsuntosAcadémicos de la UADY.

Los indicadores de la habilidad verbal son las puntuacionesobservadas para cada uno de los cinco conglomerados de tareas enel área de Español de la PAAG: (1) comprensión de la lectura, (2)completar oraciones, (3) detección de errores, (4) antónimos y (5)analogías (vea la Tabla 1).

La habilidad numérica es la capacidad para resolver problemasutilizando conceptos derivados de la aritmética, del álgebra, de lageometría y de la estadística aplicada. Los indicadores de estavariable son las puntuaciones observadas en cada uno de los cuatroconglomerados de tareas en el área de Matemáticas de la PAAG: (1)aritmética, (2) álgebra, (3) geometría y (4) estadística descriptiva (veala Tabla 2).

Procedimiento

Los noventa reactivos de la PAAG fueron agrupados mediante elmétodo de parcelas (Bandalos & Finney, 2001). Las parcelas fueroncreadas para mantener la representatividad del contenido de la pruebapara cada una de las variables que marcan las dos dimensiones. Elprocedimiento para obtener las parcelas consistió en clasificar a losreactivos del área verbal en cuatro componentes. Es decir, las tareasvinculadas con antónimos fueron asignadas a una parcela, aquellasvinculadas con la comprensión de lectura a otra parcela, los reactivosde sinónimos a otra parcela y finalmente los reactivos de completar aotra parcela. Un procedimiento similar fue seguido para el áreanumérica, sólo que en este caso las parcelas formadas hacíanreferencia a aritmética, álgebra, geometría y probabilidad y estadística.La motivación para generar cuatro parcelas por área surge de lanecesidad de tener por lo menos tres variables marcadoras por cadadimensión (Bollen, 1989; Loehlin, 1992). En la Tabla 3 se presenta losresultados del proceso de parcelación de reactivos.

Modelos factoriales confirmatorios de primer orden

La existencia de una estructura factorial de primer orden bien

144 l Estrategias de Evaluación y Medición...

definida es una condición necesaria para investigar estructurasfactoriales complejas. Los modelos jerárquicos se basan en losmodelos de primer orden y la bondad de ajuste de éstos constituye ellímite superior para la bondad de ajuste de los modelos jerárquicos.Tres modelos factoriales de primer orden fueron propuestos a prioripara estudiar la estructura del constructo sobre el cual la PAAG fuedesarrollada (vea Tabla 4).

Tabla 3. Número de reactivos y contenidos para las ocho parcelasmarcadoras de las áreas verbal y numérica

Parcela I

Parcela II

Parcela III

Parcela IV

Parcela I

Parcela II

Parcela III

Parcela IV

Antónimos 8 0 0 0 Aritmética 14 0 0 0

Lectura Comp. 0 17 0 0 Álgebra 0 13 0 0

Analogías 0 0 15 0 Geometría 0 0 10 0

Completar 0 0 0 10 Prob. y Est. 0 0 0 3

ÁREA NUMÉRICAÁREA VERBAL

Tabla 4. Descripción de los modelos confirmatorios factoriales de primerorden y superiores utilizados en el estudio.

MODELO DESCRIPCIÓN USO

1A 2 factores correlacionados de primer orden que recrean una estructura simple.

Hipótesis a priori de la estructura factorial de primer orden de la PAAG.

1B Igual al modelo 1A con factores correlacionados perfectamente.

Hipótesis a priori de la estructura factorial de primer orden de la PAAG.

1C Igual al modelo 1A con indicadores con similares características.

Hipótesis a priori de la estructura factorial de primer orden de la PAAG.

2A 1 factor de orden superior definido por dos factores de primer orden.

Hipótesis a priori de la estructura factorial superior de la PAAG.

0 Modelo nulo (produce un matriz diagonal). Obtener un escenario del caso más extremo de falta de ajuste para los modelos de primer orden.

I Modelo de dos factores independientes. Comparar el modelo de primer orden con el modelo de orden superior.

El primer modelo (Modelo 1A) define a la aptitud académica comoel resultado de dos habilidades correlacionadas. La primera, habilidadverbal, mide la aptitud para manejar símbolos lingüísticos mediante eluso de cuatro categorías de estímulos: antónimos, lectura decomprensión, analogías y completar oraciones. La segunda, habilidad

145IV. La Medición de la Aptitud.. l

numérica, mide la aptitud para manejar símbolos numéricos y resolverproblemas que requieran de conceptos y operaciones básicas. Lamedición de esta habilidad se lleva a cabo por medio de cuatrocategorías de estímulos: aritmética, álgebra, geometría y probabilidady estadística.

El Modelo 1A representa una estructura de primer orden simple.Cada variable medida fue indicadora del factor que fue planeado mediry sus cargas en los restantes factores fueron fijadas a cero. 17parámetros fueron estimados: 8 cargas factoriales de primer orden, 1covarianza entre los factores y 8 varianzas únicas para las variablesobservadas. La representación formal del modelo se encuentra en laTabla 5.

Tabla 5. Ecuaciones estructurales que definen los modelos de primerorden y superiores.

MODELO ECUACIONES

1AV1= L11 F1 + E1; V2= L21 F1 + E2; V3= L31 F1 + E3; V4= L41 F1 + E4;V5= L52 F2 + E5; V6= L62 F2 + E6; V7= L72 F2 + E7; V8= L82 F2 + E8Cov(F1,F2) = Phi;

1BV1= L11 F1 + E1; V2= L21 F1 + E2; V3= L31 F1 + E3; V4= L41 F1 + E4;V5= L52 F2 + E5; V6= L62 F2 + E6; V7= L72 F2 + E7; V8= L82 F2 + E8;Cov(F1,F2) = 1

1C

V1= L11 F1 + E1; V2= L21 F1 + E2; V3= L31 F1 + E3; V4= L41 F1 + E4;V5= L52 F2 + E5; V6= L62 F2 + E6; V7= L72 F2 + E7; V8= L82 F2 + E8;L11=L21=L31=L41; L52=L62; L72=L82;Cov(F1,F2) = Phi

2AV1= L11 F1 + E1; V2= L21 F1 + E2; V3= L31 F1 + E3; V4= L41 F1 + E4;V5= L52 F2 + E5; V6= L62 F2 + E6; V7= L72 F2 + E7; V8= L82 F2 + E8;F1= G11 F3 + E9; F2= G21 F3 + E10;

0

V1= L11 F1 + E1; V2= L21 F1 + E2; V3= L31 F1 + E3; V4= L41 F1 + E4;V5= L52 F2 + E5; V6= L62 F2 + E6; V7= L72 F2 + E7; V8= L82 F2 + E8;L11= L21= L31= L41= L52= L62= L72=L82= 0;Var(F1)= 1

IV1= L11 F1 + E1; V2= L21 F1 + E2; V3= L31 F1 + E3; V4= L41 F1 + E4;V5= L52 F2 + E5; V6= L62 F2 + E6; V7= L72 F2 + E7; V8= L82 F2 + E8;Cov(F1,F2) = 0

El segundo modelo (Modelo 1B) define la estructura delconstructo habilidad general en términos de un modelo congenérico.Este modelo de medición establece que las dos habilidades que

146 l Estrategias de Evaluación y Medición...

definen a la aptitud académica pueden ser reemplazadas por unfactor. El Modelo 1B se obtuvo al imponer la restricción de unacorrelación perfecta entre las dos habilidades en el Modelo 1A. Aligual que el modelo 1A, el modelo 1B representa una estructurafactorial simple de primer orden en la que se estiman 16 parámetros(vea la Tabla 5).

El tercer modelo (Modelo 1C) define a la aptitud académica como

el resultado de dos habilidades y las tareas que las definen siguen el

comportamiento de pruebas paralelas. Dos o más pruebas son

paralelas cuando las contribuciones de sus variables indicadoras soniguales y los residuales de las variables indicadoras son iguales. El

Modelo 1C se obtuvo al imponer la restricción de igualdad de (1)

contribución a las variables indicadoras que definen cada habilidad y

de igualdad de (2) residuales al Modelo 1A. La estructura factorial

definida es simple y se estiman 9 parámetros (vea la Tabla 5).

Dos modelos de primer orden, adicionales a los tres anteriores,fueron utilizados para propósitos de estudiar la bondad de ajuste. El

primer modelo, (Modelo nulo), considera que el constructo aptitud

académica es el resultado de los errores de medición. Este modelo

intenta explicar las covarianzas entre los indicadores a partir de una

matriz diagonal de residuales. La bondad de ajuste del modelo nulo

constituye el límite inferior del ajuste de los tres modelos de primerorden investigados. El modelo nulo se obtuvo de restringir a cero los

parámetros que identifican la contribución de las variables indicadoras

a las dimensiones del constructo. El modelo nulo requiere de la

estimación de ocho parámetros.

Bondad de ajuste

No obstante que métodos diferentes para evaluar la bondad de

ajuste global de los modelos estructurales han sido propuestos, estos

métodos están asociados con ventajas y desventajas (e.g., Wheaton,

1987). Basado en las propiedades estadísticas y en el trabajo de otros

investigadores, los índices empleados en esta investigación incluyenla 2χ , la razón entre la

2χ y sus grados de libertad (Wheaton, 1987),

147IV. La Medición de la Aptitud.. l

La raíz de la media de cuadrados de los residuos ( RMSR; Joreskog

& Sorbom, 1985), índice de la bondad de ajuste (GFI; Joreskog &

Sorbom, 1985), índice de la bondad de ajuste corregido (AGFI;Joreskog & Sorbom, 1985), delta y rho (Bentler, 1990), y el parsimonio

índice de la bondad de ajuste (PGFI; Mulaik, James, Van Alstine,

Bennett, Lind & Stilwell, 1989).

De manera adicional se consideraron los índices subjetivos de la

bondad de ajuste de los modelos establecidos a priori (Bentler, 1990;

Tanaka, 1987). Particularmente se estudió la proporción de la varianza

de los indicadores explicada por el modelo. Finalmente, el procesopara juzgar la calidad del ajuste del modelo tomó en consideración la

apreciación de los estimados de los parámetros. Específicamente, se

buscaron por estimados de parámetros que salieran de su rango

permisible de valores.

Modelo factorial confirmatorio de orden superior

El modelo factorial de orden superior (Modelo 2A), fue propuesto

para explicar la covarianza entre los factores en el modelo de primerorden (vea Tabla 4). A partir de este modelo se pondrá a prueba la

presencia de un factor general asociado con la aptitud académica

como la define la PAAG. El Modelo 2A define a la aptitud académica

como el resultado de dos habilidades que tiene su origen en una

habilidad general. Este modelo plantea que el constructo de la aptitud

académica en la PAAG se comporta de manera similar a unaestructura jerárquica con un factor primario y dos factores

secundarios. El Modelo 2A se definió a partir del Modelo 1A,

imponiendo una restricción estructural a la correlación entre las dos

habilidades de primer orden. El Modelo 2A también puede ser visto

como un nuevo arreglo del modelo 1A para denotar la presencia de un

factor superior. Éste representa una clasificación jerárquica o"anidada" de las tareas en las que cada grupo de tareas está anidada

en su factor y a un nivel de generalización mayor anidadas dentro de

un factor general. La parametrización del modelo de orden superior se

presenta en la Tabla 5.

148 l Estrategias de Evaluación y Medición...

Comparación de los modelos de primer orden y el modelode orden superior

Los modelos factoriales de orden superior son utilizados paraexplicar las correlaciones observadas entre factores de primer orden.Debido a que los modelos de orden superior se construyen a partir delos de primer orden, el número de parámetros por estimar es menor.Por consiguiente, la

2χ que se observa no puede ser mayor que laobservada en el modelo de primer orden. Por consiguiente, esnecesario precisar la manera como se evalúa el ajuste de modelos paraestructuras factoriales jerárquicas. Marsh (1987) ha propuestoestudiar los siguientes aspectos con el fin de apoyar o refutar lapresencia de una estructura jerárquica.

(a) Los parámetros estimados no contradicen la teoría de la cualproviene el modelo jerárquico.

(b) La bondad de ajuste es razonable y la 2χ no es substancialmente

mayor que la obtenida para el modelo de primer orden.

(c) El modelo jerárquico no presenta problemas de identificación.

Previó a la investigación de la estructura jerárquica de unconstructo se ha recomendado investigar la magnitud de la covarianzaentre los factores de primer orden que pueda ser explicada por unmodelo de orden superior (Marsh & Hocever, 1985; Pedhauzur, 1982;Tanaka & Huba, 1984). La diferencia entre la

2χ del Modelo 1A y elModelo I describe la magnitud de covariación ha ser explicada por elmodelo jerárquico. Cuando dicha diferencia se aproxima a cerocualquier modelo jerárquico ajustará debido a que los factores deprimer orden no se encuentran correlacionados. No obstante el ajustedel modelo de orden superior, la jerarquía resultará débil. Porconsiguiente es importante que los parámetros estimados con elmodelo de orden superior sean examinados y que los índices de labondad de ajuste obtenidos sean comparados con los obtenidos enmodelos de primer orden.

Marsh & Hocevar (1985) propusieron el uso de dos variantes de un

coeficiente para comparar las soluciones de modelos de primer orden

con las soluciones de modelos de orden superior. El coeficiente indica

149IV. La Medición de la Aptitud.. l

la razón entre la 2χ que se observa para el modelo de primer orden

con factores correlacionados y la 2χ que se observa para el modelo de

orden superior. Los valores que puede tomar este coeficiente varían

entre 0 y 1. Valores del índice cercanos a la unidad indican la

similitud en el ajuste de los modelos de primer orden y orden superior.

Es importante también considerar conjuntamente los valores del

índice y los estimados de la bondad de ajuste del modelo de orden

superior. Esta comparación permitirá al investigador separar la bondad

de ajuste que proviene de la estimación del modelo de primer orden de

la del modelo de orden superior. Por ejemplo, un coeficiente alto y un

estimado bajo de la bondad de ajuste, indicarían que la covariación de

los factores de primer orden está siendo bien explicada por el modelo

de orden superior y que la falta de ajuste del modelo proviene de la

definición de los factores de primer orden.

Varianza de los factores de primer orden explicada por losfactores de orden superior

Los factores de primer orden son explicados en la medida en que

sus residuales se aproximen a cero. Los modelos factoriales

confirmatorios de orden superior, por el otro lado, fallan de explicar el

comportamiento de los factores de primer orden cuando los residuales

de éstos resultan elevados. En esta situación se puede afirmar que

los factores de primer orden están débilmente representados por los

factores de orden superior. Marsh (1987) propuso la Razón Explicada

de Varianza (REV) como una medida para cuantificar la varianza de

factores de primer orden explicada por factores de orden superior. El

índice se calcula de substraer la proporción de varianza no explicada

del total de la varianza. El resultado se interpreta en términos del

porcentaje de varianza explicada de manera análoga como se

interpreta el coeficiente de determinación en la regresión. De hecho, la

razón REV es una expresión simplificada del coeficiente de regresión

con variables latentes.

150 l Estrategias de Evaluación y Medición...

Estimación de parámetros

Los modelos fueron construidos mediante un sistema deecuaciones estructurales ajustados utilizando el algoritmo de máximaverosimilitud con datos empíricos (Jorekog, 1973; Keesling, 1972;McDonald, 1985; Wiley, 1973). Los análisis de cada uno de losmodelos se llevarán a cabo utilizando el procedimiento CALIS en elSAS Ver 7.12 (SAS Institute, 1994). La escalas de las variableslatentes para los modelos confirmatorios de primer orden fuerondefinidas estandarizando las variables indicadoras y para el modelo deanálisis factorial confirmatorio jerárquico la escala se fijó ajustado lavarianza de la variable latente exógena (i.e., factor de segundo orden)a una constante igual a 1.

RESULTADOS

Modelo factorial confirmatorio de primer orden

La estadística descriptiva para los tests del área verbal y del áreanumérica fue examinada primero. Se utilizaron las respuestas a cadauno de los reactivos de la PAAG por parte de los 4340 estudiantes quesolicitaron ingreso a las licenciaturas de la Universidad Autónoma deYucatán durante el ciclo escolar 1998-1999. Los reactivos fueronagrupados en parcelas con base en el procedimiento descritoanteriormente.

Debido a la diferencia en el número de reactivos en cada una de lasparcelas, las distribuciones de puntuaciones observadas en cada unade ellas variaba en escalas diferentes. Esta diferencia en el rango delas escalas se decidió minimizarla por medio de la transformaciónlineal de todas las distribuciones a una distribución común que tuvierauna media de cero y una varianza de uno.

La estadística descriptiva para cada uno de las cuatro parcelasindicadoras de cada factor se presenta en la Tabla 6. La Tabla 6contiene información descriptiva de las distribuciones de laspuntuaciones observadas en cada una de las ocho parcelas quedefinen las habilidades verbal y numérica del constructo aptitudacadémica. Las distribuciones de las puntuaciones fueron resumidas

151IV. La Medición de la Aptitud.. l

con la información de sus dos momentos, debido a que laspuntuaciones fueron estandarizadas, los dos primeros momentos delas distribuciones, media y varianza, son constantes e iguales a 0 y 1,respectivamente.

Con respecto a la habilidad verbal, el comportamiento de lasdistribuciones de los puntajes de completamiento de oraciones seaproximó a los valores teóricos de la distribución normalestandarizada. Los valores estimados del sesgo y la kurtosis en lasdistribuciones de las parcelas con reactivos de antónimos y analogíasque se observan en la Tabla 6 son indicativos de distribucionesasimétricas negativas. Este tipo de distribución se encuentra enpruebas que contienen reactivos cuyas dificultades se encuentran pordebajo de la habilidad promedio de quienes toman las pruebas.

Tabla 6. Estadística descriptiva para las variables marcadorasestandarizadas. (Nota: La media y varianza de las variables fue de 0 y 1,respectivamente)

MÍNIMO MÁXIMO SESGO KURTOSIS

VERBAL

Antónimos -2.52 1.63 -0.45 -0.43

Lectura -2.23 2.94 0.246 -0.46

Analogías -2.53 1.74 -0.31 -0.72

Completar -2.05 2.05 0.09 -0.79

NUMÉRICO

Aritmética -2.04 2.05 0.004 -1.08

Algebra -1.93 2.06 0.259 -0.806

Geometría -1.78 1.97 0.226 -0.968

Probabilidad -1.38 2.00 0.18 -0.785

Con respecto a la distribución de puntajes en la sección de lecturade comprensión, ésta es asimétrica teniendo a la mayoría de laspuntuaciones en la región con puntuaciones menores.

152 l Estrategias de Evaluación y Medición...

Para la habilidad numérica un comportamiento similar a losanteriores se observó. De la Tabla 6 se observa que la parcela conproblemas de aritmética es simétrica y sigue la forma de unadistribución acampanada. El comportamiento de las demás parcelas(álgebra, geometría y probabilidad) es indicativo de aquellas pruebascon reactivos cuyas dificultades exceden el nivel promedio de habilidadde quienes las toman.

La Tabla 7 contiene información descriptiva de la distribuciones decovarianzas de los ocho indicadores. La tabla estructura estainformación tanto para los coeficientes de correlación observadoscomo para los predichos a partir de cada uno de los cuatro modelosinvestigados.

Tabla 7. Mediana y valores mínimo y máximo de las correlacionesobservadas y predichas para las parcelas que definen las habilidades dela PAAG.

MEDIANA MÍNIMO MÁXIMO

OBSERVADOVerbal 0.53 0.446 0.643Matemático 0.62 0.449 0.768

PREDICHOModelo 1A

Verbal 0.534 0.447 0.636Matemático 0.616 0.477 0.765

Modelo 1BVerbal 0.398 0.339 0.465Matemático 0.593 0.459 0.737

Modelo 1CVerbal 0.553 0.425 0.52Matemático 0.697 0.468 0.75

Con respecto a las correlaciones observadas, los valores mínimosy máximos fueron 0.446 y 0.643, respectivamente para la habilidadverbal. Los límites de las correlaciones para la habilidad numéricafueron 0.449 y 0.768. Los valores máximos y mínimos observados paralas dos habilidades resultan significativos con a=0.05.

153IV. La Medición de la Aptitud.. l

También se puede observar en la Tabla 7 el valor típico de lasdistribuciones de correlaciones observadas para las dos habilidades.Respecto de la habilidad verbal, el valor de correlación típico que seobservó fue 0.53. Este valor es menor, aunque no significativamente,del observado para la habilidad matemática, el cual fue igual a 0.620.

La Tabla 7 presenta información acerca de las distribuciones decorrelaciones que se predicen a partir de cada uno de los cuatromodelos estudiados. Esta información es útil para evaluar la bondadde ajuste de cada uno de los modelos. Mientras menor sea ladiscrepancia entre los valores observados de correlación y lospredichos, mayor resulta el ajuste del modelo investigado a los datosobservados. Por ejemplo, se observa que para el Modelo 1A, el valortípico de la distribución de correlaciones predicho se aproxima a sucorrespondiente valor observado.

Para el Modelo 1A el valor típico predicho de correlación para lahabilidad verbal fue 0.004 unidades (en una escala de -1 a +1) mayora su correspondiente valor observado. Para la habilidad numérica ladiscrepancia entre lo observado y lo predicho fue de 0.004 unidades. ElModelo 1A establece la presencia de dos habilidades correlacionadas.

Para los otros dos modelos, se observa una discrepancia mayorentre los valores predichos y observados. Las restricciones impuestasa los datos mediante el Modelo 1B resultaron excesivas. Este modelofue el que menos se conformó a los datos observados. Por otra parte,el ajuste del Modelo 1C resultó intermedio a los modelos descritos conanterioridad. De la Tabla 7 se observa que el ajuste de este modelo alos datos reproduce covarianzas que sobre estiman sus valoresobservados. El Modelo 1C impone restricciones a las contribucionesde las parcelas en la definición de las habilidades y a la confiabilidadde las mediciones derivadas de cada parcela.

La Tabla 8 describe los índices de las pruebas de bondad deajuste para cada uno de los tres modelos confirmatorios con factoresde primer orden. Adicionalmente, la tabla incluye los índices de labondad para el Modelo Nulo (Modelo 0).

La Tabla 8 presenta los índices de la bondad de ajuste para losmodelos de análisis confirmatorio de primer orden de la PAAG. El peorajuste se observa para el modelo nulo.

154 l Estrategias de Evaluación y Medición...

Tabla 8. Indices de la bondad del ajuste para modelos factorialesconfirmatorios de primer orden de la PAAG.

GFI AGFI RMSR PGFI

0 18625 665 0.35 0.16 0.45 0 0 0

1A 270.86 19 0.99 0.97 0.03 0.98 0.99 0.67

1B 1937.1 20 0.87 0.77 0.08 0.85 0.9 0.62

1C 895.29 25 0.95 0.93 0.13 0.95 0.95 0.85

ÍNDICES DE BONDAD DE AJUSTE

MODELOdf

2χ2χ ρ ∆

El propósito de incluir este modelo fue para efectos de apoyar lainterpretación de los coeficientes de bondad de ajuste para losModelos 1A, 1B y 1C propuestos a priori. Respecto del modelo nulo,se observa una mejoría substantiva de los índices de la bondad deajuste cuando se utiliza un modelo que conceptualiza la presencia deuna habilidad (Modelo 1B). Sin embargo, la mejoría es menor a ladetectada para el Modelo 1A, el cual asume la presencia de dosfactores de primer orden correlacionados. El modelo 1C, el cual asumeigualdad de propiedades psicométricas en los dos factores de primerorden, tuvo un ajuste por debajo al Modelo 1A.

Estos resultados proporcionan apoyo adicional a la posiblesuperioridad que tiene el Modelo 1A sobre sus competidores 1B y 1C.Otra línea de evidencia ha ser explorada para corroborar la superioridaddel Modelo 1A proviene de analizar las discrepancias entre los valorespredichos por los modelos y los valores observados. La Tabla 9presenta las discrepancias mayores observadas para cada modelo.

Para el Modelo 1A las mayores discrepancias se observaron en lacovarianza de un indicador (geometría) del factor numérico de primerorden y otro (lectura de comprensión) del factor verbal. El modelo 1Asobre estimó en aproximadamente 5 centésimas la covarianzaobservada entre dichas variables. Una situación análoga se observapara los indicadores álgebra y antónimos, sólo que en este caso elModelo 1A subestimó la asociación entre estas variables.

155IV. La Medición de la Aptitud.. l

Las mayores discrepancias entre los tres modelos factorialesconfirmatorios se observaron para el modelo 1C. Este modelosubestimó de manera considerable la varianza del indicadorprobabilidad y la covarianza de éste con el indicador geometría. ElModelo 1B tuvo un desempeño intermedio, más sin embargo su ajustea los datos resultó menor que el observado para el Modelo 1A.

Tabla 9. Las diez diferencias mayores entre los valores predichos yobservados de varianza y covarianza por cada uno de los modelosfactoriales confirmatorios de primer orden de la PAAG.

V7, V2 0.0523 V4,V1 0.1908 V8,V8 -0.4244

V6,V1 -0.0461 V4,V3 0.1785 V8,V7 -0.2477

V6,V2 0.0453 V3,V1 0.1427 V8,V1 -0.2475

V7,V1 -0.0419 V4,V2 0.129 V8,V6 -0.2047

V8,V1 -0.0405 V2,V1 0.1067 V8,V5 -0.1767

V7,V4 -0.0391 V3,V2 0.0737 V8,V2 -0.1635

V5,V2 -0.0375 V7,V4 -0.0648 V8,V4 -0.1605

V8,V5 0.0372 V6,V1 -0.061 V8,V3 -0.1485

V6,V4 -0.0345 V6,V4 -0.0594 V1,V1 -0.1337

V3,V2 -0.034 V7,V1 -0.0575 V2,V1 -0.1067

1A 1B 1C

MODELOS

Nota: V1= antónimos V5= aritmética2= lectura de comprensión V6= álgebra3= analogías V7= geometría4= completar oraciones V8= probabilidad

Otra línea de evidencia ha ser explorada en busca de apoyar orefutar al Modelo 1A se relaciona con los parámetros estimados;éstos fueron analizados a través del análisis factorial confirmatorio deprimer orden. La Tabla 10 y la Tabla 11 resumen los valoresestimados de las contribuciones de cada indicador a sus respectivosfactores y la varianza única de los indicadores, respectivamente.

En la tabla 10 se corrobora la superioridad, en términos de los

156 l Estrategias de Evaluación y Medición...

parámetros estimados, del Modelo 1A sobre sus competidores. Entérminos generales, los indicadores contribuyen con cierta precisión ala definición de los factores de primer orden.

Tabla 10. Contribución de las indicadores a las habilidades que definena la aptitud académica en modelos factoriales confirmatorios de primerorden.*

1A 1B 1C

Verbal:

Antónimos 0.6363 0.5239 0.7434

Comp. Lect. 0.7025 0.6476 0.7434

Analogías 0.8015 0.703 0.7434

Completar 0.7937 0.6608 0.7434

Numérica:

Aritmética 0.8636 0.8524 0.8347

Algebra 0.886 0.8647 0.8347

Geometría 0.853 0.8349 0.8347

Probabilidad 0.5591 0.5491 0.8347

MODELOSINDICADORES

(* Todos las cargas factoriales resultaron significativos con p<0.05)

En la Tabla 11 se observa la varianza única de los indicadores queno pudo ser explicada por los factores de primer orden. La tablacorrobora la superioridad del Modelo 1A.

En resumen, la estructura de la PAAG puede ser expresada pordos factores correlacionados de primer orden. La magnitud de lacorrelación entre los dos factores resultó significativa ymoderadamente alta (j = 0.77, t=62.90). La calidad de las tareasdiseñadas para medir a los factores resultó variable. Dos de losindicadores de la habilidad verbal presentaron niveles de precisión pordebajo de los restantes indicadores para dicha habilidad. Por el otrolado, los indicadores que definen la habilidad numérica presentaron undesempeño mejor con la excepción del indicador "probabilidad".

157IV. La Medición de la Aptitud.. l

Tabla 11. Porcentaje de la varianza única de los indicadores en losmodelos factoriales confirmatorios de primer orden de la PAAG*

1A 1B 1C

Verbal:

Antónimos 59.51 72.55 58.10

Comp. Lect. 50.65 58.06 49.18

Analogías 35.77 50.58 38.35

Completar 37.01 56.32 38.75

Numérico:

Aritmética 25.41 27.34 25.51

Algebra 21.5 25.23 23.29

Geometría 27.23 30.28 27.78

Probabilidad 68.75 69.85 72.78

MODELOSINDICADORES

(Nota: Todos los residuales resultaron significativos con p<0.05

Se utilizaron negrillas para resaltar valores mayores de 50)

Modelos factoriales confirmatorios de orden superior

Determinar la presencia de una estructura factorial de primer ordenconstituyó el primer requisito para poner a prueba la presencia de unaestructura factorial jerárquica. En la sección anterior se obtuvoevidencia de la superioridad del Modelo 1A. En este modelo seencontró una correlación de 0.77 entre los factores de primer orden.

La presencia de una covarianza significativa y moderadamentealta entre factores sugiere la posible presencia de un factor de ordensuperior (verbal/cuantitativo). Particularmente, si se considera que lamagnitud observada de la covarianza entre los factores primarios en elModelo 1A refleja no sólo la covarianza entre éstos sino también laabsorción de la varianza del factor superior omitido en dicho modelo.

158 l Estrategias de Evaluación y Medición...

En la Tabla 12 se observa una discrepancia considerable entre lasbondades de ajuste de los modelos 1A e I. La discrepancia (2632unidades) es indicadora de la magnitud de covariación entre los dosfactores de primer orden que puede ser explicada a partir de un factorde orden mayor. De la tabla anterior se observa que la inclusión de unfactor de orden superior explicó toda la discrepancia observada entreel Modelo 1A y el Modelo I. La fuerza con la que se encuentrapresente la jerarquía y los parámetros estimados a partir de laestructura jerárquica constituyen información relevante. La Tabla 13presenta la proporción de la varianza en los factores de primer ordenexplicada a partir de un factor de orden superior. De esta tabla seobserva una fuerza moderada en la presencia de la jerarquía. Elporcentaje de la varianza de los factores de primer orden explicados apartir de un factor de orden superior fue en promedio igual a lacovarianza entre estos factores.

Tabla 12. Comparación de modelos factoriales confirmatorios de primerorden y de orden superior de la PAAG

GFI AGFI RMSR PGFI

1A 270.86 19 0.99 0.97 0.03 0.98 0.99 0.67

1 2903 145 0.88 0.80 0.31 0.78 0.85 0.63

2A 270.86 18 0.99 0.97 0.03 0.98 0.99 0.63

MODELO

ÍNDICES DE BONDAD DE AJUSTE

df

2χ2χ ρ ∆

Tabla 13. Razón explicada de varianza de los factores de primer orden apartir de un factor de segundo orden de la PAAG

MODELO 2a.

ÚNICA TOTAL REV

Verbal 1.00 4.875 0.79

Numérico 1.00 4.167 0.76

VARIANZAFACTOR PRIMER ORDEN

La Tabla 14 resume los parámetros estimados para el modelojerárquico y para el modelo de primer orden. El Modelo 1A se incluyepara efectos de comparación. Los parámetros en el Modelo 2A

159IV. La Medición de la Aptitud.. l

describen el comportamiento de los efectos totales de las variablesexógenas en las variables endógenas. El Modelo 2A fue definido conun total de 10 variables endógenas (8 variables manifiestas y 2variables latentes de primer orden) y 11 variables exógenas (8 residuosde las variables manifiestas, 2 residuos de las variables latentes deprimer orden y 1 variable latente de orden superior).

Tabla 14. Parámetros estimados en modelos factoriales confirmatoriosde primer orden y de orden superior de la prueba PAGG

ORDEN SUPERIOR

Verbal/Numérico

(F1) (F2) (F1) (F2) (F3)

Antónimos 0.567

Comp. 0.636 0.000 0.288 0.626

Lect. 0.703 0.000 0.000 0.715

Analogías 0.802 0.000 0.318 0.708

Completar 0.794 0.000 0.000 0.753

Aritmética 0.000 0.864 0.363 0.772

Álgebra 0.000 0.886 0.000 0.744

Geometría 0.000 0.853 0.359 0.487

Probabilidad 0.000 0.559 0.000

0.000

0.423 0.8921

FACTORES 0.000 0.8721

F1 0.434

F2 0.000

0.418

0.000

0.274

MODELO 1A MODELO 2A

INDICADORESVerbal Numérico Verbal Numérico

PRIMER ORDEN PRIMER ORDEN

(1) coeficientes estandarizados.

Los valores de los parámetros estimados reflejan la fuerzamoderada de la jerarquía. Para el Modelo 2A se observa la precisióncon la que cada grupo de tareas mide el factor de orden superior.Debido a que los parámetros que definen la precisión de cada grupo

160 l Estrategias de Evaluación y Medición...

de tareas obtuvo valores estimados por encima de 0.3 en el factorsuperior, las tareas pueden ser vistas como suficientementehomogéneas como para poder considerar el puntaje total en la PAAGcomo una medida general del constructo que mide dicha prueba.

Con respecto a los factores de primer el efecto del factor de ordensuperior es moderado. Este resultado es lógico si se toma enconsideración que correlación entre los factores primarios resultómoderada y que el modelo jerárquico estructura toda esta covarianza.

La Tabla 14 también proporciona información en cuanto al efectoparcial de los factores primarios después de controlar por el efecto delfactor de orden superior. Con excepción de los indicadores"antónimos", "comprensión de lectura" y "probabilidad", los efectos delos factores primarios son altos aún después de controlar por el factorde orden superior. Este resultado es lo que se esperaría de contar confactores primarios moderadamente correlacionados como los queposee la PAAG.

REFERENCIAS

AERA, APA, NCME (1999). Standards for Educational andPsychological Testing. APA, Washington, DC.

Adams, R. (1988). Presentation to GRE General Test TechnicalAdvisory Committee. Princeton, Nj.

American College Testing Program. (1973). Assessing students onthe way to college: Technical report for the ACT AssessmentProgram. Iowa City, IA: Author.

Backhoff, E. & Tirado, F. (1992). Desarrollo del examen dehabilidades y conocimientos básicos. Revista de la EducaciónSuperior, 83, julio-septiembre.

Bandalos, D. & Finney, S. (2001). Item parceling issues in structuralequation modeling. In George Marcoulides & RandallSchumacker (eds.) New developments & techniques instructural equation modeling. LEA, Mahwah, NJ.

161IV. La Medición de la Aptitud.. l

Bentler, P. (1990). Comparative fit indexes in structural models.Psychological Bulletin, number 107.

Breland, H. M. (1979). Population Validity and College EntranceMeasures (College Board Reseacrh Monograph, No. 8). NewYork College Entrance Examination Board.

Bollen, K. (1989). Structural equations with latent variables. Wiley& sons: US.

CENEVAL (1999). Examen nacional de ingreso a la educaciónsuperior de México. Centro Nacional de Evaluación para laEducación Superior, A.C., México.

CENEVAL (2000). Estándares de calidad para instrumentos deevaluación. Centro Nacional de Evaluación para la EducaciónSuperior, A.C., México.

Cronbach, L. (1984). Essentials of Psychological Testing. Harper& Brothers, NY.

Crocker, L. & Algina, J. (1986). Introduction to Classical & ModernTest Theory. HBJ, Orlando, FL.

Donlon, T. F. (Ed.) (1984). The College Board Technical Handbookfor the Scholastic Aptitude Test and Achievement Tests. NewYork: College Entrance Examination Board.

Ebel, R. & Frisbie, D. (1991). Essentials of EducationalMeasurement. Prentice Hall, Englewood Cliffs. NJ.

Joreskog, K. (1973). A general method for estimating a linearstructural equation system. In A.S. Goldberger and O. D.Duncan (Eds.). Structural equation models in social sciences.Academic Press: New York, NY.

Joreskog, K. & Sorbom, D. (1985). LISREL VI: An analysis oflinear structural relationships by the method of maximumlikelihood. Mooresville: IN: Scientific Software.

Keesling, J. W. (1972). Maximum likelihood approaches to causalanalysis. PH. D. Dissertation. Department of Education:University of Chicago.

162 l Estrategias de Evaluación y Medición...

Linn, R. (1990). Admission testing: Recommended uses, validity,differential prediction, and coaching. Applied measurement ineducation, 3(4), 297-318.

Loehlin, J. (1992). Latent variable models. An introduction to factor,apth, and structural analysis. Hilldale, NJ.: Lawrence Errlbaum,

McDonald, R. (1985). Factor Analysis and Related Methods. LEA,Hillsdale, NJ.

McDonald, R. (1999). Test Theory. LEA, Mahwah, NJ.

Marsh, H & Hocevar, D. (1985) The aplication of confirmatory factoranalysis to the study of self-concept: First and higher orderfactor structures and their invariance across age groups.Psychological Bulletin, 97, 562-582.

Marsh, H. (1987). The hierarchical structure of self-concept and theapplication of hierarchical confirmatory factor analysis. Journalof Educational Measurement, Vol. 24, No. 1, pp. 17-39.

Messick, S. (1989). Validity. In Robert Linn (Ed.). EducationalMeasurement. Macmillan Publishing Company, New York, NY.

Mulaik, S., James, L., Van Alstine, J., Bennett, N., Lind, S., &Stilwell, C. (1989). Evaluation of goodness-of-fit indices forstructural equation models. Psychological Bulletin, 105, 430-445.

Pedhauzur, E. 81982). Multiple regression in behavioral research(2nd ed.). New York: Holt, Rinehart and Winston.

Tanaka, J. (1987). "How big is big enough?" Sample size andgoodness of fit in structural equation models with latentvariables. Child Development. Number 58.

Tanaka, J. & Huba, G. (1984). Confirmatory hierarchical factoranalyses of psychological distress measures. Journal ofPersonality and Social Psychology, 46, 621-635.

SAS. (1994). Statistical Analysis: Technical Report. US.

Schmid, J., & Leiman, J. (1957). The development of hierarchicalfactor solutions. Psychometrika, 22, 53-62.

163IV. La Medición de la Aptitud.. l

Snow, R. & Lohman, D. (1989). Implications of Cognitive Psychologyfor Educational Measurement. In Robert Linn (Ed.). EducationalMeasurement. Macmillan Publishing Company, New York, NY.

UADY. (1999). Acta del H. Consejo Universitario. Mérida, Yucatán,México: Autor.

UADY. (1998). Prueba de Aptitud Académica General. Mérida,Yucatán, México: autor.

UADY. (1993). Reglamento de Admisión. Mérida, Yucatán, México:Autor.

Wheaton, B. (1987). Assessment of fit of overidentified models withlatent variables. Sociological Methods and Research, 16, 118-154.

Wiley, D. E. (1973). The identification problem for structural equationmodels with unmeasured variables. In A.S. Goldberger and O.D. Duncan (Eds.). Structural equation models in socialsciences. Academic Press: New York, NY.

Capítulo 5

UN MODELO ESTRUCTURAL DE LAMOTIVACIÓN INTRINSECA

EN ESTUDIANTES UNIVERSITARIOSJavier Aguilar Villalobos*, Alejandra Valencia Cruz*, Mario

Martínez Jiménez*, Alma Vallejo Casarín***Universidad Nacional Autónoma de México

**Universidad Veracruzana

En este capítulo se presenta en forma sucinta los resultados de lainvestigación sobre motivación intrínseca contenidos en dos trabajosprevios (Aguilar y cols., 2001a, 2001b), así como los obtenidos en unainvestigación subsiguiente.

La motivación intrínseca se define como el interés y el disfrute enuna actividad por sí misma. Las sensaciones de dominio, eficacia yautonomía son inherentes al interés intrínseco en la tarea. Elconstructo de motivación intrínseca describe la tendencia a lamaestría, el interés espontáneo y la exploración que es esencial aldesarrollo cognitivo y social, y representa la principal fuente de gozo yvitalidad a lo largo de la vida (Ryan y Deci, 2000). Muchas de lasacciones del individuo que son controladas inicialmente por eventosexternos, posteriormente pasan a ser reguladas por eventos internosa través de un proceso de internalización que ocurre generalmente envarias etapas (Deci y Ryan, 1985; Ryan y Deci, 2000).

Se ha demostrado que la motivación intrínseca se puedeincrementar mediante el automonitoreo (Brophy, 1983; Pintrich yDeGroot, 1990), la retroalimentación positiva (Harackiewicz, 1979;Karniol y Ross, 1977), actividades desafiantes (Gottfried, 1983; Harter,1978) y se decrementan por efecto de premios y presiones (Camerony Pierce, 1994, Deci, 1975, Woolfolk, 1990).

Aunque muchos estudios han demostrado los efectos positivos dela retroalimentación sobre la motivación, solamente unos cuantosestudios han evaluado la competencia percibida, la cual media dichosefectos. La competencia percibida representa el grado en que una

166 l Estrategias de Evaluación y Medición…

persona cree que puede realizar bien una tarea (Bandura, 1986;Harter, 1981). Cuando se miden las percepciones de competencia, lasrelaciones entre la retroalimentación y la motivación intrínseca no sontan claras como se ha propuesto (Harackiewicz y Larson, 1986;Sansone, 1986; Elliot y Harackiewicz, 1994).

Por ejemplo, Bandura y Schunk (1981) mostraron que el aumentode la autoeficacia de un grupo de estudiantes con desempeñodeficiente en matemáticas, a través de la solución de una serie deproblemas de dificultad creciente, incrementó su interés en la materiamedido al término del trabajo.

Un estudio realizado por Harackiewicz, Sansone y Manderlink(1985) mostró que el efecto mediador de la autoeficacia sobre elinterés intrínseco solamente se presentó en aquellos sujetos queinicialmente tuvieron percepciones bajas de autoeficacia.

La evaluación de la competencia, es decir, el grado en que lapersona se esmera por realizar bien la actividad también se haconsiderado como un mediador importante de la motivación intrínseca(Reeve y Deci, 1996; Epstein y Harackiewicz, 1992).

Otra variable que se ha relacionado con el interés intrínseco es elvalor de la tarea. En un estudio realizado con estudiantes universitariosse midieron varias variables motivacionales y cognoscitivas medianteun cuestionario aplicado al principio y al final de un periodo semestral,Pintrich y García (1991) encontraron que las puntuaciones de valorcorrelacionaron con las de orientación intrínseca .28 y .47 en las dosocasiones. Asimismo, encontraron que las puntuaciones deautoeficacia correlacionaron con las de orientación intrínseca .22 y.36, respectivamente.

Con el propósito de desarrollar un modelo comprensivo demotivación intrínseca se realizó una búsqueda en la literatura devariables que pudieran relacionarse con ella. Los resultados de estabúsqueda fueron los siguientes.

El interés intrínseco también se ha relacionado con el esfuerzo yla dedicación en una actividad a tal punto que se han tomado comosus indicadores más confiables. Renninger (1990,1992) ha definido el

167V. Un Modelo de la Motivación... l

interés en una actividad no sólo en términos de la preferencia por unaactividad o tópico sino también por el tiempo invertido en su ejecucióny el conocimiento acumulado acerca de ella. Esta medida de interésse relaciona positivamente con el uso de estrategias más profundasde procesamiento de información tales como elaboración, búsquedade información en la solución de problemas, pensamiento crítico ytiempo y esfuerzo invertidos (Schiefele, 1991).

En base a los hallazgos anteriores se formuló la hipótesis de queel costo de los estudios, definido en términos del esfuerzo y lasrestricciones que imponen, afecta el nivel de motivación intrínseca.

Asimismo, de la relación entre interés intrínseco y esfuerzo sepuede inferir que la disposición general a posponer o demorar larealización de esfuerzos (morosidad) afectará el desarrollo del interésen actividades específicas. Dicha hipótesis será probada en estainvestigación.

La morosidad se ha asociado con puntuaciones altas de ansiedadde prueba y baja autorregulación (Milgram, Dangour y Raviv, 1992);también se ha encontrado que las puntuaciones de morosidadcorrelacionan negativamente con puntuaciones de autoeficacia(Tuckman, 1991), y correlacionan positivamente con puntuaciones detemor al fracaso (Aguilar y Valencia, 1994).

La certeza vocacional, es decir, la seguridad que el estudiantetiene en la carrera que ha elegido se ha relacionado positivamente conuna medida de motivación de logro en un estudio realizado conestudiantes de bachillerato (Aguilar, Valencia y Martínez, 1998).

Es razonable suponer que la indecisión respecto a la elección deuna tarea afectará negativamente el valor que se le asigna yconsecuentemente disminuirá el interés en ella. A partir de ello seplanteó la hipótesis acerca de la influencia negativa de la certezavocacional sobre la motivación intrínseca.

Finalmente, se supuso que la percepción escolar, es decir, laapreciación estudiantil de la calidad del desempeño de los profesoresy de la calidad de la enseñanza afectaría su motivación intrínseca.

168 l Estrategias de Evaluación y Medición…

ESTUDIO 1

El objetivo principal de esta investigación fue elaborar un modelo

estructural de la motivación intrínseca que integrara la autoeficacia y el

valor cuyos efectos son conocidos, así como el costo, la morosidad,

la certeza vocacional y la percepción escolar, no consideradas hasta

ahora, con el propósito de determinar sus efectos individuales y sus

interrelaciones.

En este trabajo la operacionalización de la motivación intrínseca

difiere de la empleada por algunos autores como Elliot y Church

(1997), quienes la operacionalizan únicamente en términos de interés,

gusto y satisfacción experimentados, lo cual resulta poco afortunado

porque la fuente principal de estas reacciones puede ser diferente del

aprendizaje y la adquisición de nuevos conocimientos. Por tal motivo

en este estudio y en los subsiguientes la operacionalización

comprendió tanto el disfrute y el gusto por las actividades escolares

como el interés y el deseo de aprender y adquirir nuevos

conocimientos.

MÉTODO

SUJETOS.

La muestra se conformó por 411 estudiantes universitarios de los

dos primeros semestres de las siguientes carreras: contaduría (208),

psicología (91) y química (112).

INSTRUMENTOS.

Se emplearon siete escalas psicométricas, seis de las cuales

fueron elaboradas especialmente para este estudio, la otra fue

desarrollada por los autores en un estudio previo. Todos los reactivos

constan de cinco opciones de respuesta pero difieren en su

significado: las de autoeficacia, motivación intrínseca y morosidad van

desde 1. completamente en desacuerdo hasta 5. completamente de

169V. Un Modelo de la Motivación... l

acuerdo; las de valor, costos y certeza vocacional van desde 1.

muchísimo hasta 5. casi nada, y las opciones de los reactivos de

percepción escolar van desde 1. muy pocos hasta 5. todos.

1. Autoeficacia. Está formada por 8 reactivos que se refieren a la

valoración que hace el propio estudiante de su competencia para

completar la carrera y ejercer la profesión. Ejemplo: "Creo tener la

capacidad necesaria para completar la carrera".

2. Morosidad. Está compuesta por 10 reactivos que valoran la

tendencia a posponer la realización de tareas y deberes escolares.

Ejemplo: "En general le doy muchas vueltas a las cosas antes de

empezar a hacerlas". Esta escala fue desarrollada por Aguilar y

Valencia (1994).

3. Valor de la carrera. Consta de 4 reactivos que evalúan la

importancia que tiene para el estudiante el estudio de la carrera y

el ejercicio de la profesión. Ejemplo: "Qué tan importante es para

tí la carrera que estás estudiando".

4. Certeza vocacional. Consta de 4 reactivos que miden la seguridad

en la elección de la carrera y la disposición a terminarla. Ejemplo:

"Mi interés en la carrera es lo suficientemente fuerte para

terminarla".

5. Percepción escolar. Consta de 5 reactivos que evalúan la

percepción que tienen los estudiantes de sus profesores, de sus

compañeros y de la escuela. Ejemplo: "Cuántos de tus profesores

asisten con regularidad".

6. Motivación intrínseca. Consta de 13 reactivos que valoran el

interés en el aprendizaje y en la adquisición de nuevos

conocimientos. Ejemplo: "Varios cursos han despertado mi deseo

de profundizar en algunos temas".

7. Costos. Está formado por 6 reactivos que se refieren a las

restricciones que les impone el estudio de la carrera en términos

de tiempo, esfuerzo y la realización de actividades sociales.

170 l Estrategias de Evaluación y Medición…

RESULTADOS

Dado que todas las escalas contenían reactivos de carácter

positivo y negativo se recodificaron los de uno y otro signo

dependiendo de la escala, a fin de que la calificación asignada a cada

reactivo tuviera el mismo significado. La puntuación total en cada

escala se obtuvo sumando las puntuaciones de sus reactivos

individuales, que iban de uno a cinco. En todas las escalas la

calificación más alta indicaba mayor magnitud del constructo

considerado.

Se realizó un análisis de confiabilidad (consistencia interna) y un

análisis factorial con rotación ortogonal para cada una de las escalas.

En general los valores del coeficiente alfa de Cronbach fueron

satisfactorios con excepción de la escala de costos (.43) la cual fue

desechada. En las escalas de morosidad, motivación intrínseca y

certeza vocacional se desechó un reactivo que afectaba

negativamente el valor de alfa.

Se determinó el rango, la media, la desviación estándar y la

asimetría de las puntuaciones obtenidas en las diferentes escalas, las

cuales fueron relativamente simétricas con excepción de las de valor

y certeza vocacional que estuvieron fuertemente sesgadas hacia los

puntajes altos.

Se determinaron las intercorrelaciones entre las diferentes escalas

mediante el coeficiente de Pearson. Como puede verse en la tabla 1

todas las escalas tuvieron correlaciones significativas con la de

motivación aun cuando la de percepción escolar fue muy baja

comparada con las demás.

A continuación se elaboró y probó el modelo estructural de

motivación intrínseca esbozado al final de la introducción, utilizando el

programa Amos 4 (Arbuckle y Wothke, 1999). El análisis de

ecuaciones estructurales realizado mediante el programa permite

calcular los efectos directos e indirectos de un conjunto de variables.

171V. Un Modelo de la Motivación... l

Tabla 1. Correlaciones entre las escalas.

MOTIV. INT.

AUTO- EFICIENCIA

MOROSIDAD VALORCERT. VOC.

PERCEPCIÓN

MOTIV. INT. 1.00

AUTOEFICIENCIA .46** 1.00

MOROSIDAD -.44** -.42** 1.00

VALOR .34** .28** -.20** 1.00

CERT. VOC. .43** .48** -.34** .37** 1.00

PERCEPCIÓN .11* .15** -.13** 0.07 .16** 1.00

**p<.01

*p<.05

Los resultados indicaron que la autoeficacia ocupó una posiciónprominente en el modelo ya que tuvo efectos directos sobre todas lasvariables así como efectos indirectos sobre motivación intrínseca pormediación de las otras variables (ver figura 1). El ajuste del modelo alos datos fue satisfactorio como lo indica el valor ji cuadrada=.81, gl=1y p=.36; GFI=.99. Todos los efectos directos mostrados en la figura 1fueron significativos al nivel de p< .001. La suma total de los efectosdirectos e indirectos de cada variable se muestra en la tabla 2.

Tabla 2. Efectos totales de las variables.

AUTO- EFICIENCIA

VALOR CERT. VOC. MOROSIDAD

VALOR .29 .00 .00 .00

CERT. VOC. .26 .14 .00 .00

MOROSIDAD -.60 -.06 -.46 .00

MOTIV. INT. .63 .30 .55 -.24

La confianza en la propias competencias y habilidades y laseguridad vocacional incrementan substancialmente la motivaciónintrínseca y también disminuyen fuertemente la morosidad. Asimismo,el valor asignado a los estudios es afectado positivamente por laautoeficacia, y repercute favorablemente en la certeza vocacional y lamotivación intrínseca.

172 l Estrategias de Evaluación y Medición…

Diferencias entre las tres carreras en las escalas.

Se determinaron las diferencias entre las medias de laspuntuaciones obtenidas en las diferentes escalas por los estudiantesde las tres carreras, utilizando el análisis de varianza y la prueba deTukey para comparaciones múltiples (tabla 3). En autoeficaciaresultaron significativas las diferencias entre contaduría y psicologíacon respecto a química. También resultaron significativas lasdiferencias en motivación intrínseca entre los estudiantes depsicología con los de contaduría y química.

AUTOEF

VALOR

MOTIV. INT.

MORO

CERTEZA VOCAC.

1 E1

1

E2

1

E3

1

E4

-.48

.22

.14

-.24

.44

.28

.22

-.46

Figura 1. Modelo estructural de motivación intrínseca.

Tabla 3. Medias de las escalas en las tres carreras.

CARRERA VALORAUTO

EFICACIAMOROSIDAD

CERTEZA VOC.

MOTIV. INT.

PERCEPCIÓN

QUÍMICA 17.38 27.30a 26.63a 12.41 44.38a 15.75

CONTADURÍA 18.07 31.58b** 24.52b* 13.03 44.89a 15.64

PSICOLOGÍA 18.18 31.02b** 24.30b* 13.34 47.92b** 16.52

* p > .06 Nota: las medias marcadas con letras diferentes difieren significativamente.

** p< .001

173V. Un Modelo de la Motivación... l

DISCUSIÓN

La investigación corroboró algunos de los resultados obtenidospor otros autores: la relación de la autoeficacia y el valor con lamotivación intrínseca (Pintrich y García, 1991), la relación negativa dela autoeficacia con la morosidad (Tuckman, 1991) y la indecisiónvocacional (Aguilar, Peña, Pacheco y De la Paz, 1993); la relaciónpositiva de autoeficacia con el valor de la tarea (Battle, 1966; Feather,1988), y la motivación intrínseca (Bandura y Schunk, 1981;Harackiewicz, Sansone y Manderlink, 1985).

En comparación con los estudiantes de contaduría y psicologíalas bajas puntuaciones en autoeficacia de los estudiantes de químicaposiblemente se deban a las mayores demandas de esfuerzo ytrabajo en dicha carrera, pues requiere tiempo completo; dichaspuntuaciones están asociadas con niveles bajos de motivaciónintrínseca.

La influencia de la percepción escolar sobre la motivaciónintrínseca fue muy pobre, a pesar de que es una observación comúnque las deficiencias en la organización escolar pueden afectarseveramente la disposición de los estudiantes para el aprendizaje. Unaexplicación parcial es que las percepciones tuvieron poca variabilidadtanto dentro como entre las instituciones consideradas, lo cual esconfirmado por los datos obtenidos. Otra explicación complementariase refiere a deficiencias de la escala diseñada para medirla pues elnúmero de indicadores de la calidad de la enseñanza incluidos fueinsuficiente, lo cual afectó tanto su validez como su confiabilidad.

Por lo tanto, en investigaciones subsiguientes habrá que

seleccionar instituciones que difieran marcadamente en la calidad de

su enseñanza a fin de que sus diferencias se reflejen en las

percepciones de los estudiantes, así como mejorar las propiedades

psicométricas de la escala. Esto último habría que hacerlo también

con la escala de costos que adoleció de serias deficiencias.

ESTUDIO 2

En este estudio se buscó ampliar el modelo anterior incorporando

tres disposiciones motivacionales generales: motivación de logro,

174 l Estrategias de Evaluación y Medición…

temor al fracaso y evitación del trabajo, y dos disposiciones

motivacionales específicas, percepción escolar y costos.

La inclusión de esta última variable obedeció a que en varias

teorías motivacionales particularmente la teoría de expectativas-

valores, la participación en una actividad está motivada por los costos

y beneficios percibidos. La medida de costos elaborada en el trabajo

anterior fue reestructurada para mejorar su confiabilidad y validez,

aumentando el número de indicadores de las restricciones impuestas

por los estudios.

La medida de percepción escolar, empleada en el primer estudio,

fue reestructurada para mejorar su confiabilidad y validez

incrementando el número de indicadores de la calidad de la

enseñanza.

La motivación de logro incluyó originalmente los comportamientos

tendientes a alcanza el éxito y la competencia (McClelland, Atkinson,

Clark y Lowell, 1953); recientemente Elliot y Church (1997) la

consideraron como un antecedente distante de la motivación

intrínseca.

Un objetivo importante de este trabajo fue analizar las

interrelaciones entre las disposiciones motivacionales generales y las

disposiciones específicas consideradas en el modelo.

El temor al fracaso subyace una de las dos orientaciones básicas

hacia la competencia descritas por McCleland, Atkinson, Clark y

Lowell (1953): el logro del éxito y la evitación del fracaso. El temor al

fracaso inicialmente fue operacionalizado por Atkinson y Litwin (1960)

como el puntaje obtenido en un cuestionario para medir la ansiedad

ante las pruebas, considerando que se trata del mismo constructo.

Posteriormente surgieron otras medidas de temor al fracaso que han

tenido poca difusión.

En este estudio se empleó la escala de temor al fracaso

desarrollada por Aguilar y Valencia (1994) la cual lo define como

insatisfacción con el propio desempeño y reacción excesiva ante los

175V. Un Modelo de la Motivación... l

propios errores. Las medidas en la escala de temor al fracaso se

relacionan positivamente con puntuaciones de morosidad y ansiedad

evaluativa (Aguilar y Valencia 1994), y con medidas de evitación del

trabajo (Aguilar, Martínez, Valencia, Conroy y Girardo, 1997). Por su

parte Elliot y Church (1997) encontraron una correlación positiva de las

medidas de temor al fracaso obtenidas en la Escala de Herman (1990)

con medidas de metas de evitación y de aproximación.

La evitación del trabajo representa una orientación hacia el

aprendizaje escolar que se caracteriza por la tendencia de algunos

estudiantes a realizar el trabajo con el mínimo esfuerzo (Brophy, 1983;

Nicholls, Patashnick y Nolen, 1985), y se considera que los

estudiantes adoptan esta meta para expresar actitudes negativas hacia

el trabajo escolar y evitar el fracaso. En este estudio se empleó la

escala de evitación del trabajo desarrollada por Aguilar y cols. (1997).

Dicha escala presenta niveles adecuados de confiabilidad y validez;

correlaciona significativamente con medidas de riesgo, perfeccionismo

y temor al fracaso.

Para ampliar el modelo de motivación intrínseca se supuso que,

en congruencia con lo anterior, temor al fracaso afectaría morosidad y

a evitación del trabajo, costos a certeza vocacional, además

percepción escolar y motivación de logro influirían en la motivación

intrínseca.

MÉTODO

SUJETOS.

La muestra estaba conformada por 428 estudiantes universitariosde los dos primeros semestres de las siguientes carreras: contaduría(114) y psicología (135) de la UNAM, ingeniería (81) y psicología (98)de la Universidad Veracruzana.

INSTRUMENTOS.

Se emplearon ocho escalas psicométricas desarrolladas por losautores en estudios previos, de las cuales cinco fueron descritas en el

176 l Estrategias de Evaluación y Medición…

Estudio 1. Las tres restantes son las siguientes:

1. Evitación del trabajo. Está compuesta por 8 reactivos que valoranla tendencia a realizar el menor esfuerzo y a eludir las tareasdifíciles y demandantes. Ejemplo: "No me gusta realizar tareasque me pongan a prueba o representen un reto para mí".

2. Temor al fracaso. Consta de 14 reactivos que se refieren a latendencia a exagerar los propios errores y a sentirse insatisfechode sus logros. Ejemplo: "Cuando encuentro fallas en mi trabajoreacciono como si fuera un fracaso completo".

3. Motivación de logro. Consta de 10 reactivos que miden latendencia a fijarse metas altas y a esforzarse por alcanzarlas.Ejemplo: "Cuando se me dificulta una tarea insisto hastadominarla".

4. Costos. Está formado por 9 reactivos que se refieren a lasrestricciones que les impone el estudio de la carrera en términosde tiempo, esfuerzo y actividades sociales.

5. Percepción escolar. Consta de 6 reactivos que evalúan lapercepción que tienen los estudiantes de sus profesores, de suscompañeros y de la escuela. Ejemplo: "Cuántos de tus profesoresasisten regularmente?"

RESULTADOS

Se realizó un análisis de confiabilidad de consistencia interna y engeneral se obtuvieron valores satisfactorios del coeficiente alfa deCronbach con excepción de la escala de costos cuyo coeficiente fue.66, el cual no obstante es aceptable para propósitos deinvestigación.

Se determinó el rango, la media, la desviación estándar, laasimetría y la curtosis de las puntuaciones obtenidas en las diferentesescalas, las cuales resultaron relativamente simétricas con excepciónde valor y certeza vocacional que estuvieron fuertemente sesgadashacia los puntajes altos, especialmente la primera (ver tabla 4).

Después se calcularon las intercorrelaciones entre todas lasescalas mediante el coeficiente de correlación de Pearson. Como

177V. Un Modelo de la Motivación... l

puede verse en la tabla 5 las puntuaciones de autoeficacia, morosidady seguridad vocacional con motivación intrínseca fueron relativamentealtas, así como las de evitación del trabajo y temor al fracaso conautoeficacia.

Tabla 4. Estadística descriptiva, alfa de Cronbach y número de reactivosde cada escala.

ESCALA MEDIA D.E. MIN MAX ASIMETRÍA CURTOSIS ALFA REACTIVOS

AUTOEFICACIA 29.56 4.18 18 42 -.58 -.04 .73 7

VALOR 18.45 2.51 4 20 -2.75 9.60 .81 4

EVITACIÓN 21.27 4.86 10 36 .21 -.29 .73 8

TEMOR 41.89 8.56 16 68 -.19 .37 .80 14

MOROSIDAD 25.75 5.96 13 43 .06 -.48 .78 9

M. LOGRO 36.11 4.80 20 45 -.50 .26 .79 9

CERT. V. 22.00 3.26 9 25 -1.23 1.07 .75 5

COSTOS 10.53 4.04 5 24 .80 .52 66 5

PERCEPCIÓN 21.12 3.70 11 28 -.58 -.33 .74 6

M. INTRÍNSECA 48.68 5.46 30 60 -.65 .64 .73 12

Tabla 5. Intercorrelaciones entre las escalas.

AU

TO

EF

ICA

CIA

VA

LOR

EV

ITA

CIÓ

N

TE

MO

R

MO

RO

SID

AD

LOG

RO

CE

RT

. V.

CO

ST

OS

PE

RC

EP

CIÓ

N

M.

INTR

ÍNS

EC

A

AUTOEFICACIA 1.00

VALOR .32* 1.00

EVITACIÓN -.45* -.16* 1.00

TEMOR -.25* -.03 .55* 1.00

MOROSIDAD -.30* -.08 .60* .48* 1.00

LOGRO .49* .16* -.45* -.04 -.41* 1.00

CERT. V. .44* .66* -.28* -.18* -.27 .34* 1.00

COSTOS -.25* -.36* .19* .27* .35* -.25* -.38* 1.00

PERCEPCIÓN 0.08 .05 -.07 -.22* -.21* .06 .08 -.22* 1.00

M. INTRÍNSECA .54* .28* -.35* -.21* -.43* .54* .46* -.32* .20* 1.00

p<.01

178 l Estrategias de Evaluación y Medición…

Al poner a prueba el modelo estructural de motivación propuestofue necesario corregir las relaciones esperadas de la variable costoscon motivación y certeza vocacional cancelando la primera einvirtiendo la dirección de la relación entre decisión y costos;asimismo, fue necesario especificar correlaciones entre algunoserrores, y entre autoeficacia y el error de temor al fracaso, para queajustara el modelo. Las medidas de ajuste del modelo fueronadecuadas, X2 = 5.33, gl=11, p=.91; NFI=.99; RMSEA= 0.0. Laproporción de varianza explicada de motivación intrínseca fue R2=.48.Los efectos directos de unas variables sobre otras registrados en lafigura 2 son significativos al menos al nivel de .05, exceptuando losindicados con las iniciales NS. Los efectos totales de unas variablessobre otras se registran en la tabla 6.

Tabla 6. Efectos totales de las variables.

TE

MO

R

EV

ITA

CIÓ

N

AU

TO

EF

ICA

CIA

VA

LOR

CE

RT

. V.

CO

ST

OS

MO

RO

SID

AD

PE

RC

EP

CIÓ

N

EVITACIÓN .316 .000 .000 .000 .000 .000 .000 .000

AUTOEFICACIA -.124 -.394 .000 .000 .000 .000 .000 .000

VALOR -.024 -.077 .196 .000 .000 .000 .000 .000

CERT. V. -.039 -.123 .314 .758 .000 .000 .000 .000

COSTOS .027 .086 -.217 -.525 -.693 .000 .000 .000

MOROSIDAD .339 .018 -.047 .000 .000 .000 .000 .000

LOGRO -.166 -.165 .420 .000 .000 .000 -.342 .000

PERCEPCIÓN -.006 -.018 .045 .108 .143 -.206 .000 .000

M. INTRÍNSECA -.158 -.233 .592 .281 .346 -.035 -.253 .168

Los efectos totales sobre motivación intrínseca más grandesfueron los de autoeficacia (.59), certeza vocacional (.35) y logro (.31).Los efectos directos sobre motivación intrínseca más grandes fueronlos de autoeficacia (.34), seguridad vocacional (.32) y logro (.31). Losefectos indirectos más grandes sobre motivación intrínseca fueron los

179V. Un Modelo de la Motivación... l

de valor (.26) seguidos por los de autoeficacia (.25) y evitación deltrabajo (-.23).

AUTOEFICACIA

MOTIVACION INTRINSECA

MOROSIDAD

CERTEZA

VOCACIONAL

0, 1

E1

0, 1

E2

0, 1E3

VALOR

0, 1E4

EVITACIONDEL TRABAJO

0, 1

E5

PERCEPCION

ESCOLAR

0, 1

E6

TEMOR AL FRACASO

0, 1

E8

MOTIVACION DE LOGRO

0, 1

E7

COSTOS

E9

0,1

Figura 2. Modelo estructural ampliado de motivación intrínseca.

DISCUSIÓN

El modelo de motivación intrínseca integró un buen número de lasvariables relacionadas directa o indirectamente con ellaproporcionando así una comprensión más amplia y profunda de lascondiciones en que se produce la motivación intrínseca. La proporciónde varianza explicada se elevó de .35 obtenida en el modelo inicial a.48 en el segundo. En la literatura no se encontró un modelo de laamplitud y capacidad explicativa del presente.

El modelo corroboró las interrelaciones entre las variablesconsideradas en el modelo inicial (Aguilar, Martínez, Valencia, Romeroy Vargas, 2001a, en prensa), con excepción del efecto directo de valorsobre motivación intrínseca y la significación del efecto deautoeficacia sobre morosidad.

Una contribución del estudio fue corroborar la hipótesis acerca de

180 l Estrategias de Evaluación y Medición…

la influencia de temor al fracaso y evitación del trabajo sobreautoeficacia, y dado que ambas variables son disposicionesmotivacionales generales es poco probable que se hayan originado enel breve lapso del estudio de la carrera, sino más bien en experienciasescolares previas de frustración y fracaso.

No obstante, es necesario realizar evaluaciones de estasvariables al final del bachillerato para determinar con precisión lainfluencia de las experiencias iniciales en las carreras de ingreso.

También se advierte que ambas disposiciones, evitación deltrabajo y temor al fracaso, no tienen efectos directos sobre motivaciónintrínseca sino sólo efectos indirectos a través de otras variables.

La influencia de las metas de evitación del trabajo entreestudiantes universitarios fue mostrada en un estudio previo (Aguilar ycols., 1997) en el cual aproximadamente 25% de una muestracompuesta por 280 de estudiantes de varias carreras presentaron unpatrón motivacional caracterizado por niveles relativamente altos deevitación del trabajo y bajos niveles de metas de maestría.

La presencia de orientaciones motivacionales negativas entreestudiantes universitarios y también de otros niveles escolares seexplica parcialmente por las conocidas deficiencias del sistemaeducativo nacional que abarcan desde problemas en los planes yprogramas de estudio hasta la impreparación general de los docentese insuficiencia de los recursos didácticos pasando por las deficienciasen la administración y dirección de los planteles educativos.

Al comparar los efectos totales de evitación del trabajo y temor alfracaso sobre autoeficacia se advierte que la resistencia a realizarmayores esfuerzos en el trabajo escolar contribuye en mayor grado adisminuir los niveles de autoeficacia que el temor al fracaso.

El temor al fracaso aparece en el modelo como el antecedentemás lejano de la motivación intrínseca afectando directamente a lamorosidad y a la evitación del trabajo. La primera afecta directamentea la motivación intrínseca y la segunda a la autoeficacia.

La influencia predominante de la autoeficacia, la motivación delogro y la certeza vocacional sobre la motivación intrínseca pone de

181V. Un Modelo de la Motivación... l

manifiesto que las creencias en las propias capacidades, la capacidadvolitiva y el compromiso con la decisión vocacional son determinantesimportantes del interés y dedicación a los estudios.

La autoeficacia, además de su importante efecto directo sobre lamotivación intrínseca tiene un efecto indirecto sobre ella pormediación de otras variables: valor, morosidad, certeza vocacional,motivación de logro, costos y percepción escolar.

La certeza vocacional es afectada fuertemente por valor y a su vezafecta a la motivación intrínseca en forma directa e indirecta porintermedio de costos y percepción escolar.

El valor tuvo un efecto directo no significativo sobre la motivaciónintrínseca pero su efecto indirecto fue sustancial.

Además, la dirección de la relación entre costos y certezavocacional indica que la apreciación de la magnitud de lasrestricciones y exigencias en los estudios de una carrera esconsecuencia y no causa del grado de certeza vocacional, como sesupuso al principio. Asimismo, costo tuvo una influencia negativasobre la percepción del medio escolar, la cual afectó positivamente ala motivación intrínseca.

La realización de investigaciones subsiguientes sobre los cambioseventuales en las interrelaciones entre las variables consideradas,desde el inicio del estudio de la carrera hasta la conclusión del primeraño, nos puede revelar el carácter dinámico de las mismas y aportarinformación adicional sobre su validez.

Del modelo construido pueden derivarse algunas prescripcionespara promover e incrementar la motivación intrínseca.

En primer término, hay que subrayar la necesidad de mejorar losprogramas de orientación y consejería vocacional de tal forma queincidan en los factores asociados a la indecisión vocacional, como sonla necesidad de información, la autoeficacia, la necesidad deautoconocimiento, la indecisión generalizada y la ansiedad en laelección de carrera (Aguilar y cols., 1993). En segundo lugar,reestructurar los programas de estudio de modo tal que sefundamenten en las competencias y conocimientos adquiridos por los

182 l Estrategias de Evaluación y Medición…

alumnos en los cursos previos y se maximice la transferencia delaprendizaje, así como mejorar la preparación didáctica de losdocentes a fin de que las actividades escolares sean desafiantes yfortalezcan la eficacia y la autonomía de los estudiantes. Esto esparticularmente importante en los primeros semestres de la carreradonde se presentan los índices más altos de deserción escolar y segeneran actitudes negativas hacia el trabajo escolar que conducen alaprendizaje repetitivo y superficial.

REFERENCIAS

Aguilar, J., Peña, L., Pacheco, J. y De la Paz, C. (1993).Adaptación y ampliación del Inventario de Factores de Carrera.Investigación Psicológica, 3 (1), 53-63.

Aguilar, J. y Valencia, A. (1994). Medición e interrelaciones entretemor al fracaso y morosidad. Revista de Psicología Social yPersonalidad, 10 (2), 145-155.

Aguilar, J., Valencia, A. y Martínez,M. (1998). Relaciones entreescalas de indecisión vocacional, medidas de meta, género yaprovechamiento escolar. Integración. Educación y DesarrolloPsicológico, 10, 51-58.

Aguilar, J., Martínez, M., Valencia, A., Conroy, C. y Girardo, A.(1997). Metas de logro, competitividad y perfiles motivacionalesentre estudiantes universitarios. Revista Latina de Pensamientoy Lenguaje, 5 (1), 25-35, 1997.

Aguilar, J., Martínez, M., Valencia, A., Romero, P. y Vargas, V.(2001a). Interrelaciones de factores asociados a la motivaciónintrínseca. Revista Mexicana de Psicología. En prensa.

Aguilar, J., Valencia, A., Martínez, M. (2001b). Un modelo de lasinterrelaciones entre disposiciones motivaciones generales yespecíficas. Revista Latina de Pensamiento y Lenguaje. Enprensa.

Arbucke, J. & Wothke, W. (1999). Amos 4.0 User's guide. Chicago.SmallWaters corporation.

183V. Un Modelo de la Motivación... l

Atkinson, J. y Litwin, G. (1960). Achievement motive and testanxiety conceived as motive to approach success and motiveto avoid failure. En: D. McClelland y R. Steele (Eds.), Humanmotivation: A book of readings. Morristown, NJ: GeneralLearning Press.

Bandura, A. (1986). Social foundations of thought and action: Asocial cognitive theory. Englewood Cliffs, NJ: Prentice Hall.

Bandura, A. y Schunk, D. (1981). Cultivating competence, self-efficacy, and intrinsic interest through proximal self-motivation.Journal of Personality and Social Psychology, 41, 586-598.

Battle, E. (1966). Motivational determinants of academiccompetence. Journal of Personality and Social Psychology, 4,634-642.

Brophy, J. (1983). Fostering student learning and motivation in theelementary school classroom. En: S. Paris, G. Olson, y H.Stevenson (Eds.), Learning and motivation in the classroom.Hillsdale, NJ: Erlbaum.

Cameron, J. y Pierce, W. (1994). Reinforcement, reward, andintrinsic motivation: A meta-analysis. Review of EducationalResearch, 64, 363-423.

Deci, E. L. (1975). Intrinsic motivation. New York: Plenum.

Deci, E. y Ryan, M. (1985). Intrinsic motivation and self-determination in human behavior. New York: Plenum.

Elliot, A. y Church, M. (1997). A hierarchical model of approachand avoidance achievement motivation. Journal of Personalityand Social Psychology, 72 (1), 218-232.

Elliot, A. y Harackiewicz, J. (1994). Goal setting, achievementorientation, and intrinsic motivation: A mediational analysis.Journal of Personality and Social Psychology, 66, 968-980.

Epstein, J. y Harackiewicz, J. (1992). Winning is not enough: Theeffects of competition and achievement orientation on intrinsicinterest. Personality and Social Psychology Bulletin, 18, 128-138.

184 l Estrategias de Evaluación y Medición…

Feather, N. (1988). Values, valences, and course enrollment. Journalof Educational Psychology, 80, 381-391.

Gottfried, A. (1983). Intrinsic motivation in young children. YoungChildren, 39, 64-73.

Harackiewicz, J. (1979). The effects of reward contingency andperformance feedback on intrinsic motivation. Journal ofPersonality and Social Psychology, 37, 1352-1363.

Harackiewicz, J. y Larson, J. (1986). Managing motivation: Theimpact of supervisor feedback on subordinate task interest.Journal of Personality and Social Psychology, 51, 547-556.

Harackiewicz, J., Sansone, C. y Manderlink, G. (1985). Competence,achievement orientation, and intrinsic motivation: A processanalysis. Journal of Personality and Social Psychology, 48,493-508.

Harter, S. (1978). Effectance motivation reconsidered: Toward adevelopmental model. Human Development, 1, 661-669.

Harter, S. (1981). A model of mastery motivation in children:Individual differences and developmental change. En: W. A.Collins (Ed.), Aspects of the development of competence: TheMinnesota symposium on child pscyhology (Vol. 14). Hillsdale,NJ: Erlbaum.

Herman, W. E. (1990). Fear of failure as a distinctive personalitytrait measure of test anxiety. Journal of Research andDevelopment in Education, 23, 180-185.

Karniol, R. y Ross, M. (1977). The effect of performance-relevantand performance-irrelevant rewards on children's intrinsicmotivation. Child Development, 48, 482-487.

McClelland, D., Atkinson, J., Clark, R. y Lowell, E. (1953). Theachievement motive. New York: Appleton-Century Crofts.

Milgram, N. A., Dangour, W. y Raviv, A. (1992). Situational andpersonal determinants of academic procrastination. Journal ofGeneral Psychology, 119 (2), 123-133.

185V. Un Modelo de la Motivación... l

Nicholls, J., Patashnick, M. y Nolen, S. (1985). Adolescents' theoriesof education, Journal of Educational Psychology, 77, 683-692.

Pintrich, P. y DeGroot, E. (1990). Motivational and self-regulatedlearning components of classroom academic performance.Journal of Educational Psychology, 82, 33-40.

Pintrich, P. y García, T. (1991). Student goal orientation and self-regulation in the college classroom. En: M. Maehr y P. Pintrich(Eds.), Advances in motivation and achievement, vol. 7.

Reeve, J. y Deci, E. (1996). Elements of the competitive situationthat effect intrinsic motivation. Personality and SocialPsychology Bulletin, 22, 24-33.

Renninger, K. (1990). Children's play interest, representation, andactivity. En: R. Fivush y J. Hudson (Eds.), Knowing andremembering in young children. Cambridge University Press.

Renninger, K. (1992). Individual interest and development:Implications for theory and practice. En: K. A. Renninger, S.Hidi y A. Krapp (Eds.), The role of interest in learning anddevelopment. Hillsdale, NJ: Erlbaum.

Ryan, R. y Deci, E. (2000). Self-determination theory and thefacilitation of intrinsic motivation, social development, and well-being. American Psychologist, 55 (1), 68-78.

Sansone, C. (1986). A question of competence: The effects ofcompetence and task feedback on intrinsic interest. Journalof Personality and Social Psychology, 51, 918-931.

Schiefele, U. (1991). Interest, learning and motivation. EducationalPsychologist, 26, 299-323.

Tuckman, B. W. (1991). The development and concurrent validityof the procrastination scale. Meeting of the AmericanEducational Research Association. Educational andPsychological Measurement, 51 (2), 473-480.

Woolfolk, A. (1990). Educational Psychology (4a. ed.). Boston: Allyn& Bacon.

Capítulo 6

TEMORES Y REALIDADES EN LAEVALUACIÓN EN EL PERIODO DE

ADQUISICIÓN FORMAL DELA LENGUA ESCRITA1 .

Aldo Bazán Ramírez, Beatriz Sánchez Hernández, Cruz IdaliaCorral Cárdenas y Cecilia Murrieta Quezada.

Instituto Tecnológico de Sonora,

El tema de la evaluación de las competencias académicasespecialmente en la fase inicial de la alfabetización formal hadespertado grandes controversias entre los especialistas y estudiosos,y desconfianza entre los maestros que trabajan en la enseñanza delespañol.

Una de las principales razones fue el rechazo al uso desmedidode tests psicométricos en la evaluación del desempeño académico,que en gran medida fue justificado ya que muchas decisiones que setomaban respecto del futuro de los estudiantes se hacían sobre labase de los puntajes obtenidos en los tests.

En la mayoría de los casos, los puntajes de los tests fueronutilizados para decidir la aceptación o rechazo del ingreso de losniños a la escuela primaria, y/o para ubicar a los estudiantes engrupos o niveles jerárquicos de habilidad o dominio (Falk, 1998). SegúnFerreiro (1990,1999), mientras que la lengua escrita no estédemocráticamente distribuida entre la población, el acceso a lainformación vinculada a la lengua escrita tampoco es accesible de unamanera igualitaria. Por ello, cualquier prueba de conocimiento sobre lalengua escrita aplicada en el comienzo de la primaria, tendría unefecto discriminador.

1 Esta investigación se llevó acabo con fondos otorgados por el Consejo Nacionalde Ciencia y Tecnología de México (Convenio N. 29370-H). Una versión deeste trabajo se encuentra en prensa en la Revista Bordón publicada por laSociedad Española de Pedagogía, bajo el título: “EFLE: instrumento para laevaluación en el periodo de adquisición formal de la lengua escrita”. Seincluye en este libro con autorización de los editores.

188 l Estrategias de Evaluación y Medición ...

Otro argumento para el rechazo de los tests, es que éstosproveen una visión muy limitada de las capacidades y progresos delos alumnos. Según Falk (1998) las preguntas de los tests dan pocaoportunidad al alumno para el uso del pensamiento de orden superior,las estrategias de solución de problemas, o para aplicar susconocimientos a problemas reales. Todo esto derivó en una disparidadentre el cómo el niño aprende y el cómo es evaluado. Este problemade descontextualización ha sido enfatizado por Gillet y Temple (1986),quienes señalan que el desempeño de los niños en situaciones deaplicación del test es muy diferente a su desempeño en contextos deltrabajo escolar. Según Gillet y Temple, este tipo de mediciones ubicaa los niños en una situación artificial de aprendizaje, y que además,aplica de manera arbitraria estándares o criterios de desempeño, enuna visión restringida del comportamiento académico del niño. Asímismo, Goodman (1982) ha sostenido que los tests se fueronconvirtiendo cada vez mas en tests del dominio de habilidades delectura, aplicados fuera de la lectura de textos significativos para elniño.

Estos hechos apuntan a cuestionar la validez de los resultadosobtenidos con los tests, aunado al rechazo del uso de normas oestándares utilizados para comparar el desempeño de un alumno conel desempeño de otros.

Pese a estos argumentos, es menester considerar que gran partede la problemática radica en la confusión de parte de los psicólogosentre lo que debe ser la evaluación del desempeño académico ocompetencias académicas con los tests, lo cual y como sostieneFernández Ballesteros (1997), es un craso error no sólo de ordenmetodológico, sino también conceptual, ya que tales instrumentos pordécadas han sido la única opción en el ámbito de la evaluación en lasáreas educativa, clínica o del trabajo. Ferreiro (1999) también es muyaguda respecto de esta práctica al señalar muchas veces que si a lospsicólogos se les quitan los tests de las manos, se quedan con pocacosa.

El rol del psicólogo de «buscador de problemas» mas que el deidentificar y describir cómo se estructuran las situaciones de

189VI. Temores y Realidades de ... l

enseñanza de la lengua escrita, y en cómo se estructuran ypromueven las competencias de leer y escribir, tienen mucho que vercon la creencia de que se pueden desarrollar y aplicar técnicas einstrumentos psicológicos independientemente de las categorías ymétodos de una ciencia básica sobre el comportamiento (Ribes,1999). Pero, en el contexto de garantizar la adquisición y dominio dela lengua escrita por parte de los niños, se hace necesario conoceraquellas características y propiedades implicadas en lo que se quiereque los niños dominen, además de conocer las características de loseventos y objetos involucrados en la situación de enseñanza-aprendizaje del español. Por ello, la evaluación de la lectura y laescritura no puede reducirse sólo al uso de tests de comprensión yvocabulario, tests de velocidad o exactitud lectora, o pruebas paramedir el éxito del aprendizaje, ni a instrumentos para determinardeficiencias a fin de instaurar programas remediales, amén de lostests de madurez de la lectura y la escritura.

En medio de este panorama fueron surgiendo alternativas masintegrales para la comprensión de la lectura y la escritura, por ejemploasumir que el lector tiene un rol activo en la construcción designificados cuando lee un texto, basado en su propia experiencia y enel contexto (Barr, Blachowics y Wagman-Sadow,1985). Lo resaltantede esta postura es que se considera a la lectura como una situacióninteractiva en la cual la dimensión afectiva está relacionada con losintereses y sentimientos de los lectores. Estos argumentos se basanen el supuesto de que el aprendizaje es construido a través de lasinteracciones de los alumnos con una variedad de experiencias, ideasy relaciones (Falk, 1998).

Aunque desde otra perspectiva epistemológica y conceptual,Kantor (1978, 1990) ha planteado algo similar, puesto que consideraque los eventos psicológicos consisten en campos multifactoriales, enlos cuales diversos factores -biológicos, históricos, contextuales,normativos- se influyen entre sí de diversas formas de modo tal que uncomportamiento implica la interacción de los individuos con objetos,eventos u otros individuos, así como con sus cualidades y relacionesespecíficas.

190 l Estrategias de Evaluación y Medición ...

Retomando lo anterior, si la situación que demanda una lectura yuna escritura implica la convergencia de factores como lascaracterísticas físicas del texto (color, tipo de escritura, tamaño deletras), la forma de presentación (en la pizarra, en tarjetas, en libros,en la pantalla del ordenador, en videos), las características de loseventos de referencia sobre los que se debe escribir o leer(propiedades aparentes y no aparentes de los referentes), la forma deentrar en contacto con los referentes (describiéndolos, imaginándolos,simulando o representando al referente, elaborado en forma oral yescrita cuentos y composiciones y leerles a otros niños), las propiascreencias y expectativas de los niños respecto a los eventos yobjetos de referencia, etc., entonces una buena parte de los esfuerzospara evaluar la lectura y la escritura deben estar encaminados a tomaren cuenta estos diversos factores, sin reducir la evaluación sólo afactores psicológicos, sociales o psicogenéticos.

Sin embargo, las pruebas estandarizadas pueden ser incluidas enuna evaluación mas general de la lectura y la escritura con la finalidadde identificar estas competencias lingüísticas al inicio del periodoescolar y planificar las actividades académicas y evaluar el logro delos objetivos al finalizar el programa, eso sí, tomando en cuenta que notodos los niños ingresan a la escuela primaria en las mismascondiciones y con las mismas competencias, ni tienen los mismosintereses y expectativas, ni todos los niños deben aprender de unamisma manera. Es decir, tratando de tomar medidas para que lasdiferencias entre los niños al inicio de la alfabetización formal, nofortalezcan las desigualdades en esta fase de adquisición de lalengua escrita (Bazán, 1999; Ferreiro, 1990; Gómez Palacio, 1995;Lira, 1998).

La evaluación integral puede incluir un análisis de factores comolos juicios, las valoraciones y los propósitos de los niños respecto delos textos impresos (Barr, Blachowics y Wagman-Sadow, 1985); laobservación de las ejecuciones de los niños durante la situación deenseñanza o en situaciones en el que se simulen ambientesinstruccionales (Gillet y Temple, 1986); datos escritos y evidencias dela producción de los niños en clase recolectados en legajos o carpetas(Gómez Palacio, 1995); el interés y la motivación para el aprendizaje

191VI. Temores y Realidades de ... l

así como la capacidad del alumno para mostrar qué es lo que sabehacer (Eisner, 1991).

Un reto en la evaluación de la lectura y la escritura además derecoger evidencias mas confiables, es el de no afectar la utilidad yvalidez de la recolección de información, los cuales permitan obtenervaloraciones flexibles de las diferencias individuales del desempeño detareas cercanos al mundo real de los niños, y captar de maneragenuina el dominio de los niños en tareas de lectura y escritura (Falk,1998; Moss, 1994).

Estos esfuerzos implican superar el debate acerca del uso demediciones estandarizadas y las estrategias de evaluación auténtica,como puede ser el caso de la evaluación por portafolio (Goodman,1982). Aunque en la evaluación contemporánea de la lengua escrita sehace énfasis en aspectos cualitativos como es el caso de lainformación obtenida a partir de observaciones, análisis deinteracciones en el aula, entrevistas, simulaciones y pruebas cortas,no se rechaza, si no que más bien se integra en una evaluación globalla información obtenida con inventarios, pruebas estandarizadas,pruebas referidas a criterios y normas, entre otros (Condemarín, 1995;Quintana, 1996).

Estos argumentos parecen sostener la idea de que los tests -uotros instrumentos que cumplan con los criterios y el rigor de lamedición- son sólo algunos de los instrumentos utilizables para recogerinformación sobre el desempeño de los niños en lectura y escritura.

Sobre la base de lo que hasta aquí se ha expuesto, se elaboró uninstrumento para evaluar la lectura y la escritura de niños en el primerciclo de adquisición de la lengua escrita (Bazán, 2001), siguiendo unaperspectiva de desarrollo cualitativamente jerárquico de lasinteracciones entre los niños y los eventos de referencia (Kantor, 1936;Ribes y López, 1985). El instrumento incluye tareas de lectura ytareas de escritura, y no existen criterios de correcto o incorrecto paralas respuestas, ya que las respuestas pueden ubicarse también deforma cualitativa desde 0 hasta un máximo de 4.

De acuerdo con la concepción de Kantor (1936), todo fenómenolingüístico incluye una interacción de los organismos con los objetos

192 l Estrategias de Evaluación y Medición ...

y eventos con los cuales están permanentemente rodeados. De estemodo, leer y escribir pueden ser concebidos como formas deinterconducta que ocurren en un campo complejo donde participantres elementos importantes entre los cuales se establecen relacionesrecíprocas: a) un evento u objeto de referencia (referente), b) unreferido y, c) un referidor (el referido y el referidor pueden ser elmaestro, el niño u otros niños).

Tomando como base esta definición de interconducta comointeracción organismo-ambiente, Ribes y López (1985) desarrollan yproponen una taxonomía que permite describir cinco distintos nivelesjerárquicos de organización del comportamiento de los individuos, esdecir, que el comportamiento puede estructurarse jerárquicamentehasta en cinco niveles cualitativos:

1) Nivel contextual: Representa el nivel más elemental deorganización del comportamiento en el cual el niño responde a lascaracterísticas físico químicas de los eventos de estímulo sinalterarlo.

2) Nivel suplementario: A diferencia del nivel anterior en el cual larespuesta del niño sólo debe ajustarse a las características físicasy a las propiedades concretas del referente, en este segundo nivelel niño genera cambios en su relación con el referente, modulandosu comportamiento a la variabilidad producida en tiempo yespacio.

3) Nivel selector: La respuesta del individuo está en relación a lacorrespondencia que guarda un segundo evento con el evento antecuyas características fisicoquímicas se responde. El responderdel niño depende de la correspondencia que guarda unainstrucción o pregunta, con un evento de referencia.

4) Nivel sustitutivo referencial: El niño interactúa con eventos,objetos o personas ausentes, y/o con las propiedades aparentesde los objetos o personas presentes en la situación deinteracción, además, el niño puede mediar la relación entre esosreferentes y un referido, quien puede ser otro niño, el maestro, sushermanos o sus padres.

193VI. Temores y Realidades de ... l

5) Nivel sustitutivo no referencial: Es el nivel cualitativamente máscomplejo, y demanda que el niño al escribir y al leer entre enrelación con aspectos que van mas allá de los eventos concretos,ya que el niño interactúa con situaciones sustituidas orepresentadas. En otras palabras, la relación con el referente esde carácter simbólico y no referencial.

ANTECEDENTES

En un primer estudio, Bazán y Colegas elaboraron un instrumentoque incluía 76 tareas distribuidas en cinco niveles funcionales de lataxonomía de la conducta propuesta por Ribes y López, y en dosmorfologías o modalidades lingüísticas (Bazán, Rojas y Zavala, 2000),que además sirvió para la validación de constructos morfológicos yfuncionales utilizados en la perspectiva de la psicologíainterconductual (Corral, Bazán y Sánchez, 2000), con 288 niños deprimer grado de primaria provenientes de 10 escuelas públicas, alfinalizar el año escolar 1998-1999.

Los resultados demostraron indicadores de confiabilidad, dado quetodos los índices generados para representar conjuntos de variablesde una misma morfología y función, produjeron valores elevados deconsistencia interna, en general el valor del alfa fue por encima de0.80.

Respecto a la validación de constructo, Corral, Bazán y Sánchez(2000) encontraron validez convergente de constructo, la cual indicabaque tareas independientes pero en teoría ligadas a un factor,confirmaron la pertinencia de la variable nivel funcional, pero obtuvieronsólo una moderada validez divergente del constructo nivel funcional, ynada de divergencia entre los componentes del constructo morfología(ver tabla N. 1).

Sobre esta base, se elaboró un nuevo instrumento que incluía trestareas de lectura y tres tareas de escritura por cada nivel funcional (entotal 30 tareas), el cual fue aplicado en diciembre de 1999 a 122 niñosde segundo grado de escuelas públicas de Ciudad Obregón, México.Se decidió evaluar a niños de segundo grado, dado que los niños de

194 l Estrategias de Evaluación y Medición ...

primer grado estaban a la mitad del proceso de adquisición de lalengua escrita. Para el caso del análisis de validez de constructo sólofueron considerados 25 tareas, ya que los resultados de 5 tareas nocontribuían a la bondad de ajuste del modelo final (Bazán y Corral, enprensa; Bentler, 1995).

Tabla 1. Análisis factorial confirmatorio de la matriz multimétodo (nivelesfuncionales) y dos rasgos o morfologías (lectura y escritura). (Tomado deCorral, Bazán y Sánchez, 2000).

VARIABLES CONTX SUPLE SELEC SUSRF NOREF LECTU ESCRITVAR

EXPLICADA

Norop .19* .87* 79%

Nordich .39* .80* 79%

Norsim .40* .80* 79%

Sucomp .13* .87* 78%

Susfig .22* .79* 68%

Suslecc .04* .97* 95%

Susleco .10* .95* 91%

Sellitc .05* .96* 93%

Sellito .13* .94* 90%

Selfig .52* .76* 85%

Selecto .30 .78* 75%

Supora .20* .90* 86%

Supfig .65* .66* 85%

Supcom .63* .69* 87%

Contfig .56* .75* 87%

Coneso .20* .84* 74%

Conescp .60* .64* 86%

Conlet .61* .70* 77%

COVARIANZAS ENTRE FACTORES: Noref-Susref:.99; Noref-Selec=.44; Noref-Suplem=.29; Noref-Contex=.29; Susref-selec=.98; Susref-Suplem=.74; Susref-contex=.76; Selec-Suplem=.92; Selec-Contex=.93; Suplem-Contex=.97; Lectura-escritura=.99. AVAR EXPLICADA, es la varianza explicada.

FACTORES

NIVEL FUNCIONAL RASGOS

Los asteriscos indican (*) correlaciones significativas a p<.05. Todas lascovarianzas entre factores resultaron significativas (p<0.05). BONDAD DE AJUSTEDEL MODELO fue: X=260.6(108g.l.), p< .005; el índice de ajuste No normado=.97;índice de ajuste comparativo=.98.

195VI. Temores y Realidades de ... l

En la tabla 2 se presentan las medias de los resultados de losniños por cada nivel, las desviaciones estándar, el total de puntosobtenidos por los 122 niños en cada una de las 25 tareas, y losíndices del alfa de Cronbach por cada nivel funcional y por cadamorfología. Cabe destacar que el índice general de consistenciainterna fue igual a .90.

Tabla 2. Media, desviación estándar y puntajes por ejercicio e índices del

coeficiente de alfa de Cronbach por tipo de tarea y por nivel funcional(Tomado de Bazán y corral, en prensa).

NIVEL FUNCIONAL

VA

RIA

BLE

ME

DIA

DE

SV

.E

ST

AN

DA

R

TO

TA

L P

TO

S.

PU

NT

. M

ÍNIM

O

PU

NT

. M

ÁX

IMO ALFAS DE

CRONBACHPOR NIVEL Y

MORFOLOGÍA

V1 CONLPAL1 3.86 0.61 487 0 4

V2 CONLPAL2 3.84 0.63 485 0 4

V3 CONLPAL3 3.84 0.69 485 0 4

V4 CONEDIB2 3.77 0.5 476 1 4

V5 CONEDIB3 3.58 0.71 452 1 4

V6 SUPLORA1 3.37 0.75 425 1 4

V7 SUPLORA2 3.41 0.77 430 0 4

V8 SUPLORA3 3.31 0.81 418 0 4

V9 SUPEACO1 3.42 0.95 431 1 4

V10 SUPEACO3 2.53 0.99 320 0 4

V11 SELCORA2 3.43 1.28 433 0 4

V12 SELCORA3 2.72 1.06 343 0 4

V13 SELEAPA1 2.51 1.17 317 0 4

V14 SELEAPA2 2.48 1.08 313 0 4

V15 SELEAPA3 2.53 1.2 319 0 4

V16 SUSLCUE1 1.81 0.98 229 0 4

V17 SUSLCUE2 2.05 0.94 259 0 4

V18 SUSLCUE3 1.76 0.85 223 0 4

V19 SUSESIT2 1.01 0.52 128 0 3

V20 SUSESIT3 1.34 0.84 170 0 4

V21 NORLHIS1 1.96 1.36 247 0 4

V22 NORLHIS2 1.84 1.34 233 0 4

V23 NORLHIS3 1.87 1.34 236 0 4

V24 NORESIM1 1.64 0.99 207 0 4

V25 NORESIM3 1.25 0.93 158 0 4

CONTEXTUAL LECTURA

CONTEXTUAL ESCRITURA

SUPLEMENTARIO LECTURA

0.86

0.76

0.92

SUPLEMENTARIO ESCRITURA

SELECTOR LECTURA

SELECTOR ESCRITURA

SUSTITUTIVO REFERENCIAL

LECTURA

0.77

0.96

0.78

SUSTITUTIVO NO REFERENCIAL

LECTURA

SUSTITUTIVO NO REFERENCIAL

ESCRITURA

SUSTITUTIVO REFERENCIAL

ESCRITURA

0.65

0.85

0.8

0.69

196 l Estrategias de Evaluación y Medición ...

En la tabla 3 se muestran los resultados del análisis multifunción-multimorfología de las tareas de lectura y escritura. El aspectomultifunción implica los cinco diferentes niveles de desarrollo funcionaldel comportamiento, y el aspecto morfología se refiere a la modalidadlectura y la modalidad escritura. En general, la relación entre losfactores y sus indicadores fueron altos y significativos, confirmandovalidez convergente de constructo.

Respecto a la validez divergente del constructo nivel funcional, seencontró diferencias (covarianzas no significativas entre los distintosniveles funcionales) con excepción de la covarianza entre el nivelcontextual y el nivel suplementario. En cuanto a la relación entrelectura y escritura, éstas covariaron de manera significativa (.91),siendo muy similar a la relación encontrada en la primera versión deeste instrumento (Corral, Bazán y Sánchez, 2000). Estos resultadosdemuestran que la lectura y la escritura son dos modalidades de unmismo sistema lingüístico y que no pueden ser abordados de maneraseparada.

CONCLUSION

Se cuenta con un instrumento que ha demostrado en varias desus fases de construcción, una buena consistencia interna y permiteevaluar la lengua escrita de los niños en los primeros grados deprimaria en cinco niveles diferentes e inclusivos de desarrollocualitativo del comportamiento lingüístico, y en el sistema lectura-escritura. Por otro lado, las evaluaciones con dos versiones distintasde un instrumento para evaluar lectura y escritura parecen respaldarque aunque la enseñanza y escritura podrían incluir características yestrategias diferentes; estas dos modalidades lingüísticas -lectura yescritura- están altamente relacionadas (covarían de manerasignificativa), puesto que siempre que un niño lea un párrafo, entraráen contacto con las formas convencionales de la lectura.

Sin embargo, es necesario, profundizar en la validez de losconstructos lectura y escritura, incluyendo los diversos factores yelementos asociados con la adquisición y dominio funcional de lalectura y la escritura.

197VI. Temores y Realidades de ... l

Tabla 3. Resultados del análisis multifunción-multimorfología de lastareas de lectura y escritura. Todos los pesos factoriales sonsignificativos a p <.05, excepto los que se indican con “n.s.” Bondad deajuste del modelo: X2 = 218.2 (239 g.l.), p=.82; Índice de Ajuste NoNormado = 1.17; Índice de Ajuste Comparativo = 1.00. (tomado de Bazány Corral, en prensa).

INDICADORES

CO

NT

EXT

UA

L

SU

PLE

MEN

TA

RIA

SEL

ECT

OR

SU

ST

. REF

.

SU

ST

. NO

REF

.

LEC

TU

RA

ESC

RIT

UR

A

CONLPAL1 0.69 0.37CONLPAL2 0.82 0.18CONLPAL3 0.85 0.28CONEDIB2 0.38 0.56CONEDIB3 0.41 0.71SUPLORA1 0.57 0.68SUPLORA2 0.77 0.54SUPLORA3 0.73 0.60SUPEACO1 0.18 0.76SUPEACO3 n.s. 0.54SELCORA2 n.s. 0.70SELCORA3 0.21 0.63SELEAPA1 0.41 0.58SELEAPA2 0.69 0.57SELEAPA3 0.64 0.65SUSLCUE1 0.75 0.34SUSLCUE2 0.82 0.39SUSLCUE3 0.52 0.45SUSESIT2 0.24 0.48SUSESIT3 n.s. 0.36NORLHIS1 0.83 0.43NORLHIS2 0.90 0.37NORLHIS3 0.84 0.43NORESIM1 0.41 0.51NORESIM3 0.30 0.52

MATRIZ PHI:CORRELACIONES ENTRE NIVELES FUNCIONALES:

CONTEX SUPLEMEN SELEC SUSREFSUPLEM .53 *SELECT 0.12 0.16SUSREF 0.22 0.06 0.07SUSNOREF 0.18 0.13 -0.05 0.10 CORRELACION ENTRE MORFOLOGIAS: ESCRITURA-LECTURA .91*

* Significativas a p < .05

MORFOLOGIASFUNCIONES

MATRIZ LAMBDA (RELACIONES ENTRE FACTORES E INDICADORES):

198 l Estrategias de Evaluación y Medición ...

Este instrumento es una propuesta, entre otras, para la evaluaciónde la lectura y escritura, que puede ser utilizado como complementoa los diversos métodos e instrumentos que utilizan los especialistas ymaestros en la práctica educativa, y sólo en la medida que seaaplicado y evaluado por distintos usuarios podrá enriquecerse, pueslos esfuerzos en el mejoramiento de la calidad de la alfabetizaciónformal requiere diversas propuestas que permitan recogerinformaciones confiables del desempeño de los niños en la lectura yescritura.

REFERENCIAS

Barr, R., Blachowicz, C., y Wagman-Sadow, M. (1985). Readingdiagnosis for teachers. An instructional approach. Nueva York:Longman

Bazán, A. (1999). La enseñanza de la lectura y la escritura en laescuela primaria pública. En A. Bazán (comp.), Aportesconceptuales y metodológicos en psicología aplicada. CiudadObregón: Instituto Tecnológico de Sonora.

Bazán,A. (en prensa). Un instrumento de Evaluación Funcional dela Lectura y la Escritura en el primer ciclo de primaria (EFLE).En A. Bazán (Ed.) Enseñanza y Evaluación de la Lectura yla Escritura, algunos aportes de la investigación en psicología.Ciudad Obregón: ITSON-CONACYT.

Bazán, A., y Corral, V. (en prensa). Aplicación del modelamientode variables latentes en la clasificación funcional de la lecturay la escritura en niños de segundo grado de primaria. ActaComportamentalia.

Bazán, A. Rojas, G. y Zavala, M. (2000). Elaboración y validaciónde un instrumento de evaluación de la lectura y la escrituraen el primer grado de primaria. Revista Latinoamericana deEstudios Educativos. 30 (2), 115-132.

Bentler, P. M., (1995). EQS. Structural Equations Program Manual.Los Ángeles, BMDP Statistical Software, Inc.

199VI. Temores y Realidades de ... l

Condemarín, M. (1995). Uso de carpetas dentro del enfoque deevaluación auténtica. PRONALEES. 3 (1-2), 5-13.

Corral, V., Bazán, A., y Sánchez, B. (2000). Validez de constructosfuncionales y morfológicos en tareas de lecto-escritura: unestudio con niños de educación básica. ActaComportamentalia. 8 (2), 226-252.

Eisner, E. W. (1991). What really counts in schools. Educationalleadership, 48, 10-17.

Falk, B. (1998). Testing the way children learn: principles for validliteracy assessments. Lenguage Arts. 76 (1), 57-65.

Fernández-Ballesteros, R. (1997). Evaluación Psicológica y tests.En A. Cordero (Coord.), La evaluación psicológica en el año2000. Madrid: TEA Ediciones.

Ferreiro, E. (1990). Alternativas de la comprensión del analfabetismoen la región. TAREA, Revista de Educación. 24, 5-10.

Ferreiro, E. (1999). Cultura escrita y educación. Conversacionescon Emilia Ferreiro. México: Fondo de Cultura Económica.

Gillet, J. W., y Temple Ch. (1986). Understanding reading problems.Assessment and instruction. Boston: Little, Brown andCompany.

Gómez-Palacio, M. (1995). Español. Sugerencias para suenseñanza. Primer grado. México: Secretaría de EducaciónPública.

Goodman, K. S. (1982). El proceso de lectura: consideraciones através de las lenguas y del desarrollo. En E. Ferreiro y M.Gómez Palacio (Comps.), Nuevas perspectivas sobre losprocesos de lectura y escritura. México: Siglo XXI.

Kantor, J., R. (1936). An objetive psychology of grammar.Bloomington: Principia Press.

Kantor, J., R. (1978). Psicología interconductual. México: Trillas.

Kantor, J. R. (1990). La evolución científica de la psicología. México:Trillas.

200 l Estrategias de Evaluación y Medición ...

Lira, J. (1998). Aprender a leer. Una evaluación de los distintosmétodos de enseñanza de la lengua. Revista Educación 2001.5 (44), 28-31.

Moss, P. A. (1994). Can there be validity without reliability.Educational Researcher 23, 5-12.

Quintana, H. (1996). El portafolios como estrategia para la evaluaciónde la redacción. PRONALEES. 3 (1-2), 15-22.

Ribes, E., y López, F. (1985). Teoría de la conducta: un análisisde campo y paramétrico. México: Trillas.

Ribes, E. (1999). Prólogo. En A. Bazán (comp.), Aportesconceptuales y metodológicos en psicología aplicada. CiudadObregón: Instituto Tecnológico de Sonora.

Capítulo 7

INFLUENCIA DE LA ORIENTACIÓNMOTIVACIONAL, LOS ESTILOS DE

APRENDIZAJE Y LOS FACTORES DECARRERA SOBRE EL DESEMPEÑO ESCOLAR.1

Daniel González Lomelí, Ma. de los Angeles Maytorena Noriega.Universidad de Sonora

Los resultados de diversas investigaciones en Psicologíaorientadas al estudio de los procesos afectivos, motivacionales ycognoscitivos, dan cuenta de la importancia de estudiar el desempeñoescolar y su relación con una serie de variables que van desde lacerteza vocacional (Chartrand, Robbins, Morril y Boggs, 1990; Aguilar,Pacheco, Andrade, Vargas, Gutiérrez y Zetina, 1992, Aguilar, Peña yDe la Paz, 1993) hasta los perfiles motivación de los alumnos (Aguilar,Martínez, Valencia, Conroy y Girardo, 1997; Castañeda, 1996; Pintrichy De Groot, 1990; Pintrich, De Groot y García, 1992), pasando por sushabilidades para aprender (Castañeda, 1998; Castañeda y Martínez,1998; Pintrich, 1998; Weinstein, Powdrill, Husman, Roska y Dierking,1998).

Modelos de certeza vocacional. El comportamiento de losalumnos dentro y fuera del aula puede ser influido por el proceso detoma de decisión vocacional, por el que pasan los individuos dentro desu contexto social. Chartrand, Robbins, Morril y Boggs (1990)presentaron un modelo estructural de indecisión vocacional creado apartir de una serie de estudios con alumnos de bachillerato yuniversitarios, en un contexto de recuperación de autorreporte, queincluyeron un análisis factorial confirmatorio. Inicialmenteespecificaron variables como a) Autoestima, ya que tiene relación conla formación del autoconcepto vocacional, b) Ansiedad en laelección de Carrera, porque fue identificada como un antecedentede la indecisión vocacional, c) Indecisión generalizada fue

1 Ponencia incluida en el Simposio: factores relacionados con la motivación yel desempeño escolar, presentada en el IX Congreso Mexicano de Psicología,realizado del 5 al 7 de febrero del 2001 en la Ciudad de México, D.F.

202 l Estrategias de Evaluación y Medición....

seleccionada ya que la habilidad de tomar decisiones juega un papelimportante en el proceso de toma de decisión de carrera, d)Necesidad de información de carrera, fue seleccionada porque esidentificada como una de las mejores categorías diagnósticas enproblemas de toma de decisión de carrera y porque es reconocida através de diferentes modelos teóricos y e) Necesidad deautoconocimiento, que es de las más importantes en diversosmodelos teóricos, ya que una persona con bajo autoconocimientotiene una identidad confusa con una pobre claridad de sus cualidadespersonales y de sus capacidades e intereses.

Chartrand y cols. (op. cit.) reportaron que el modelo de cincovariables no tuvo bondad de ajuste, motivo por lo cual realizaron unsegundo análisis confirmatorio con un modelo de cuatro variables(donde desaparece el factor autoestima), a partir del autorreporte dealumnos universitarios. Las confiabilidades reportadas son altas (alfade Cronbach de .73 a .86) para las escalas y del inventario total (.87);y la validez convergente indica que las relaciones entre variablesobservadas y factores para cada constructo medido, sigue el patrónpredicho.

Basado en el modelo de Chartrand y cols. (op. cit.), Aguilar,Pacheco, Andrade, Vargas, Gutiérrez y Zetina (1992) desarrollaronuna investigación con el fin de ampliar el Inventario de Factores deCarrera (la última versión con sólo cuatro escalas), e incorporaron dosescalas más, la escala de autoeficacia y la de indecisiónvocacional (desarrolladas por los autores como una medida decontraste). En un estudio de validez concurrente (Aguilar, Peña y Dela Paz, 1993) los autores reportan que las escalas incorporadaspresentaron coeficientes de confiabilidad de .77 a .89 y que lasescalas que contribuyen más a la predicción exclusivamente de lacondición de desertor o no-desertor, fueron autoeficacia, ansiedad enla elección vocacional e indecisión generalizada. Los dos modeloshan desarrollado su propia tecnología para la evaluación y la asesoríavocacional.

Modelos de aprendizaje estratégico. Dentro del marco de lapsicología de corte cognoscitivo, en los últimos años, se han

203VII. Influencia de la Orientación... l

desarrollado modelos teóricos del aprendizaje, como el modelo deaprendizaje estratégico de Weinstein (Weinstein, Powdrill, Husman,Roska y Dierking, 1998), el modelo de aprendizaje autorreguladopropuesto por Pintrich (Pintrich, 1998) y el modelo integral deenseñanza y aprendizaje estratégico de Castañeda (Castañeda,1998; Castañeda y Martínez, 1998) entre otros; los cuales hanpermitido el desarrollo de trabajos tanto de evaluación como demodelamiento cognoscitivo de las habilidades del pensamiento.

Estos modelos coinciden en la orientación psicológica que losrespalda (paradigma cognoscitivo) e incluyen variables de autosistema,de habilidades, motivacionales, de autorregulación y de contexto.

Sin embargo, existen diferencias entre ellos, por ejemplo elmodelo de Weinstein promueve el uso de los diferentes tipos deestrategias ya sea al enfrentar tareas de aprendizaje básico comocomplejo, mientras que Pintrich especifica con claridad que lasestrategias de tipo ensayo sólo permiten acceder al aprendizaje denivel superficial y que al aspirar a un aprendizaje de mayorcomplejidad estas estrategias no serían efectivas; de ahí que paraacceder a un nivel profundo de aprendizaje se requiera del empleo deestrategias de elaboración y organización. Así mismo, el modelo deWeinstein considera dentro de las estrategias de monitoreo de lacomprensión las estrategias metacognitivas y de autorregulación (deplaneación, monitoreo y de regulación) de Pintrich; Este último autores el que hace mayor énfasis en las estrategias de administración derecursos. Weinstein, a diferencia de Pintrich y Castañeda, basa susinvestigaciones sobre todo en estudios de autorreporte, en cambio losmodelos de Pintrich y de Castañeda recurren a la evaluación deestrategias combinando contextos de recuperación de la informaciónde tipo de autorreporte y de ejecución. Los tres modelos handesarrollado tecnología propia para la evaluación y el fomento de laenseñanza y el aprendizaje estratégicos.

La Tabla 1, muestra la clasificación general de las estrategias deaprendizaje elaborada en base a los modelos de Weinstein, Pintrich yCastañeda y algunos ejemplos de las actividades que pueden serrealizadas para la enseñanza y el aprendizaje estratégicos.

204 l Estrategias de Evaluación y Medición....

Tabla 1. Categoría General de Estrategias

Estrategias Aprendizaje

1. Estrategias de Aprendizaje

a. Ensayo1) Recitación de elementos a ser aprendidos2) Lectura en voz alta de un texto

b. Elaboración1) Hacer paráfrasis.2) Crear analogías.

c. Organización1) Selección de ideas principales2) Esquematizar un texto

2. Estrategias Metacognitivas y Autorregulatorias

a. Planeación1) Establecer metas para el estudio.2) Revisión rápida de un texto antes de la lectura.

b. Monitoreo1) Autoevaluación por medio de preguntas.2) Rastreo de atención durante una clase

c. Regulación.1) Relectura de un texto2) Revisión de parte del material de un curso.

3. Estrategias de Administrar el tiempo de estudio.

a. Tiempo del estudiante1) Administración de Recursos2) Dedicar al estudio horas extras.

b. Ambiente de estudio1) Identificar la dificultad de la tarea. 2) Mantener interés en la materia.

c. Búsqueda de ayuda1) Pedir al profesor que explique un tema.2) Solicitar ayuda a los compañeros al estudiar.

Ejemplos de Estrategias

Resultados de investigación

En la literatura se han encontrado referencias teóricas y empíricasque permiten concebir el desempeño escolar como uncomportamiento multicausado. Un grupo de variables asociadas alcomportamiento de desempeño escolar hace alusión a la historiaacadémica, trayectoria escolar y variables familiares, las cuales seagrupan como variables escolares y familiares (Bachkoff, Tirado,Larrazola y Antillón, 1996; Chain y Ramírez, 1996; González, Corral,Frías y Miranda, 1998; Samperio, Vidal y López, 1996), variablescomo expectativas de rol, locus de control, necesidades de logro,motivación y características de personalidad, se agrupan comovariables de personalidad (Aguilar et al., 1992; Chartrand et al., op. cit;González et al., 1998; Lucio y Labastida, 1993; Nathawat, Sing ySing, 1997; Pintrich, 1998; Seifert, 1995) y, un tercer grupo hacereferencia al pensamiento abstracto, autoeficacia, percepción decompetencia y estrategias de aprendizaje, agrupadas como variables

205VII. Influencia de la Orientación... l

cognoscitivas relacionadas con el aprendizaje estratégico (Castañeda,1998; Bañuelos, 1993; Merino, 1993; Seifert, 1995). Estasdimensiones relacionadas con el desempeño escolar, han sidotratadas por diferentes autores en diferentes contextos deinvestigación.

Los estudios revisados sobre el aprovechamiento escolar y lapermanencia en los sistemas escolares refieren una serie dedimensiones relacionadas con estos problemas, como las variables decorte académico, psicológico, familiar y contextual, entre otras. Lo quese destaca aquí es la escasa cantidad de estudios que resumen losresultados en un modelo integral que identifique los predictores delaprovechamiento escolar en los diferentes subsistemas educativos(González y cols., 1998).

De ahí que el propósito del estudio sea integrar lasaproximaciones teóricas y metodológicas sobre el desempeño escolar,a través de un modelo de ecuaciones estructurales con el fin de iniciarlos procesos de síntesis teórica y metodológica en el tema de interés.

Modelo teórico a ser probado

La Figura 1 representa gráficamente el modelo de desempeñoescolar a ser probado y está constituido por variables latentes(llamadas también factores o constructos) y variables observadas(también llamadas variables medidas, manifiestas o indicadores). Lasvariables latentes han sido definidas como "construcciones oelaboraciones teóricas acerca de procesos o eventos que no sonobservables a simple vista, sino que se infieren a través de lapresencia de objetos, eventos o acciones." (Corral, 1995, p.172).

1. Se teoriza que las variable latente factores de carrera, estilos deaprendizaje y estilos de orientación motivacional afectandirectamente la variable dependiente desempeño escolar (variablelatente integrada por el promedio general de calificaciones, elnúmero de créditos aprobados y el estatus del alumnouniversitario).

2. A su vez la variable latente "Factores de Carrera" está conformada

206 l Estrategias de Evaluación y Medición....

por los índices (conjunto de variable observadas) deAutoconocimiento, Información sobre la Carrera, Autoeficacia,Ansiedad en la Elección de Carrera e Indecisión Generalizada.

3. La variable latente "Estilos de Aprendizaje" está integrada por losíndices (conjunto de variables observadas) Estrategias deAdquisición, Estrategias de Recuperación y Estrategias deProcesamiento de la Información.

4. Por último, la variable latente "Orientación Motivacional" seconforma por los índices (conjunto de variables observadas)Autorregulación de Persona, Autorregulación de tarea yAutorregulación de Materiales.

MÉTODO

Sujetos. La muestra estuvo integrada por 335 alumnos de primersemestre de las licenciaturas en administración pública (n=79),enfermería (n=71), psicología (n=99) y químico-biólogo (n=86) de laUniversidad de Sonora. La edad promedio de los alumnos fue de 19años (D.E.=2.5 años), 68% son mujeres y son alumnos regulares62% del total de la muestra.

Instrumentos. Los estudiantes respondieron a dos pruebapreviamente validadas (González, 2000) en muestras de alumnos de laUniversidad de Sonora:

1. El Inventario de Factores de Carrera Ampliado (IFCA) de Aguilar ycols. (1992) en su versión UNISON para población universitaria,está constituido por tres escalas de información, tipo Likert:Necesidad de Información, Necesidad de Autoconocimiento yAutoeficacia y; por dos escalas emocionales, tipo diferencialsemántico: Indecisión generalizada y Ansiedad en la elección deCarrera (ver Tabla 2).

2. Para obtener las puntuaciones en habilidades y estrategias deestudio se utilizó la versión UNISON del inventario de Estilos deAprendizaje y Orientación Motivacional (EDAOM) de Castañeda(1995). La versión UNISON del EDAOM es un instrumento de lápizy papel que contiene 38 reactivos en una escala tipo Likert con

207VII. Influencia de la Orientación... l

tres opciones de respuesta, en cada reactivo se le solicita alestudiante que proporcione información acerca del uso de cadaestrategia, el esfuerzo que le supone hacerlo y el resultadoobtenido (ver Tablas 3 y 4).

(+)

(-)

(-)

(+)

(+)

(+)

(+)

C E R T E ZAV O C A C IO N A L

E S TIL O SD E

A P R E N D IZ A JE

O R IE N TA C IÓ NM O T IVA C IO N A L

(+)

(+)

D E S E M P E Ñ OE S C O L A R

PR

OM

ED

IO S

EM

ES

TR

AL

CR

ED

ITO

S A

PR

OB

AD

OS

ES

TAT

US

AC

AD

ÉM

ICO

P R O CE S A M IE N TO(+)

IN DE C IS IÓ NG E N E RA LIZA D A

A N S IE D A D E N LAE LE C CIÓ N

A D Q UIS IC IÓ N

R E C U P E RA C IÓ N

TA R E A

P E R S O NA

M AT E RIA LE S

(+)

(+)

(+)

(+)

(+) (+) (+)

(+)

(+)

(+)

Figura 1. Modelo teórico de relaciones estructurales entre factores decarrera, estilos de aprendizaje y orientación motivacional con eldesempeño escolar universitario.

Procedimiento. Se aplicaron los inventarios IFCA y EDAOM a losalumnos de primer ingreso, de manera grupal y voluntaria en sussalones de clase, presentando la tarea como parte de las actividadesdel programa de servicios estudiantiles de la Universidad.

Análisis y síntesis de datos. Se realizaron análisis de frecuenciapara las variables descriptivas sociodemográficas de sexo, estado civil,trabajo, lugar de origen, materias reprobadas y grado de estudio de los

208 l Estrategias de Evaluación y Medición....

padres; y medias con sus respectivas desviaciones estándar paraedad, promedio general, e ingreso familiar mensual.

Tabla 2. Ejemplo de reactivos del IFCA-UNISON

A. Ejemplo de reactivos de la dimensión de Autoconocimiento:

1. Para que pueda decidir si sigo o no estudiando la carrera queactualmente estudio, todavía necesito contestar la siguientepregunta: ¿ Cuáles son mis metas específicas en la vida?

2. Para que pueda decidir si sigo o no estudiando la carrera queactualmente estudio, todavía necesito contestarla siguientepregunta: ¿Cuáles son mis valores personales?

B. Ejemplo de reactivos de la dimensión de Información sobre laCarrera:

3. Para que pueda decidir si sigo o no estudiando la carrera queactualmente estudio, todavía necesito informarme sobre losplanes de estudio de varias carreras en diferentes universidades ylos requisitos de ingreso.

4. Para que pueda decidir si sigo o no estudiando la carrera queactualmente estudio, todavía necesito platicar con personas quetrabajan en diferentes ocupaciones.

C. Ejemplo de reactivos de la dimensión de Autoeficacia:

5. Dudo tener la capacidad necesaria para seguir con la carrera queestoy estudiando.

6. Creo que se me dificultan algunas materias de la carrera queestoy estudiando.

D. Ejemplo de reactivos de la dimensión de Seguridad Vocacional:

7. Tengo dificultades para decidir si sigo o no estudiando la carreraque actualmente estudio.

8. La carrera que actualmente estudio la continuaré hastaterminarla.

E. Ejemplo de reactivo de la dimensión Ansiedad en la Elección.

209VII. Influencia de la Orientación... l

1. Cuando pienso en si sigo o no estudiando la carrera queactualmente estudio me siento:

a. TENSO ____________________ NO TENSO

F. Ejemplo de reactivo de la dimensión Indecisión Generalizada

1. En general tomar decisiones me resulta:

a. CONFUSO ____________________ NO CONFUSO

Tabla 3. Ejemplo de reactivos de estilos de aprendizaje del EDAOM-UNISON

A. Ejemplo de reactivos de la dimensión Adquisición:

1. Comprendo el vocabulario y las expresiones técnicas utilizadasen las materias que he cursado.

¿Lo haces o no lo haces?

( ) Sí lo hago ( ) No lo hago

¿El resultado que obtienes es?

( ) Muy pobre ( ) Regular ( ) Muy bueno

¿Con qué dificultad lo haces?

( ) Muy poca ( ) Regular ( ) Mucha

2. Traduzco a mis propias palabras lo que quiero aprender.

¿Lo haces o no lo haces?

( ) Sí lo hago ( ) No lo hago

¿El resultado que obtienes es?

( ) Muy pobre ( ) Regula ( ) Muy bueno

¿Con qué dificultad lo haces?

( ) Muy poca ( ) Regular ( ) Mucha

B. Ejemplo de reactivos de la dimensión Recuperación:

3. Para mejorar la retención de un material lo releo y/o lo repito,varias veces.

¿Lo haces o no lo haces?

( ) Sí lo hago ( ) No lo hago

¿El resultado que obtienes es?

( ) Muy pobre ( ) Regular ( ) Muy bueno

210 l Estrategias de Evaluación y Medición....

¿Con qué dificultad lo haces?

( ) Muy poca ( ) Regular ( ) Mucha

4. Elaboro preguntas sobre lo que creo va a venir en el examen.

¿Lo haces o no lo haces?

( ) Sí lo hago ( ) No lo hago

¿Con qué dificultad lo haces?( ) Muy poca ( ) Regular ( ) Mucha¿El resultado que obtienes es?

( ) Muy pobre ( ) Regular ( ) Muy bueno

C. Ejemplo de reactivos de la dimensión Procesamiento de lainformación:

5. Cuando el estudio lo requiere, identifico cuáles son las causasque producen efectos específicos.

¿Lo haces o no lo haces?

( ) Sí lo hago ( ) No lo hago¿Con qué dificultad lo haces?

( ) Mucha ( ) Regular ( ) Muy poca¿El resultado que obtienes es?( ) Muy bueno ( ) Regular ( ) Muy pobre

6. Cuando estudio, analizo las ideas importantes del material,tratando de encontrar diferentes puntos de vista sobre el mismotema.¿Lo haces o no lo haces?( ) Sí lo hago ( ) No lo hago¿El resultado que obtienes es?

( ) Muy bueno ( ) Regular ( ) Muy pobre¿Con qué dificultad lo haces?( ) Mucha ( ) Regular ( ) Muy poca

Tabla 4. Ejemplo de reactivos de estilos de orientación Motivacional delEDAOM-UNISON

A. Ejemplo de reactivos de la dimensión Auto-regulación dePersona:

7. Sé administrar mi tiempo de estudio y organizar el material deacuerdo a lo que necesito.

211VII. Influencia de la Orientación... l

¿Lo haces o no lo haces?( ) Sí lo hago ( ) No lo hago¿Con qué dificultad lo haces?

( ) Mucha ( ) Regular ( ) Muy poca¿El resultado que obtienes es?( ) Muy bueno ( ) Regular ( ) Muy pobre

8. Estudio mucho porque hacerlo mejora mis calificaciones.

¿Lo haces o no lo haces?

( ) Sí lo hago ( ) No lo hago

¿Con qué dificultad lo haces?( ) Mucha ( ) Regular ( ) Muy poca¿El resultado que obtienes es?

( ) Muy bueno ( ) Regular ( ) Muy pobre

B. Ejemplo de reactivos de la dimensión Auto-regulación de Tarea:

9. Cuando estudio, identifico la dificultad de la tarea que deborealizar y me organizo de acuerdo al nivel requerido.¿Lo haces o no lo haces?( ) Sí lo hago ( ) No lo hago

¿El resultado que obtienes es?( ) Muy pobre ( ) Regular ( ) Muy bueno¿Con qué dificultad lo haces?

( ) Muy poca ( ) Regular ( ) Mucha

10.De acuerdo al objetivo de la tarea que debo realizar, elijo la mejortécnica de aprendizaje.¿Lo haces o no lo haces?( ) Sí lo hago ( ) No lo hago

¿Con qué dificultad lo haces?( ) Mucha ( ) Regular ( ) Muy poca¿El resultado que obtienes es?

( ) Muy bueno ( ) Regular ( ) Muy pobre

C. Ejemplo de reactivos de la dimensión Auto-regulación de Material:

11.Me hago preguntas sobre qué tan claro, comprensible, fácil y/orecordable me resulta el material que estoy aprendiendo.¿Lo haces o no lo haces?

( ) Sí lo hago ( ) No lo hago

212 l Estrategias de Evaluación y Medición....

¿El resultado que obtienes es?

( ) Muy pobre ( ) Regular ( ) Muy bueno

¿Con qué dificultad lo haces?

( ) Muy poca ( ) Regular ( ) Mucha

12. Trato de mantener el interés aún cuando los materiales deestudio sean complicados o confusos.¿Lo haces o no lo haces?

( ) Sí lo hago ( ) No lo hago

¿Con qué dificultad lo haces?

( ) Muy poca ( ) Regular ( ) Mucha

¿El resultado que obtienes es?

( ) Muy pobre ( ) Regular ( ) Muy buen

Además, se realizó un Análisis Factorial Confirmatorio (AFC), y laprueba del modelo incluyó la medición de bondad de ajuste entre elmodelo inclusivo y el modelo restringido (o modelo propuesto). Elmodelo inclusivo refiere una interrelación total de factores y variablesobservadas y a pesar de que se acepte que ese tipo de relacionesexiste aunque sea en forma mínima en la realidad, en ciencia sebusca, sobre la base del principio de parsimonia, modelos simplesque expliquen lo más posible. Para contrastar ambos modelos seutilizará el estadígrafo de X2 el cual compara el grado de diferenciasentre dos modelos; aquí una X2 alta y significativa refiere que los dosmodelos son diferentes, por lo cual debemos buscar una X2 nosignificativa, es decir que su probabilidad asociada sea mayor a 0.05,de tal manera que nos muestre que el modelo restringido no esdiferente del modelo inclusivo, en términos de poder explicativo.

Otros índices de ajuste son el Indice Bentler-Bonet de AjusteNormado (IBBAN), el Indice Bentler-Bonet de Ajuste No Normado(IBBANN) y el Indice de Ajuste Comparativo (IAC), incluidos dentro delprograma EQS (Bentler, 1993); estos índices producen resultados quevan de 0 al 1.0 y se acepta .90 como índice de ajuste adecuado.

Posteriormente se estimaron las correlaciones entre las variablesmedidas y los factores, y las covarianzas de las variables latentesentre sí, así como de los errores correspondientes a cada factor; Se

213VII. Influencia de la Orientación... l

busca que las relaciones entre variables observadas y las variableslatentes correspondientes sean altas y significativas, con el fin de quela teoría y la validez de constructo convergente de las medidas seanconfirmadas; además se buscará validez de constructo divergente odiscriminante, mostrando que las correlaciones entre algunasvariables observadas y uno o más factores que no corresponden -según la teoría- con estas variables observadas sean menores y talvez no significativa (Corral, 1995).

RESULTADOS

Variables sociodemográficas. Del total de la muestra poco másde 23% proceden del subsistema federal Colegio de BachilleresTécnico e Industrial (Cbtis), 45% proceden del subsistema estatalColegio de Bachilleres del Estado de Sonora y Centro de Estudios delEstado de Sonora (Cobach y Cecytes) y 31% proceden delsubsistema particular (ver tabla 5).

Tabla 5. Bachillerato de procedencia de los alumnos de la muestra enestudio.

ESCUELA FRECUENCIA PORCENTAJE

Cbatis 80 23.9

Cobach 117 34.9

Cecytes 34 10.1

Particular 55 16.4

Otra 49 14.6

Al final del primer semestre (1999-2) los estudiantes de la muestraobtuvieron un promedio general de 75 de calificación (D.E.=14) en unaescala de cero a cien. Para cada submuestra tenemos que a)Administración pública obtuvo una media de 70.8 de calificación; b)Enfermería alcanzó 76 de calificación promedio; c) Psicología obtuvo80.83 de calificación promedio y; d) Químico-biólogo logró un promediode 72.6 de calificación.

214 l Estrategias de Evaluación y Medición....

En las cuatro submuestras se observa una tendencia a obtenermenor calificación (y mayor dispersión de las mismas) en lasasignaturas con mayor número de créditos.

En cuanto al nivel educativo de los padres de los alumnos de lamuestra tenemos que 72.5% de los papás poseen hasta el nivel depreparatoria y que 88.5% de las mamás se encuentran en ese mismonivel educativo, 25% de los papás poseen estudios de licenciatura y2.5% estudios de postgrado, mientras que sólo 11.5% de las madrestiene estudios de licenciatura y ninguna posee estudios de postgrado(ver Tabla 6).

Tabla 6. Distribución de padres de familia por nivel educativo.

Variable: Educación de los padres

FRECUENCIA PORCENTAJE FRECUENCIA PORCENTAJE

Ninguno 5 01.6 6 01.8

Primaria 97 30.3 103 31.3

Secundaria 69 21.6 91 27.6

Técnica/Comercio 19 05.9 54 16.4

Preparatoria 42 13.1 37 11.2

Licenciatura 80 25.0 38 11.5

Posgrado 8 02.5 0 00.0

DEL PADRE DE LA MADRE

Consistencia Interna del IFCA. El indicador de confiabilidad delos factores de carrera así como la media para cada uno de losreactivos que los constituyen se muestran en la Tabla 7.

El coeficiente de consistencia interna (alfa de Cronbach) es de .70para la escala de Autoconocimiento; un alfa de .74 para la escala deInformación sobre la Carrera; para la escala de Autoeficacia es de .60;alfa de .71 para la escala de Ansiedad en la elección de Carrera;mientras que la escala de Indecisión Generalizada presentó uncoeficiente de consistencia interna (alfa de Cronbach) de .72. Laconsistencia interna (alfa de Cronbach) para el total de reactivos que

215VII. Influencia de la Orientación... l

integran el Inventario de Factores de Carrera Ampliado es de 0.83.

Consistencia Interna del EDAOM. Las Tablas 8 y 9 muestran elindicador de confiabilidad de la medida autorreportada de esfuerzo delas subescalas de estilos de aprendizaje y orientación motivacionaldel EDAOM, respectivamente, y las medias para cada uno de losindicadores que las integran.

Tabla 7. Análisis de confiabilidad (consistencia interna) del Inventario deFactores de Carrera Ampliado-UNISON

VARIABLES: MEDIA D.E.ALFA DE

CRONBACHAutoconocimiento 3.92 0.70

Mis valores 3.61 1.60

Quién soy yo 4.23 1.74

Información 4.07 0.74

Planes de estudio 4.59 1.59

Diferentes ocupaciones 4.30 1.60

Oportunidades de trabajo 3.34 1.69

Autoeficacia 4.21 0.60

Dudo de mi capacidad 5.34 1.04

Se me dificultan materias 3.46 1.32

Me faltan habilidades 3.83 1.51

Ansiedad en elección 3.27 0.71

Tenso 3.05 1.79

Preocupado 3.44 1.87

Ansioso 3.33 1.81

Indecisión generalizada 2.74 0.72

Confuso 2.96 1.67

Frustrante 2.32 1.46

Difícil 3.42 1.66

Perseverante 2.17 1.19

Rápido 3.30 1.47

Seguro 2.30 1.31

216 l Estrategias de Evaluación y Medición....

Tabla 8. Análisis de confiabilidad (consistencia interna) de la medida deesfuerzo de estilos de aprendizaje del EDAOM-UNISON

VARIABLES MEDIA D.E.ALFA DE

CRONBACH

Adquisición 1.70 0.73

Vocabulario 1.75 0.64

Significados 1.72 69.00

Término substituto 1.74 0.72

Traducir 1.56 0.82

Discutir 1.75 0.75

Preguntarse 1.71 0.76

Recuperación 1.64 0.78

Elaborar dibujos 1.54 0.67

Usar claves tipográficas 1.66 0.79

Releer 1.64 0.81

Elaborar preguntas/examen 1.56 0.79

Estudiar/comprensión total 1.78 0.71

Organizar material 1.68 0.71

Procesamiento 1.69 0.78

Identificar causas y efectos 1.85 0.74

Identificar componentes 1.80 0.67

Interpretar situaciones 1.65 0.74

Analizar ideas importantes 1.64 0.68

Elaborar ejemplos/conclusiones 1.71 0.77

Pensar crítico 1.58 0.72

Decidir ampliar conocimientos 1.61 0.65

217VII. Influencia de la Orientación... l

Tabla 9. Análisis de confiabilidad (consistencia interna) de la medida deesfuerzo de Orientación Motivacional del EDAOM-UNISON

VARIABLES MEDIA D.E.ALFA DE

CRONBACH

Persona 1.77 0.72

Concentrarse en el estudio 1.76 0.73

Administrar el estudio 1.75 0.70

Aprobar exámenes 1.78 0.64

Estudiar mejora calificaciones 1.86 0.64

Estudiar es estimulante 1.74 0.60

Tarea 1.79 0.82

Identificar dificultades de las tareas 1.94 0.69

Elegir técnicas de aprendizaje 1.73 0.69

Satisfacción con el rendimiento 1.74 0.71

Querer entender lo enseñado 1.96 0.82

Preguntar lo que no se entendió 1.70 0.82

Seguir instrucciones 1.72 0.76

Materiales 1.77 0.67

Evaluar material de estudio 1.68 0.68

Seleccionar material de estudio 1.70 0.68

Mantener interés en los materiales 2.04 0.73

Preferencia por terminar los materiales 1.68 0.79

En cuanto a las escalas de estilos de aprendizaje del EDAOMel coeficiente de consistencia interna (alfa de Cronbach) para laescala de Adquisición de la Información es de .73; para la escala deRecuperación de la Información es de .78 y; la escala deProcesamiento de la Información presenta un coeficiente deconsistencia interna (alfa de Cronbach) de .78. La consistencia interna(alfa de Cronbach) para el total de reactivos de Estilos de Aprendizajemedidos por el EDAOM es de .90.

Para las escalas de orientación motivacional del EDAOM elindicador de confiabilidad de la escala de Autorregulación de Persona

218 l Estrategias de Evaluación y Medición....

es de .72; un alfa de .82 para la escala de Autorregulación de Tarea y;la escala de Autorregulación de Materiales tiene un coeficiente deconsistencia interna (alfa de Cronbach) de .67. La consistencia interna(alfa de Cronbach) para el total de reactivos que miden laautopercepción de esfuerzo que le requieren las estrategias deOrientación Motivacional del EDAOM es de .92.

Validación Empírica del Modelo de Desempeño Escolar. LaFigura 2 muestra la estructura multifactorial de relaciones entre losfactores de carrera y el aprendizaje estratégico, y su relación con eldesempeño escolar, construida a partir del autorreporte de estudiantesde primer ingreso a una universidad pública, en el cual se aplicó elprincipio de agregación (formación de índices con los reactivos queintegran a cada una de las escalas, con apoyo en la teoría y en losresultados del estudio piloto).

En cuanto a las variables latentes de primer orden queconstituyen el modelo, éstas quedaron integradas de la siguientemanera.

La dimensión llamada Factores de Carrera, quedó integrada porlos indicadores "información sobre la carrera" (.49), "autoeficacia" (.84),"ansiedad en la elección de carrera" (-.41) e "indecisión generalizada"(-.49).

Mientras que el factor de Estilos de Aprendizaje se conformó conlos indicadores "dificultad de adquisición de información" (.70),"dificultad de recuperación de información" (.74) y "dificultad deprocesamiento de información" (.79).

El factor Orientación Motivacional lo conformaron los indicadores"dificultad de autorregulación de persona" (.55), "dificultad deautorregulación de tareas" (.74) y "dificultad de autorregulación demateriales" (.70).

La variable latente de segundo orden aprendizaje estratégico seconstruyó de las variables latentes de primer orden Estilos deAprendizaje (.99) y Orientación Motivacional (.99).

219VII. Influencia de la Orientación... l

.84

-.41

-.49

.99

.55

.74

.99

.70

.49

FAC T O R E SD E

C A R R ER A

IN DE C IS IÓ NG ENE R ALIZA DA

ANS IEDA D EN LAELEC CIÓ N

RE CUPE RA CIÓ N

PR OC ESAM IEN TO

ADQ U IS IC IÓ N

PE R SO NA

TA R EA

M AT ERIA LES

E STILO SD E

A PR EN D IZ AJE

O R IE N TA C IÓ NM O T IVAC IO N A L

.74

.70

A P R E N D IZ A J EE S T R AT É G IC O

D E S EM P E Ñ OE SC O LAR

PR

OM

ED

IO 9

9-2

CR

ED

ITO

S 9

9-2

ES

TATU

S 9

9-2

.41.26

.16

.81.97 .76

D

.93

.79

Figura 2. Relaciones entre factores de carrera, estilos de aprendizaje yorientación motivacional con el desempeño escolar en estudiantes deprimer ingreso a administración pública, enfermería, psicología yquímico-biólogos. Los pesos factoriales son significativos a p<0.05.X²=17 (22 gl), p=0.73; IBBAN=.96, IBBANN=1.0, IAC=1.0. Aplicando elprincipio de agregación.

El Desempeño Escolar posee una R2=.13, lo cual significa quelas valoraciones sobre los Factores de Carrera (relación estructural de.26) y la medida de dificultad del Aprendizaje Estratégico (relaciónestructural de .16) autorreportados por los estudiantes queconstituyeron la muestra, explica 13% de la varianza del desempeñoescolar, variable latente integrada por el promedio general (pesofactorial de .81), el número de créditos acumulados (peso factorial de.97) y el estatus regular/irregular de los alumnos al finalizar elsemestre 99-2 (peso factorial de .76), que constituye nuestra variable

220 l Estrategias de Evaluación y Medición....

dependiente de interés.

Los constructos factores de carrera y aprendizaje estratégico enel modelo poseen validez convergente de constructo, lo cual semanifiesta en pesos factoriales altos y significativos (p<0.05) entrecada una de las variables latentes con sus respectivos indicadoresobservados (Gorsuch, 1983).

Se encontró una correlación significativa (p<0.05) entre lasvariables latentes "factores de carrera" y "aprendizaje estratégico" de.41, la cual, aunque significativa, es menor a los pesos factoriales delos indicadores y sus respectivos constructos, lo que indica validez deconstructo divergente o discriminante (Byrne, 1994; Corral, 1995;Schumacker y Lomax, 1996).

Los indicadores de bondad de ajuste muestran que el modelo estárespaldado por los datos. La X2 resultante fue de 17 (22 gl), asociadaa una p=0.73, el IBBAN es igual a .96, el IBBANN es igual a 1.0 y elIAC es de 1.0. Esto significa que este modelo teórico sin sernecesariamente el óptimo no es significativamente diferente delmodelo saturado, en cuanto a poder de explicación.

CONCLUSIONES

1. Se construyó un modelo de relaciones estructurales dedesempeño escolar en estudiantes de primer ingreso a laslicenciaturas de Administración Pública, Enfermería, Psicología yCiencias Químicas, con la generación 1999-2, a partir de laspropuestas de Aguilar (Aguilar y cols., 1993) y Castañeda (1995).Dado que los estilos de aprendizaje, por una parte y, los deautorregulación, por la otra, mostraron relaciones estructuralessignificativas con el promedio de calificaciones y que ademáspresentaron correlaciones altas entre sí, se integraron en un factor alque se le denominó Aprendizaje Estratégico.

2. El modelo multifactorial construido explicó 13% de la varianzadel desempeño escolar de los estudiantes, medido en el primersemestre de sus estudios de licenciatura. La relación estructural entrelos factores de carrera y el desempeño escolar fue mayor que larelación estructural entre el aprendizaje estratégico y la variable

221VII. Influencia de la Orientación... l

dependiente de interés, significando que la certeza vocacional en elprimer semestre posee un mayor poder de explicación de lavariabilidad del desempeño escolar de los estudiantes que integraronla muestra del estudio, en comparación con las autovaloraciones delos estudiantes sobre su estilo de aprendizaje estratégico. Esto puedetener relación con varias causas posibles:

a. La asignación de calificaciones. Las calificaciones escolaresutilizadas posiblemente no representan estimados confiables sobreel logro de aprendizajes efectivos, tal y como se plantea en losfundamentos que subyacen al modelo de aprendizaje estratégico.Concepciones tradicionales de medición de resultados deaprendizaje, como son las pruebas de tipo memorístico que midensólo conocimiento inerte, podrían haber afectado la capacidadpredictiva entre la valoración autorreportada sobre la pericia enestrategias de aprendizaje y los indicadores del desempeñoescolar (Pintrich, 1998). Aun cuando en el estudio se realizó unanormalización sobre las calificaciones escolares, no se tuvo controlsobre la noción de "calidad" que utilizaron los profesores paraasignar las calificaciones.

b. Variables extra-académicas tales como: el apoyo familiar, el locusde control, necesidad de logro y otras similares, no consideradasen esta fase del estudio y que muy probablemente puedan aportarun porcentaje considerable de explicación de la varianza de lavariable dependiente de interés (Nathawat, Sing y Sing, 1997;Valle y Smith, 1993).

3. Los factores de carrera quedaron integrados por cuatro de lascinco escalas originales debido a la pérdida de un reactivo en laescala de autoconocimiento. En este estudio se encontró que tantolas dimensiones cognoscitivas (como el manejo de informaciónsobre la carrera que cursa, la cual se relaciona con problemas detoma de decisión de carrera y la autoeficacia escolar en cuanto a laautopercepción de compatibilidad de sus competencias y losrequerimientos escolares) como las dimensiones emocionales(ansiedad en la elección de carrera e indecisión generalizada) tienenefectos directos tanto sobre la certeza vocacional como sobre laejecución académica real, sobre todo la indecisión generalizada, la

222 l Estrategias de Evaluación y Medición....

cual se asocia al proceso de toma de decisión de carrera (Aguilar etal., 1993). Sin dejar de reconocer la complejidad asociada a lapredicción del aprovechamiento académico, debido sobre todo a ladiversidad de factores relacionados con la asignación de calificacionesescolares y al hecho de que muchos de esos factores no estánrelacionados con el aprendizaje del estudiante (Aguilar, Valencia yMartínez, 1998).

4. En cuanto al esfuerzo del uso autorreportado por losestudiantes de la muestra del estudio, durante el primer semestre,éstos se caracterizaron por una mayor dificultad en el uso de lasestrategias de adquisición (sobre todo en lo relacionado a lacomprensión de los términos técnicos de la profesión, la discusiónsobre temas de interés y la comprensión de términos sustitutos osinónimos), seguidas por dificultad en el uso de las estrategias deprocesamiento de la información y por las estrategias de recuperaciónde información; un patrón similar fue autorreportado por losestudiantes durante el segundo semestre (González, 2000).

Finalmente, es indiscutible que los avances en cognición básica yaplicada al campo educativo han generado modelos cualitativos yderivaciones tecnológicas que intentan explicar el aprendizaje efectivoen los salones de clase. Sin embargo, la realidad de la prácticaeducativa actual muestra discrepancia entre lo que se conoce sobrelos mecanismos que controlan el aprendizaje y el fomento que sedebería realizar para lograr aprendizajes de calidad (Castañeda, Lugo,Pineda y Romero, 1998). Sobre todo durante el primer semestre delnivel superior, que resulta ser fundamental en la permanencia ycontinuidad de los estudios universitarios como los resultados de esteestudio lo demuestran, para los alumnos que conformaron la muestrade interés en esta investigación.

REFERENCIAS BIBLIOGRÁFICAS

Aguilar, J., Martínez, M., Valencia, A., Conroy, C. y Girardo, A.(1997). Metas de logro, competitividad y perfiles motivacionalesentre estudiantes universitarios. Revista Latina de Pensamientoy Lenguaje, 5, 25-35.

223VII. Influencia de la Orientación... l

Aguilar, J., Pacheco, J., Andrade, J., Vargas, J., Gutiérrez, M. yZetina, G. (1992). Estudio sobre la validez concurrente delinventario de factores de carrera con estudiantes delicenciatura. México: UNAM.

Aguilar, J., Peña, L. y De la Paz, C. (1993). Adaptación y ampliacióndel inventario de factores de carrera. Revista InvestigaciónPsicológica, 3, 53-63.

Bachkoff, E., Tirado, F., Larrazola, N. y Antillón, L. E. (1996).Desigualdad en la calidad de la educación básica en México.Memorias del II Foro Nacional de Evaluación Educativa.México: CENEVAL.

Bañuelos, A. M. (1993). Motivación Escolar: estudio de variablesafectivas. Revista de Perfiles Educativos, 60, México: CISE-UNAM.

Bentler, P. M. (1993). EQS Structural Equations Program Manual.Los Angeles: BMPD Statistical Software, Inc.

Byrne, B. M. (1994). Structural Equation Modeling With EQSandEQS/Windows: basic concepts, applications, and programming.Thousand Oaks: Sage Publications, Inc.

Castañeda, S. (1995). El Inventario de Estilos de Aprendizaje yOrientación Motivacional: EDAOM. Reporte de trabajo internodel Depto. de Psicología Educativa del Posgrado de Psicologíade la UNAM.

Castañeda, S. (1996). Interfase afectivo-motivacional en lacomprensión de textos: estudio transcultural México-Holanda.Revista Latina de Pensamiento y Lenguaje, 4, 165-185.

Castañeda, S. (1998). Evaluación de resultados de aprendizaje enescenarios educativos. Revista Sonorense de Psicología, 12,57-67.

Castañeda, S., Lugo, E., Pineda, L. y Romero, N. (1998).Evaluación y fomento del desarrollo intelectual en la enseñanzade ciencias, artes y técnicas: un estado del arte. En S.Castañeda (Ed.), Evaluación y Fomento del Desarrollo

224 l Estrategias de Evaluación y Medición....

Intelectual en la Enseñanza de Ciencias, Artes y Técnicas:Perspectiva internacional en el umbral del siglo XXI: (pp.17-137). México: UNAM, CONACYT-PORRÚA.

Castañeda, S. y Martínez, R. (1998). Enseñanza y aprendizajeestratégicos: modelos integral de evaluación e instrucción.Revista Latina de Pensamiento y Lenguaje, 4, 251-278.

Chartrand, J. M., Robbins, S. B., Morril, W. H. & Boggs, K. (1990).Development and validation of the carrer factory inventory.Journal of Counseling Psychology, 37, 491-501.

Chain, R. y Ramírez, C. (1996). Trayectoria escolar: un estudiosobre la eficiencia en educación superior. Memorias del II ForoNacional de Evaluación Educativa (pp. 75-82). México:CENEVAL.

Corral-Verdugo, V. (1995). Modelos de variables latentes para lainvestigación conductual. Acta Comportamentalia, 3, 171-190.

González, D. (2000). Un Modelo Estructural de Desempeño Escolaren Estudiantes de Licenciatura. Segundo reporte del proyectodoctoral. Facultad de Psicología. UNAM.

González, D., Corral, V., Frías, M. y Miranda, J. (1998). Relacionesentre variables de apoyo familiar, esfuerzo académico yrendimiento escolar en estudiantes de secundaria: un modeloestructural. Enseñanza e Investigación en Psicología, 3, 163-183.

Gorsuch, R. L. (1983). Factor Análisis. Hillsdale, NJ: ErlbaumPublishers.

Lucio, E. y Labastida, M. L. (1993). Características de personalidadque influyen en deserción de la carrera de médico cirujano.Revista Mexicana de Psicología, 10, 57-62.

Merino, C. (1993). Identidad y plan de vida en la adolescencia mediay tardía. Revista Perfiles Educativos, 60, 44-48.

Nathawat, S., Sing, R. & Sing, B. (1997). The effect of need forachievement on attributional style. The Journal of SocialPsychology, febrero.

225VII. Influencia de la Orientación... l

Pintrich, P. (1998). El papel de la motivación en el aprendizajeacadémico autorregulado. En S. Castañeda (Ed.), Evaluacióny Fomento del Desarrollo Intelectual en la Enseñanza de lasCiencias, Artes y Técnicas: Perspectiva internacional en elumbral del siglo XXI (pp. 229-262). México: Porrúa-UNAM.

Pintrich, P., De Groot, E. A. M. y Garcia, T. (1992, julio). StudentMotivation and Self - Regulated Learning in Different ClassroomContexts. Congreso Internacional de Psicología Científica.Bruselas, Bélgica.

Pintrich, P. y De Groot, E. V. (1990). Motivational and Self -Regulated Learning Components of Classroom AcademicPerformance. Journal of Educational Psychology, 82, 33-40.

Samperio, L. M., Vidal, R. y López, C. A. (1996). La predictividadde los exámenes de ingreso del CENEVAL. Memorias del IIForo Nacional de Evaluación Educativa (pp. 225-230). México:CENEVAL.

Schumacker, R. E. & Lomax, R. G. (1996) A Beginner`s Guide toStructural Equation Modeling. Mahwa, New Jersey: LawrenceErlbaum Associates, Publishers.

Seifert, T. L. (1995). Academic goals and emotions: a test of twomodels. The Journal of Psychology, 129, 543-552.

Valle, A. y Smith, M. (1993). La escolaridad como valor para losjóvenes. Revista Perfiles Educativos, 60. (De: gopher.//pompeyacise-sua.unam.mx/00/revista/num 60/60-08.txt//+).

Weinstein, C., Powdrill, L., Husman J., Roska, L. y Dierking, D.(1998). Aprendizaje estratégico: Un modelo conceptual,instruccional y de evaluación. En S. Castañeda (Ed.),Evaluación y Fomento del Desarrollo Intelectual en laEnseñanza de las Ciencias, Artes y Técnicas: Perspectivainternacional en el umbral del siglo XXI (pp. 197-228). México:Porrúa-UNAM.

Capítulo 8

SISTEMA COMPUTARIZADODE EXÁMENES

Eduardo Backhoff Escudero y Martín Rosas MoralesInstituto de Investigación y Desarrollo Educativo,

Universidad Autónoma de Baja California

Recientemente, el impacto que ha tenido la computación en lasevaluaciones psicológica y educativa ha sido muy positivo yesperanzador. A nivel mundial, esto se observa con claridad en losaños ochenta, con el advenimiento de las computadoras personales.La nueva tecnología digital permite realizar tareas que anteriormenteeran imposibles, iniciando con ello una era que está revolucionando laevaluación. Hoy en día, los exámenes por computadora empiezan asustituir las evaluaciones tradicionalmente diseñadas para lápiz ypapel. Es una realidad que esta revolución electrónica empieza arepercutir fuertemente en el desarrollo de las técnicas de evaluaciónque utilizan las instituciones educativas, en especial las de educaciónsuperior.

El uso de la evaluación por computadora con propósitoseducativos está muy bien documentado; ofrece muchas ventajascuando las pruebas son válidas, confiables, y se realizan considerandolineamientos profesionales como los de la Asociación Americana dePsicología (Kobak, Reynolds y Greist, 1993). Asimismo, se ha venidoreforzando por los resultados obtenidos en estudios donde secomparan los exámenes de lápiz y papel con los exámenescomputarizados. Algunos de estos resultados son:

l No hay diferencias significativas entre ambas presentaciones; lascorrelaciones son muy altas entre reactivos equivalentes y losíndices de confiabilidad son muy similares para ambas versiones(Heppner, Anderson, Farstrup y Weiderman, 1985; Katz y Dalby,1985; Backhoff, Ibarra y Rosas, 1994).

l Hay una marcada preferencia de las personas por responder a lasversiones computarizadas, independientemente de la experiencia

l Estrategia de Evaluación y Medición...228

previa del examinado (Moe & Johnson, 1988; Backhoff, Ibarra yRosas, 1995).

l Las versiones de los tests computarizados que presentan un«ítem», o una pregunta a la vez, hacen que el individuo pongamayor atención a la pregunta y responda con mayor cuidado(Vansickle, Kimmel y Kapes, 1989).

Con la nueva tecnología digital se empiezan a desarrollar nuevosmodelos más sofisticados de evaluación. Bunderson, Inouye y Olsen(1993) hablan de cuatro generaciones de la evaluación asistida porcomputadora. Como se verá a continuación, cada una de ellasrepresenta un avance sobre la otra, lo que implica un incremento en supoder y sofisticación:

l 1a generación: Evaluación Computarizada . Administra losexámenes convencionales de preguntas de opción múltiple porcomputadora.

l 2a generación: Evaluación Adaptativa . Presenta las preguntasde acuerdo a las respuestas del estudiante y a las característicasde los items.

l 3a generación: Evaluación Continua . Estima los cambios en latrayectoria del aprendizaje curricular del estudiante.

l 4a generación: Evaluación Inteligente . Produce, interpreta ygenera perfiles de los resultados del estudiante con base enconocimientos y procedimientos de inferencia.

Conociendo las potencialidades que brinda la computación a laevaluación, y aprovechando la infraestructura informática de laUniversidad Autónoma de Baja California (UABC), en 1994,desarrollamos el Sistema Computarizado de Exámenes (SICODEX)con el cual se administró la versión para lápiz y papel del Examen deHabilidades y Conocimientos Básicos (EXHCOBA) (Backhoff, Ibarra yRosas, 1994; 1995). Los resultados fueron tan alentadores que laUABC decidió crear tres centros de evaluación computarizada en suscampus de Mexicali, Tijuana y Ensenada, para poder aplicar elexamen en forma continua a los aproximadamente 10,000 aspirantesque desean ingresar anualmente a esta universidad. Igualmente, este

VIII. Sistema Computarizado de... l 229

examen electrónico se ha utilizado en otras instituciones deeducación superior (IES) (Centro Científico y de Educación Superior deEnsenada, Universidad de Sonora, Universidad de Guanajuato,Universidad Nacional Autónoma de México, entre otras).

Siendo el EXHCOBA un examen normativo cuyo propósitoprincipal es la selección de estudiantes, no proporciona informaciónsuficiente para conocer con precisión el nivel académico de losestudiantes que egresan del bachillerato, en cada una de lastemáticas que se requieren en el nivel superior. Por ello, muchosdirectores de escuelas y facultades, coordinadores de carrera yprofesores universitarios solicitan constantemente informaciónsuficiente para conocer con precisión las competencias académicasdel estudiante; conocimiento necesario para mejorar las funcioneseducativas de la institución y garantizar la permanencia de los jóvenesen sus estudios universitarios.

En este sentido, es importante decir que las matemáticas sonesenciales para desarrollar las habilidades de razonamiento numéricoy que están presentes en todo el currículum escolar: desde la primariahasta el bachillerato. Aún en el nivel superior, se encuentran presentesen una mayoría de las carreras universitarias: desde las cienciassociales hasta las ingenierías. Así, aproximadamente, el 80% de laoferta educativa de la UABC requiere que el estudiante domine elconocimiento matemático básico al ingresar a la universidad.

Con estos antecedentes, en 1996, iniciamos el desarrollo delExamen de Ubicación de Matemáticas (EXUMAT), el cual sefundamenta en la Teoría de Respuestas al Ítem, con el modelo de dosparámetros. Para administrar este examen, paralelamente,desarrollamos el Sistema de Exámenes Adaptativos (SEA) que escapaz de calificar preguntas de respuesta construida, especialmentenuméricas y algebraicas.

El propósito de este trabajo es triple: (1) explicar la concepción ylógica del EXUMAT, (2) describir las funciones y elementos de suinterfaz computarizada y adaptativa (SEA) y (3) describir losresultados de un estudio piloto realizado con estudiantes del nivelmedio superior.

l Estrategia de Evaluación y Medición...230

EXAMEN DE UBICACIÓN DE MATEMÁTICAS

A pesar de la importancia que representan las matemáticas en elcurrículum escolar, es bien conocido que los estudiantes llegan alnivel superior arrastrando serias deficiencias en este campo delconocimiento. Así, nos encontramos con una gran cantidad deestudiantes que desconocen el significado de P, que no tienen elconcepto de fracción, o que no saben despejar una ecuación simple.Estas deficiencias hacen que muchos de ellos tengan serios tropiezosescolares que los hacen reprobar o, incluso, desertar de launiversidad.

Con esta idea, se decidió desarrollar el Examen de Ubicación deMatemáticas (EXUMAT) para conocer el nivel de conocimientos yhabilidades de los estudiantes al momento de ingresar a la universidad.Al diseñarlo, se tuvieron en consideración los siguientes aspectos:

l Evaluar las competencias básicas de matemáticas, procurandoprivilegiar la evaluación de la comprensión y aplicación delconocimiento, más que su memorización.

l Rebasar las limitaciones que impone el formato de opción múltiple,elaborando un examen de respuesta construida.

l Fundamentar el examen en la Teoría de Respuestas al Ítem,administrándolo en forma adaptativa (2ª generación de laevaluación computarizada), con el modelo de dos parámetros.

Para evaluar las habilidades y conocimientos básicos delestudiante, el examen se diseñó con la idea de evaluar el troncocomún o central del currículum de matemáticas, abarcando los nivelesde primaria, secundaria y bachillerato; de tal manera que se tuviera enuna escala las competencias académicas a evaluar, ordenadas demenor a mayor complejidad. Este ordenamiento correspondió tanto ala complejidad del conocimiento mismo, como al nivel escolar en quese enseña..

Originalmente, se elaboraron 150 reactivos: 23 del nivel primaria,48 de secundaria y 79 de bachillerato. De éstos, se seleccionaron 131items que evalúan conocimientos matemáticos, desde la recta

VIII. Sistema Computarizado de... l 231

numérica hasta derivadas de funciones exponenciales. La estructuradel EXUMAT se muestra en la tabla 1.

Como ya se mencionó, para poder administrar este examen sediseñó una interfaz computarizada capaz de presentar los reactivos enforma adaptativa y calificar las preguntas de respuesta construida.

SISTEMA DE EXÁMENES ADAPTATIVOS

El SEA está construido en lenguaje C++ (v. 4.0) para Windows95/NT. Utiliza el programa MS Word 97 como componente COM, para

editar y mostrar los reactivos, y graficar las ecuaciones. Es decir, se

insertan los componentes del MS Word en el Sistema.

Cada pregunta se guarda en un archivo separado como documento

Word y el archivo de configuración del sistema es de tipo INI.

Asimismo, el registro de Windows 97 se utiliza para guardar la

configuración (rutas de archivos) del SEA.

El sistema permite formular siete diferentes tipos de preguntas, las

cuales le exigen al estudiante responder de manera específica. La

tabla 2 muestra un ejemplo de cada una de ellas.

Para construir los reactivos del examen se diseñó una interfaz

gráfica donde se elabora cada reactivo especificando sus

características físicas (base de la pregunta, las figuras que loacompañan, etc.), el tipo de respuesta esperada (respuesta correcta

exacta, rango de respuestas aceptables, etc.), los operadores que

requiere para ser contestada (símbolos matemáticos) y los parámetros

del reactivo (dificultad, discriminación, etc.). La figura 1 muestra la

interfaz para la construcción y especificación de reactivos.

Para presentar, capturar la respuesta y calificar los resultados del

examen, el SEA contiene tres módulos que administran las preguntasde acuerdo a su respuesta, a saber: construida, de selección y de

texto. A continuación se hace una descripción de estos módulos de

respuesta

l Estrategia de Evaluación y Medición...232

Tabla 1. Estructura de contenidos del EXUMAT

ÁREAS SUBÁREAS

I. Aritmética 1. Sistemas numéricos

2. Razones y proporciones

II. Álgebra 1. Lenguaje algebraico

2. Polinomios

3. Fracciones racionales

4. Ecuaciones

5. Inecuaciones

III. Geometría Euclidiana 1. Conceptos básicos

2. Recta

3. Ángulos

4. Triángulos

5. Polígonos

6. Circunferencia

IV. Trigonometría 1. Relaciones trigonométricas

2. Funciones trigonométricas

3. Identidades trigonométricas

4. Triángulos oblicuos

V. Geometría analítica 1. Coordenadas cartesianas

2. Recta

3. Circunferencia

4. Parábola

5. Elipse

6. Hipérbola

VI. Cálculo diferencial 1. Funciones

2. Límites

3. Derivación de funciones

4. Análisis de funciones

VIII. Sistema Computarizado de... l 233

Tabla 2. Tipo de preguntas que contiene el EXUMAT

TIPO DE PREGUNTAS

EJEMPLO DE PREGUNTA RESPUESTA

Respuesta numérica, entera.

¿Qué número le sigue a la siguiente serie descendente: 180, 171, 162, 153, ... ? 144

Respuesta numérica, entera, doble.

Resuelva la siguiente ecuación cuadrática: x² + 4x + 3 = 0

x1 = -3 x2 = -1

Respuesta numérica, decimal.

Resuelva la siguiente suma: 4.273 + 10.429 14.702

Respuesta de texto

Escriba con letra el siguiente número:111234

Ciento once mil doscientos treinta y

cuatro

Respuesta fraccionaria

Resuelva la siguiente operación: 1/4 + 2/4

3/4

Respuesta algebraica

Resuelva la siguiente suma: 9x² - 3x -2x² + 13x

7x² + 10x

Respuesta cerrada

¿Cuáles de las siguientes ecuaciones son paralelas entre sí?a) y = -3x - 5 b) y = -x + 5 c) y = 5x - 3d) y = 3x + 5 e) y = 3x - 5

d) y e)

Figura 1. Interfaz de configuración de reactivos

l Estrategia de Evaluación y Medición...234

Módulo de respuesta construida

Se utiliza para la mayoría de los reactivos del examen, ya quepermite contestar preguntas que requieren respuestas de tipo: entero,fraccionaria, algebraica, ecuación y desigualdad. Como se puede veren la figura 2, este módulo consta de las siguientes partes:

1. Ventanas para visualizar: la pregunta (superior izquierda), la ayuda(superior derecha) y la respuesta dibujada (inferior derecha).

2. Ventana para construir y editar la respuesta (inferior izquierda).

3. Botones para (a) construir y editar la respuesta (números,constantes, variables, operadores aritméticos, operadores depotencia y radical, funciones trigonométricas, signos deagrupación y signos de desigualdad y ecuación); (b) borrar(backspace); (c) dibujar la respuesta construida (Dibujar) y (d)indicar que se ha terminado de introducir la respuesta (Listo).

Figura 2. Interfaz del Sistema de Exámenes Adaptativos

VIII. Sistema Computarizado de... l 235

El Módulo de ayuda contiene básicamente: (1) las instrucciones

para responder a cada tipo de pregunta, (2) una calculadora digital que

se activa cuando la pregunta lo permite, y (3) un formulario con las

ecuaciones que se requieren para contestar el examen.

El módulo de respuesta numérica es flexible y posibilita la

introducción de cualquier tipo de expresión matemática requerida en

este examen. No permite que se introduzcan errores de sintaxis,

como el de repetir operadores, cerrar signos de agrupación

asincrónicamente y otros. Además, no permite los errores de sintaxis,

como se muestran en la tabla 3.

Tabla 3. Errores de sintaxis que no permite el SEA

RESPUESTA DESCRIPCIÓN

12+ Falta un término

x+y/(x-y Hay un paréntesis sin cerrar

3y^ Falta un exponente

Sen[3.14 Falta cerrar un corchete

3x+5= Ecuación incompleta

La respuesta no puede ser vacía

La verificación de las respuestas se realiza de acuerdo al tipo depregunta. Cuando la respuesta es de tipo entero o fraccionaria,simplemente se convierte la cadena alfanumérica de entrada a su valorcorrespondiente numérico y se compara con la respuesta de la basede datos. Por ejemplo, si la pregunta requirió hacer una suma defracciones (ej. 4/8 + 3/5), el sistema convierte el valor final adecimales y lo compara con la respuesta dada, igualmente convertidaa decimales. La comparación tiene un margen de error de 10-4.

Cuando la respuesta es de tipo algebraica se le dan valores a

l Estrategia de Evaluación y Medición...236

cada una de las variables y coeficientes que estén interviniendo paraobtener el valor numérico de toda la expresión. Esto se haceasignando varios valores en un intervalo amplio para asegurar que larespuesta realmente sea igual a la de la base de datos. Los valoresvan de -10 a +10, con incrementos de 0.5. La tabla 4 muestra unejemplo de la verificación de este tipo de respuestas.

Tabla 4. Ejemplo de verificación de respuesta tipo algebraica.

ETAPASRESPUESTAESPERADA

RESPUESTADADA

VERIFICACIÓN

Lectura a + bx -a + bx

Substitución de valores -10 + (-9.9 * -9.8) -(-10) + (-9.9 * -9.8)

Solución 87.02 107.02

Comparación Negativa

Cuando la respuesta es de tipo ecuación o desigualdad, elsistema se comporta de la misma manera que con la respuesta detipo algebraica, pero añade un despeje que permite igualar larespuesta del usuario con la de la base de datos (para el caso deecuación) y verifica que la igualdad se cumpla para todos los valoresdel intervalo asignado. En el caso de desigualdad el despeje se haceen forma similar, pero se verifica que cuando la relación de larespuesta de la base de datos sea verdadera, también lo sea la delusuario, y viceversa.

Módulo de respuesta de selección

Las preguntas de opción múltiple pueden ser de dos tipos: (1)cuando se acepta una sola respuesta (OR) y (2) cuando se aceptandos o más opciones de respuesta (AND). El primer submódulo constade las siguientes partes: botones excluyentes tipo Radio (que alseleccionar uno, se inhabilitan los demás) y un botón para indicar quese ha contestado la pregunta.

El segundo submódulo se utiliza para contestar preguntas deselección múltiple, en las cuales se debe seleccionar más de una

VIII. Sistema Computarizado de... l 237

opción. Este módulo consta de las siguientes partes: botones noexcluyentes de tipo selección (que la selección de uno no afecta laposibilidad de usar los demás) y un botón para indicar que se hacontestado la pregunta.

Módulo de respuesta de texto

Este tipo de preguntas le solicitan al estudiante que escriba conletra diversas cantidades numéricas. Consta de las siguientes partes:una ventana que contiene la lista de palabras permitidas pararesponder, un espacio de contestación, botones de edición (letrassimulando un teclado de máquina de escribir) y un botón para indicarque se ha terminado de introducir la respuesta.

La respuesta textual presenta un enfoque inteligente de la manerade contestar. La habilidad que se desea medir para este tipo derespuesta es 100% matemática (no ortográfica) de modo que nointeresa para este caso si el usuario desea escribir el número 200 y loescribe de las siguientes maneras: dos cientos, doscientos,dosientos, docientos, dos sientos, e inclusive doz zientos. Peroverificar todas las posibles respuestas sería una tarea muy laboriosa;por lo tanto, este módulo proporciona una lista de palabras correctasortográficamente con las cuales se puede construir cualquier oraciónque represente números hasta 1,999,999. No se permite introducirninguna otra palabra ni dejar palabras incompletas, de tal modo que alterminar de contestar, lo que se verifica es que la respuestaintroducida sea sintácticamente igual a la respuesta de la base dedatos.

Mecánica de la administración del examen

Por otro lado, la mecánica que utiliza el SEA para administrar losreactivos del EXUMAT es como el de la mayoría de los exámenesadaptativos (véase De la Torre-Sánchez, 1996; Bunderson, Inouye yOlsen, 1993). En forma resumida, describimos los pasos másimportantes:

1. Inicio de la prueba . Procedimiento para seleccionar el primer

l Estrategia de Evaluación y Medición...238

reactivo que contestará la persona. Para poder decidir dóndeempezar, se debe hacer una estimación inicial de la habilidad delexaminado.

2. Selección de reactivos . Procedimiento para seleccionar losreactivos que se le administrarán a la persona. Con base en susrespuestas, se van seleccionando los siguientes reactivos,procurando obtener la máxima información para el nivel dehabilidad estimado. Se administrará un reactivo más difícil o másfácil, escogiendo aquél que maximice la información actualizadadel examinado.

3. Estimación de la habilidad . Procedimiento para calcular lahabilidad de la persona en cualquier etapa del examen. Seactualiza la habilidad estimada del examinado después de cadapregunta que conteste. Los métodos más utilizados para realizareste paso son: Estimación de la Habilidad Secuencial Bayesiana(Owen, 1969, 1975), Estimación de la Habilidad más Parecida(Birnbaum, 1968; Lord, 1977), Algoritmo Esperado A Posteriori(Bock y Aitkin, 1981) y Estimación Bayesiana de Doble Peso(Bock y Mislevy, 1982).

4. Terminación del examen . Criterio(s) para terminar el examen.El proceso de presentación de reactivos continúa hasta que secumple uno o más criterios para terminar la evaluación: (a)alcanzar un valor mínimo en el error estándar y (b) administrar unnúmero máximo de reactivos.

Siguiendo esta lógica, el SEA opera como se muestra en la tabla5. Un aspecto central de los exámenes adaptativos es la estimaciónde la habilidad del examinado, ya que de ello depende la selección delos reactivos que se le irán presentando. Como ya se mencionó,existen diferentes métodos para calcular la habilidad de la personadurante el desarrollo de un examen adaptativo. El SEA utiliza elmétodo bayesiano, arriba señalado.

Las fórmulas para la Estimación más Parecida de theta(Birnbaum, 1968) inician con un valor aleatorio cercano a 0 para theta,y fijan su varianza, V(theta) en 1. Así el primer reactivo a presentar es

VIII. Sistema Computarizado de... l 239

el que tiene el grado de dificultad b más cercano a cero. De acuerdocon la respuesta dada a este primer reactivo, se puede calcular unnuevo valor para theta que constituye una mejor estimación para lahabilidad del aspirante.

Tabla 5. Descripción de la mecánica del SEA.

ETAPA DESCRIPCIÓN

Entrada

Se le solicita al estudiante información sobre suescolaridad y calificaciones en matemáticas, para haceruna estimación inicial de su nivel de habilidad en laprueba.

El Sistema lee el archivo que contiene la lista dereactivos disponibles, sus parámetros psicométricos, eltipo de respuestas, los botones disponibles, etc.El sistema:• Inicializa los cálculos de la habilidad del examinado estableciendo un nivel medio (2 = 0).• Inicia con la lista de preguntas.

Selección de preguntas

El Sistema basándose en la habilidad inicial busca lapregunta cuyo grado de dificultad sea más parecido aésta y la presenta. Además, basándose en el tipo derespuesta de esta pregunta, despliega el módulo que seaapropiado para contestarla (construida, de texto, deselección OR o AND).

Contestación

El usuario introduce su respuesta y presiona el botónLISTO (en cualquier módulo de respuesta). El módulo derespuesta manda un mensaje al Sistema indicando si larespuesta fue correcta o incorrecta. El Sistema hace unanueva estimación de la habilidad del usuario y seleccionauna nueva pregunta.

Salida

El sistema acaba de hacer preguntas cuando se alcanzauna estimación de la habilidad del examinado, con unerror de medida mínimo, o cuando se alcanza un númeromáximo de reactivos presentados.

Cargar el Examen

El segundo reactivo que se le presenta al examinado es aquelcuyo grado de dificultad b se acerque más a theta y proporcione la

l Estrategia de Evaluación y Medición...240

máxima información. Procediendo de esta forma, cada vez que elexaminado contesta un reactivo se realiza una nueva estimación detheta, y con base en ella se elige el nuevo ítem a presentar. Se puededar el caso de tener muchas preguntas con grados de dificultadsimilares, o iguales. La selección se basa entonces en la preguntaque, además de tener el grado b cercano a theta, proporcione lamáxima información, y que, por supuesto, no haya sido contestadoantes.

El examen, controlado por la iteración anterior, termina cuando lavarianza de theta, que se va calculando a la par de theta, es menorque un valor fijado de antemano, por ejemplo 0.25, y que se ajusta deacuerdo con el contenido completo del mismo examen1.

RESULTADOS

Las pruebas adaptativas requieren que se elaboren y calibren unagran cantidad de reactivos para formar un banco de aproximadamente100 preguntas. Estos reactivos se deben probar con poblacionesnumerosas para obtener sus indicadores psicométricos (dificultad,discriminación, etc.) y poder obtener la función informativa de laprueba.

Las 131 preguntas del EXUMAT se pilotearon con 260 alumnosdel 4º, 5º y 6º semestres de bachilleratos públicos y privados de laciudad de Ensenada, B.C. Se procuró que representaran a distintasclases sociales y niveles de dominio del aprendizaje de lasmatemáticas.

Los resultados obtenidos se analizaron con el paquete estadísticoBilog (Mislevy y Bock, 1982), que se especializa en pruebasbasadas en la Teoría de Respuestas al Ítem. Como resultado se obtuvoel análisis de items y la función informativa de la prueba. Las figuras 3y 4 muestran los parámetros básicos del EXUMAT: valores b(dificultad) y valores a (discriminación).

Teóricamente, un buen examen adaptativo debe estar conformadopor reactivos cuya dificultad (valores «b») se encuentre entre -3 y +3,cubriendo toda la gama posible de valores. Sin embargo, como se

VIII. Sistema Computarizado de... l 241

puede observar en la figura 3, el EXUMAT contiene reactivos cuyorango de dificultad oscila entre –2.95 y +1.75; es decir, no contienereactivos con valores mayores a +1.85. Igualmente, se observa unacarencia de reactivos en los espacios que van de -2.25 a -2.05, y de-1.45 a 1.25. Esto quiere decir que al examen le faltan preguntas demayor dificultad (de +1.90 a +3), así como aquellas para cubrir loshuecos señalados.

Figura 3. índices de dificultad de los reactivos de EXUMAT.

Por otro lado, es deseable que el poder discriminativo (valores «a»)de los reactivos de un examen sea lo más alto posible, para que sufunción de información sea considerablemente buena. Como podemosver en la figura 4, la mayoría de los items del EXUMAT tienen valores«a» por arriba de 0.50; valor que podríamos considerar como mínimoaceptable.

Finalmente, la figura 5 muestra la función informativa de la pruebaen su conjunto, así como su error de medida, que proporciona elprograma BILOG (utilizado para hacer el análisis de reactivos). Se

l Estrategia de Evaluación y Medición...242

puede observar que la mayor información de esta prueba se ubica enel rango de habilidad de -1.5 a +2.25, y que el error de medición crececonforme uno se aleja de estos valores. En otras palabras, tenemosun examen confiable para estudiantes cuya habilidad es igual o másalta que el de la media, y menos confiable para estudiantes conmucha o poca habilidad.

Figura 4. índices de discriminación de los reactivos del EXUMAT.

CONCLUSIÓN

Como ya se señaló, el EXUMAT se fundamenta en la Teoría deRespuestas al Ítem, con el modelo de dos parámetros. Su formato desalida es de respuesta construida, para lo cual se diseñó la interfazcomputarizada SEA, que administra sus reactivos en forma adaptativa.

En principio, podemos apreciar que es posible elaborar unexamen de matemáticas que cubra el tronco común de lasasignaturas que se enseñan desde la primaria hasta el bachillerato.Con este examen se puede conocer el nivel de aprendizaje del

VIII. Sistema Computarizado de... l 243

estudiante, así como el nivel de escolaridad que le corresponde.

Figura 5. Función de información y error de medida del EXUMAT.

Sin embargo, este examen no está completamente terminado: lefaltan preguntas de mayor dificultad y otras de dificultad intermedia queno cubre. Asimismo, es necesario conocer si el nivel de dificultad delas preguntas corresponde al nivel de dificultad lógico de los contenidosmatemáticos y niveles escolares.

Por otro lado, el SEA representa un avance importante para laevaluación computarizada ya que no sólo administra reactivos enforma adaptativa, sino que permite presentar y calificar preguntas derespuesta construida, con lo cual se elimina prácticamente el factor delazar de las pruebas objetivas.

El sistema trabaja eficientemente, tanto para la elaboración yedición de los reactivos, como para su administración y calificación.Sin embargo, a diferencia de otros exámenes (Backhoff, Ibarra yRosas, 1995) el estudiante requiere un mínimo de conocimientos decomputación para poder contestar esta prueba; al menos debe estarfamiliarizado con el sistema Windows, en sus versiones másrecientes.

l Estrategia de Evaluación y Medición...244

Finalmente, debemos mencionar que incursionamos en lasegunda generación de la evaluación computarizada debido a lasventajas que se han reportado y que hemos constatado con nuestraexperiencia. Posiblemente, las más importantes son:

1. Reduce el tiempo de evaluación . Algunos autores reportan quelas pruebas adaptativas pueden ahorrar entre el 30% y el 50% dela longitud de una prueba estandarizada y seguir manteniendo sunivel de precisión (Olsen, Maynes, Ho y Slawson, 1986; Ward,1984; 1986), ya que los examinados contestan sólo los reactivoscon un nivel de dificultad equivalente a su nivel de habilidad,evitando así los reactivos muy fáciles o muy difíciles.

2. Mejora la precisión de la evaluación . Las pruebastradicionales de longitud fija tienen una precisión máxima demedida en la parte media de la prueba, y una precisión muy bajao nula en los extremos. En contraste, las pruebas adaptativasmantienen su alta precisión de medición en todos los puntos dela escala (Bunderson, Inouye y Olsen, 1993).

3. Mejora la seguridad del examen . La evaluación adaptativamejora la seguridad de los contenidos de un examen, ya que cadapersona responde a un examen distinto, según su nivel dehabilidad y el patrón de respuestas en el examen.

REFERENCIAS

Backhoff, E., Ibarra, M.A. y Rosas, M. (1995). SistemaComputarizado de Exámenes (SICODEX). Revista Mexicanade Psicología, 12(1), 55-62.

Backhoff, E. Ibarra, M.A. y Rosas, M. (1994, julio). Versióncomputarizada del Examen de Habilidades y ConocimientosBásicos. Trabajo presentado en el 23o Congreso Internacionalde Psicología Aplicada. Madrid, España.

Birnbaum, A. (1968). Some latent trait models and their uses ininferring examinee’s ability. In F.M. Lord y M.R. Novick (Eds.):Statistical theories of mental test scores. Reading, MA:Addison-Wesley.

VIII. Sistema Computarizado de... l 245

Bock, R.D. y Aitkin, M. (1981). Marginal maximum likelihoodestimation of item parameters: Application of an EM algorithm.Psychometrika, 46, 443-459.

Bock, R.D. y Milevy, R.J. (1982). Biweight estimates of latent ability.Educational and Psychological Measurement, 42, 725-737.

Bunderson, C.V., Inouye, D.K. y Olsen, J.B. (1993). The FourGenerations of Computerized Educational Measurement. En:R.L. Linn (Ed.) Educational Measurement (3rd ed.). New York:MacMillan Publishing Co., 367-403.

De la Torre-Sánchez, R. (1996). Un paradigma para la mediciónadaptada por computadora. En Memorias del Foro Nacionalde Evaluación Educativa. México: Centro Nacional deEvaluación de la Educación Superior, 169-174.

Drasgow, F. y Parsons, C.K. (1983). Applications of unidimensionalitem response theory models to multidimensional data. AppliedPsychological Measurement, 7, 189-199.

Hambleton, R.K. (1993). Principles and selected applications of itemresponse theory. En: R.L. Linn (Ed.), Educational measurement(3rd ed.), 147-200. New York: MacMillan Publishing Co.

Hambleton, R.K y Swaminathan, H. (1985). Item response theory:principles and applications. Boston, MA: Kluwer AcademicPublishers

Heppner, F., Anderson, J. Farstrup, A., y Weiderman, N. (1985).Reading performance on a standardized test is better fromprint than from computer display. Journal of Reading, 28, 321-325.

Katz, L. y Dalby, J. (1985). Computer and manual administrationof Eysenk

Personality Inventory. Journal of Clinical Psychology, 37, 586-588.

Kobak, K.A., Reynolds, W.M. y Greist, J.H. (1993). Developmentand validation of a computer-administered version of theHamilton Anxiety Scale. Psychological Assessment, 5(4), 487-492.

l Estrategia de Evaluación y Medición...246

Lord, F.M. (1977). Practical applications of Item Characteristic Curve

Theory. Journal of Educational measurement, 14, 117-138.

Mislevy, R.J.y Bock, R.D. (1982 ). BILOG: Maximum likelihood itemanalysis and test scoring with logistic models. Mooresville,IN: Scientific Software.

Moe, K. y Johnson, M. (1988). Participants’ reactions tocomputerized testing. Journal of Educational ComputingResearch, 4, 49-86.

Olsen, J.B., Maynes, D.M., Ho, K. y Slawson, D.A. (1986). Thedevelopment and pilot testing of comprehensive assessmentsystem, phase I. Provo, UT: Waterford Testing Center.

Owen, R.J. (1969). A Bayesianan approach to tailored testing(Research Bulletin No 69-92). Princeton, NJ: EducationalTesting Service.

Owen, R.J. (1975). A Bayesian sequential procedure for quantaresponse in the context of adaptive mental testing. Journal ofthe American Statistical Association, 70, 351-356.

Vansickle, T., Kimmel, C. y Kapes, J. (1989). Test-retestequivalency of the computer-based and paper-pencil versionsof the Strong-Campbell Interest Inventory. Measurement andEvaluation in Counseling and Development, 22(2), 88-93.

Ward, W. C. (1984). Using Microcomputers to Administer Tests.Educational Measurement: Issues and Practice, 3(2), 16-20.

Ward, W.C. (1986). Measurement research that will change testdesign for the future. The Redesign of Testing for the 21stCentury: Proceedings of the 1985 ETS Invitational Conference.Princeton, N.J.: Educational Testing Service.

Capítulo 9

DIAGNOSTICIDAD EINTERPRETABILIDAD: RETOS A LA

MEDICIÓN DE RESULTADOSDE APRENDIZAJE.Sandra Castañeda Figueiras

Universidad Nacional Autónoma de México-Centro Nacional deEvaluación para la Educación Superior

INTRODUCCIÓN

Es innegable que la calidad educativa y la evaluación de losproductos del aprendizaje son interdependientes y están íntimamenteligadas. Los puntajes de las pruebas muestran la urgente necesidadde efectuar reformas substanciales en la política y la prácticaeducativas, en vías de apoyar el mejoramiento de la ejecución deprofesores y estudiantes; mejorar la efectividad de planes y programasde estudio, apoyar la toma fundamentada de decisiones para el diseñoy la implantación de sistemas educativos, así como el fomento deldesarrollo personal y profesional.

La calidad de los productos de la enseñanza se ha convertido enun aspecto central de la evaluación educativa en los principalescentros y grupos de expertos en Educación: el National Assessmentof Educational Progress, en los Estados Unidos de Norteamérica,tiene el propósito de recopilar y evaluar información sobre el nivel deeducación logrado en todo el país y realizar comparacionesinternacionales que le permitan identificar avances y limitaciones en susistema educativo; la Organización para la Cooperación y el DesarrolloEconómico (OCDE) y el Instituto Internacional de Planeación de laEducación de la UNESCO han patrocinado evaluaciones comparativasque no sólo miden los aprendizajes escolares sino, también,competencias esenciales para toda la vida y la InternationalAssociation for the Evaluation of Education (IEA) ha apoyado estudioscomparativos sobre el nivel de aprendizaje en distintas disciplinas en

l Estrategias de Evaluación y Medición...248

el contexto internacional, México participa en uno de ellos.

En México, el sistema educativo ha destinado recursos paramonitorear sus logros pero, una buena proporción de ellos, se hadestinado fundamentalmente a establecer indicadores costo-beneficioen términos de los insumos utilizados y la población atendida, dandoinsuficiente atención a documentar qué es lo que realmente hanaprendido los alumnos y cómo es que las diversas institucioneseducativas apoyan o no aprendizajes de calidad.

Centrar, durante varias décadas, los esfuerzos en la expansión dela cobertura de los sistemas educativos significó, para nuestro país,que el énfasis de la política y la inversión en educación estuvierancentradas en construir más escuelas y contratar más profesores paraampliar el acceso de la población a la educación. Logrado en sumayoría este objetivo, surgió la necesidad de conocer los resultados,sobre todo porque la expansión fue realizada a costa de la calidad delservicio educativo debido a que la inversión requerida superó,ampliamente los recursos disponibles.

Así, el interés público y político por indagar qué es lo querealmente aprenden los estudiantes en las escuelas tomó nueva vida.Esta inquietud se vio reforzada por la Declaración Mundial de laEducación para Todos (UNESCO, 1990) que señala: «si la expansiónde las oportunidades ...se traduce o no en desarrollo – para unindividuo o para una sociedad – depende en último término de lo quela gente efectivamente aprende como resultado de dichasoportunidades, en otras palabras, depende de la medida en la queincorporen conocimientos útiles, habilidad de razonamiento, destrezasy valores».

Es de reconocerse que en la práctica educativa nacional se hanrealizado esfuerzos al respecto, pero su implementación es todavíaparcial y de baja cobertura. Tal estado de cosas ha mostradocambios en los últimos años. Se han intensificado los esfuerzosnacionales, regionales y estatales por conocer la calidad de losresultados de aprendizaje de los egresados de los niveles básico,medio y superior con el fin de obtener información que permita mejorarla práctica educativa. Sin embargo, queda por establecerse, en la

IX. Diagnostibilidad e Interpretabilidad... l 249

agenda educativa, el impacto, validez, generalización y credibilidad delas pruebas de resultados de aprendizaje a gran escala. Para ello esnecesario establecer:

l el rol que juegan los estándares de contenido actuales sobre losresultados de aprendizaje generados. Preguntas tales como ¿sonestos estándares los necesarios? ¿Los padres de familia están altanto de ellos y saben como apoyarlos?, ¿han sido validados poragencias externas al sistema educativo?, ¿la sociedad civil conocelos resultados obtenidos? Constituyen algunas de lasinterrogantes a ser trabajadas extensamente en este aspecto.

l la factibilidad de combinar metas de estándares altos con las deestándares comunes para todos los estudiantes. ¿Hemosidentificado variables internas y externas al sistema educativo queexpliquen las desigualdades en los resultados de aprendizaje?,¿existe apoyo financiero para el mejoramiento de escuelas que noalcanzan estándares altos?

l los mecanismos que fomenten mediciones útiles, válidas, precisasy, sobre todo, contextualizadas al respecto de lo que sucede enlos ambientes de aprendizaje y de formación para el trabajo. Lasmediciones desarrolladas nos permiten ¿diagnosticar necesidadesde aprendizaje; prescribir mejoras; seleccionar y distribuirestudiantes; certificar resultados de aprendizajes e Informar a lasociedad civil sobre la calidad obtenida? ¿Tales medicionesfavorecen la diagnosticidad requerida para identificar diferenciascualitativas entre examinandos y la interpretabilidad necesariapara identificar las fallas y los aciertos de los estudiantes enresultados de aprendizaje significativos?, ¿la calidad de lasmedidas permite superar el alto precio educativo que hemospagado por usar enfoques tradicionales en la medición?

l Y, desde luego, es necesario establecer la validez de los modelosde rendición de cuentas. En este aspecto, es necesario evitar losefectos negativos de los sistemas de rendición de cuentasasociados a la medición a gran escala, particularmente, losgenerados por la comparación de promedios entre escuelas,sistemas o entidades federativas dado que es poco factible

l Estrategias de Evaluación y Medición...250

separar los efectos de la escuela de los derivados de factores noescolares. La medición de resultados de aprendizaje puede tomarformas diversas y puede ser usada, también, de maneras diversaspor los sistemas de rendición de cuentas con la intención demejorar la educación. De aquí que sea importante identificar tantoen los sistemas de medición, como en los de rendición decuentas, aquellas características que aseguren la veracidad de lainformación provista y el impacto que los resultados obtenidos enla medición puedan tener sobre las prácticas docentes y elaprendizaje del alumno.

Entonces, el interés por conocer los principios y mecanismos quecontrolan el aprendizaje, la enseñanza y la medición de resultados deaprendizaje se constituyen en un tema educativo central. Hay buenasrazones que fundamentan este interés, entre otras, que el nivel deescolaridad parece NO tener una influencia fuerte sobre lasoportunidades en la vida; que el crecimiento económico obviamenteimpone demandas a la formación de cuadros cada vez mejorpreparados y competitivos, capaces de tomar decisiones oportunas ybien fundamentadas, así como de resolver problemas de la maneramás adecuada, lo que implica un proceso de aceleración intelectual yde modificación continua del conocimiento; los padres de familia y losempleadores buscan acelerar cambios en sus hijos y en susempleados para que logren mejores oportunidades en la vida, en elprimer caso y para que realicen su labor lo más eficiente einteligentemente posible, en el segundo.

Así, se reconoce que los sistemas de evaluación pueden y debeninfluir no nada más en aquello que es enseñado, sino también encómo es enseñado. Lograrlo requiere evaluar aquellos componentesque han mostrado determinar el éxito académico con base enhallazgos de investigación en aprendizaje, desarrollo e instrucción.Resulta esencial, entonces, explicitar las suposiciones utilizadas paradescribir lo que un estudiante debe usar para tener éxito en el dominiode conocimiento que está aprendiendo, tanto como establecer conclaridad cómo y en qué difieren los más competentes de los menoscompetentes. Estos planteamientos significan algo más que un simplereemplazo de métodos viejos por nuevos. Supone un conocimiento

IX. Diagnostibilidad e Interpretabilidad... l 251

profundo sobre los mecanismos que controlan el aprendizajeacadémico, por una parte y una teoría de enseñanza, por la otra, quetome en cuenta dos aspectos substanciales e interrelacionados:

a) comprender cabalmente las demandas cognitivas solicitadas alestudiante por los diversos contenidos a ser aprendidos, paramanipularlas sistemáticamente con la doble intención deidentificar los mecanismos que influyen en cada una y, toda vezidentificados, construir con ellos los ambientes de aprendizaje quelas fomenten;

b) definir, de manera transparente, las unidades de análisis y losprocedimientos con los que serán medidos los resultados deaprendizaje esperados a partir de la comprensión cabal de losmecanismos que los controlan. En términos generales, pararecolectar y combinar las respuestas de los examinandos, de talmanera que permita identificar los mecanismos que ellos utilizaronpara responder y para basar, en evidencias útiles, el programaremedial, si es el caso.

Un manejo adecuado de estos aspectos deberá permitir unaexploración más confiable mediante la identificación de loscomponentes que generan errores más que sólo describirestadísticamente qué es lo que logró o no un estudiante en particularo la eficiencia terminal de una escuela, una institución o un sistemaeducativo, en lo general.

Es necesario propiciar procedimientos que midan y estimulen eldesarrollo cognitivo para contrarrestar la carencia que se da no nadamás en las prácticas educativas, sino también en las familiares y laslaborales. Reiterar lo que he planteado en otros trabajos sobre lo quese puede decir al respecto, no es por terquedad o falta de originalidadsino, más bien, porque los problemas siguen vigentes.

¿Qué avances de la teoría psicológica aportan basesracionales para construir mediciones útiles?

El desarrollo cognitivo como factor importante de ser fomentado yevaluado en el sistema educativo. Construir esta nueva perspectiva

l Estrategias de Evaluación y Medición...252

requirió muchos ajustes entre la psicología del desarrollo y lapsicología educativa tradicionales. Ambas desarrollaron y mantuvieron,por muchos años, paradigmas de investigación diferentes y en algúnsentido opuestos. La primera, consideró que el desarrollo cognitivoera el pre-requisito indispensable de la educación (Piaget, 1970;Flavell, 1979). La segunda (Vygostki, 1978 y Glaser, 1981, porejemplo) consideró al desarrollo cognitivo como un producto, a largoplazo, de la educación. En la actualidad y en contraste con lasposiciones extremas anteriores, hay un movimiento fuerte parasintetizar teóricamente los conceptos de desarrollo, aprendizaje einstrucción.

En términos generales, la teoría cognitiva contemporánea aportanociones útiles a la medición de resultados de aprendizaje enescenarios educativos, entre las más importantes se tienen:

1. La noción constructivista del aprendizaje, establece que es elestudiante mismo el que construye su conocimiento y lashabilidades subyacentes requeridas. En el escenario educativorepresenta algo más que poner en las cabezas de los estudianteslo que deben aprender. Por esta razón, la intervención cognitiva seha enfocado en el campo educativo, a la generación deindicadores que permitan la medición y, en consecuencia, alfomento de procesos, estructuras y estrategias que favorezcan elpensamiento, la toma de decisiones fundamentada, la solución deproblemas, así como la estructuración adecuada de la base deconocimientos que los soporta.

2. El conocimiento y el aprendizaje estratégico. Los buenosestudiantes no nada más poseen una gran cantidad deconocimiento específico sobre la materia sino, también, lo asociancon estrategias de aprendizaje exitosas, adquiridas por laexperiencia previa. Son reconocidas como componentesimportantes del éxito académico porque permiten a losestudiantes comprender qué es lo que se desea que aprendan ypuedan comprometerse, activamente, con lo que la escuela lespide. Entonces, el desarrollo de categorías de análisis eindicadores para su medición, así como de ambientes que

IX. Diagnostibilidad e Interpretabilidad... l 253

promuevan hábitos de procesamiento cognitivo activos y auto-regulados, capaces de fomentar el aprendizaje efectivo, seconstituye en una meta deseable en los escenarios educativos.

3. Conocimiento y habilidades de autorregulación. Gracias alconocimiento autorregulatorio y la operación de las habilidades deautorregulación, el estudiante puede satisfacer el requisito deestablecer, evaluar, planear y regular si se han cumplido las metasde su aprendizaje, evaluar el grado en el que se han logrado y, sies el caso, establecer la modificación, selección o construcciónde las estrategias necesarias para el logro de las metasdeseadas. Tal tipo de conocimiento puede ser medido conindicadores que evalúen si es que el estudiante monitorea, planificay regula lo que aprende, cómo lo aprende y para qué lo aprende.La Autorregulación es un proceso interactivo complejo queinvolucra, no sólo autorregulación metacognitiva, sino tambiénmetamotivacional. Ambas se entrelazan y afectan la inversión delesfuerzo del estudiante y la calidad del aprendizaje. De aquí elinterés por medir y fomentar su desarrollo.

4. Cognición distribuida . El aprendizaje es visto como un asuntode internalizar procesos inicialmente practicados en interaccionescon los otros (Vygostki, 1978), entonces una parte crucial deltrabajo del docente es, por una parte, diseñar interacciones quepromuevan la internalización de estrategias particulares, formas derazonamiento y estándares conceptuales a partir del aprendizajecooperativo y, por la otra, medir de la capacidad potencial deaprender a partir de condiciones de prueba que ayuden alexaminando a lograr la maestría, apoyándolo con situaciones deprueba que estimulen su desarrollo cognitivo al provocar y crearuna nueva zona de desarrollo proximal.

5. Interfase afectivo-motivacional en escenarios educativos. Elaprendizaje, como actividad compleja, requiere, también, de unainterfase afectivo-motivacional que dispare, mantenga y controle laactividad del estudiante. La habilidad cognitiva para aprender es,solamente, una porción del problema. La otra, es la inclinación aaprender. Toda vez que el estudiante aprendió a ver las tareas y

l Estrategias de Evaluación y Medición...254

actividades asociadas a un dominio particular comofuncionalmente equivalentes y las ha ligado a su sistema personalde recompensas, se puede esperar que su comportamientomuestre cierta consistencia transituacional en las cogniciones yafecciones relacionadas con tal dominio. Las creencias favorablesacerca de una materia -reflejadas en el interés del estudiante, susactitudes positivas y su involucramiento en la tarea- por un lado, ylas autopercepciones favorables sobre la habilidad -reflejadas enun auto-concepto positivo sobre ella y sobre el control que elestudiante percibe sobre la tarea - por el otro, son propedéuticos alaprendizaje. Por esto, es necesario incluirlas en la medición conel fin de identificar estilos y orientaciones motivacionales quedeban ser transformados.

Una síntesis de las nociones cognitivas descritas hasta aquí, laencontramos en la concepción de aprendizaje efectivo en situacioneseducativas de De Corte (1998), para él, el aprendizaje es un procesoconstructivo, acumulativo, auto-regulado, orientado a la meta, situado,colaborativo e individualmente diferente, sobre la construcción delconocimiento y del significado.

Es constructivo porque los alumnos no son meros recipientespasivos sino agentes activos que construyen tanto el conocimientocomo las habilidades intelectuales requeridas; es acumulativo porquelos aprendices construyen el conocimiento nuevo sobre la base deconocimientos previos factuales, declarativos y procedimentales(incluyendo los metacognitivos); es auto-regulado porque el alumno escapaz de preparar su propio aprendizaje, como también lo es paratomar los pasos necesarios para aprender, para regular suaprendizaje, de proveerse su propia realimentación y juicios sobreestándares de ejecución, así como para mantenerse concentrado ymotivado; es orientado a metas porque provee intencionalidad explícitacon conciencia y da orientación interna a las metas; es situadoporque está basado en experiencias de los alumnos en contextos ysituaciones auténticos de la vida real lo que les permitirá utilizardespués lo aprendido en las situaciones de trabajo; es colaborativoporque el aprendizaje es un proceso social, noción central a unaconcepción constructivista del aprendizaje, donde no sólo se aprenden

IX. Diagnostibilidad e Interpretabilidad... l 255

los conocimientos pertinentes sino también las maneras de pensar,valorar y utilizar las herramientas asociadas a un trabajo determinado,así como para aprender de los demás.

Lamentablemente, las evidencias de la literatura internacional(Castañeda, Lugo, Pineda y Romero, 1998) no reflejan que ésta sea larealidad de alumnos y profesores en la mayoría de los niveleseducativos, en diferentes partes del mundo. Lo que se encuentra tieneque ver, más bien, con una aproximación tradicional donde laenseñanza es expositiva, centrada en el profesor y orientada aaprendizajes mecánicos y sin sentido para los alumnos, difícilmentecompatible con los cambios requeridos para lograr la aceleraciónintelectual y la modificación continua del conocimiento, objetivosbásicos de la educación contemporánea.

Aunado a lo anterior, la herencia de las teorías psicométricas deprincipios del siglo pasado, en las que lo intelectual podía ser descritoy evaluado como una colección de piezas independientes, asociada ala gran influencia de la tradición norteamericana en evaluación,interesada en evaluar habilidades elementales en cálculo, lectura yescritura mediante indicadores simplistas, remotos e indirectos de laejecución académica, han sido factores determinantes de lapreponderancia de un enfoque evaluativo disfuncional a las demandasactuales en las que interesa instigar cambios en el qué, el cómo, elpor qué y el para qué aprenden los estudiantes.

Desde la aproximación cognitiva, Glaser, Lesgold y Lajoie (1987)construyeron un marco de trabajo para evaluar los resultados deaprendizaje basado en la investigación sobre desarrollo de pericia.Está constituido por seis dimensiones cognitivas: 1) organización yestructuración del conocimiento; 2) profundidad de la representacióndel problema; 3) calidad de los modelos mentales; 3) eficienciaprocedimental; 5) automaticidad de la ejecución y 6) habilidadesmetacognitivas.

De acuerdo con Glaser y Cols. (1987), la organización yestructuración del conocimiento debe ser medida para diferenciar eldesarrollo de habilidades entre novatos y expertos: los primerosposeen estructuras cognitivas pobres y poco estructuradas, en tanto

l Estrategias de Evaluación y Medición...256

que los expertos las tienen ricas y fuertemente interconectadas enuna estructura conceptual coherentemente integrada; larepresentación de los problemas en los novatos se basa en detallesde naturaleza superficial, en tanto que los expertos representan losproblemas a partir de conceptos abstractos más poderosos yexplicativos; los modelos mentales de los expertos son máscomplejos lo que les permite visualizar los problemas de una mejormanera y utilizar sistemas de operaciones capaces de guiar suejecución de forma heurística efectiva, en tanto que los novatos no losposeen o no los han refinado lo que les hace ligar sus acciones aalgoritmos multipasos rutinizados, volviendo su ejecución más lenta ycon mayor riesgo de fallar; los expertos pueden aplicar estrategias desolución de problemas «hacia adelante», de una manera másautomática y precisa que los novatos, así como monitorear, planear ycontrolar más la calidad de sus producciones que los novatos.

Con base en lo anterior, la medición contemporánea estácambiando en lo que es medido; en cuándo y dónde se debe medir yen cómo diseñar la medición para identificar la calidad de la formaciónrecibida (Castañeda, 1998).

Los cambios involucran pasar de taxonomías lógicas y/o Syllabus(estáticas y que sólo involucran contenidos) a taxonomías cognitivasdinámicas e incluyentes de conocimientos, habilidades y valoresclave, asociados a diversos niveles de complejidad, en otras palabras,cambios en la construcción de los diseños de observación y medición.Lograrlo requiere del diseño de modelos de observación queincorporen avances significativos de las teorías psicológicas delaprendizaje, el logro y la instrucción, así como generar modelos demedición, útiles al diseño de problemas, tareas y formas de calificarque hagan posible inferir la calidad de los procesos, las estructuras deconocimiento y las estrategias que utilizan los examinandos alresponder.

También, plantean cambios en la métrica que debe ser utilizada,donde la longitud de los objetos NO dependa del tipo de regla con laque se mide (los instrumentos utilizados) y las cualidades de labalanza NO dependan de los objetos pesados (los evaluados), es

IX. Diagnostibilidad e Interpretabilidad... l 257

decir, requiere de invarianza de parámetros, un problema no resueltopor la Teoría Clásica de los Tests pero sí por la Teoría de Respuesta alÍtem (Castañeda, en esta obra).

Modelo Multicomponencial de Medición de Resultados deAprendizaje

Con base en lo planteado arriba, se desarrolló en el Laboratorio deDesarrollo Cognitivo e Innovación Tecnológica de la Facultad dePsicología de la UNAM, a lo largo de varios años, el ModeloMulticomponencial de Medición de Resultados de Aprendizaje.Constituye un auxiliar para el especialista en construcción deexámenes de resultados de aprendizaje. Lo guía en el diseño de losmodelos de observación y medición. Su base teórica se sustenta enavances en cognición aplicada al campo educativo y ha sido validadoa partir de evidencia empírica extensa.

El modelo tiene una doble finalidad, por un lado, apoyar alevaluador en la identificación, representación y organizaciónsistemática de los conocimientos, las habilidades y lasautovaloraciones que hipotéticamente subyacen a la ejecución quedesea evaluarse y apoyarlo en el diseño de las tareas y losindicadores que hipotéticamente interactúan con esos conocimientos,habilidades y autovaloraciones.

En un inicio, la base del modelo la constituyó el análisis cognitivode tareas (ACT). Este procedimiento permite analizar la actividad a serevaluada en pasos específicos en los que se identifican, en unasecuencia progresiva de mayor nivel de detalle y precisión, losconocimientos, las habilidades y las autovaloraciones asociadas acada paso.

Requiere establecer descripciones claras del conocimientosemántico (conceptual), del procedimental (cómo llevar a caboacciones) y del estratégico (establecer metas, seleccionarprocedimientos y controlar avances), mediante una descomposiciónrecursiva de las tareas involucradas considerando los nivelesdiferenciales de complejidad incluidos en cada tipo de conocimiento(Castañeda, 1993).

l Estrategias de Evaluación y Medición...258

Mediante este análisis es posible identificar, por capas, niveles decomplejidad creciente (CC) en: a) los tipos de conocimientocontenidos en lo que va a ser evaluado; b) los procesos cognitivossubyacentes a la ejecución esperada, c) los contextos de evaluaciónen los que tareas criterio y reactivos deberán medir, de maneracongruente y sistemática, lo que se desea evaluar y lasautovaloraciones que realizan los estudiantes sobre su capacidad.

Permite una aproximación de construcción por bloques quefavorece, por una parte, la revisión de las posibles fallas que presenteel examinando en las diferentes capas o momentos de la secuenciade medición y, por la otra, la prescripción de la instrucción requeridaen los diversos momentos y niveles de complejidad, dentro de uncontexto planeado, sistemático, dinámico e interactivo entreevaluación e instrucción.

Utiliza dimensiones fuertemente relacionadas con el aprendizajeestudiantil (Glaser, Lesgold y Lajoie, 1987; Castañeda, 1993,Boekaerts, 1995). Éstas son:

l El gradiente de complejidad de los contextos de medición. Suprimer nivel es el reconocimiento, asume mecanismos de memoriaa los que subyace un simple proceso de comparación de larespuesta correcta con una huella almacenada en memoria, seaésta literal o parafraseada. El segundo, el de recuerdo, asumemecanismos para la generación de los indicadores derecuperación y para la construcción misma de la respuesta(incluye procesos de categorización, razonamiento y solución deproblemas, entre otros).

La clasificación por niveles de complejidad de los contextos demedición resulta particularmente útil al examinador cuando deseaidentificar efectos diferenciales derivados de los formatos de reactivos(opción múltiple vs. respuesta construida, por ejemplo) sobre el logroalcanzado por el examinando. También, cuando su interés seaconocer los efectos derivados de los tipos de pruebas posibles(objetivas vs. de demostración o auténticas). En los escenarioseducativos y laborales (salones de clases, talleres, laboratorios yotros similares) el contexto utilizado para medir resultados de

IX. Diagnostibilidad e Interpretabilidad... l 259

aprendizaje constituye un aspecto central que debe ser consideradoen la construcción de pruebas.

l La segunda dimensión analizada en el ACT es el gradiente decomplejidad de los conocimientos a evaluar. El nivel más concretolo constituye el conocimiento factual (hechos, símbolos,nombres, lugares, fórmulas), su contenido es de naturalezaespecífica y no permite mayor generalización; un nivel deabstracción mayor al anterior, el conocimiento semántico(conceptos, principios y reglas que constituyen el corpus de uncampo de dominio específico) permite y requiere de la utilizaciónde procesos psicológicos múltiples (desde merasdiscriminaciones hasta generalizaciones, categorizaciones,razonamiento y resolución de problemas); el conocimientoprocedimental, por otra parte, es útil para reconocer patrones demuy diversa índole y seguir secuencias de acciones con diferentesniveles de complejidad, permite y requiere procesos dediscriminación, generalización e igualación a la muestra, entreotros básicos. Finalmente, el nivel de mayor complejidad, el de losmodelos mentales, requiere integrar los conocimientos anteriores,de una manera articulada, con habilidades de toma de decisiones,de resolución de problemas y el conocimiento estratégicorequerido para poder identificar cuándo y por qué deben aplicarsediferentes procedimientos y decisiones ante una situaciónespecífica.

La clasificación por niveles de complejidad del contenido tambiénresulta de particular utilidad al examinador porque: a) le auxilia aidentificar los tipos de conocimientos contenidos en el universo demedida que va a evaluar; b) le orienta a identificar los niveles dedificultad que representan; c) lo guía en la toma de decisionesfundamentada para adaptar la dificultad intrínseca de cada reactivo conel nivel con el que desea evaluar ese contenido particular y d) lepermite diversificar (y en el mejor de los casos) equilibrar la mediciónde los tipos de conocimiento que deberían ser evaluados a la luz deldesarrollo esperado por los objetivos de aprendizaje establecidoscomo deseables.

l Estrategias de Evaluación y Medición...260

l La tercera dimensión analizada en el ACT la constituye elgradiente de complejidad de los procesos psicológicossubyacentes a la ejecución solicitada en la medición, por ejemplo,discriminación, el más simple, para mostrar pericia en diferenciarentre los contenidos que están siendo evaluados; generalización,para establecer el rango en el que lo diferenciado es aplicable aotras instancias; categorización (horizontal y vertical) paraestablecer relaciones de clase y mostrar capacidad en organizar yestructurar el conocimiento, hasta procesos de razonamiento,toma de decisiones y resolución de problemas variados.Considerar los diversos niveles de complejidad de los procesossubyacentes a la ejecución resulta útil porque permite alexaminador: a) identificar la progresión del aprendizaje en lasdiversas capas que lo constituyen y b) diseñar la medición integralde la progresión del estudiante en las etapas y capas que debanser medidas.

l La cuarta dimensión la constituyen las autovaloraciones de losestudiantes sobre sus habilidades académicas (autoeficacia) ysobre variables asociadas a la tarea (esfuerzo invertido en ella y elcontrol percibido sobre ella). La auto-eficacia, actual y futura, esimportante porque mantiene la consistencia, determina cómointerpretar las experiencias y provee un conjunto de expectativas.Contribuye a la generación de estándares internos (juiciospersonales más o menos conscientes, más o menos habituales ymás o menos razonados que incluyen una definición de lo que esuna buena ejecución). Tales estándares internos apoyan alestudiante a formar la base de juicios de autoeficacia antes deempezar la tarea; formar la base para auto-asesoría después dela tarea y fomentar el incremento y progreso para constituir elautoconcepto futuro. Si el resultado de la valoración es positivo onulo, se estimula la tendencia a actuar hacia el modo de maestría.Si por el contrario el resultado es negativo, se inclinará hacia elmodo de afrontamiento y el estudiante cumplirá con la función dereducir la tensión durante el periodo estresante para así mantenero restaurar el bienestar, más que perseguir la maestría en lo quedebe aprender. Con base en una evaluación de su percepción

IX. Diagnostibilidad e Interpretabilidad... l 261

sobre la tarea, de sus conocimientos y habilidades relacionadoscon ella y de ciertos rasgos de su personalidad, el estudiantevalorará la situación de aprendizaje. Dependiendo del resultado deésta, decidirá qué tanto se comprometerá con la tarea y si estecompromiso estará dirigido a obtener la maestría en ella.

En síntesis, con base en el procedimiento ACT, el examinadorpuede construir un diseño de observación del objeto a evaluar, capazde identificar, de una manera flexible y sistemática, la estructura de labase de conocimientos a ser evaluada, las habilidades subyacentes(incluyendo los modelos mentales asociados) y las autovaloracionesdel estudiante, de forma integrada. Derivado de este diseño, es másfácil construir un diseño de medición donde contextos, tareas yreactivos son organizados sistemáticamente, en vías de hacerexplícitas las demandas que sobre conocimientos, habilidades yautovaloraciones se hayan hipotetizado. Además, este arreglo lo poneen capacidad de poder prescribir las acciones remediales necesariascon una aproximación de grano fino, si ese es el caso. (Véase figura1).

Mediante ACT, identificar mecanismos significativos en:4componentes clave en niveles de complejidad creciente4capas de desarrollo de pericia

• Mediciones múltiples, suficientemente variadas, significativas, cruzadas, transparentes, que no atomicen la estimación y usen contextos pertinentes a lo que se desea evaluar.

• Tareas criterio organizadas en secuencias progresivas de niveles de complejidad variada.

• Reactivos que garanticen:• Validez ecológica de lo evaluado.• Concreción de conocimientos y mecanismos subyacentes.• Identificación estrategias diferenciales para responder.

c) Operacionalizarlos en:

Organizarlos sistemáticamente conforme a las operaciones que hipotética-mente los examinados deberán realizar

En vías de controlar avances y prescribir mejoría

Ob

serv

ació

nM

edi

ción

Figura 1. Objetivos de los diseños de observación y medición.

Sin embargo, aun cuando el ACT permite identificar, de una

l Estrategias de Evaluación y Medición...262

manera flexible, la microestructura de la base de conocimientos y la delos procesos superiores, la medición de resultados de aprendizajerequiere, también, de un análisis que identifique los componentesmacroestructurales de lo que se desea medir. Esto es particularmenteimportante cuando la medición se interesa en la evaluación de lascompetencias generadas por la formación académica y/o profesional,dado que se requiere organizar las estructuras "micro" identificadaspor el ACT. Atendiendo a esta necesidad se incorporó al modeloinicial el análisis funcional de competencias (Wolf, 1995). El análisisfuncional de competencias (AFC) especifica un número reducido dedesempeños críticos, de gran importancia, que abarcan a otros máselementales y que posibilitan la interpretación de los resultados deaprendizaje en un conjunto significativo y comprensible, más que enla mera descripción de un conjunto atomizado de datos. Así, en laactualidad, el modelo permite establecer componentes a un nivel degrano fino, sin perder las ligas que los conectan con las dimensionesmacroestructurales de las cuales forman parte. Los efectos de estapropiedad del diseño de observación han impactado al diseño demedición, de forma tal que las medidas y su interpretación superan elproblema de atomización en la medición (Castañeda, 1998). Esto hahecho posible la generación de una visión comprensiva de losresultados del aprendizaje, superando las concepciones tradicionalesde la evaluación en donde se miden de manera aislada ydesarticulada conocimientos y habilidades, sin considerar el papelque unos y otros cumplen en el logro de resultados de aprendizaje. Lafigura 2, muestra el modelo en su conjunto. En la porción superiorizquierda se representa el ACT y en la derecha el AFC. La parteinferior representa el modelo de medición y los componentesutilizados para investigar el proceso de responder reactivos.

Los análisis micro y macroestructurales del dominio a evaluar soncomplementados con categorías de clasificación del examinando y delos recursos utilizados en los exámenes, tal como se muestra en lafigura 2, para estudiar el proceso de responder reactivos.

Se puede decir que la medición educativa es una forma demedición cognitiva donde el producto que el examinando generacuando se enfrenta a los reactivos de la prueba es lo que el

IX. Diagnostibilidad e Interpretabilidad... l 263

examinador usa como evidencia para determinar el logro alcanzado.Entender los productos de la medición depende, entonces, decomprender lo que sucede en el proceso de responder a los reactivosdel examen. Este aspecto de la validez del constructo esesencialmente intrínseco: dada la comprensión de lo que el examen sepropone medir, es necesario arreglar sistemáticamente losprocedimientos de medición de tal forma que las operacionescognitivas de los examinados durante el examen correspondan, tancercanamente como sea posible, a las actividades mentales que unapersona utilizará en la vida real o en el dominio de conocimiento quese está evaluando.

Teoría re lev ante

D iseño de o bse rv ac ió n

Aná lis is Macro Aná lis is m ic ro

Ind icado res

Inpu t Procesam ien to Outpu t

Diseño de m ed ic ió n

• Ins tru cc iones y and am ia je

• C o n ten ido s (dec la ra tivo , p ro ced im en -ta l y estra tég ico )

• Grad ien tes d e com p le j id ad léx ica , in ferenc ia l, con textu a l , e tc .

•C arac te rís ticas de l su sten tan te:

• N ecesid ad es especia les

• Facto res soc iocu ltu ra les

• Orien tac ió n m o tivac ion al• E s tilo s d e ap ren de r

•D em and as p lan tead as:

• atenc ion ales ,

•pe rcep tua les ,•v isom oto ras ,•decis ion ales ,

•an aló g icas ,• tran fe renc ia les, •creativas,

•críticas,

•Otras s im i lares .

•F orm a to ítem es: O M , co ns tru id o , e tc .

•T ip o de co n texto d e recu pe rac ión :recue rd o lib re, gu iad o , recon oc im ien to

•T ip o y n atu ra lez a de ta reas: igu alac ió n , co ns tru cc ión n uevas variab les , d isc r i-

m inac ió n , gene ra l iz ac ió n , e tc .

• D ispo n ib il idad consu lta

• Tend en cia la ten te , crite r io s de do m in io , z o na desa rro llo p róx im o , pu n to s de co rte , no rm as , e tc .

M od e lo M ulticom po nen c ia l d e Med ic ió n de Resu ltad os de A prend iza je

Teoría re lev ante

D iseño de o bse rv ac ió n

Aná lis is Macro Aná lis is m ic roAná lis is m ic ro

Ind icado res

Inpu t Procesam ien to Outpu t

Diseño de m ed ic ió n D iseño de m ed ic ió n

• Ins tru cc iones y and am ia je

• C o n ten ido s (dec la ra tivo , p ro ced im en -ta l y estra tég ico )

• Grad ien tes d e com p le j id ad léx ica , in ferenc ia l, con textu a l , e tc .

•C arac te rís ticas de l su sten tan te:

• N ecesid ad es especia les

• Facto res soc iocu ltu ra les

• Orien tac ió n m o tivac ion al• E s tilo s d e ap ren de r

•D em and as p lan tead as:

• atenc ion ales ,

•pe rcep tua les ,•v isom oto ras ,•decis ion ales ,

•an aló g icas ,• tran fe renc ia les, •creativas,

•críticas,

•Otras s im i lares .

•F orm a to ítem es: O M , co ns tru id o , e tc .

•T ip o de co n texto d e recu pe rac ión :recue rd o lib re, gu iad o , recon oc im ien to

•T ip o y n atu ra lez a de ta reas: igu alac ió n , co ns tru cc ión n uevas variab les , d isc r i-

m inac ió n , gene ra l iz ac ió n , e tc .

• D ispo n ib il idad consu lta

• Tend en cia la ten te , crite r io s de do m in io , z o na desa rro llo p róx im o , pu n to s de co rte , no rm as , e tc .

M od e lo M ulticom po nen c ia l d e Med ic ió n de Resu ltad os de A prend iza je

Figura 2. Modelo Multicomponencial Resultados de Aprendizaje.

Arreglos diferenciales entre características específicas delexaminando, las de las tareas en las que se le evalúa y las de losrecursos utilizados en los reactivos nos permite entender cómo fueadquirido el conocimiento evaluado; cómo es que el examinandoatiende a aquella información relevante que en el reactivo estimula lasestructuras de conocimiento específicas, útiles para entender lo que

l Estrategias de Evaluación y Medición...264

se le está solicitando; cómo sé reinterpreta este conocimientoalmacenado para ajustarse a las demandas planteadas en lapregunta; cómo se genera la respuesta y cuáles mecanismospermiten elaborar una composición escrita de la respuesta completa.

A la luz de los planteamientos anteriores, el Modelo ha apoyado la

generación de una variedad importante de exámenes en diferentescampos. Entre otros, los exámenes de ingreso al Bachillerato y las

licenciaturas de la UNAM (López y Castañeda, 1996); el Examen

Nacional de Ingreso al Bachillerato (Hernández, Castañeda, Castro,

Smet, Zaragoza, Mendoza, López y Ramos, 1998); el examen general

de egreso de la licenciatura en Psicología (Castañeda, 1998) y el de

Pedagogía y Ciencias de la Educación (2000), así como unamultiplicidad de exámenes de contenido específico (matemáticas,

química, inglés, comprensión de textos, historia, física, biología,

etcétera) en diferentes niveles educativos.

Para la interpretación de los datos, el Modelo utiliza evaluación

sensible al progreso logrado por los estudiantes, evaluación referida al

criterio o centrada en el examinando. Evalúa el nivel de logroalcanzado por el sustentante en los conocimientos, las habilidades y

los valores asociados a una tarea determinada. El o los criterios son

establecidos y validados, previamente, por un número de especialistas

en los dominios de conocimiento que cubre el examen. Cada

sustentante es evaluado con relación al logro de esos criterios, de tal

manera que se pueda establecer, con claridad, el nivel que hayaalcanzado. La interpretación se establece con referencia a los

estándares de ejecución competente que representan los niveles

aceptados. Se evalúa la posición que logra el sustentante en el

continuo no-aprovechamiento a total aprovechamiento. Con esto, se

evitan sesgos indeseables, derivados de comparar al evaluado con un

grupo de referencia que no lo represente adecuadamente y segarantiza que tanto el individuo como su grupo hayan cumplido los

estándares de calidad definidos.

El modelo también tiene la capacidad de integrar la medición de

dos niveles de desarrollo: el actual y el potencial. El desarrollo actual

IX. Diagnostibilidad e Interpretabilidad... l 265

se refiere a aquellas ejecuciones que el examinando puede realizar de

manera independiente y que es el resultado de ciclos ya

completados. En cambio, el desarrollo potencial se refiere a ladistancia entre el nivel de desarrollo actual, determinada por la

capacidad del examinando para la solución independiente de

problemas y la solución de problemas bajo guía determinada por

compañeros más capaces o el mismo evaluador-profesor (Vygostki,

1978). No resultaría útil orientar el aprendizaje y la instrucción sólo a

evaluaciones que midan el desarrollo actual dado que sólo se lograríaconocer lo que el examinando ya sabe y sabe hacer.

En síntesis, el modelo recomienda medir:

l Si la base de conocimientos (símbolos, fórmulas, algoritmos,conceptos, principios y procedimientos) está organizada, esaccesible y es flexible (Evaluar el qué)

l Si el desarrollo de las habilidades relevantes para adquirir,transformar, recuperar y aplicar lo aprendido incrementan laprobabilidad de la solución correcta (Evaluar el cómo).

Tarea de seriación Ejemplo: nombres de presidentes en los últimos tres gobiernos Determinar si el orden es creciente o decreciente o de mayor a menor o viceversa Identificar cuál es el número de elementos a ordenar Establecer si un mismo lugar puede ser ocupado por dos o más miembros Establecer qué es lo que define la serie Ordenar la serie

l Si el autoconocimiento del funcionamiento cognitivo y el desarrollode habilidades autorregulatorias permiten al examinando hacerexplícitas y manipulables rutinas de aprendizaje para hacer losajustes necesarios. (Evaluar el aprendizaje con conciencia).

¿De qué se trata el problema? ¿Qué puedo decir de él? ¿Existe algo que puede ser eliminado o algo que haga falta? ¿Dónde podría encontrar la información que necesito? ¿Existe un patrón? ¿Cuáles serían sus partes?¿Qué pasaría si cambiara esta parte? ¿Trabajaría igual o mejor otro método?¿Podría explicar lo que sé hasta ahora? ¿Cómo explicaría este proceso a un niño pequeño?¿Es esta la única respuesta posible?

l Si la interfase afectivo-motivacional permite disparar, mantener ycontrolar la actividad y fomentar el progreso de la autoeficacia

l Estrategias de Evaluación y Medición...266

futura para conseguir un aprendizaje adaptable eficaz. (Evaluar elpara qué).

Determina los estilos afectivos-motivacionales de los estudiantes y la generación de estándares internos.

COMENTARIOS CONCLUYENTES

La calidad de los resultados de aprendizaje puede mejorarsesubstancialmente introduciendo en las prácticas educativas aquellamedición que permita identificar problemas y prescribir mejorías,mediante índices que reflejen aprendizajes de calidad.

La racional subyacente al modelo apoya al especialista aincrementar tanto la utilidad educativa de los exámenes, como a hacermás transparente la veracidad de las dimensiones molar y molecularque utiliza en sus diseños, apoyándolo a hacer más explícitos el qué,cómo, cuándo, hasta dónde y para qué se está midiendo. También, lepodrá servir para optimizar una rendición de cuentas veraz y el usomás instrumentable de los resultados obtenidos en los exámenes.

Es necesario ampliar la investigación sobre mecanismossignificativos del aprendizaje mediante la generación de índices útiles,a fin de analizar el impacto y extender la comprensión de factores queinfluyan en la utilización de los resultados, de manera tal que nosconduzcan a la aplicación directa de lo que ya haya sido probado ysea factible derivar tecnología útil a la medición de los resultados deaprendizaje en los escenarios educativos.

REFERENCIAS

Boekaerts, M. (1995). The interface between intelligence andpersonality as determinants of classroom learning, 161-183.En Donald H. Sakloske y Moshe Zeidner (Eds.) InternationalHandbook of Personality and Intelligence, New York: PlenumPress.

Castañeda, S. (1993). Procesos Cognitivos y Educación Médica.Serie Seminarios Institucionales de Medicina. UNAM.

IX. Diagnostibilidad e Interpretabilidad... l 267

Castañeda, S. (1998). General Examination for Students Ending

the Psychology Major in México. Conceptual Model and

Assessment Strategy. 24 Congreso Internacional de PsicologíaAplicada. Agosto 12, 1998. San Francisco. E.U.N.

Castañeda, S. (1998). Evaluación de resultados de aprendizaje en

escenarios educativos. Revista Sonorense de Psicología. 12(2).57- 67.

Castañeda, S. (en prensa). Explorando la utilidad de los análisis

clásico y Rasch en la determinación de la consistencia internade subpruebas cortas de homogeneidad alta. En A. Bazán y

A. Arce (Eds.) Estrategias de Evaluación y Medición del

Comportamiento en Psicología, México: ITSON - UADY.

Castañeda, S., Lugo, E., Pineda, L. y Romero, N. (1998).

Evaluación y fomento del desarrollo intelectual en la Enseñanza

de Ciencias, Artes y Técnicas: un estado del arte, 17-137.

En S. Castañeda (Ed.), Evaluación y fomento del desarrollo

intelectual en la enseñanza de ciencias, artes y técnicas en

el umbral del siglo XXI. Colección Problemas Educativos deMéxico. México: UNAM-CONACYT-PORRÚA.

Castañeda, S. (2000). Guía del Examen General de Egreso de la

licenciatura en Pedagogía y Ciencias de la Educación. México:CENEVAL. 1ª edición.

De Corte, E. y Weinert, F. E. (1996). Introduction. En E. de Corte

y F. E. Weinert (Eds.), International Encyclopedia ofDevelopmental and Instructional Psychology, xix-xxviii, Oxford,

Pergamon.

Flavell, J. (1979). Metacognition and cognitive monitoring: A new

area of cognitive-developmental inquiry. American Psychologist,

34, 906-911.

Glaser, R. (1981). Instructional Psychology: Past, present, and

future. Pedagogische Studien 58: 111-22.

l Estrategias de Evaluación y Medición...268

Glaser, R., Lesgold, A. y Lajoie, S. (1987). Toward a cognitivetheory for the measurement of achievement, 966-1031. En R.Ronning, J. Glover, J. C. Conoly, y J. Witt (Eds.), The influenceof cognitive psychology on testing and measurement, Hillsdale,NJ: Erlbaum.

Hernández, J., Castañeda, S., Castro, L., Smet, M., Zaragoza, T.,Mendoza, J., López, P. y Ramos, Ma. Teresa (1998). Modelosde Evaluación a gran escala en México, 583-616. En S.Castañeda (Ed.), Evaluación y fomento del desarrollointelectual en la enseñanza de ciencias, artes y técnicas enel umbral del siglo XXI, Colección Problemas Educativos deMéxico. México: UNAM-CONACYT-PORRÚA.

López, M. y Castañeda, S. (1996). Modelo de evaluación deldesempeño académico. En Castañón, R. R. (Ed). MemoriaTécnica del Proyecto Procedimiento de Evaluación para elIngreso al Bachillerato, pp. 41-56, México, UNAM.

Piaget, J. (1970). L' epistemologie genetique. Paris: PressesUniversitaires de France.

UNESCO (1990). Conferencia Mundial sobre Educación para Todos.Satisfacción de las Necesidades Básicas de Aprendizaje: Unavisión para el decenio de 1990. Nueva York.

Vygostki, L S. (1978). Mind in Society: The Development of HigherPsychological Processes. Harvard University Press. Cambridge,Massachusetts.

Wolf, A. (1995). Competence based assessment. Buckingham,Open University Press.

Capítulo 10

LA ESCALA DE SALUD DEL NIÑO,UN MÉTODO DE DETECCIÓN

PARA INSTITUCIONES DEPRIMER NIVEL EN SALUD

Alberto Terrones González, Angélica María Lechuga Quiñónez yJaime Salvador Moysen

Universidad Autónoma de Durango

En la actualidad, la atención en salud mental para los niñosdepende de los servicios especializados de salud mental y de cuánefectivamente los proveedores de atención primaria identifican, tratany refieren a niños con problemas emocionales, conductuales yadaptativos (Costello, 1986).

Son los servicios de medicina pediátrica en las instituciones deprimer nivel de atención a la salud, quienes hacen un primer contactoal problema psicológico del niño, por esto, Regier et.al (1978) se hanreferido a los pediatras como el "servicio de salud mental de facto" (p.685) para la mayoría de los niños que lo necesitan, lo que pone demanifiesto la necesidad de asistir a aquellos trabajadores de atenciónprimaria para el desarrollo de estrategias adecuadas en la deteccióntemprana, manejo y referencia de aquellos niños con problemaspsicosociales.

Los estudios epidemiológicos muestran una realidadincuestionable: los problemas psicológicos y psiquiátricos son unasde las principales causas de consulta en las instituciones de primernivel en salud. Además, los síntomas psicológicos acompañan a ungran número de trastornos médicos (e.g., los trastornossomatomorfos), causando malestar, sufrimiento e incapacidad,circunstancias éstas que afectan de manera fundamental tanto elpronóstico del paciente como su respuesta terapéutica.

Pensamos que la psiquiatría es una actividad médica cuyo marcode referencia es un concepto integral de la persona, en la que secontemplan sus aspectos tanto biológicos o físicos, como los

270 l Estrategias de Evaluación y Medición...

psicológicos y sociales. La detección de una psicopatología en unaconsulta en una institución de primer nivel en salud no nos parece unproblema banal y que pueda olvidarse, como ha sucedido hastafechas recientes, sino que en gran parte de los esfuerzos en otrospaíses se ha encauzado a proporcionar a los profesionales de lamedicina de base instrumentos de screening de trastornospsicológicos en sus pacientes vistos diariamente. Dichosinstrumentos deben ser sencillos y rápidos en su aplicación, estar asu alcance, basarse en criterios científicos y ser gratificantes, i.e.útiles, válidos y confiables.

Varios investigadores (Cubi y Bernardo, 1989; Lobo, 1987) handemostrado la alta prevalencia de trastornos psiquiatrico-psicológicosen pacientes de instituciones de medicina general y de especialidad(medicoquirúrgicos, oncológicos, medicina rural, endocrinológicos,ambulatorios, etc.). Se puede resumir acerca de estas revisionesafirmando que, aproximadamente, la mitad de los enfermos asistidospor médicos no psiquiatras presentaban diversos desordenesemocionales y adaptativos significativos. Los trastornos suelen sercasi siempre leves en medios ambulatorios, mientras que en loshospitalizados la gravedad es mayor. Además, las alteraciones de laesfera cognitiva son más frecuentes en los últimos y orientan haciauna mayor gravedad del problema orgánico.

Detección de trastornos psicológicos en niños

Diversos estudios de investigaciones han revelado que entre el 5 yel 15% de los niños y niñas en edad escolar presentan algún tipo detrastorno psiquiátrico o psicológico, pero sólo un pequeño porcentajede ellos son identificados por los dispositivos de atención primaria a lasalud (Giel et. al, 1988; Prieto, 1985; Schwartz-Gould & Wunsch-Hitzing, 1981; Verhulst, 1985; Costello, 1986). Además, cuando sonidentificados los trastornos en niños sólo el 50% de ellos sonderivados a los servicios especializados (Costello, 1989; Goldberg,1984; Jellinek y Murphy, 1988; Starfield, 1980).

En Latinoamérica, investigadores de Colombia y Brasilparticiparon en esfuerzos conjuntos, apoyados por la Organización

271X. La Escala de Salud del Niño... l

Mundial de la Salud (OMS) para desarrollar métodos de investigacióne instrumentos pertinentes para la detección, el diagnóstico y laclasificación de trastornos psiquiátricos en los servicios de atenciónprimaria a la salud, e.g., el Cuestionario de Autorreporte para Adultos(Self Reporting Questionnaire, SRQ) y el Cuestionario de Reporte paraNiños (Reporting Questionnaire for Children, RQC) (Harding, et. al,1983).

Por otra parte, otros investigadores latinoamericanos hancontribuido al desarrollo de instrumentos de detección, diagnóstico yregistro de trastornos mentales en atención primaria. En México,Medina-Mora, Padilla y Mas (1985) validaron y estandarizaron elCuestionario General de Salud, un instrumento de tamizaje depsicopatología en el adulto. En Nicaragua, Penayo (1989), Mezzich yCaldera (1991) y Caldera y Mezzich (1991) han reportado importantesavances en el desarrollo de estrategias de tamizaje y clasificación detrastornos mentales en los niveles de atención primaria a la salud.

Dos sistemas taxonómicos

Debido a que dentro de la investigación epidemiológica también sebusca la comparación de los resultados con estudios realizados enotras regiones, así como la comunicación de experiencias entrediferentes grupos de investigadores y clínicos, se hace necesario elempleo de un lenguaje común para definir los fenómenosinvestigados. En este sentido, parece ser una meta justificada elajustar los diferentes métodos de evaluación a criterios comunes dedefinición operativa. En los últimos años, dos sistemas taxonómicosde trastornos psiquiátricos han cobrado reconocimiento mundial porsus esfuerzos en incrementar la validez y confiabilidad de sus criteriosdefinitorios, éstos son: a) el sistema de diagnóstico de la AsociaciónPsiquiátrica Americana, contenido en el Manual Diagnóstico yEstadístico de los trastornos Mentales (American PsychiatricAssociation, 1987; y b) el sistema de clasificación internacional queforma parte de la Clasificación Internacional de Enfermedades (WorldHealth Organization, 1992).

Con la aparición reciente de estos dos sistemas taxonómicos se

272 l Estrategias de Evaluación y Medición...

ha dado un gran impulso dentro del incremento en la efectividad einterés en la detección y el diagnóstico de estos trastornos en laclínica de atención primaria. La correspondencia de estos sistemasdiagnósticos en niños y adolescentes han derivado a estudios deinvestigación para examinar síndromes dentro de etapas tempranasen el desarrollo (Gould et. al, 1993; Heerlain, 1993; Fristad et. al,1998; Jablensky, 1999).

Dos etapas parecen pertinentes para la investigaciónepidemiológica en el área de la salud mental: a) el establecimiento delas tasas de categorías o trastornos específicos; y b) el nivel dedisfunción de los sujetos afectados por estos trastornos. Ejemplos deescalas que investigan este primer aspecto lo constituyen lasescalas de Rutter (Rutter, Tizard y Whitmore, 1970, citado por Offord,1985). El Cuestionario de Reporte de Niños (Giel, et. al, 1981) y elInventario Psiquiátrico de Niños de Stony Brook (Stony Brook ChildPsychiatric Checklist) desarrollado por Dadow y Sprafkin en 1987(Grayson y Carlson, 1991). De éstos, sin embargo, únicamente elInventario Psiquiátrico de Niños de Stony Brook se ajusta a loscriterios diagnósticos de uno de los sistemas taxonómicos másmodernos. Por otro lado, el nivel de inadaptación psicosocial loinvestiga el Inventario Pediátrico de Síntomas (Pediatric SymptomChecklist, PSC), desarrollado por el grupo de Jellineck en 1988(Murphy et. al, 1992). Este inventario busca establecer niveles dedisfunción (puntos de corte) que permitan la identificación de sujetosdisfuncionales que deban ser objeto de una evaluación psicosocial másminuciosa (Murphy et. al, 1992). Una nueva segunda generación deentrevistas y constructos psicométricos en la evaluación a niños yadolescentes está siendo revisada para su aplicabilidad en eldiagnóstico y utilidad en centros de atención de primer nivel a la salud(Aguilar y Berganza, 1990; Bird et. al, 1991; Ezpeleta, et. al , 1997;Teare, et. al, 1998; Reich, 2000; Sherrill y Kovacs, 2000).

La necesidad de contar con instrumentos de tamizaje para ladetección oportuna de niños que pudieran desarrollar desórdenes y/opatologías de mayor severidad a nivel psicológico determinó el evaluar,dentro de un estudio inicial de pilotaje, la Escala de Salud del Niño(Berganza, et. al, 1991; Berganza et al, 1996) en la Ciudad de

273X. La Escala de Salud del Niño... l

Durango. El objetivo de esta fase inicial de evaluación fue el establecerun estudio comparativo de la Escala de Salud del Niño en tres gruposde niños escolares (Terrones et al 2001) con el realizado por Berganzaen la Ciudad de Guatemala, Centro América.

Material y métodos

Se utilizó la Escala de Salud del Niño para evaluar doce síntomasy signos observables de disfunción psicosocial en escolares. Estaescala se encuentra basada en su construcción de sistemastaxonómicos como el Manual Diagnóstico y estadístico de losTrastornos Mentales (DSM-IV) y de la décima revisión de laClasificación Internacional de Enfermedades (ICD-10).

Se trata de una escala de doce reactivos de exploración amplia

en diversos aspectos del funcionamiento conductual, emocional,

social y académico del niño, e incluye la percepción global del

adulto responsable del niño, o del que estando en contacto con el

niño, puede ofrecer información sobre él. Las doce áreas a evaluar

en esta escala son las siguientes:

1. Conductas problema

2. Hábitos

3. Depresión

4. Ansiedad

5. Problemas de desarrollo

6. Síntomas físicos

7. Pérdidas en el último año

8. Experiencia traumática en el último año

9. Problemas escolares

10. Problemas con familiares

11. Problemas con coetáneos

12. Impresión global del adulto

274 l Estrategias de Evaluación y Medición...

Sujetos

Se evaluaron tres grupos de niños en nivel de educación escolar alos que se les designó: a) Psicológico, b) Pediátrico y c) Escolar,respectivamente.

Grupo Psicológico: Estuvo constituido por 31 escolares de 6 a 11años de edad que fueron referidos a la Unidad de Salud Mental delHospital General de Durango por presentar diversos problemasadaptativos, conductuales y/o emocionales.

Grupo Pediátrico: Estuvo constituido por 33 escolares que asistíana la Unidad de Pediatría del Hospital General por presentar diversosproblemas biomédicos.

Grupo Escolar: Este grupo de 34 escolares estuvo constituido porniños de tres diferentes centros educativos de la Ciudad de Durango.

Los adultos responsables de cada niño respondieron loscuestionarios de forma autoaplicada y en ambientes diferentes,dependiendo del grupo al que pertenecían los niños. Por ejemplo, en elcaso del Grupo Psicológico, los cuestionarios fueron respondidos enlas instalaciones de la Unidad de Salud Mental, dentro de la ConsultaExterna del Hospital General de Durango. Los padres de los niños delGrupo Pediátrico contestaron los cuestionarios dentro de la Unidad dePediatría del Hospital General. Con respecto a la evaluación del GrupoEscolar, los padres de estos niños respondieron al cuestionario ensus casas, los cuales fueron enviados posteriormente a la Direcciónescolar de cada una de las escuelas.

Resultados

La muestra total (N = 96) estuvo representada por 39 escolaresdel sexo femenino (40.6%) y por 57 escolares del sexo masculino(59.4%). La media de edad en la totalidad de la muestra fue de ochoaños y con un nivel de escolaridad del segundo año de educaciónprimaria. Al realizar el estudio estadístico de Análisis de Varianzapara comparar la diferencia entre las medias de los tres grupos seobservaron diferencias significativas que no pueden expresarse porazar (F = 88.6; 2gl; p < 0.0001) (Gráfica 1).

275X. La Escala de Salud del Niño... l

0

2

4

6

8

10

12

14

16

18

Psicológico Pediátrico Escolar

Dentro de los resultados obtenidos en el Grupo Psicológico de losescolares que asistieron a la Unidad de Salud Mental del HospitalGeneral se observaron por el estudio intercorrelacional (Tabla 1)asociaciones positivas entre diferentes áreas evaluadas por esteconstructo. La confiabilidad interna de la Escala de Salud del Niño fueevaluada para la totalidad de los grupos, obteniéndose un coeficientede confiabilidad (alfa de Cronbach) de .91.

Discusión

Los desórdenes psiquiátricos en niños y adolescentes de losEstados Unidos se presentan en un rango que va del 14% al 20%(Cassidy y Jellineck; 1998). Esta situación determina en esta poblaciónen riesgo diversas causas de desadaptabilidad entre ellos, pero,solamente uno de cinco niños son detectados y reconocidos. Entre losproblemas psiquiátricos más comunes que se les presenta a lospediatras incluyen a los desordenes de ansiedad, trastornos porhiperactividad, depresión, abuso de substancias y trastornos deconducta.

Los resultados de este estudio piloto deben de tomarse concautela debido al bajo número de casos evaluados en los tres gruposde estudio. Basados en estos resultados, parece razonable elproponer que la Escala de Salud del Niño es un instrumento confiable

276 l Estrategias de Evaluación y Medición...

cuando menos para la población urbana psicológica, pediátrica yescolar para medir los niveles de disfunción psicosocial. Esta escalapuede ser un instrumento útil para aplicarse en poblaciones normalescon fines de tamizaje, y en poblaciones disfuncionales con el fin demonitorizar la efectividad de los tratamientos o de seguimiento engeneral.

Tabla 1. Intercorrelaciones de las áreas evaluadas en la Escala de Saluddel Niño (n=31; escolares con problemas psicosociales). Unidad deSalud Mental del Hospital General de Durango.

HAB DEP AMS DES SINT PERD TRAUM ESC FAM COET IMPR

COND .05 .36* .15 .17 .1 0 -.02 .3 .36 .19 .46**

HAB .19 .50*** .01 .64**** .22 .19 -.3 .04 .09 .23

DEP .28 .02 .3 -.24 -.26 .18 .53*** .13 .38*

AMS .21 .59*** .29 .1 -.06 .24 -.21 .17

DES -.14 .08 .27 .62**** .17 -.02 .08

SINT .24 .03 -.39 .03 .02 .08

PERD .42* .04 -.21 -.1 .29

TRAUM .19 -.11 -.05 0

ESC .35* -.06 -.14

FAM .2 .26

COET .53****

IMPR

* p<.04 ** p<.008 *** p<.003 **** p<.001

Los cuestionarios de screening en salud mental infantil permitenacercarse a la detección de posibles casos psiquiátricos en lainfancia. También, es recomendable y se requieren más estudiosepidemiológicos de seguimiento longitudinal de los trastornosdetectados en la infancia y adolescencia. Se sugiere que en lautilización de un registro acumulativo de casos psiquiátricos, aplicadoa la infancia y adolescencia, puede ser el instrumento adecuado parallevar a cabo este tipo de investigaciones.

277X. La Escala de Salud del Niño... l

REFERENCIAS

Aguilar, G. y Berganza, C.E. (1990). Validación de la Escala deDepresión para Niños y Adolescentes del Centro de EstudiosEpidemiológicos (CES-DC) para el diagnóstico de la depresiónen adolescentes guatemaltecos. Avances en Psicología ClínicaLatinoamericana, 8, 75-84.

American Psychiatric Association (1987). Diagnostic and statisticalmanual of mental disorders. Third edition, revised. Washington.

Berganza, C.E., Mezzich, J.E., Gaitán, Y., Aguilar, G. y CalderaT. (1991). Descripción psicopatológica infantil en atenciónprimaria: Desarrollo de un inventario de problemas del niño.Presentado en el Simposium sobre Clasificación Psiquiátricaen Atención Primaria. Congreso Regional de la AsociaciónMundial de Psiquiatría y XII Congreso de la Sociedad Mexicanade Psiquiatría. Acapulco, México.

Berganza, C.E., Cazali, L. y Gaitán, I. (1996). Validez de criteriode la Escala de Salud del Niño. Revista Latinoamericana dePsicología, 28(2), 317-339.

Bird, H.R., Gould, M.S., Rubio-Stipec, M., Staghezza, B.M. yCanino, G. (1991). Screening for childhood psychopathologyin the community using the Child Behavior Checklist. Journalof the American Academy of Child and Adolescent Psychiatry,30, 116-123.

Caldera, J.T. y Mezzich, J.E. (1991). Una validación preliminar dela Escala de Salud Personal. Presentado como parte delSimposium sobre Clasificación Psiquiátrica en AtenciónPrimaria. Congreso Regional de la Asociación Mundial dePsiquiatría y XII Congreso de la Sociedad Mexicana dePsiquiatría, Acapulco, México.

Cassidy, L.J. y Jellineck, M.S. (1998). Approaches to recognitionand management of childhood psychiatric disorders in pediatricprimary care. Pediatric Clinic of North America, 45(5), 1037-1052.

278 l Estrategias de Evaluación y Medición...

Costello, E.J. (1986). Primary care pediatrics and childpsychopathology: A review of diagnostic, treatment and referalpractices. Pediatrics, 78, 1044-1051.

Costello, E.J. (1989). Child psychiatric disorders and their correlates:A primary care pediatric sample. Journal of the Academy ofChild and Adolescent Psychiatry, 28(6), 851-855.

Cubí, R. y Bernardo, M. (1989). Los trastornos psicopatológicosen la atención primaria. Aspectos epidemiológicos. En CubíR, Bernardo M, eds. Detección de trastornos psicopatológicosen atención primaria. Barcelona: Knoll; 35-48.

Ezpeleta, L., de la Osa, N., Domenech, J.M., Navarro, J.B., Losilla,J.M., Judez, J. (1997). Diagnostic agreement between cliniciansand the Diagnostic Interview for Children and Adolescent--DICA-R-- in an outpatient sample. Journal of Child Psychology andPsychiatry, 38(4), 431-440.

Fristad, M.A., Cummins, J., Verducci, J.S., Teare, M., Weller, E.B.,Weller, R.A. (1998). Study IV: concurrent validity of the DSM-IV revised Children's Interview for Psychiatric Syndromes(ChIPS). Journal of Child and Adolescent Psychopharmacology,8(4); 227-236.

Giel, R., de Arango, M.V., Climent, C.E., Harding, T.W., Ibrahim,H.H.A., Ladrido-Ignacio, L. , Srinivasa-Murphy, R., Salazar,M.C., Wig, N.N. y Younis, Y.O.A. (1981). Childhood mentaldisorders in primary health care results of observations in fourdeveloping countries. Pediatrics, 68, 677-683.

Giel, R. et. al (1988). The detection of childhood mental disordersin primary care in some developing countries. En HendersonA.S., Burrows G.D. eds. Handbook of social psychiatry.Amsterdam: Elsevier.

Goldberg, I.D. et. al (1984). Mental health problems among childrenseen in pediatric practice: Prevalence and management.Pediatrics; 73(3), 189-196.

279X. La Escala de Salud del Niño... l

Gould, M.S., Bird, H., Jaramillo, B.S. (1993). Correspondencebetween statistically derived behavior problem syndromes andchild psychiatric diagnoses in a community sample. Journalof Abnormal Child Psychology; 21(3), 297-313.

Grayson, P. Y Carlson, G.A. (1991). The utility of a DSM-III Rbased checklist in screening child psychiatric patients. Journalof the American Academy of Child and Adolescent Psychiatry,30, 669-673.

Harding, T.W., Climent, C.E., Diap, M., Giel, R., Ibrahim, H.H.A.,Srinivasa-Murphy, R., Suleiman, M.A. y Wig, N.N. (1983). TheWHO collaborative study on strategies for extending mentalhealth care, II: The development of new research methods.The American Journal of Psychiatry, 112, 201-209.

Heerlain, A. (1993). ICD-10 and DSM IV: towards a confluence?.Acta Psiquiátrica y Psicológica de América Latina; 39(2), 49-53.

Jablensky, A. (1999). The nature of psychiatric classification: issuesbeyond ICD-10 and DSM-IV. Australia and New Zealand Journalof Psychiatry; 33(2), 137-144.

Jellinek, M.S. y Murphy, J.M. (1988). Screening for psychologicaldisorders in pediatrics practice. American Journal of Diseasesof Children, 142, 1153-1157.

Lobo, A. (1987). Screening de trastornos psíquicos en la prácticamédica. Zaragoza: Secretariado de Publicaciones.

Medina-Mora, M.E., Padilla, G.P., y Mas, C.C. (1985). Prevalenciade trastornos mentales y factores de riesgo en una poblaciónde práctica médica general. Acta Psiquiátrica y Psicológicade América Latina, 31, 53-61.

Mezzich, J. y Caldera, J.T. (1991). La Escala de Salud Personal:Un nuevo enfoque para la detección de problemas mentalesen servicios de atención primaria. Presentado ante el VCongreso Centroamericano de Psiquiatría, Guatemala,Guatemala.

280 l Estrategias de Evaluación y Medición...

Murphy, J.M., Reede, J., Jellineck, M.S. y bischop, S.J. (1992).Screening for psychosocial dysfunction in inner-city children:Further validation of the Pediatric Symptom Checklist. Journalof the American Academy of Child and Adolescent Psychiatry,31, 1105-1111.

Offord, D.R. (1985). Child psychiatric disorders: Prevalence andperspectives. Psychiatric Clinics of North America, 8, 637-652.

Penayo, V. (1989). Experiences of psychiatric outpatient teams inNicaragua: Mental health problems seen in a primary caresetting. Social Psychiatry and Epidemiology, 24, 151-155.

Prieto, A. (1985). Salud mental y atención primaria. Tesis deLicenciatura, Facultad de Medicina. Universidad de Salamanca.

Regier, D.A., Goldberg, I.D. y Taube, C.A. (1978). The de factomental health service system. Archives of General Psychiatry,25, 685-693.

Reich, W. (2000). Diagnostic interview for children and adolescent(DICA). Journal of the American Academy of Child andAdolescent Psychiatry, 39,(1), 59-66.

Schwartz-Gould, M. y Wunsch-Hitzig, M. (1981). Estimating theprevalence of childhood psychopathology: A critical review.Journal of the Academy of Child and Adolescent Psychiatry,28(5), 830-835.

Sherrill, J.T., Kovacs, M. (2000). Interview schedule for children andadolescents (ISCA). Journal of the Academy of Child andAdolescent Psychiatry, 39(1), 67-75.

Starfield, B. (1980). Psychosocial and psychosomatic diagnoses inprimary care of children. Pediatrics, 66(2), 159-167.

Teare, M., Fristad, M.A., Weller, E.B., Weller, R.A., Salmon, P.(1998). StudyI: development and criterion validity of theChildren's Interview for Psychiatric Syndromes (ChIPS). Journalof Child and Adolescent Psychopharmacology, 8(4), 205-211.

281X. La Escala de Salud del Niño... l

Terrones, G.A., Lechuga, Q.A.M. y Salvador, M.J. (2001). La Escalade Salud del Niño: Un método de detección para institucionesde primer nivel en salud. Trabajo presentado para el SimposiumEstrategias de Evaluación I del XXVII Congreso del ConsejoNacional para la Enseñanza e Investigación en Psicología(CNEIP). Memorias. Instituto Tecnológico de Sonora. CiudadObregón, Sonora; México.

Verhulst, F. (1985). Mental health in dutch children. Rotterdam:University of Rotterdam.

World Health Organization (1992). International statisticalclassification of diseases and related health problems. 10ªrevisión. Ginebra.

Capítulo 11

CONGRUENCIA DE LA ESTRUCTURAFACTORIAL DE ESCALAS PSICOLÓGICAS:

VALIDACIÓN VÍA ROTACIÓN PROCRUSTES.Álvaro J. Arce Ferrer.

Universidad Autónoma de Yucatán

El propósito de este Capítulo es, primero, presentar un análisisdel estado actual de los retos que enfrentan los métodos fundados enel análisis factorial para validar decisiones de generalización deconstructos psicológicos en múltiples poblaciones. El segundopropósito de este estudio es el de describir la aplicación de la rotaciónprocrustes para investigar la similitud del constructo de auto eficaciapara la elección de carrera.

Investigadores en psicología y educación frecuentemente estudianlas diferencias entre grupos (e.g., diferentes culturas, edades, sexo) apartir de los resultados de procesos de medición. Lo mismo enMéxico como en otros países existe una incidencia alta en el uso deinstrumentos de medición (e.g., encuestas, escalas de actitudes,tests) para investigar las diferencias entre grupos (Álvarez, Vázquez,Mancilla, Caballero, Santoncini, Raich, 2000; Díaz y Balderas, 2000;Ibarra, González y Reyes, 2000).

Mediante el análisis de las discrepancias y/o similitudes de lasmediciones efectuadas en contextos socioculturales diferentes y/ovariables demográficas de interés, el investigador procede a recolectarevidencias que apoyen la generalización de un constructo teórico. Porejemplo, Álvarez et al. (2000) compararon la sintomatología detrastornos alimentarios entre la población de control y la poblaciónclínica en México y en España. Carrillo, Cortés, Flores y Reyes(2000) estudió el efecto de la cultura en el perfil de masculinidad-feminidad en una muestra y las diferencias entre hombres y mujeres yen diferentes grupos de edades.

En este tipo de investigaciones, la necesidad es la de conocer enqué grado los integrantes de un grupo se asemejan o difieren respecto

de los integrantes en otros grupos en variables psicológicas deinterés. Las diferencias detectadas pueden ser indicativas de múltiplescausas, entre las cuales destacan las siguientes: (1) cambios en lanaturaleza del constructo, (2) diferencias en la manera como losgrupos interpretan el significado de las preguntas y (3) diferenciasindividuales en otras variables aleatorias (e.g., veracidad de larespuesta, estilos de respuestas). La fluctuación del significado de laspreguntas parece suceder con frecuencia como se encontró en elestudio del primer factor de la filosofía de vida (Díaz y Balderas, 2000).En este estudio la magnitud de los pesos factoriales de los reactivosy las contribuciones de los factores cambiaron entre grupos depersonas. Por ejemplo, el reactivo «quien no supo triunfar no supovivir» obtuvo pesos factoriales de 0.52 y 0.36 para las aplicaciones delaño 2000 y 19993, respectivamente.

Uno de los problemas a los que se enfrentan los investigadores enPsicología y Educación es el de estudiar procesos en los que lavariabilidad puede estar confundida con otras fuentes las cuales sonajenas al constructo de interés. Principalmente en los estudios entregrupos y/o sub-culturas, los investigadores han tratado de minimizarlos efectos de las diferencias en interpretación manteniendo constantea través de las versiones del instrumento de medición el formato de laspreguntas, las instrucciones y las opciones de respuesta. Más aún, seha tratado de buscar equivalencias lingüísticas mediante la traduccióny retraducción del instrumento de medida y el uso de instrumentosconstruidos con reactivos «émicos» y reactivos «éticos» (Arce,Cisneros y Castillo, 2001; Brislin, Lonner y Thorndike, 1973). Sinembargo, ninguna de estos procedimientos ha llegado a asegurar «aprima facie» la igualdad del significado de los reactivos entre losgrupos o culturas investigadas.

El establecimiento de la equivalencia de un constructo enmúltiples poblaciones requiere de un proceso secuencial degeneración de evidencias. Primero, se requiere demostrar laexistencia de una similitud factorial, la cual implica demostrar que lacovarianza entre los grupos puede ser modelada a partir de una únicaestructura del constructo (Jöreskog y Sörbom, 1993). Esta evidenciaes fundamental cuando se investiga la consistencia en el significado

285XI. Congruencia de la Estructura... l

de los reactivos en las poblaciones estudiadas.

Segundo, después de verificar la similitud del constructo a travésde los grupos, se procede a estudiar las discrepancias en losestimados de confiabilidad. En el contexto del análisis factorial, laevidencia es recolectada mediante el análisis de los componentesúnicos de las variables en sus respectivas poblaciones (Drasgow,1984; Drasgow & Kanfer, 1985). Note que este análisis es posible si ysólo si el constructo posee el mismo significado en las poblaciones.Finalmente, para el establecimiento de la equivalencia total se requieredemostrar la consistencia en la varianza y la covarianza de losconstructos. La Tabla 1 describe los grados de similitud en lasmediciones en estudios con múltiples grupos.

Tabla 1. Grados de similitud en las mediciones con grupos múltiples.

GRADO CLASE DE SIMILITUD HIPÓTESIS (a) SIGNIFICADO

I Equivalencia factorial

H0: Cuando existe, el investigadorpuede estar seguro de que elsignificado de los reactivos esel mismo entre los grupos.

II Equivalencia del error

H0: De existir, se observaríanniveles comparables deconfiabilidad de losinstrumentos en los grupos.

IIIEquivalencia de la

varianza de las variables latentes

H0: Cuando existe, el investigadorpuede proceder a comparar lascorrelaciones entre lasvariables latentes en los gruposestudiados.

)2()1( Λ=Λ

)2()1(δδ θθ =

)2()1( Φ=Φ

(a) Las hipótesis están planteadas en términos del modelo de Jöreskog y Sörbom

(1993).

Desde la teoría del análisis factorial exploratorio y confirmatorio sehan derivado varios métodos para investigar la equivalencia de un

constructo en grupos múltiples. Investigadores en psicología y

educación han utilizado el análisis factorial exploratorio para estudiar

la posible presencia de un comportamiento invariante en los reactivos

(Van der Vijver & Harveld, 1994). Un procedimiento común consiste

en llevar a cabo un análisis exploratorio con los datos de una muestra

286 l Estrategia de Evaluación y Medición...

para luego evaluar cualitativamente la similitud con una estructura

conocida u obtenida en una segunda muestra.

Desde la perspectiva confirmatoria, la equivalencia puede ser

investigada para establecer niveles de similitud entre los grupos (VeaTabla 1). Por ejemplo, evidencias de Nivel «I» se han investigado

evaluando la significancia estadística de las diferencias en las cargas

factoriales de los reactivos en los grupos (Janssens, Brett & Smith,

1995). Otros han examinado los índices de modificación e

interpretado valores grandes de éstos como indicativos de varianza en

el significado de los reactivos entre los grupos (Reise, Widamann &Pugh, 1993; Riordan & Vandenberg, 1994).

El uso del análisis factorial exploratorio para investigar el grado de

similitud de constructos en múltiples grupos no se encuentra libre de

críticas. Entre las más citadas se encuentran las siguientes:

- La prueba de la chi-cuadrada para la selección del número de

factores con frecuencia produce una sobre extracción del númerode éstos (Gorsuch, 1983).

- La práctica de comparar las matrices con rotación varimax

obtenidas de análisis independientes provee nula evidencia de la

consistencia cuando un número diferente de factores es

encontrado en cada grupo.

- Si bien la extracción de factores pudiera estar guiada con teoría, la

rotación de los mismos no lo está (Livneh & Livneh, 1989).Soluciones que lucen bastante diferente pueden deberse a

diferencias pequeñas en las covarianzas de las variables

observadas (McCrae & Costa, 1989).

Por su parte, el análisis factorial confirmatorio tampoco seencuentra exento de limitaciones. Entre las limitaciones másfrecuentes se encuentran las siguientes:

- Los índices estadísticos consistentemente rechazan modelos queson empíricamente reproducibles y aceptan modelos que no lo son(McCrae, Zonderman, Costa, Bond & Paunonen, 1996).

287XI. Congruencia de la Estructura... l

- Con bastante frecuencia se investiga la hipótesis de estructurasimple. Es decir, las variables son vistas como cargando en unsólo factor y sus cargas en los otros factores son fijadas a un valorde cero. En datos reales, sin embargo, las variables presentancargas secundarias mayores que cero. No obstante, cuando seinvestiga la estructura simple se asume que las cargassecundarias fluctúan como una variable aleatoria con media iguala cero. Si bien es posible fijar cargas secundarias diferentes acero; es difícil justificar la elección de un valor particular para dichatarea (Church & Burke, 1994).

- El uso de los índices de bondad de ajuste basados en la chicuadrada es controversial (Bentler y Bonett, 1980; Hu, Bentler &Kano, 1992; Marsh, Balla & McDonald, 1988). El estadísticodepende del tamaño de la muestra de tal forma que modelospueden ser rechazados si el tamaño de la muestra fuese losuficientemente grande. Si bien existen métodos alternativos parajuzgar la bondad de ajuste, su interpretación no es del todo claray carecen de pruebas de significancia estadística.

- La especificación de la métrica crea dilemas. Para propósitos deidentificación del modelo se requiere asumir de manera a priori lainvarianza de las variables marcadoras del constructo o bien laestandarización del constructo (i.e., varianza 1). Sin embargo,esto es precisamente lo que se desea conocer.

Dada las limitaciones observadas en las modalidadesexploratorias y confirmatorias, la rotación procrustes se ve como unmétodo promisorio. En esta modalidad, los datos que sonexaminados son rotados para lograr un ajuste máximo con unaestructura predeterminada (Digman, 1967; Schönemann, 1966).Conceptualmente, este procedimiento se localiza en un puntointermedio entre los análisis exploratorio y confirmatorio.

En una forma abreviada el procedimiento para investigar lasimilitud factorial mediante la rotación procrustes está compuesto portres etapas (Chan, Ho, Leung, Chan y Yung, 1999; McCrae et al.,1996). Primero, la estructura factorial obtenida en una de laspoblaciones se rota ortogonalmente para conformar una estructura

288 l Estrategia de Evaluación y Medición...

factorial predeterminada (e.g., la estructura "blanco"). El algoritmopropuesto por Schönemann (1966) ha sido utilizado para conducir larotación (McCrae et. al., 1996).

Segundo, se calcula los coeficientes de congruencia paraexaminar el grado de similitud entre la estructura "blanco" y laestructura rotada. McCrae et al. (1996) han propuesto las Ecuaciones1 y 2 para estimar el coeficiente de congruencia entre variables y lacongruencia total, respectivamente.

∑∑

==

=

βλ

βλ=

k

jij

k

jij

k

jijij

ir

1

2

1

2

1

(Ecuación1)

∑∑∑∑

∑∑

= == =

= =

βλ

βλ=

k

j

p

iij

k

j

p

iij

k

j

p

iijij

r

1 1

2

1 1

2

1 1

(Ecuación 2)

Donde:i es el subíndice para denotar una variablej es el subíndice para denotar un factorp representa el total de variablesk representa el total de factoresr

i representa la congruencia para la variable i

r representa la congruencia total

Tercero, se evalúa la significancia estadística de los índicesobtenidos en la etapa anterior. Se han propuesto dos procedimientosal respecto (Chan, et al., 1999). El primero requiere de laconstrucción de una distribución empírica para cada estimador debidoa que los coeficientes no poseen distribuciones de muestreoconocidas. Este procedimiento se conoce en la literatura como elmétodo de las permutaciones y ha sido utilizado en diversos estudios(Paunonen, Jackson, Trzebinski y Forsterling, 1992).

En esencia, el segundo procedimiento es similar al anterior encuanto a suplir la falta de información en cuanto a la distribución

289XI. Congruencia de la Estructura... l

empírica de los estimadores. La diferencia con respecto alprocedimiento anterior se encuentra en el uso de heurísticos derivadosde investigaciones previas. La Tabla 2 contiene información de labondad de ajuste esperada para cada medida de congruenciabasándose en estudios previos (McCrae, et al., 1996; Barrett, 1986;Mulaik, 1972; Kaiser, Hunka y Bianchini, 1971)

Tabla 2. Heurísticos para la interpretación de los coeficientes de similitudestructural.

TIPO DE SIMILITUD

DESCRIPCIÓN MAGNITUD

Coeficiente de congruencia para factores

Pone a prueba la congruenciaentre factores. Utiliza la suma deproductos cruzados de las cargasfactoriales normalizadas encolumnas.

Coeficientes con magnitudesmayores o iguales a 0.90 sonnecesarios para establecercongruencia entre los factores.

Coeficiente de congruencia para los reactivos

Pone a prueba la congruenciaentre las cargas factoriales de lasvariables individuales. Utiliza lasuma de productos cruzados delas cargas factorialesnormalizadas en filas.

Coeficientes con magnitudesmayores o iguales a 0.86 sonnecesarios para establecercongruencia para los reactivos.

Coeficiente de congruencia para toda la estructura

Pone a prueba la congruenciaentre los resultados de dosanálisis factoriales. Utiliza lasuma de productos cruzados detodos los elementos normalizadosde las matrices.

Coeficientes con magnitudesmayores o iguales a 0.42 sontípicamente necesarios paraestablecer reproducción de unamatriz factorial a partir de otra.

METODO

PARTICIPANTES

Se consideró una muestra con 247 estudiantes de preparatoriacuyas edades oscilaban entre 16 y 18 años. El 66% es femenino y elrestante 37% masculino. Los estudiantes fueron seleccionados conbase en el promedio de preparatoria y su interés por seguir unacarrera relacionada con la docencia.

290 l Estrategia de Evaluación y Medición...

Instrumento

Se construyó una escala para medir la autoeficacia hacia laenseñanza (Bandura, 1986; Hackett y Betz, 1995). La escala constade 44 reactivos que miden cuatro áreas: (1) autoevaluación, (2) deseode ser maestro, (3) autopercepción como maestro y (4) conocimientode lo que hace un maestro. Cada reactivo posee una escala tipoLikert con seis puntos que denotan varios grados de acuerdo. LaTabla 3 contiene información del número de reactivos en cada una delas dimensiones del constructo. También incluye un ejemplo dereactivo en cada dimensión.

Tabla 3. Áreas, identificación del reactivo en la escala y ejemplos dereactivos.

ÁREA REACTIVOS EJEMPLO

Evaluación de sí mismo

2, 3, 4, 5, 6, 11, 33, 34, 35, 42, 43, 44

Comparado con otros de mi edad, mi rendimiento académico es aceptable.

Deseo de ser maestro 1, 7, 8, 9, 10, 12, 13, 27, 29 Me gustaría ser maestro.

Percepción de sí mismo como maestro

14, 15, 16, 17, 19, 30, 31, 32, 37, 38, 39, 40

De ser maestro motivaría a mis estudiantes.

Conocimiento de lo que hace un maestro

18, 20, 21, 22, 23, 24, 25, 26, 28, 36, 41

Los maestros contribuyen al desarrollo de sus alumnos.

Los estudios preliminares de la escala de autoeficacia produjeron

valores estimados de confiabilidad entre 0.89 y 0.93 con el coeficiente

alfa de Cronbach y 0.85 cuando se estimó con el método de prueba y

posprueba con un mes de espera (Yarbrough, Siddens, Chun, Arce-

Ferrer & Kerney, 1998).

PROCEDIMIENTO

Para conocer la similitud de la estructura factorial del constructo

de autoeficacia, la escala fue administrada en dos ocasiones con un

intervalo de 4 semanas. El análisis de la similitud en la estructura

291XI. Congruencia de la Estructura... l

factorial se llevó a cabo con el método de Procrustes (Digman, 1967;

Korth y Tucker, 1976; McCrae et al. 1996; Schönemann, 1966).

El procedimiento propuesto por McCrae et al. (1996) fue seguido

en cada una de las etapas siguientes:

(1) Las dos estructuras factoriales de la escala, para las mediciones

previas y posteriores, se obtuvieron independientemente mediante

sendos análisis factoriales exploratorios utilizando el método de

máxima verosimilitud. La rotación procrustes desarrollada por

Schönemann (1966), se utilizó para aproximar la estructura

identificada en las mediciones previas a la estructura identificada

en las mediciones posteriores (i.e., «blanco»).

(2) Se calculó los coeficientes de congruencia para los factores, los

reactivos y para la estructura total. Se utilizaron las ecuaciones

proporcionadas por McCrae et al. (1996).

(3) Se evaluó la significancia estadística de los coeficientes mediante

los heurísticos descritos en la Tabla 2.

Las etapas 1 y 2 del procedimiento se llevaron a cabo con el

procedimiento FACTOR y con el Lenguaje Matricial Iterativo (IML) del

SAS, respectivamente (SAS Institute, 1989).

RESULTADOS

Del análisis de la matriz de correlaciones calculada a partir de lasmediciones previas, se observó que estas correlaciones varían entre -0.28134 y 0.75957. Los valores típicos de las correlaciones selocalizaron alrededor de 0.30 y 0.40. Para la matriz de correlacionescalculada a partir de las mediciones posteriores, se observó quevariaban entre 0.32933 y 0.8594. La mayor concentración de loscoeficientes de correlación estuvo entre 0.30 y 0.40.

Las estructuras factoriales para las mediciones previas yposteriores se estimaron mediante el algoritmo de máximaverosimilitud con estimados iniciales de las comunalidades iguales a

292 l Estrategia de Evaluación y Medición...

los estimados de las correlaciones múltiples de los reactivos. De laestructura factorial de las mediciones previas se observó que el factor1 se correlaciona positivamente con cada una de las 44 variables.También se observó que en los factores 2, 3, 4, aproximadamente el60% de las variables cargaron negativamente. Resultados similaresse observaron para las mediciones posteriores.

En la Tabla 4 se observa que para las mediciones previas, loscuatro autovalores (“eigen values”) de la matriz de varianza-covarianzaexplican el 43.24 de la varianza.

Tabla 4. Varianza explicada por cada factor de la estructura factorial paramediciones previas y posteriores al tratamiento.

GRUPOFACTOR

1FACTOR

2FACTOR

3FACTOR

4SUMA RMS

Previa 22.17 12.07 5.28 3.69 43.24 0.049

Posterior 20.59 9.00 6.73 3.59 40.73 0.052

Los primeros tres factores explican más del 85% de la varianzaexplicada por todos los factores. La raíz cuadrada de la media decuadrados de los residuos (RMS) fuera de la diagonal principal esigual a 0.049, lo cual indica que el modelo con cuatro factorescomunes recrea la matriz observada de varianza-covarianza de unamanera aceptable. Asimismo, puede verse que para las medicionesposteriores, los cuatro factores explican el 40.73% de la varianza. Laraíz cuadrada de la media de cuadrados de los residuos (RMS) fuerade la diagonal principal es igual a 0.0521, lo cual indica un gradoaceptable de ajuste del modelo con cinco factores.

Una segunda información que merece ser analizada es ladistribución de los valores finales de las comunalidades. Ladistribución de frecuencias y las variables para cada categoría y grupose presentan en la Tabla 5. Para objetos de simplificación, lascomunalidades fueron agrupadas en cuatro categorías (1.00 - 0.75,0.74 - 0.50, 0.49 - 0.25 y 0.24 - 0.00).

293XI. Congruencia de la Estructura... l

Tabla 5. Distribución de frecuencias de las estimaciones de lascomunalidades finales para mediciones previas y posteriores altratamiento.

GRUPO CATEGORÍA FRECUENCIA REACTIVO

1.0 - 0.75 2 1, 9

0.74 - 0.50 12 2, 3, 4, 5, 6, 8, 14, 22, 27, 30, 34, 35

0.49 - 0.25 28 7, 10, 11, 12, 13, 15, 16, 17, 18, 19, 20, 21, 23, 24, 25, 26, 28, 29, 31, 33, 36, 37, 38, 39, 40, 42

0.24 - 0.00 1 43, 4441

1.0 - 0.75 2 1, 9

0.74 - 0.50 9 5, 6, 8, 14, 16, 22, 24,0.49 - 0.25

0.24 - 0.00

29

4

30, 34,2, 3, 4, 7, 10, 11, 12, 13, 15,17, 18, 19, 20, 21, 23, 26, 27, 28, 29, 31, 33, 35, 36, 37, 39, 40, 41, 42, 4325, 32, 38, 44

Previa

Posterior

Como se muestra en la Tabla 5, el rango de las comunalidadesentre 0.49 y 0.25 incluye más del 65% de las comunalidades. Lapresencia de una tasa alta de comunalidades con valores bajos indicaque tanto los aspectos únicos como los errores aleatorios en lasvariables son relativamente altos.

De la Tabla 5 se puede observar la presencia de un patrón en lascomunalidades de las mediciones previas y posteriores. Para ambosgrupos de datos, la mayor parte de las variables se distribuyen en losmismos intervalos. Por ejemplo, para las mediciones previas yposteriores, 23 reactivos obtuvieron comunalidades en el rango 0.49 -0.25. Es relevante recalcar que las cargas factoriales de éstos en lasmediciones previas no son necesariamente idénticas a aquellas de la

294 l Estrategia de Evaluación y Medición...

posprueba. Esto es, es posible que el reactivo «j» tenga una cargafactorial diferente en la administración previa y en la posterior.También es posible, aunque no deseable, que el reactivo «j» cargue enel factor 1 de la medición previa y en el factor 2 de la mediciónposterior.

Con la finalidad de comparar la similitud entre las dos estructurasfactoriales, se calcularon los coeficientes de congruencia para losfactores, los reactivos y toda la estructura. La Tabla 6 y la Tabla 7resumen los resultados de los coeficientes de similitud para losfactores y para la estructura total y para los reactivos,respectivamente.

Como puede observarse en la Tabla 6, y tomando enconsideración los valores críticos que puede alcanzar el coeficiente desimilitud, la estructura factorial total del instrumento puede serreproducible en cualquiera de los dos grupos. Sin embargo, elanálisis de los coeficientes de similitud indican que dos de los cuatrofactores son reproducibles. De la misma tabla se observa que existeevidencia que apoya la generalización de los factores 1 y 2 a través delas dos ocasiones. Desafortunadamente, lo anterior no puede serdicho para los restantes factores.

Tabla 6. Coeficientes de similitud para los factores y para la estructura.

FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4 TOTAL

0.97 0.97 0.86 0.76 0.90

Con respecto a los coeficientes de similitud para los reactivos, lascargas factoriales de 32 de los 44 reactivos resultaron similares en losdos grupos. Sin embargo, los restantes 12 reactivos presentaroncargas factoriales significativamente diferentes en cada grupo. La Tabla7 resume los resultados de la rotación procrustes.

En la Tabla 7 las cargas factoriales iguales o mayores que 0.40están resaltadas. Para la dimensión de evaluación de sí mismo, delos doce reactivos incluidos en la escala, ocho reactivos presentancoeficientes de congruencias mayores a los observados por simpleazar. Es importante resaltar que de estos ocho reactivos, el 60%

295XI. Congruencia de la Estructura... l

(n=6) cargaron significativamente en su respectivo factor. Por su parte,de los cuatro reactivos que presentaron congruencias no mayores alas observadas por azar, uno cargó en su respectivo factor, dosdefinieron otros factores y el restante no definió ninguno de los cuatrofactores.

Para la dimensión que describe el deseo de ser maestro, de losnueve reactivos siete presentaron congruencias significativas. Deéstos, tres reactivos definieron a la mencionada dimensión y losrestantes a dimensiones ajenas. De los dos reactivos que presentaroncongruencias no significativas, uno definió su respectivo factor y elrestante se encontró definiendo otro factor.

Para las restantes dos dimensiones, percepción de sí mismo yconocimiento, el comportamiento de los reactivos fue bastanteirregular. Este resultado es congruente con la falta de significanciaobservada para estas dos dimensiones.

DISCUSIÓN

El creciente uso de software comercial para resolver sistemas deecuaciones que imponen restricciones (e.g., EQS, LISREL, COSAN,AMOS) ha despertado la necesidad de investigar el comportamientode constructos en diversas ocasiones o en diversos grupos y conducirpruebas de significancia estadística de los resultados. Previos aestos desarrollos estadísticos, la similitud de un constructo a travésde ocasiones y/o grupos se exploraba de manera cualitativa mediantela estimación de la confiabilidad de las puntuaciones, el cálculo de lapuntuación en la escala por cada grupo de interés y el contraste demedias de puntuaciones observadas. El resultado de esteprocedimiento no está exento de crítica. Por ejemplo, Cheung yRensvold (1998) reconocen que las diferencias significativas quepudiesen resultar del contraste de medias son ambiguas. Esimposible llegara a establecer el origen de las diferencias. Es decir, nose puede establecer si las diferencias son el resultado de aspectossubstantivos al constructo estudiado o se deben a factores externoscomo la interpretación que se le da a los reactivos de las escalas.

296 l Estrategia de Evaluación y Medición...

Tabla 7. Índices de congruencia al nivel de variable obtenidos de larotación procrustes entre la estructura factorial blanco y la estructurafactorial réplica.

FACTORESVARIABLES

EVAL. DESEO AUTOPER. CONOC. CONGRU. SIGNIF.

Eval_1. 0.68 0.39 0.01 -0.12 0.98 **Eval_2. 0.14 0.17 0.39 0.45 0.75Eval_3. 0.27 0.43 0.42 -0.11 0.97 **Eval_4. 0.54 0.38 -0.06 0.35 0.97 **Eval_5. 0.77 0.14 0.03 0.06 0.99 **Eval_6. 0.56 0.29 -0.07 -0.19 0.94 *Eval_7. -0.01 0.23 0.46 0.17 0.97 **Eval_8. 0.71 -0.02 0.18 -0.19 0.96 **Eval_9. 0.68 -0.01 0.15 0.01 0.99 **Eval_10. 0.43 -0.13 -0.01 0.35 0.71Eval_11. -0.20 0.32 0.33 -0.45 0.80Eval_12. 0.02 0.35 0.37 0.00 0.92 *Deseo_1. 0.18 0.85 0.13 0.25 0.99 **Deseo_2. 0.11 0.50 -0.02 0.17 0.82Deseo_3. 0.01 0.78 0.19 0.14 0.98 **Deseo_4. 0.00 0.86 0.21 0.17 0.99 **Deseo_5. 0.55 0.33 -0.11 0.15 0.98 **Deseo_6. 0.42 0.14 0.28 0.32 0.95 **Deseo_7. 0.12 0.37 0.49 0.22 0.99 **Deseo_8. 0.04 0.33 0.54 0.34 0.96 **Deseo_9. 0.15 0.15 0.32 0.37 0.80Autoper_1. 0.03 0.37 0.59 0.27 0.99 **Autoper_2. -0.05 0.22 0.61 0.15 0.99 **Autoper_3. 0.15 0.31 0.48 0.17 0.96 **Autoper_4. -0.05 0.11 0.55 0.20 0.95 **Autoper_5. 0.00 0.17 0.46 0.34 0.79Autoper_6. 0.63 -0.08 0.05 0.28 0.87 *Autoper_7. 0.07 0.27 0.36 0.10 0.91 *Autoper_8. 0.24 0.00 0.19 0.15 0.90 *Autoper_9. 0.05 0.08 0.39 0.30 0.88 *Autoper_10. -0.04 0.41 0.01 0.38 0.41Autoper_11. 0.54 -0.04 0.14 -0.22 0.87 *Autoper_12. 0.06 0.52 0.04 0.23 0.62Conoc_1. 0.07 0.38 0.29 0.28 0.93 *Conoc_2. -0.06 0.29 0.37 0.47 0.93 *Conoc_3. 0.17 0.27 0.37 0.39 0.98 **Conoc_4. 0.55 -0.09 0.21 0.26 0.81Conoc_5. -0.02 0.26 0.48 0.24 0.69Conoc_6. 0.52 0.00 0.33 0.34 0.97 **Conoc_7. 0.02 0.34 0.23 0.14 0.79Conoc_8. 0.43 0.03 0.43 0.25 0.96 **Conoc_9. 0.25 0.22 0.46 0.30 0.94 *Conoc_10. 0.55 -0.35 0.21 -0.09 0.97 **Conoc_11. 0.37 -0.10 0.07 0.29 0.82

* Congruencia mayor que el 95% de rotaciones con datos aleatorios.** Congruencia mayor que el 99% de rotaciones con datos aleatorios.

297XI. Congruencia de la Estructura... l

Los resultados de este estudio permiten entender la complejidadinherente en la validación de constructos en psicología y educación.Los métodos para el estudio de la congruencia factorial basados en elanálisis factorial tanto en su modalidad exploratoria como confirmatoriapresentan dificultades teóricas (Cheung & Rensvold, 1998). El métododenominado «Procrustes» ha sido utilizado parea investigar lainvarianza de constructos en estudios de la personalidad. Porejemplo, McCrae et al. (1996) lo utilizaron para validar la estructura decinco factores de la personalidad en el inventario de personalidaddenominado NEO (i.e., «Revised Neo Personality Inventory»)

Los resultados del presente estudio indicaron que dos de loscuatro factores fueron reproducibles entre las dos ocasiones en lasque se administró la escala. Además, se encontró queaproximadamente dos tercios de los reactivos presentaroncoeficientes de congruencia mayores a los obtenidos por el simpleazar. Sin embargo un análisis posterior indicó que menos de la mitadde los reactivos se encontraban definiendo sus respectivasdimensiones tanto en la primera como en la segunda administraciónde la escala.

Los hallazgos anteriores presentan ciertas implicaciones para lainvestigación en Psicología y Educación. Como parte de laexperimentación, los investigadores en psicología y educación cuentancon un repertorio de diseños. En su concepción más simple, elexperimento consta de tres etapas: (1) administrar una prueba previaal tratamiento (de aquí en adelante se referirá como pre prueba), (2)administrar el tratamiento y (3) administrar la misma prueba o unaequivalente después del tratamiento (de aquí en adelante se referirácomo pos prueba). Diseños más elaborados contemplanadministraciones posteriores del mismo instrumento o equivalentespara estimar la latencia de los efectos del tratamiento.

Tradicionalmente en los estudios experimentales que involucran eluso de pre prueba y pos prueba, el tratamiento se diseña para movera un grupo de un punto a otro en el continuo de la conducta amodificar. Bajo esta perspectiva, el investigador se enfoca a la tareade estudiar el efecto del tratamiento a través del cambio en las

298 l Estrategia de Evaluación y Medición...

medias de las mediciones mediante un encuadre teórico en el que seasume la estabilidad del constructo a través de las mediciones.Típicamente, la invarianza tiene que ser establecida de antemano sise desea establecer comparaciones que tengan significado (Chan etal., 1999; Harman, 1976; Mulaik, 1972).

A continuación se definen los siguientes términos para explicaralgunas de las consecuencias debidas a la falta de congruencia en laestructura de un constructo psicológico medido por los instrumentosen la pre prueba y en la pos prueba. Sea [ ]ijaA = una matriz quetiene p filas y k columnas; donde p representa el número de reactivosdel instrumento de medición y k el número de dimensiones quedelimitan al constructo psicológico medido por el instrumento. Porejemplo, para un instrumento, digamos con 9 reactivos construidospara medir tres dimensiones de un constructo psicológico, [ ]ijaA =estará definida por una matriz con 9 filas y tres columnas. Loselementos de A, es decir, [ ]ija indica la contribución de cada uno delos reactivos a la definición de cada dimensión. Por ejemplo,supóngase, que los reactivos 1,2 y 3 fueron construidos para medir unaspecto del atributo psicológico, los reactivos 4,5 y 6 para medir otroaspecto del atributo psicológico y finalmente los reactivos 7, 8 y 9para medir el tercer aspecto del atributo psicológico:

−−−−−−

−−−−−−−−−−−−

=

93

83

73

62

52

42

31

21

11

a

a

a

a

a

a

a

a

a

A

Obsérvese que el significado de cada atributo está dado a partir dela naturaleza de los reactivos que definen dicho atributo. Por ejemplo,el atributo 1 significará lo que signifiquen los reactivos 1, 2 y 3.

El supuesto de que la estructura factorial del instrumento es

299XI. Congruencia de la Estructura... l

invariante implica que la estructura definida en [ ]ijaA = permaneceráconstante tanto en el pre prueba como en la pos prueba. Es decir,

[ ]ijpospre aAA ==

El supuesto de que la estructura factorial del instrumento varíaimplica que la estructura definida en [ ]ijaA = diferirá si lasmediciones provienen de la pre prueba o de la pos prueba. Esdecir,

pospre AA ≠Una estructura factorial variante tiene implicaciones en el

significado de los atributos que se deriven a partir de las puntuacionesobservadas en el instrumento. Por ejemplo, si se supone que laestructura factorial varió entre la pre prueba y la pos prueba de lamanera siguiente.

−−−−−−

−−−−−−−−−−−−

=

93

83

73

62

52

42

31

21

11

a

a

a

a

a

a

a

a

a

Apre

−−−−−−

−−−−−−−−−−−−

=

93

83

73

61

51

41

32

22

12

a

a

a

a

a

a

a

a

a

Apos

En la pre prueba, el atributo 1 (i.e., columna 1) está definido porlos reactivos 1, 2 y 3; mientras que para la pos prueba dichos reactivosahora definen al atributo 2 (i.e., columna 2). Se puede observar quepara la pos prueba, el significado del atributo 2 ya no se define a partirde los reactivos 4, 5 y 6, sino a partir de los reactivos 1, 2 y 3.Cuando el investigador compare las medias para el atributo 1 entre lapre prueba y la pos prueba, pudiera estar equivocadamenteinterpretando dicha diferencia en términos del estado inicial y final delgrupo con respecto al atributo 1. La diferencia, desde luegorepresenta una diferencia entre el estado inicial del atributo 1 y elestado final del atributo 2. Esta diferencia, no obstante cuantificable,carece de significado y contradice la naturaleza del experimento.

300 l Estrategia de Evaluación y Medición...

Una segunda implicación de falta de congruencia factorial de uninstrumento de medición psicológica se encuentra en el grado degeneralización del concepto psicológico. La ciencia tiene como unode sus principales fines la creación de teorías que puedan sergeneralizables más allá de las unidades experimentales, losinstrumentos, los tratamientos y los contextos. Encontrar que elconcepto psicológico y su significado varía entre los resultados de lapre prueba y los de la pos prueba contradicen el ideal de la ciencia.

Una tercera implicación de la falta de congruencia factorial de un

constructo se relaciona con el aspecto práctico de informar acerca de

las propiedades psicométricas del instrumento de medición. De

encontrarse variabilidad en las estructuras factoriales, el investigador

tiene que decidir entre informar una de ellas o ambas. La pregunta

sería ¿cuál?

Los resultados del presente estudio podrían tener algunas

implicaciones como las siguientes:

1. Estudiar los efectos potenciales que los tratamientos podrían tener

en la estructura factorial de instrumentos de medición psicológica

podría proveer de un mejor entendimiento de la estabilidad de los

atributos medidos por éstos. Esto es, dado que típicamente en undiseño experimental los mismos individuos son medidos con el

mismo instrumento en dos puntos del tiempo diferentes, el

análisis de la invarianza factorial provee información acerca de los

efectos de los errores de muestreo y errores de medición que se

asocian con la estructura factorial del instrumento.

2. Mejorar la interpretación de los resultados derivados de la

investigación experimental en la que se utilicen diseños con preprueba y pos prueba. Por ejemplo, en los casos en que se

corroborara la congruencia entre estructuras factoriales, esto

permitiría generalizar el significado del atributo estudiado.

3. Contribuir al debate acerca de la naturaleza de la congruencia

factorial de instrumentos de medición psicológica cuando el

mismo grupo de unidades experimentales toma el mismoinstrumento previo y posterior al tratamiento. El estudio de la

301XI. Congruencia de la Estructura... l

congruencia se ha centrado en el estudio de grupos intactos (e.g.,

hombres y mujeres) (McCrae et al., 1996; Chan, Ho, Leung,

Chan, y Yung, 1999). En la literatura no se ha reportado estudiosen los que se analicen la congruencia factorial de instrumentos de

medición psicológica cuando éstos son utilizados como parte de

un diseño experimental.

REFERENCIAS

Álvarez Rayón, G., Vázquez Arévalo, R., Mancilla Díaz, J., CaballeroRomo, A., Santoncini, C., y Raich, Escursell, R. (2000).Sintomatología en jóvenes con trastorno alimentario: Estudiotranscultural México-España. La Psicología Social en México.Vol. VIII, 582-589.

Arce Ferrer, A., Cisneros Chacón, E. & Castillo Cocom, J. (2001).Standardized assessment in Mexico: Issues on interpretationand use of assessment results. Paper presented at DivisionD of the American Educational Research Association. Seattle,Washington.

Bandura, A. (1986). Social foundations of thought and action.Englewood Cliff, NJ: Prentice Hall.

Barrett, P. (1986). Factor comparison: An examination of threemethods. Personality and Individual Differences, 7, 327-340.

Bentler, P. & Bonett, D. (1980). Significance tests of goodness offit in the analysis of covariance structures. PsychologicalBulletin, 88, 588-606.

Brislin, R., Lonner, W., y Thorndike, R. (1973). Cross-culturalresearch methods. New York: John Wiley & Sons.

Carrillo Trujillo, C., Cortés Ayala, L., Flores Galaz y Reyes Lagunes,I. (2000). La Psicología Social en México. Vol. VIII, 114-120.

Chan, W., Ho, R., Leung, K., Chan, D., & Yung, Y. (1999). Analternative method for evaluating congruence coefficient withprocrustes rotation: A bootstrap procedure. PsychologicalMethods. December 1999, Vol. 4, N. 4.

302 l Estrategia de Evaluación y Medición...

Cheung, G., & Rensvold, R. (1998). Testing factorial invarianceacross groups: A reconceptualization and proposed newmethod. Journal of Management, 48, 434-445.

Church, A. & Burke, P. (1994). Exploratory and confirmatorytests of the Big Five and Tellegen’s three- and four-dimensionalmodels. Journal of Personality and Social Psychology, 66,93-114.

Diaz, Guerrero, R. y Balderas, González, A. (2000). Amor versuspoder, el nuevo primer factor de la filosofía de vida. LaPsicología Social en México. Vol. VIII, 134-142.

Digman, J. (1967). The procrustes class of factor-analytictransformations. Multivariate Behavioral Research, 2, 89-94.

Drasgow, F. (1984). Scrutinizing psychological tests: Measurementequivalence and equivalence relations with external variablesare the central issues. Psychological Bulletin, 95, 134-135.

Drasgow, F., & Kanfer, R. (1985). Equivalence of psychologicalmeasurement in heterogeneous populations. Journal of AppliedPsychology, 70, 662-680.

Gorsuch, R. (1983). Factor analysis. Hillsdale, NJ:Earlbaum.

Hackett, G., & Betz, N. (1995). Self-efficacy and career choiceand development. En J. E. Maddux (Editor), Self-efficacy,adaptation, and adjustment. Theory, research, and application(pp. 249-279). New York:Plenum Press.

Harman, H. (1976). Modern factor analysis (3rd ed.). Chicago, IL:The University Press.

Hu, L., Bentler, P. & Kano, Y. (1992). Can test statistics incovariance structure analysis be trusted? PsychologicalBulletin, 112, 351-362.

Ibarra Sagasta, P., González Lomelí, D. y Reyes Lagunes, I. (2000).Análisis confirmatorio de masculinidad y feminidad. LaPsicología Social en México. Vol. VIII, 173-177.

303XI. Congruencia de la Estructura... l

Janssens, M., Brett, J., & Smith, F. (1995). Confirmatory corss-cultural research: Testing the viability of a corporation-widesafety policy. Academy of Management Journal, 38, 364-382.

Jöreskog, K. & Sörbom, D. (1993). LISREL 8: Structural equationmodeling with the SIMPLIS command language. Hillsdale,NJ: Erlbaum.

Kaiser, H., Hunka, S. & Bianchini, J. (1971). Relating factorsbetween studies based upon different individuals. MultivariateBehavioral Research, 6, 409-422.

Korth, B., & Tucker, L. (1976). Procrustes matching by congruencycoefficients. Psychometrika, Vol. 41, (4).

Livneh, H. & Livneh, C. (1989). The five-factor model of personality:Is evidence of its cross-measure validity premature?Personality and Individual Differences, 10, 75-80.

Marsh, H., Balla, J., & McDonald, R. (1988). Goodness-of-fitindexes in confirmatory factor analysis: The effect of samplesize. Psychological Bulletin, 103, 391-410.

McCrae, R., Zonderman, A., Costa, P., Bond, M., & Paunonen, S.(1996) Evaluating replicability of factors in the revised NEOPersonality Inventory: Confirmatory factor analysis versusProcrustes Rotation. Journal of Personality and SocialPsychology, Vol. 70, No. 3, 552-566.

McCrae, R., & Costa, P. (1989). The structure of intepersonaltraits: Wiggins’ circumplex and the five-factor model. Journalof Personality and Social Psychology, 56, 430-446.

Mullaik, S. (1972). The foundations of factor analysis. New York:McGraw-Hill.

Paunonen, S., Jackson, D., Trzebinski, J., y Forsterling, F. (1992).Personality structure across cultures: A multimethod evaluation.Journal of Personality and Social Psychology, 62, 447-456.

Reise, S., Widaman, K., & Pugh, R. (1993). Confirmatory factoranalysis and item response theory: Two approaches toexploring measurement invariance. Psychological Bulletin, 114,552-566.

304 l Estrategia de Evaluación y Medición...

Riordan, C., & Vandenberg, R. (1994). A central question in cross-cultural research: Do employees of different cultures interpretwork-related measures in an equivalent manner? Journal ofManagement, 20, 643-671.

SAS Institute, Inc. (1989). SAS/IML software: Usage and reference,Version 6. Cary, NC:Author.

Schönemann, P. (1966). A generalized solution of the orthogonalprocrustes problem. Psychometrika, 31, 1-10.

Van de Vijver, F. & Harsveld, M. (1994). The incompleteequivalence of the paper and pencil and computerized versionof the General Aptitud test Battery. Journal of AppliedPsychology, 79, 852-859.

Yarbrough, D., Siddens, S., Arce-Ferrer, A., Chun, B. & Kerney, J.(1998). Evaluation results of a nine-site national program torecruit precollege minority students for teaching careers.Annual Meeting of the American Educational ResearchAssociation. San Diego, California.

CAPÍTULO 12

PRUEBA DE APTITUDES Y COMPETENCIASPARA EL APRENDIZAJE ESCOLAR EN EL

NIVEL DE EDUCACIÓN SUPERIOR (PACES)1 .Carlos Ibáñez Bernal

Universidad Autónoma de Chihuahua.

El proceso de selección de aspirantes para ingresar a laeducación superior en nuestro país se ha venido basandolamentablemente en la enorme diversidad de criterios y métodos quecreemos ha provocado el descuido de la práctica psicológica sobreesta problemática. Los sistemas de diagnóstico para admisión deaspirantes que se utilizan en la mayoría de nuestras institucionesconsisten de "exámenes de conocimientos" elaborados ad hoc, quedifícilmente cumplen con los mínimos requisitos que deben tener losinstrumentos para ofrecer una valoración justa, válida y confiable delos atributos conductuales adoptados como criterio para considerarcomo "apto" a un aspirante. En el caso particular de la UniversidadAutónoma de Chihuahua, al indagar con el personal encargado deaplicar los procedimientos de admisión sobre cuáles son las basesteóricas o metodológicas en las que se sustentan los métodos oinstrumentos de diagnóstico o selección que utilizan, no existerespuesta alguna o se hace referencia a una práctica habitual deoscuros orígenes.

Hoy en día son pocas las universidades mexicanas que se hanpreocupado por este difícil problema que aparentemente es sólo decarácter técnico, pero también lo es de naturaleza científica,metodológica y moral, además de ser un problema común a cualquierinstitución de educación superior que enfrente sobredemanda de susservicios. La Universidad Autónoma de Baja California (UABC), de

1 Este trabajo fue publicado bajo el título "El diagnóstico de aptitudes funcionalesy competencias para el aprendizaje escolar", en A. Bazán (Comp.), AportesConceptuales y Metodológicos en Psicología Aplicada, Sonora: ITSON, 1999.Se reproduce en este libro por tratar un caso de suma importancia para laevaluación del comportamiento; la selección de aspirantes para la educaciónsuperior.

306 l Estrategias de Evaluación y Medición...

manera ejemplar ha venido desarrollando desde 1991 el Examen deHabilidades y Conocimientos Básicos (EXHCOBA) que contempla lavaloración del aspirante en habilidades, es decir, "las relaciones con ellenguaje (lectura y escritura) y con el razonamiento matemático (ocuantitativo)" y conocimientos básicos, es decir, aquello que "permitela comprensión de otros conocimientos, y sobre los cuales se basa elconocimiento en una disciplina... los conocimientos básicos dan unaorganización conceptual, estructural y global a un área deconocimientos en particular" (Backoff y Tirado, 1992: 101). Esteexamen fue posteriormente computarizado y validado en 1994(Backoff, Ibarra y Rosas, 1995a; 1995b), resultando el procedimientoconocido como Sistema Computarizado de Exámenes (SICODEX), elque se aplica desde entonces para la valoración y selección deaspirantes a ingresar a esa universidad, y que también ha sidorequerido por otras instituciones como alternativa a sus propiosmétodos de selección. Tan fuerte ha sido la influencia del EXCHOBAen la cultura de la evaluación diagnóstica que el Centro Nacional deEvaluaciones, A. C., conocido como CENEVAL, adoptó susfundamentos para crear el Examen Nacional Indicativo previo a laLicenciatura (EXANI-II), el cual se ofrece a las instituciones deeducación superior como una alternativa más profesional a sus propiosmétodos de diagnóstico.

Sin embargo, y sin afán de hacer una crítica que menosprecie lostan loables esfuerzos por tomar control de los procesos educativosque requieren por lo menos de una base científica para llevarse a cabo-como se ha hecho en la UABC-, aún pensamos que losprocedimientos de diagnóstico con fines de selección de aspirantes,por más tecnificados que se hayan logrado hasta ahora, requierentodavía de mayor fundamento teórico y metodológico para lograr unestándar y un impacto ético apropiado. Decimos esto con base en lassiguientes observaciones:

1. El EXHCOBA, en voz de sus propios autores (Backoff y Tirado,1992: 100), se generó a partir del análisis de "la estructuraconceptual y la lógica de los exámenes de admisiónestadounidenses más importantes y utilizados en las instituciones

307XII. Sistema Computarizado de ... l

educativas de ese país: El General Educational Development(DGE), el Scholastic Aptitud Test (SAT) y el Graduate RecordExamination (GRE)". Este punto deja un enorme vacío técnico,teórico y metodológico precisamente en aspectos fundamentalesde los procedimientos de evaluación.

2. Por otra parte, creemos que el SICODEX aprovecha sólo lasmínimas oportunidades que brinda la aplicación computarizada deun sistema de admisión, puesto que se restringe a lapresentación del examen, introducción de datos y suprocesamiento; sin aprovechar al máximo las posibilidades quebrindan los sistemas computacionales para la simulación desituaciones conductuales típicas, de invaluable interés para lainvestigación psicológica y pedagógica.

3. En ocasiones, en las que prevalece cierto desinterés sobre losfundamentos e implicaciones de los procedimientos dediagnóstico, selección y admisión de aspirantes a la educaciónsuperior, el problema se ha resuelto mediante la contratación deagencias externas a la institución, como el CENEVAL, e inclusoextranjeras como el College Board, las que se restringenúnicamente a aplicar sus instrumentos y reportar resultados,ignorándose en la mayoría de los casos los fundamentos ypropósitos, los procedimientos de estandarización, validación, odel propio análisis y calificación de los desempeños de losaspirantes.

Pensamos que un sistema de diagnóstico, para que cumpla

verdaderamente con los requisitos idóneos a fin de lograr una

evaluación justa, válida y fiable, debe generarse desde un principio de

la reflexión profunda sobre sus bases, objetivos, métodos e impactomoral, así como de una investigación cuidadosa de sus factores y

parámetros. Éste ha sido el propósito fundamental para desarrollar un

original sistema de diagnóstico de aptitudes funcionales y

competencias para el aprendizaje escolar en el nivel de la Educación

Superior, con miras a diagnosticar y/o seleccionar a los aspirantes a

las carreras donde ocurre sobredemanda de los servicios que presta lainstitución.

308 l Estrategias de Evaluación y Medición...

I. CONSIDERACIONES PRELIMINARES SOBRE ELDIAGNÓSTICO PSICOPEDAGÓGICO DE LOS ASPIRANTES A LAEDUCACIÓN SUPERIOR CON FINES DE SELECCIÓN.

Es un hecho que si no se presentara la sobredemanda -o unalimitada oferta- de los servicios de educación superior en algunas delas carreras, el problema de seccionar aspirantes no existiría. En estoscasos la institución selecciona y admite sólo a un númeropredeterminado de aspirantes que, bajo determinados criterios -los queciertamente son debatibles-, se consideran como los alumnos másidóneos o viables.

En las instancias en las que la selección no es aplicable, aún sepresenta la necesidad de realizar diagnósticos, aunque sus finesobedecerán a propósitos más académicos y menos de carácteradministrativo. En esta propuesta nos enfocaremos al desarrollo de unsistema de diagnóstico con fines explícitos de selección, por ser ésteel caso que más nos preocupa por razones del impacto moral quesignifica la exclusión de personas con potencialidades desconocidascomo profesionales. Por lo demás, se puede decir que los mismosmétodos de diagnóstico que resulten de esta reflexión y estudio seríanaplicables en su totalidad al caso alterno de propósitos más"académicos".

En esta sección analizaremos y discutiremos algunos hechos ycreencias sobre el diagnóstico psicopedagógico que nos lleven aproponer algunos criterios esenciales que deberá cumplir nuestrapropuesta. Primeramente intentaremos caracterizar al aspirante entérminos del perfil de competencias y aptitudes que el sistemamexicano busca como producto terminal de la educación oficial; estonos dará una idea de los enfoques y acentos que el sistema oficialcoloca sobre el desarrollo de determinadas competencias y aptitudesen el estudiante y que de alguna forma el aspirante a la educaciónsuperior puede exhibir ante un examen psicopedagógico. En segundolugar, examinaremos el objetivo central de una evaluación diagnósticacon fines de selección, de tal manera de ir definiendo los elementos ocaracterísticas que tomará en cuenta nuestro sistema acerca deldesempeño -bajo condiciones de prueba- que deberá presentar el

309XII. Sistema Computarizado de ... l

aspirante. Por último, analizaremos y plantearemos el procedimientoque nos parece más idóneo para la determinación de los criterios deselección, a la luz de la tecnología actualmente disponible.

A. El perfil del aspirante a la educación superior.

Con el afán de tener una idea sintética del aspirante a la educaciónsuperior que ha cursado los distintos niveles mencionados, podríamosdecir que se trata de un individuo socializado -es decir que haadquirido los patrones mínimos de conducta que le permiten convivircon los demás- gracias a la formación recibida durante el nivel deeducación inicial y preescolar. También se trata de un ser capaz debrindarse a sí mismo los cuidados más elementales para sobrevivir enla comunidad, debido a la importancia que se da en el nivel preescolarpara que logre su relativa autonomía. En primaria y secundaria, elindividuo entra en contacto con los lenguajes en general -español,matemáticas, ciencias, etc.- los que le hacen posible trascender elaquí y ahora al permitirle hablar de lo aparente, pero también entrar almundo de lo no-aparente, del pasado, y lo posible. Por último, elbachillerato intenta concretar una visión del individuo como persona enrelación concreta con el mundo social y sus distintas dimensiones: elde la técnica, la ciencia y las humanidades. Sin embargo, lacapacitación centrada en los aspectos particulares que hemosmencionado para cada uno de los niveles se encuentra enmarcadapor un denominador común: el énfasis que el sistema educativo engeneral pone en el desarrollo de habilidades y competencias dellenguaje, al que parece dársele la categoría de ser único instrumentoposible de expresión, comunicación, contacto con la realidad, perosobretodo como única vía de aprendizaje. El lenguaje ordinario oreferencial aparentemente subyace a cualquier metodología para laenseñanza de cualquier disciplina, por lo que convendría reflexionarsobre su verdadera y real importancia en la educación de todos losniveles.

B. Objetivos de un sistema de diagnóstico con fines deselección de aspirantes.

El desarrollo de un sistema de diagnóstico con fines de selecciónrequiere de una profunda reflexión sobre sus objetivos, de tal manera

310 l Estrategias de Evaluación y Medición...

que podamos definir criterios que cumplan lógica y empíricamente sufunción.

Todo mundo estará de acuerdo en que un sistema diagnóstico confines selectivos busca en primera instancia la detección de individuoscapaces. Sin embargo, también sabemos que existen múltiplesformas de "ser capaces" y, ante la enorme diversidad que se nospresenta, no es de extrañarnos que surja la duda y el desacuerdo; poresto mismo creemos que es imprescindible darse a la tarea dereflexionar con la determinación de llegar a una respuesta clara,imparcial y pertinente al problema que nos ocupa.

Intentaremos a continuación dar algunas pautas:

1. La evaluación diagnóstica y sus diferentes modalidadesmetodológicas.

¿A quién debe preferir una institución de educación superior paraque forme parte de su estudiantado en aquellas carreras que existeuna sobredemanda de aspirantes? Para responder a esta cuestión,podemos primeramente señalar distintas formas de hablar sobre eldesempeño de un individuo que están dadas esencialmente por elpropósito explícito o implícito que se tiene al obtener determinadosdatos sobre su desempeño.

Desde una perspectiva metodológica se puede decir que la tareade diagnosticar a un aspirante se puede hacer preguntándose sobresus capacidades de dos maneras distintas: como productos de unproceso histórico, o como posibilidad de ser según las tendencias quehayan seguido los procesos que las conforman.

La primera aproximación, que llamaremos descriptiva, se haría lapregunta: ¿Qué es capaz de hacer, decir o pensar este aspirante? Enesta aproximación el interés del evaluador se enfoca a detectaraquellas características del desempeño que el aspirante puedamanifestar actualmente, como producto de su formación educativahasta ahora. Para ello es necesario diseñar un instrumento en el queel aspirante manifieste qué sabe hacer, decir o pensar. A manera decomentario, queremos señalar que la respuesta metodológica a estamodalidad diagnóstica se conoce actualmente en el mundo de las

311XII. Sistema Computarizado de ... l

evaluaciones como prueba de aprovechamiento (achievement test),examen de "conocimientos", "destrezas" o "habilidades".

La segunda forma de diagnosticar al aspirante, que llamaremospredictiva, se interesa por caracterizar los procesos que han llegado aconformar determinadas capacidades, de tal forma de intentar conocerlas posibles capacidades del aspirante en un futuro. Bajo estaaproximación se preguntaría: ¿Qué puede ser capaz de hacer, decir opensar este aspirante? Para responderla, se requiere de uninstrumento que detecte cómo sabe hacer, decir o pensar lo que dice,sabe o piensa el aspirante bajo diagnóstico. Como manifestaciónmetodológica a estos cuestionamientos se han desarrollado algunaspruebas(1) de "competencia" o de "aptitud" (aptitud test).

Como puede advertirse, descripción y predicción no son la mismacosa. No es lo mismo aventurarse a conocer el futuro (predecir) quedeterminar las características actuales del producto de un procesohistórico (describir). En virtud de ello, es ineludible determinarprimeramente qué es lo que se desea que un sistema de admisiónpara la universidad detecte en un aspirante: (a) sus capacidadesactuales, lo que hasta ahora ha aprendido; o (b) lo que puede sercapaz de aprender como estudiante y lograr como profesional.

En función de lo expuesto hasta ahora, nos atreveremos a decirque un sistema ideal de diagnóstico con fines de selección debepermitirnos saber si un aspirante tiene más posibilidades que otro delograr mejores estándares académicos y profesionales; dicho en otraspalabras, queremos que a través de un sistema diagnóstico se puedapredecir el "éxito" escolar y profesional de un aspirante. Es obvio quelo dicho implica la toma de una postura a favor de la aproximaciónpredictiva del diagnóstico de aspirantes, y por ello queremos ser másexplícitos en nuestra opinión desfavorable a la opción descriptiva, laque creemos adolece de varios problemas de tipo lógico y práctico.Señalaremos brevemente algunos de ellos:

En primer lugar, el diagnóstico de conocimientos hasta ahoraadquiridos resulta ser excesivamente redundante si se toma en cuentaque los aspirantes provienen de un sistema de educación oficial quepor lo menos formalmente garantiza el dominio de ciertas

312 l Estrategias de Evaluación y Medición...

competencias (información o contenidos básicos), necesarias para serefectivos en el nivel de educación superior, así como de ciertasaptitudes (modos o niveles funcionales), bajo las cuales se organizanlas competencias antedichas. También el aspirante ha adquiridodeterminadas actitudes hacia el entorno ambiental, la sociedad yhacia sí mismo. El sistema de educación oficial, decimos, "garantiza"dicha formación en virtud de los métodos y prácticas de evaluaciónque se establecen a lo largo de su trayecto. El sistema extiendecertificados de los niveles educativos cursados en los que seespecifica que el individuo ha sido aprobado por cumplir con loscriterios u objetivos del nivel educativo, es decir, ha adquirido lascompetencias y actitudes deseables. Dado lo anterior, esincongruente que la institución de educación superior, y en general decualquier nivel educativo, exija al estudiante someterse a un examende competencias específicas (conocimientos) que debió haberadquirido en el nivel próximo anterior, salvo que se dudeexplícitamente de los procedimientos de evaluación del sistema oficialo se desconozca en qué medida el sistema oficial forma en lascompetencias que el nivel requiere como repertorio inicial en susestudiantes. En todo caso a la educación superior debe interesarleconocer cuáles son los conocimientos que se supone que elestudiante ya posee por el simple hecho de haber cubierto los nivelesde educación previos (lo que quisimos nosotros hacer en el apartadosobre el perfil del aspirante), de tal forma que las deficienciasdetectadas -quizás a través de un examen de conocimientos- seanatendidas mediante un programa formulado específicamente paraatacar esas lagunas, pero esto no justifica su empleo como un criteriode admisión.

Asimismo, resulta demasiado pretensioso el que en un examende conocimientos -desarrollado por una institución de educaciónsuperior en busca de objetivos diferentes a la valoración de nivelesescolares previos- que ha de resolver un aspirante en un tiempomáximo de 4 horas, se pueda obtener un índice válido y confiable delos conocimientos que ha adquirido a lo largo de aproximadamente 15años de escolaridad.

Por otra parte, la aplicación de un examen para valorar el grado en

313XII. Sistema Computarizado de ... l

que un estudiante posee ciertos conocimientos para ser admitido a uncierto nivel educativo obedece claramente a una postura educativa -fuertemente criticada desde el siglo pasado- que considera al alumnocomo receptor pasivo de información, y su aprendizaje como"adquisición" de conocimientos, por lo que naturalmente su evaluaciónconsiste en conocer cuánta de esa información es capaz de recordarel alumno. Es la educación memorística, informativa -opuesta a laformativa-, dogmática y heteroestructurada. En muchos tratados depedagogía y discursos de política educativa, se presenta estatendencia educativa -arraigada fuertemente en nuestro naturaltradicionalismo y costumbres- como un enemigo a vencer a través deuna visión formativa, interactiva y crítica de las prácticas educativas.

Además de las anteriores consideraciones, es necesario examinara la luz de los resultados reales de la aplicación de los exámenes deconocimientos y habilidades como procedimiento de admisión, lafuncionalidad que éstos tienen en verdad, sobretodo cuando no existeseguimiento, ni se procede a la validación de estos instrumentos. Escomún escuchar que las calificaciones globales que se obtienen enestos exámenes son trágicas, pues sólo un mínimo porcentaje de losaspirantes que lo presentan obtienen calificaciones aprobatorias ymenores al "siete" de calificación. Además de que esto es un malsíntoma -no necesariamente de que los estudiantes estén malpreparados, sino que el propio instrumento de medida está sin lugar adudas mal diseñado, el proceso de admisión resulta contradictorio. Sedice que sólo se admitirán alumnos que aprueben el examen deconocimientos, pero quizás por el deficiente diseño técnico de losexámenes, se tiene que admitir a aspirantes que de hecho obtuvieroncalificaciones reprobatorias (menores al 5 convencional). La preguntaobligada ante esto sería: ¿Está cumpliendo el examen deconocimientos con la función que se supone debe cumplir comocriterio de selección?

El argumento más importante, pues se fundamenta en la razónmisma de tener un sistema de diagnóstico con fines de selección, esque la aplicación de un examen de conocimientos, por suscaracterísticas metodológicas, está necesariamente enfocado aevaluar los aprendizajes adquiridos hasta ahora; no nos informa

314 l Estrategias de Evaluación y Medición...

directamente de los procesos de los cuales esos conocimientos sonresultado. En consecuencia, no nos permite cumplir con el propósitode diagnosticar a un aspirante para predecir sus posibilidades de éxitocomo escolar o profesional, que es la meta más importante a lograrcon un sistema con fines de selección.

Después de argumentar lo anterior, resultará evidente que unsistema ideal de diagnóstico con fines de selección debe enfocarse ala obtención de datos con los que podamos predecir el éxitoeducacional y profesional de un aspirante.

En este punto es importante describir lo que aquí entendemos por"éxito" educacional y profesional, por tratarse de un concepto centralen torno al cual giran los objetivos y propuestas metodológicas de esteproyecto.

2. La noción de "éxito" educacional y profesional

Según Cole (1990), son dos las principales concepciones de logroeducacional (educational achievement, en el original): el logro dehabilidades básicas y hechos (manejo de información, lectura,escritura, realización de operaciones aritméticas, etc.) en oposición ala noción de logro de habilidades superiores y conocimiento avanzado(pensamiento crítico, comprensión, solución de problemas, etc.). Dicela autora que estas concepciones son las que han tenido impacto enlos tópicos que abordan los investigadores, las maneras como losmaestros piensan acerca de sus actividades de enseñanza, y el puntode vista del público sobre las metas que debe alcanzar la educación.No obstante el dominio público de estas nociones, la autora en suartículo argumenta que estos modos de concebir el logro escolar soninadecuados dada la importancia real que tienen en los ámbitosmencionados. Para ella sería de enorme trascendencia contar con unpunto de vista que fuera capaz de integrar estas concepcionesdivergentes acerca del logro, que además generara implicacionesinstruccionales claras y que adicionalmente posibilitara un mayorapego hacia las metas educativas de largo plazo.

Las observaciones que hace Cole sobre la noción de logroeducacional son acertadas evidentemente, sin embargo la autora no

315XII. Sistema Computarizado de ... l

ofrece ninguna propuesta concreta para satisfacer las necesidades

conceptuales que ella misma ha detectado.

Desde nuestra particular perspectiva, lo que es indispensable para

llenar el vacío conceptual sobre la noción de logro educativo es elvínculo que este juicio debe tener con un Modelo Teórico de Niveles de

Aptitud Funcional emanado de la investigación científica en psicología

(Ribes, 1981; Ribes 1990; Ribes y López, 1985). Creemos que este

modelo de aptitudes, que categoriza jerárquicamente cinco distintos

modos de organización de los desempeños individuales -los que

presentaremos más adelante-, presta las bases suficientes como paraconseguir la requerida integración de concepciones de logro educativo

aparentemente divergentes, a la vez que sirve como fuente de

lineamientos metodológicos y operacionales (Ibáñez, 1994). Así

entonces, para nosotros el éxito escolar se entenderá con referencia

a los logros deseables que un estudiante o un profesional alcanza, o

puede alcanzar, a través de su desempeño ante diferentes situacionesproblema, cualificado con fundamento en una jerarquía de niveles de

aptitud funcional.

Sabemos que el concepto aún no se ha esclarecido del todo; se

requiere ciertamente elucidar los criterios de "deseabilidad" de un logro

y describir los niveles de aptitud funcional de los que se ha hablado, lo

cual iremos haciendo en el desarrollo del presente documento. Bastepor ahora decir que el éxito escolar, como aquí se entiende, hace más

bien referencia al tipo de competencia o capacidad que desarrolla el

aspirante para la solución de problemas de distinta índole, por lo que

las calificaciones que los estudiantes pudieran obtener en sus cursos

durante la carrera no constituyen índices claros del tipo de capacidad

adquirida. Más aún, las calificaciones obtenidas en los cursosacadémicos no integran, empíricamente hablando, indicadores

importantes del éxito educativo o profesional, según investigaciones

realizadas desde los años cincuenta y principios de los sesenta

(Lavin, 1965).

3. Factores psicológicos de los que depende el éxito educacional.

Siguiendo los anteriores razonamientos, y ante la tentativa de

316 l Estrategias de Evaluación y Medición...

desarrollar un sistema diagnóstico del desempeño de los aspirantes,nos encontramos ante la pregunta: ¿De qué factores psicológicos(2)depende el éxito escolar y profesional de un individuo?

Desafortunadamente mucha de la investigación realizada en estesentido, al apoyarse en concepciones ambiguas de logro escolarcomo ya hemos visto, arrojan resultados que, aunque soninteresantes y esclarecedores para algunas cuestiones, no dejan deprovocar dudas y preguntas sobre las bases conceptuales que dieronorigen a la investigación. Sin embargo, a manera de ejemplo citaremosalgunos datos que tienden a responder la pregunta que hemosplanteado.

Según una revisión hecha por Marrero, Espino y Gámez (1989)sobre los resultados que se han obtenido en algunos estudiosbasados en la aproximación factorial a la inteligencia humana, laaptitud verbal es la que generalmente se considera como el predictormás poderoso de la totalidad del rendimiento académico. En voz desus autores: "la aptitud verbal, por un lado, implica una buenacomprensión de la información transmitida oralmente, y estáasociada, por ello, al éxito escolar global. El proceso educativo y suscontenidos otorgan a la aptitud verbal un papel importante, lo quecontribuye a incrementar su poder predictor"(pág. 27).

En otras investigaciones, sintetizadas por Lavin (op. cit.), se hadetectado que ciertos rasgos de la personalidad de los estudiantesestán correlacionados fuertemente con el éxito escolar, entre ellos lospertenecientes a la dimensión de "Madurez Social en el Papel deEstudiante", entre los que se mencionan mejores hábitos de estudio,actitudes positivas hacia la escuela, y menor hostilidad.

También, se ha encontrado que los estudiantes que muestran elllamado "Síndrome de Motivación de Logro" obtienen mayores índicesde logro académico. Este síndrome se define en términos de un mayorinterés en las áreas disciplinarias de los cursos, mayor claridad ensus intereses, habiéndolos elegido independientemente de la influenciade otras personas, y donde el estudiante se muestra másindependiente, exhibe un mejor control de sus impulsos, es decir, escapaz de demorar las gratificaciones inmediatas en el interés de

317XII. Sistema Computarizado de ... l

metas a largo plazo. Del mismo modo, el estudiante de altos logrosacadémicos presenta menos ansiedad ante situaciones de examen y,por lo menos superficialmente, parece ser más introvertido que elestudiante de bajos desempeños escolares (Lavin, op.cit.).

Por nuestra parte, queremos insistir en lo poco concluyentes quepueden ser estos resultados a la luz de la ambigüedad con la que seentienden los términos de "logro" y "éxito" escolar y profesional. Esindudable que se requiere de una investigación sistemática dondeestas nociones tengan un referente técnico y teórico sólido, paraacercarnos un poco más a la difícil tarea de determinar los factores delos que depende el logro educacional.

3. Factores a diagnosticar en una prueba con fines deselección de aspirantes.

4. A pesar de la oscuridad que prevalece aún en el ámbito de latarea de predecir el éxito escolar, es evidente que éste es elresultado natural de ciertos rasgos o características de losdesempeños de los estudiantes. Con la intención de proponer unreferente general hacia la determinación de dichos rasgos,podemos basarnos en las tres características disposicionalesesenciales que muestra todo tipo de desempeño de un individuo:

a. Nivel o tipo de logro.- Esta característica se origina cuando losdesempeños de un mismo individuo o de diferentes individuosson comparados entre ellos de acuerdo con los resultados ologros alcanzados.

b. Dirección o selectividad.- Esta característica surge deequiparar los desempeños de un mismo individuo en distintosmomentos o de diferentes individuos en relación con losaspectos ambientales hacia los cuales se dirige.

c. Singularidad.- Característica que resulta de comparar eldesempeño de un individuo en particular con el de otrosindividuos para establecer su unicidad.

A partir de estas características de los desempeños se puedehablar de Competencias, Motivos y Estilos Interactivos,respectivamente, los que se constituyen por necesidad lógica en los

318 l Estrategias de Evaluación y Medición...

factores a diagnosticar en el desempeño de un aspirante. Paracompartir mejor estas nociones, a continuación se describe con másdetalle en qué consiste cada uno de ellos.

Las competencias.

Un criterio de eficiencia de un desempeño es el logro deresultados deseados, es decir, el ajuste del desempeño a lascircunstancias específicas y particulares de un estado de cosas, detal manera de producir un cambio en él, donde dicho cambio ocurre enuna dirección preestablecida. El concepto de competencia propuestopor Ribes (1990: 239-240) capta con precisión esta idea. Lascompetencias se refieren a:

...capacidades, es decir, a acciones que producen resultados ologros específicos en situaciones en las que se requiere de algunadestreza o habilidad específica para alcanzar dichos logros. Lascompetencias se aplican, como términos pertinentes, a condicionesen que se definen problemas por resolver o resultados por producir.En las competencias, por consiguiente, se requiere de unacorrespondencia entre la morfología de la conducta y la morfología delos objetos o eventos situacionales con los que se interactúa.

Así pues, la primera dimensión que debe definirse en eldesempeño de un aspirante ante una situación de prueba es lacompetencia que nos da (o pide) el criterio de logro del desempeño.En el habla habitual se hace referencia a lo que el individuo debe sabero aprender, como información y capacidad, para desempeñarseadecuada o correctamente en una tarea o solucionar un problema.Para hablar de competencia se requiere de tres elementosinseparables: (1) El desempeño, es decir, la realización de unaactividad, (2) en una situación-problema o tarea que determina lo quedebe alcanzarse o lograrse con un desempeño específico, producto de(3) un sistema de contingencias que, puede decirse, regula eldesempeño, da estructura y organización a las acciones que definenel desempeño. Bajo esta perspectiva, si la estructura conductual deldesempeño no corresponde a la estructura de la tarea-problema (nocumple con los criterios de logro), entonces no puede hablarse decompetencia. Así, sólo puede hablarse de competencia en tanto

319XII. Sistema Computarizado de ... l

existe una tarea que posee criterios de logro definidos. Lacompetencia es entonces el desempeño efectivo; es lacorrespondencia de lo que se hace con los objetivos o criterios de logrode una tarea.

La competencia es entonces el desempeño eficaz; es lacorrespondencia de lo que se hace con los objetivos o criterios de logrode una tarea. Una clasificación de competencias puede entoncestratar de captar aquello que las competencias de distinto nivel deaptitud implican o exigen como para que la conducta se organice deuna u otra manera y entonces pueda ajustarse al criterio de logro.Ribes, Moreno y Padilla (1996) presentan una clasificación decompetencias y sus criterios de cumplimiento, ajuste o logro, los quecorresponden a los distintos niveles de aptitud de acuerdo con lataxonomía de procesos interconductuales (Ribes y López (op. cit.). Heaquí la descripción que estos autores hacen de las distintascategorías de competencia:

1. Interacciones intrasituacionales diferenciales, en las que elindividuo se ajusta respondiendo a las propiedades de los eventosque se relacionan en tiempo y espacio dentro de una situación,donde el criterio funcional de cumplimiento es la diferencialidad delajuste.

2. Interacciones intrasituacionales efectivas, en las que el individuose ajusta produciendo cambios en los objetos y relaciones entreeventos dentro de una situación, donde el criterio funcional decumplimiento es la efectividad del ajuste.

3. Interacciones intrasituacionales variables, en las que el individuose ajusta respondiendo con precisión a condiciones cambiantesen las propiedades de los objetos o sus relaciones para producirefectos en una situación, donde el criterio funcional decumplimiento es la precisión del ajuste.

4. Interacciones extrasituacionales, en las que el individuo se ajustaalterando las relaciones entre objetos y funciones de la situaciónpresente con base en las relaciones y funciones de una situacióndiferente, para lo cual se requiere necesariamente de

320 l Estrategias de Evaluación y Medición...

comportamiento lingüístico. El criterio funcional del cumplimientoes la congruencia del ajuste.

5. Interacciones transituacionales, en las que el individuo se ajustaante objetos convencionales mediante respuestas tambiénconvencionales que modifican, relacionan o transforman dichosobjetos, consistentes en alguna forma de lenguaje, natural osimbólico. El criterio funcional de cumplimiento es la coherenciadel ajuste.

En esta clasificación de tipos de competencia, cada una de ellasy sus relaciones, se plantean como inclusivas y el grado deflexibilidad en el ajuste ante diferentes situaciones ambientales esmayor conforme se avanza del primero al último. Otra característicaque debe tomarse en cuenta es que los primeros tres tipos decompetencia no requieren por necesidad del empleo de "lenguajesespeciales", mientras que en los dos últimos éste es un requisitoindispensable, característica sine qua non de los procesossubstitutivos de acuerdo con la taxonomía interconductual.

Los motivos.

Un segundo aspecto a considerar en la definición de aspectos adiagnosticar en los desempeños de los aspirantes bajo una situaciónde prueba es la natural selectividad circunstancial del comportamientoindividual. Sabemos que no todas las personas muestran el mismointerés o inclinación hacia una cierta área de desempeño, a pesar depoderse considerar igualmente aptas para una tarea. De acuerdo conRibes (1990:239), los motivos:

...se refieren a tendencias de comportamiento que se manifiestancomo opciones o preferencias frente a los objetos y eventos de lasituación. Se habla de un motivo cuando se describe ladireccionalidad de la conducta relativa a circunstancias que permitenoptar por diferentes consecuencias socialmente valoradas.

Nótese que cuando se habla de motivos, no hacemos referencia aestados transitorios, sino a disposiciones relativamente invariantes enrelación con sus circunstancias. Los Estados se refieren a unconjunto de reacciones, acciones o actividades de alguna persona que

321XII. Sistema Computarizado de ... l

se presentan bajo una situación definida y que está sujeto a loscambios que influyen en su condición, incluso bajo una mismacircunstancia, por ejemplo, "enojado", "distraído", "triste","interesado", etc. Por su parte, los Motivos son inclinaciones opreferencias relativamente estables vinculadas a determinadassituaciones en las que puede desempeñarse un individuo. Los motivosse modifican si varían las circunstancias y son estables antecircunstancias estables. Hacen referencia a actitudes, intereses,gustos o creencias. Son, en general, disposiciones que determinan oregulan el momento y el lugar del hacer. En el lenguaje ordinario aveces se hace referencia a los motivos cuando se alude a lo quealguien debe tener, funcionalmente hablando, para iniciar o mantenerun cierto nivel de desempeño (p. ejem., se dice que alguien debetener gusto por la lectura para ser buen estudiante de una carrera enletras, o tener valor para ser buen policía).

Ahora, dada la infinidad de circunstancias posibles en las que unindividuo puede optar por objetos, eventos o situaciones, podríaresultar ocioso clasificar específicamente a los motivos. Sin embargo,para el diagnóstico específico de intereses disciplinarios o"vocacionales", este ejercicio teórico es imprescindible. Dichaclasificación puede surgir de un análisis de aquellas áreas deincidencia de los desempeños en los que se tiene interés,determinando su naturaleza y condición, de tal manera de poderplantear áreas que sean lógicamente excluyentes y que representen laespecificidad de los desempeños, para que en consecuencia puedanconstituirse propiamente como opciones de desempeño. En el casode un sistema para diagnosticar intereses disciplinarios, dichas áreasestarían determinadas por los diferentes campos del conocimiento queagruparían a profesiones particulares.

Los estilos interactivos.

El tercer aspecto a tomar en cuenta al definir un sistema dediagnóstico de los desempeños es la modalidad del hacer. Losindividuos al desempeñarse en una tarea difieren en cuanto al modopersonal o estilo con el que entran en contacto con los objetos,eventos y situaciones. Algunos conceptos relacionados con los

322 l Estrategias de Evaluación y Medición...

estilos interactivos son, por ejemplo, "precavido", "arriesgado","nervioso", "agresivo" o "meticuloso", todos ellos empleados parahacer referencia a características disposicionales modales deldesempeño individual. En determinadas áreas de desempeño, (porejemplo, escolar o profesional) se da un especial énfasis a la maneracomo debieran ser los individuos para ejecutar una cierta tarea. Seprefiere, por ejemplo, a un médico "meticuloso" para realizar unacirugía cerebral; o a un boxeador "audaz" para una competenciadeportiva.

En el contexto de una teoría de la personalidad, Ribes (1990:240),define el estilo interactivo como "...la manera en que un individuoenfrenta un tipo de contingencia". Desde su punto de vista:

La función específica de cada individuo describe su estiloparticular. Habrá tantos estilos como funciones que describan lainteracción paramétrica de los individuos respecto de cada arreglocontingencial. Dada esta perspectiva, no tiene sentido clasificar alindividuo como poseedor o no de un estilo; por lo tanto se describesiempre una función interactiva consistente que difícilmente seráreplicada por otro individuo. Por ello, el estilo se identifica a posteriori,a diferencia de las teorías tradicionales que predeterminan lascategorías de clasificación como categorías excluyentes ydiscontinuas. En la aproximación que proponemos, los estilos sedescriben como variaciones en dimensiones continuas.

Sin embargo, y por decirlo llanamente, el diagnóstico decaracterísticas del desempeño relacionadas a un perfil deseable esuna tarea que requiere de modelar disposiciones. Por ejemplo, sepuede describir a un individuo como "nervioso" o "tímido". Tambiénpuede decirse que Fulano y Zutano, ambos, son "nerviosos" antesituaciones similares o diferentes, refiriéndose a estilos interactivoscomunes, aunque se reconozca que la manera de ser "nervioso" deuno no sea idéntica a la del otro. No obstante, al decir que ambos son"nerviosos" se hace referencia a características comunes en susestilos de interactuar, las que permiten especificar tipos de estilosinteractivos en la tarea de definir perfiles.

Los tres componentes que hemos señalado para la

323XII. Sistema Computarizado de ... l

caracterización de un desempeño, de ninguna manera deben deconcebirse aislados e independientes en cuanto al papel que jugaríanpara determinar la calidad de un desempeño. Las relaciones que éstostienen entre sí, aunque no hayan sido investigadas explícitamente,deben ser complejas. Ribes (1990) ha planteado algunas importantesinfluencias recíprocas que los tres tipos de tendencia pueden ejercerentre sí. Según él, los estilos interactivos deben conformarse comoefecto de invariantes funcionales en la adquisición y ejercicio decompetencias para responder a demandas y motivos socialesespecíficos. También menciona que una vez establecidos los estilosinteractivos éstos se vuelven relativamente constantes eindependientes de las demandas circunstanciales, jugando asimismoun papel regulador en la adquisición y ejercicio de las competencias ymotivos.

Ahora, al intentar definir un cierto Perfil de Desempeño específicoque debiera presentar un aspirante que desea ingresar a alguna áreao carrera en particular, lo que hemos planteado puede servir como unaguía para explorar aquello que consideramos deseable en él: Cómodebe "ser", qué debe "saber" (o qué debe ser capaz de aprender) y quédebe "tener". En otras palabras: Qué tipo de estilo interactivo, quécompetencias y qué motivos son deseables para el desempeño en esaárea.

Las respuestas a estas preguntas requieren de conocer con lamayor claridad posible:

a. El área de incidencia del desempeño, es decir, el conjunto deproblemáticas actuales y posibles sobre las que deberá actuar elindividuo. Más generalmente, el campo fenomenológico sobre elcual pueden incidir sus acciones.

b. Las normas, políticas, leyes, reglas o cualquier otro sistema deconvenciones que rigen o guían las acciones destinadas a afectaruna determinada área de incidencia.

c. Las condiciones o factores situacionales actuales y posibles quefacilitarían o impedirían en un momento dado la efectividad yeficiencia de los desempeños.

324 l Estrategias de Evaluación y Medición...

d. El último aspecto, y el más importante, es la determinación delpapel o función del individuo en relación con el área de incidencia,por ser éste el resultado del análisis y la síntesis de los puntosanteriores, además de ser guía para la definición del Perfil deDesempeño.

Resumiendo entonces, los factores a los que por necesidad lógicase habrán de dirigir los intentos por caracterizar con fines dediagnóstico el desempeño de un aspirante son: competencias dedistinto nivel de aptitud, motivos y estilo interactivo. Estos factores enconjunto serán la base sobre la cual el sistema diagnóstico adesarrollar nos permitirá cualificar el desempeño del aspirante entérminos de lo que sabe y es capaz de aprender (competencias), losintereses particulares que presenta en relación con distintos camposdel conocimiento y profesionales (motivos), y el modo personal deenfrentar una situación de prueba en la que se simulan situaciones deaprendizaje (estilo interactivo). A continuación explicaremos la formaen la que metodológicamente será posible implementar un sistemacapaz de detectar estas particulares características del desempeñode los aspirantes.

5. Procedimientos metodológicos idóneos para ladeterminación de los criterios de admisión.

La determinación de los criterios de admisión en los desempeñosde los aspirantes debe cimentarse sin lugar a dudas en la mejor delas metodologías disponibles en la actualidad. Para tener criterioscomunes y valorar con elementos cualquier procedimientometodológico que se proponga, es necesario ir a las bases de lageneralidad de las técnicas de prueba bajo las que se logran datospertinentes, confiables y válidos.

Por lo común, la necesidad de obtener datos acerca de algúnfenómeno o proceso natural en un tiempo determinado, es decir, avoluntad, lleva a los investigadores a diseñar situaciones artificialesque provoquen la ocurrencia del fenómeno o el proceso bajo estudio,de tal forma que se tenga la oportunidad de registrarlo y describirlocuantas veces sea necesario. Es un principio de todos conocido quedichas situaciones artificiales o situaciones de prueba deben reunir los

325XII. Sistema Computarizado de ... l

requisitos necesarios para garantizar que se obtenga un fenómeno oproceso lo más parecido posible a cuando éste ocurre bajocircunstancias naturales. Por ello, las situaciones de prueba másidóneas son aquellas que contienen los elementos o variables másimportantes que sirven como condición necesaria y suficiente para laocurrencia del fenómeno. En términos ordinarios, estamos diciendoque la mejor situación de prueba es aquella que más se asemeja,modela o simula la realidad.

Aplicando estos principios a una situación de prueba en la que elaspirante se debe desempeñar de tal modo que se pueda registrar ydescribir sus características, es imprescindible determinar la "realidad"que queremos que dicha situación simule o modele.

En primer lugar, queremos conocer las características deldesempeño de un aspirante frente a situaciones escolares típicas, lasque podemos resumir en las siguientes acciones y condiciones:

l Proporcionar información.

l Presentar problemas a solucionar a partir de la informaciónproporcionada.

l Dar retroinformación sobre el éxito o fracaso en la solución alproblema.

l Proveer una disponibilidad limitada de consultar la fuente deinformación.

l Proveer una disponibilidad limitada de corregir errores.

En segundo lugar, necesitamos conocer el desempeño antesituaciones problema a las que se enfrenta comúnmente unprofesional y que ha de resolver a través de determinadasherramientas conceptuales que, como hemos visto, puedencorresponder a distintos niveles de exigencia aptitudinal. Por ello, alas anteriores acciones y condiciones agregaríamos dos más:

l Que los problemas que se presenten al aspirante para susolución sean prácticos y realistas, cuyo tipo se definirásistemáticamente en términos de los distintos niveles de exigenciaaptitudinal.

326 l Estrategias de Evaluación y Medición...

l Que los problemas sean pertinentes a la realidad de la institución,es decir, que pertenezcan a una amplia gama de disciplinas,principalmente de aquellas carreras profesionales que imparte lainstitución.

Con los puntos anteriores queda claro que la situación de pruebapara el diagnóstico de aspirantes deberá ser una situación típica deaprendizaje escolar, en la que se enseñará al aspirante a solucionarproblemas de distintas áreas disciplinarias y de distinto nivel deexigencia aptitudinal, a través de:

l Proporcionar la información necesaria para resolverlos,concediendo una disponibilidad limitada a dicha fuente deinformación;

l Proveer de retroinformación sobre la corrección o incorrección desus soluciones, y dando una disponibilidad limitada para rectificarlas soluciones incorrectas.

Las condiciones de prueba que hemos señalado se podrían lograrsi un único examinador evaluara individualmente a los miles deaspirantes que recibe la institución en los períodos de alta demanda,lo que sencillamente hace imposible realizar dicha empresa. Sinembargo, los actuales sistemas informáticos, no sólo permitensimular situaciones escolares y profesionales con un máximo deeficiencia en tiempo costo y recurso humano, sino que permitentambién presentar adquirir guardar y procesar información en elmismo sistema, elevando el grado de confiabilidad de los datos. Lossistemas informáticos tienen la ventaja adicional de permitir diversificarlos métodos y formas de análisis de datos, reduciendo a muy pocotiempo la complicada tarea de validación estadística del instrumento.Por lo demás, resultan ser altamente atractivos para los usuarios.

II. PROPUESTA DE UN SISTEMA PARA EL DIAGNÓSTICO DEASPIRANTES CON FINES DE SELECCIÓN:

Con las bases conceptuales que hasta aquí hemos presentado,no resulta difícil imaginarse las características que pudiera tener unapropuesta concreta y viable de un sistema para el diagnóstico deaspirantes a ingresar a la universidad con fines de selección. En esta

327XII. Sistema Computarizado de ... l

sección describimos nuestra sugerencia.

Se trata de la Prueba de Aptitudes y Competencias para laEducación Superior (PACES), un sistema computarizado dediagnóstico interactivo de aptitudes funcionales y competencias parael aprendizaje escolar de este nivel educativo. Esta prueba se aplicóen la Universidad Autónoma de Chihuahua (UACh) por primera vez endiciembre 1996, obteniéndose desde entonces resultadoshalagadores.

A. Objetivo del Sistema PACES.

El objetivo de este Sistema es predecir la efectividad de losdesempeños individuales en distintas situaciones problema dediferentes niveles de exigencia aptitudinal, con la finalidad dediagnosticar potencialidades académicas y profesionales de losaspirantes a ingresar a la UACh o a cualquier otra institución deeducación superior.

Otros objetivos adicionales contemplan el poner a los aspirantesen igualdad de condiciones, ya que los resultados de la evaluación nodescansan en primera instancia en los conocimientos impartidos enuna u otra institución de educación media superior. Al aspirante se leda toda la información necesaria para resolver las tareas problema, ysu desempeño dependerá de las competencias que haya desarrolladohasta el momento para aprender.

B. Factores y variables del ambiente del Sistema PACES.

l El Sistema PACES, en principio, está constituido por un conjuntode 20 campos disciplinarios de prueba, distribuidos en 5 áreasgenéricas del conocimiento; sin embargo, tanto la cualidad de lasÁreas como el número de Campos disciplinarios pueden cambiarde acuerdo a las necesidades particulares de evaluación de unainstitución de educación superior.

A continuación se mencionan estos componentes.

I. ARTE Y HUMANIDADES1. Literatura Española2. Lengua Inglesa

328 l Estrategias de Evaluación y Medición...

3. Artes Escénicas4. Filosofía

II. CIENCIAS AGROPECUARIAS Y ECOLOGÍA5. Agricultura6. Ecología

III. INGENIERÍA Y TECNOLOGÍA7. Sistemas Computacionales8. Geología9. Construcción10. Industria Minera y Metalurgia11. Industria Química

IV. CIENCIAS SOCIALES Y ADMINISTRATIVAS

12. Derecho

13. Administración

14. Sistemas Computacionales Administrativos

15. Educación Física

16. Ciencias de la Información

V. SALUD

17. Medicina

18. Bacterias y Parásitos

19. Nutrición

20. Odontología

l Al entrar a la prueba, el aspirante tiene que responder inicialmentea 3 campos que denominamos "prioritarios", por ser los máscercanamente relacionados con la carrera; posteriormente y sólosi el aspirante lo desea, podrá entrar a cuantos campos quiera enel tiempo que aún le reste.

l Durante la prueba, en cada Campo Disciplinario el aspirantetendrá acceso a una pantalla de Consulta, la que contendrá lainformación necesaria para dar solución a los problemasplanteados. El texto que allí se presenta tiene un número máximode 1,500 palabras. El acceso a dicha pantalla estará limitado a 2

329XII. Sistema Computarizado de ... l

ocasiones para cada Campo Disciplinario, sin límite de tiempo.Asimismo, para que los aspirantes se encuentren en la mayorigualdad de circunstancias ante la información que se maneja enlos textos, se les permite consultar un diccionario que ellosmismos llevan a la prueba.

l La PACES es una prueba de las llamadas de "opción múltiple",donde el número de opciones de respuesta es de 4 ó 5. El númerototal de reactivos de la prueba es de 285, y cada CampoDisciplinario de prueba está formado por un número variable en unrango de 8 a 20 reactivos. Para cada Campo, los reactivos estándivididos en 5 subconjuntos, cada uno de ellos diseñado paraevaluar 5 tipos de competencias de importancia fundamental enlos objetivos de la educación superior, que corresponden a losdistintos niveles de aptitud funcional: Perceptivas (la capacidad derelacionar objetos o eventos que ocurren asociados en undeterminado contexto, fundamental para los procesos dememorización); Técnicas (la capacidad de seguir instruccionessimples para lograr un resultado); Metódicas (la capacidad detomar en cuenta condiciones particulares para la aplicación de unatécnica o procedimiento); Teóricas (la capacidad de explicar ypredecir fenómenos a partir de leyes o principios); y Analíticas (lacapacidad de aplicar criterios a los hechos o los lenguajes paradeterminar su condición).

l El Sistema PACES está diseñado para dar retroinformación alaspirante sobre la corrección o incorrección de su respuesta enforma inmediata después de cada uno de los problemas; además,el aspirante tiene oportunidad de corregir la respuesta incorrectaprecedente en sólo 1 ocasión.

l El aspirante puede salir de un Campo Disciplinario para entrar aotro, ya sea de la misma área o una distinta, en cualquiermomento de la prueba; sin embargo no puede volver a entrar alCampo Disciplinario del que haya salido, independientemente dehaber terminado o no de responder a todos los problemas.También el aspirante puede salir de la prueba en cualquiermomento que lo desee, pero no puede volver a entrar a ella.

330 l Estrategias de Evaluación y Medición...

l El aspirante cuenta con 2 horas a partir de su entrada al primerCampo Disciplinario para responder a la mayor cantidad dereactivos de los distintos campos disciplinarios que le sea posible.

l El Sistema PACES proporciona en pantalla al aspiranteinformación sobre su ejecución en cada campo y áreadisciplinaria, porcentaje de avance, tiempo de reserva y porcentajede respuestas correctas al momento.

FACTORES Y VARIABLES DEL DESEMPEÑO INDIVIDUAL ADETERMINAR BAJO EL SISTEMA PACES:

El Sistema PACES está diseñado para monitorear momento amomento el desempeño de aspirante, de tal manera de reunir la mayorcantidad de datos posibles que nos permitan conocer su nivel decompetencia, motivos y estilo interactivo. Los datos que se obtienenbajo el Sistema son los siguientes:

No. de Ficha

Nombre del Aspirante

Carrera y Facultad

Áreas del Conocimiento a las que "entró", en orden consecutivo.

Campos del Conocimiento a los que "entró", también en ordensecuencial.

Datos sobre las Consultas del aspirante a los Textos: número,momento y duración.

Datos del Abandono (salida) posible del Campo: momento en queocurre.

Datos sobre la ejecución del aspirante en cada Reactivo: duración,resultados en cada intento programado (acierto/error), tipo de reactivo(nivel de competencia) y su resultado (acierto/error) y puntaje delreactivo (equivalente al índice de dificultad del reactivo, si fue correcto).

Datos específicos para cada Campo del Conocimiento: tiempoempleado en el Campo; Número de reactivos correctos en cada uno delos intentos programados; Número Absoluto y Porcentaje de reactivos

331XII. Sistema Computarizado de ... l

referentes a los 5 niveles de Competencia; Sumatoria de los puntajesobtenidos por reactivo; valor del Factor Perfilar para ese Campo deacuerdo con la Carrera Específica a la que desea entrar el aspirante,y el Puntaje Prorrateado para ese Campo (producto del puntajeobtenido y el Factor Perfilar)

Datos Generales de la ejecución del aspirante: Tiempo total en laPrueba; Número de reactivos con acierto en cada uno de los Intentosprogramados; Nivel General de Competencia (dado por el porcentajede reactivos de cada tipo resueltos correctamente); y el Puntaje Totalobtenido en la prueba.

Criterios para calificar el desempeño individual y criterios para laselección y admisión de aspirantes:

Aunque los datos que se obtienen a través del Sistema PACESson todos los mencionados, los criterios de calificación y selecciónpueden restringirse de tal manera que se consideren sólo los másesenciales, o ampliarlos a modo de contar con más factores que, conbase en investigaciones cuidadosas, demuestren su potencialpredictivo. Esperando reunir en un corto plazo resultados de unainvestigación escrupulosa y sistemática de la aportación de cada unode los factores mencionados a la predicción del éxito escolar yprofesional de los aspirantes, por el momento nuestra propuesta seremite básicamente al desempeño competencial y secundariamente alos aspectos motivacionales de su ejecución, bajo las siguientescondiciones:

l Se cuenta con un Perfil de la Carrera o Criterio de lascompetencias particulares que debe tener un profesional de unadeterminada carrera profesional. Este Perfil proporciona pesosdiferenciales a cada uno de los campos disciplinarios de la prueba.Con base en este perfil, se definen 3 Campos Prioritarios a los queel aspirante debe entrar antes de poder responder a cualquier otro.

l Se obtiene un puntaje base del aspirante para cada uno de loscampos disciplinarios, que se calcula en función de lasrespuestas correctas que haya logrado en la prueba y en términosdel índice de dificultad que cada reactivo obtiene en la actualaplicación de la prueba. Este punto es muy importante ya que el

332 l Estrategias de Evaluación y Medición...

individuo es calificado a partir de los parámetros que genera elconjunto particular de aspirantes en cada ciclo escolar.

l El puntaje base se prorreatea de acuerdo con los pesosdiferenciales que otorga el perfil de la carrera para cada uno de loscampos disciplinarios, de tal modo de obtener el puntajeprorrateado del aspirante en cada Campo Disciplinario.

l La sumatoria de los puntajes prorrateados es el que determina laposición ordinal de un aspirante dentro del conjuntocorrespondiente a una carrera en particular. El aspirante queobtiene el mayor puntaje prorrateado de todos los aspirantes a lacarrera en cuestión será quien ocupe el primer lugar.

l La posición ordinal del aspirante sería el criterio de selección, deacuerdo con el número de aspirantes que cada una de lasFacultades y Escuelas estimen como viable. La viabilidad deadmisión de un cierto número de aspirantes, está determinada porcada una de las Facultades y Escuelas, con base en unaestimación objetiva de sus recursos e infraestructura.

C. Plan para la Validación de la PACES.

La validación del Sistema en lo que se refiere a sus propiedadespredictivas y de constructo está siendo objeto de una investigacióncuidadosa, continua y sistemática, con metas a corto, mediano y largoplazo, fundamentada en múltiples estudios previos y posteriores a suprimera aplicación. A continuación se exponen los fundamentos yelementos básicos para la validación del sistema.

VALIDACIÓN DE CONSTRUCTO:

De acuerdo con Nunnally y Bernstein (1995:96), el punto de vistamás prevaleciente es que existen tres aspectos de importancia parala validación de constructo: 1) especificar el dominio de observablesrelacionados con el constructo, 2) determinar el grado en que lasobservables tienden a medir lo mismo, varias cosas diferentes omuchas cosas diferentes por medio de investigación empírica yanálisis estadísticos, y 3) realizar estudios subsecuentes y/oexperimentos de diferencias individuales para determinar el grado en

333XII. Sistema Computarizado de ... l

que las supuestas medidas del constructo son consistentes con "lasmejores conjeturas" acerca del constructo.

En el caso del sistema PACES, el constructo que se pretendeevaluar es la capacidad de un individuo para resolver 5 diferentes tiposde problemas a partir de información diversa que se le presenta porescrito, y que corresponderían a los 5 tipos de competencia que seseñalaron anteriormente.

VALIDACIÓN PREDICTIVA:

La validación en estos términos se determina mediante lacorrelación de las medidas de la ejecución en la prueba con el criterio,en este caso el "éxito escolar o profesional"; el que aún debedefinirse con especial atención en los perfiles de los estudiantes yprofesionales considerados "exitosos". En este estudio deberemoscontar con perfiles diferenciales entre por lo menos tres categorías deestudiantes y profesionales: Exitoso, medianamente exitoso, noexitoso.

III. CONCLUSIONES

En este documento se ha querido plantear la problemáticarelacionada con los procedimientos de evaluación para la selección deaspirantes a ingresar a la educación superior en nuestro país. Aunquepara muchos estos problemas se reducen a un simple procesoadministrativo en el que se aplica un examen con el cual justificar lainclusión o exclusión de un aspirante al sistema, la magnitud de laresponsabilidad moral que encierran estas acciones haceimprescindible revisar los fundamentos de los procedimientos einstrumentos que se aplican con este propósito.

Los principales argumentos que se manejaron a lo largo de estarevisión fueron los siguientes:

1. La gran mayoría de los instrumentos que se utilizan para laselección de aspirantes están constituidos por exámenes de losconocimientos que supuestamente debieron haber adquiridodurante su formación educativa preuniversitaria. En general estos

334 l Estrategias de Evaluación y Medición...

exámenes son elaborados ad hoc, carentes de los mínimosrequisitos técnicos y de la fundamentación teórica y metodológicanecesaria para garantizar una evaluación lo más justa y objetivaposible.

2. Los exámenes de conocimientos pueden ser de utilidad parainformarnos qué sabe un individuo, pero poco o nada nos informasobre cómo aprende. Este último aspecto, el proceso a través delcual una persona adquiere una competencia, es fundamental paradeterminar las posibilidades de éxito del individuo en el ambienteescolar. Por ello, los esfuerzos evaluativos con fines de seleccióndeben encaminarse a detectar índices de este proceso degeneración de competencias conductuales.

3. Es evidente la necesidad de sustentar cualquier propuestametodológica para la evaluación diagnóstica en una teoríacientífica de procesos conductuales, que guíe sistemáticamentesu desarrollo y ofrezca bases firmes que den mayor seguridad ogarantía de certidumbre e imparcialidad. En este sentido, elmodelo de procesos interconductuales de Ribes y López (1985)brinda una excelente opción por tratarse de un desarrollo teóricobasado en datos de estudios e investigaciones experimentales. Elmodelo ofrece la posibilidad de clasificar competencias decualquier dominio conductual en cinco distintos niveles de aptitudfuncional, además de proporcionar una referencia general sobrelas condiciones necesarias y suficientes para que éstas seestablezcan.

4. Si el propósito de evaluar a los aspirantes con fines de selecciónes el de identificar a aquellos individuos con mayoresposibilidades de éxito en su desempeño escolar, nos parece lógicoque los esfuerzos en este sentido deban encaminarse adeterminar las competencias de los aspirantes para aprender apartir de situaciones escolares típicas. Actualmente se trabaja enla definición de un paradigma metodológico en el que serepresenten los factores básicos que entran en juego en lasinteracciones escolares, cuyas variaciones nos permitan hacercontacto con las situaciones escolares como ocurren en la

335XII. Sistema Computarizado de ... l

realidad. De esta manera, es factible realizar investigacionesexperimentales para determinar el papel que cada factor juega parapromover la efectividad de una situación de enseñanza-aprendizaje.

5. La propuesta que aquí se describe bajo el nombre de Prueba deAptitudes y Competencias para la Educación Superior (PACES),concentra algunos resultados de la reflexión sobre estos tópicos,los que hemos intentado presentar aquí de manera sucinta anuestros lectores. Constituye también un esfuerzo por incorporarla tecnología computacional a la evaluación interactiva de lo quehace una persona cuando estudia y de la efectividad de estedesempeño para adquirir competencias de distinto nivel de aptitud.

Aunque estos esfuerzos son relativamente recientes y falta aúncorroborar su efectividad con datos derivados de estudios pertinentes,creemos que cualquier impacto que estas reflexiones tengan paramotivar el análisis y la crítica sobre los procedimientos de selecciónde aspirantes que se emplean actualmente en muchas institucionesde educación superior, será suficiente para compensar nuestradedicación a este sencillo trabajo.

REFERENCIAS

Backoff, E. & Tirado, F. (1992). Desarrollo del Examen deHabilidades y Conocimientos Básicos (EXHCOBA). Revistade la Educación Superior. 83, 95-117.

Backoff, E.; Ibarra, M.A. & Rosas M. (1995a). SistemaComputarizado de Exámenes (SICODEX). Revista Mexicanade Psicología. 12,1,55-62.

Backoff, E.; Ibarra, M.A. & Rosas M. (1995b). Desarrollo y validacióndel Sistema Computarizado de Exámenes (SICODEX). Trabajopresentado en el VII Congreso Mexicano de Psicología, febrerode 1995, México, D.F.

Cole, Nancy S. (1990). Conceptions of Educational Achievement.Educational Researcher. 19, 3, 2-7.

336 l Estrategias de Evaluación y Medición...

Ibáñez, C. (1994). Pedagogía y Psicología Interconductual. RevistaMexicana de Análisis de la Conducta. 20,1,99-112.

Lavin, D. (1965). The Prediction of Academic Performance. ScienceEditions, John Wiley & Sons, Inc., New York.

Marrero, H., Espino, O. & Gámez, E. (1989). La Crisis de laAproximación Factorial. En H. Marrero, G. Buela, F. Navarro& L. Fernández (Eds.) Inteligencia Humana: Más allá de loque miden los tests. Barcelona: Labor.

Nunnally, J. C. & Bernstain, I. J. (1995), "Teoría Psicométrica".México: McGraw Hill.

Ribes, E. & López, F. (1985). Teoría de la Conducta. México:Trillas.

Ribes, E. (1981). Reflexiones sobre el concepto de inteligencia ysu desarrollo. Revista Mexicana de Análisis de la Conducta.7,107-116.

Ribes, E. (1990). Aptitudes sustitutivas y planeación delcomportamiento inteligente en las instituciones educativas. EnE. Ribes. Psicología General. México: Trillas.

ACERCA DE LOS AUTORES

Zulema N. Aguilar Soberanis.

Especialización en docencia por la Universidad Autónoma deYucatán. Es profesor asociado de la Facultad de Educación de laUniversidad Autónoma de Yucatán (UADY). Es coautora de un libroy sus áreas de interés son la administración de la educación superior,la evaluación de la educación superior y la toma de decisiones enprocesos de admisión a las instituciones de educación superior.

E-mail: [email protected].

Javier Aguilar Villalobos.

Doctor en Psicología Social. Docente e investigador en la Facultadde Psicología UNAM. Área de interés: Motivación escolar y social.Ha publicado mas de 50 trabajos en revistas especializadasnacionales e internacionales sobre evaluación escolar, comprensiónde textos, motivación y protestas sociales. Ha colaborado en 6 libros.Es miembro de la Sociedad Mexicana de Psicología y del ConsejoMexicano de Investigación Educativa.

E-mail: [email protected]

Ma. Teresa Anguera Argilaga.

Doctor en Psicología y académica en la Universidad de Barcelona,Departamento de Metodología de las Ciencias del comportamiento.Tutor en el doctorado Diseños, Evaluación y Tecnología Informáticaen Ciencias del Comportamiento de la U de B. Ha publicadonumerosos libros y capítulos en libros, y alrededor de 100 artículosen revistas especializadas, en metodología de investigación,evaluación, entre otras áreas.

E-mail: [email protected]

Alvaro J. Arce Ferrer.

Doctor en Medición y Estadística por la Universidad de Iowa. Esprofesor titular en la Universidad Autónoma de Yucatán, y profesorvisitante en Jacksonville State University. Pertenece al «NationalCouncil of Measurement in Education» y al Sistema Nacional deInvestigadores de México. Tiene publicaciones científicas en revistasnacionales e internacionales, capítulos en libros y proyectosfinanciados. Sus áreas de interés en medición son validez,

338 l Estrategias de Evaluación y Medición...

confiabilidad, igualación de exámenes, teoría de la respuesta alreactivo y teoría de la generalización.

E-mail: [email protected].

Eduardo Backhoff Escudero.

Director e investigador del Instituto de Investigación y DesarrolloEducativo de la Universidad Autónoma de Baja California (UABC).Miembro del Sistema Nacional de Investigadores, Nivel I, desde 1990.Licenciado en Psicología por la Universidad Nacional Autónoma deMéxico (UNAM), Maestro en Educación por la Universidad deWashington (U of W) y Doctor en Educación por la UniversidadAutónoma de Aguascalientes (UAA). Ha desarrollado y validadopruebas de gran escala de rendimiento académico para el ingreso ala educación superior y ha publicado diversos textos en el área deevaluación computarizada.

E-mail: [email protected]

Aldo Bazán Ramírez.Profesor investigador en el Instituto Tecnológico de Sonora,

licenciaturas de Psicología y de Educación, y unidades deinvestigación en Procesos Educativos, y en Aprendizaje y Desarrollo.Licenciado en Psicología por la Universidad Federico Villarreal (Perú),Maestro en Psicología por la Universidad Nacional Autónoma deMéxico, y estudiante del doctorado en Psicología en la UNAM. Hasido editor, compilador y colaborador en varios libros de Psicologíay ciencias afines, tiene publicaciones en revistas especializadasnacionales e internacionales. La líneas de investigación de su interésson: Adquisición y dominio funcional de la lengua escrita, evaluacióny medición, enseñanza de la ciencia.

E-mail: [email protected]

José Enrique Canto y Rodríguez.Profesor-investigador titular de la Facultad de Psicología de la

Universidad Autónoma de Yucatán (UADY). Licenciado en Psicología,especialista en docencia, maestro en Educación Superior y doctoren Educación Superior por la UADY. Ha realizado investigaciones enel área de psicología educativa y publicado, diversos artículos enrevistas nacionales. Su línea de investigación es: autoeficacia,ansiedad ante los exámenes, y relaciones de pareja.

E-mail: [email protected].

339Acerca de los Autores... l

Sandra Castañeda Figueiras.Realizó estudios en Psicología Experimental en la UNAM, con

mención honorífica y medalla al mérito universitario. Es profesora titulardel posgrado en la misma institución, ganó la Cátedra «José GómezRobleda» y asesora a doctorantes en programas de Psicología y deEducación en varias universidades. Representó a la InternationalAssociation of Applied Psychology en Latinoamérica y es Presidentade la Sociedad Iberoamericana de Pensamiento y Lenguaje. Haeditado tres libros y dos números monográficos sobre Cognición eInstrucción y publicado más de 70 trabajos en revistas y librosespecializados. Ha generado exámenes de egreso e ingreso albachillerato y las licenciaturas de diversas instituciones y fundó elLaboratorio de Desarrollo Cognitivo e Innovación Tecnológica de laUNAM. Pertenece al SNI y a la cartera de evaluadores del CONACYTy de los CIESS. Coordina los Exámenes Generales de Egreso delas licenciaturas en Psicología, Pedagogía y Ciencias de la Educacióndel Centro Nacional de Evaluación para la Educación Superior(CENEVAL).

E-mail: [email protected];[email protected]

Cruz Idalia Corral.Licenciada en Ciencias de la Educación por el Instituto

Tecnológico de Sonora, México. Profesora en el nivel básico elementaldel Instituto Bella Vista en Ciudad Obregón, Sonora. Ha sido becariapara estudios de licenciatura de la Fundación TELMEX (Teléfonos deMéxico), y para tesis de licenciatura del Consejo Nacional de Cienciay Tecnología de México. Tiene publicaciones en libros y revistasespecializadas. Su línea de investigación se centra en el área de lalecto-escritura.

Daniel González Lomelí.Profesor-Investigador en la Universidad de Sonora, Departamento

de Psicología. Obtuvo el grado de maestro en Psicología en laUniversidad de Sonora y el grado de doctor en Psicología en laUniversidad Nacional Autónoma de México. Ha sido autor de varioscapítulos de libros y ha publicado en revistas especializadasnacionales y extranjeras. Se interesa en la evaluación del desempeñoacadémico, orientación educativa, entre otros.

E-mail: [email protected]

340 l Estrategias de Evaluación y Medición...

Carlos Ibáñez Bernal.

Profesor-Investigador en la Universidad Autónoma de Chihuahua,Facultad de Medicina. Obtuvo el grado de maestro en Psicología enUniversidad Nacional Autónoma de México, y el grado de doctor enPsicología en la Universidad de Guadalajara. Tiene publicaciones envarios libros y en revistas especializadas nacionales e internacionales.Su área de interés es la evaluación de competencias y desempeñoacadémicos.

E-mail: [email protected]

Angélica María Lechuga Quiñónez.

Licenciada en Psicología. Becaria del Programa de Posgrado enCiencias Sociales en el Colegio de Sonora. Áreas de investigación:adolescencia y embarazo, suicidio y conductas autodestructivas,estresores y soporte psicosocial. Autora y coautora en artículos enrevistas especializadas.

Rafael Jesús Martínez Cervantes.

Doctor en Psicología; Profesor Asociado del Área de Metodologíade las Ciencias del Comportamiento de la Universidad de Sevilla.Intereses de investigación actuales: aspectos relacionados con eldiseño y la construcción de items, como elemento básico paraconseguir pruebas psicológicas válidas. Publicaciones en revistasespecializadas.

E-mail: [email protected],

Mario Martínez Jiménez.

Profesor-investigador en la Universidad Nacional Autónoma deMéxico, Facultad de Contaduría y Administración. Es licenciado enPsicología por la UNAM. Área de interés: desarrollo de recursoshumanos.

María de Los Ángeles Maytorena Noriega.

Profesora de Psicología en la Universidad de Sonora, licenciadaen Psicología y estudiante de la maestría en innovación educativaen la Universidad de Sonora. Se interesa por la investigación enestrategias de aprendizaje y la orientación educativa.

341Acerca de los Autores... l

Rafael Moreno Rodríguez.

Doctor en Psicología y Profesor Titular del Área de Metodologíade las Ciencias del Comportamiento en la Universidad de Sevilla ydirector del Grupo de investigación Metodología Básica y Tecnológicade la Ciencia. En los últimos años ha trabajado sobre todo en eldesarrollo de una sistemática para la tarea de definir o delimitarconceptos, habiéndolo aplicado a diversos temas metodológicos(como noción de causalidad, items de cuestionarios, diseños,métodos y técnicas de investigación) y psicológicos (como reglasgobernadoras de conducta, variabilidad comportamental y conductade abuso sexual). Publicaciones en revistas especializas y capítulosde libros.

E-mail: [email protected]

Cecilia Murrieta Quezada.

Profesora en la sección Primaria del Instituto Bella Vista enCiudad Obregón Sonora. Licenciada en Ciencias de la Educación porel Instituto Tecnológico de Sonora, México. Gozó de una beca detesis de licenciatura otorgada por el Consejo Nacional de Ciencia yTecnología de México. Tiene publicaciones en libros y revistasespecializadas.

Martín Rosas Morales.

Académico del Instituto de Investigación y Desarrollo Educativo,de la Universidad Autónoma de Baja California (UABC). Licenciadoen oceanología en la UABC, maestro en computación en el InstitutoTecnológico de Tijuana. Ha colaborado en el desarrollo de distintossistemas computarizados para evaluar el aprendizaje de losestudiantes, como es el caso del Examen de Habilidades yConocimientos Básicos (EXHCOBA) y el Examen de Egreso delIdioma Inglés (EXEDII). Actualmente, trabaja en el desarrollo de unsistema computarizado para administrar exámenes adaptativos. Sustrabajos se han presentado en foros nacionales e internacionales yha publicado varios artículos y capítulos de investigación.

Jaime Salvador Moysén.

Maestro en Ciencias. Investigador titular TC en el Instituto deInvestigación Científica, Universidad Juárez del Estado de Durango.Áreas de interés: adolescencia y embarazo, predictores de conducta

342 l Estrategias de Evaluación y Medición...

autodestructiva, desarrollo humano, características psicosociales yadaptativas del suicidio. Publicaciones en revistas especializadas.

Beatriz Sánchez Hernández.

Maestra en Psicología por la Universidad Nacional Autónoma deMéxico. Ha laborado como ayudante de investigación en la UNAM-Iztacala y como docente en las licenciaturas de Psicología y deEducación, y en la Maestría de Educación, en el Instituto Tecnológicode Sonora. Actualmente es docente de asignatura en la Universidaddel Valle de México - Lomas Verdes. Área de interés: evaluación derepertorios de lecto-escritura; metodología y estadística.

E-mail: [email protected]

Alberto Terrones González.

Jefe de la Unidad de Salud Mental del Hospital de Durango.Investigador en el Instituto de Investigación Científica de la UniversidadJuárez del Estado de Durando. Áreas de interés: Adolescencia yembarazo, violencia doméstica, conductas autodestructivas,desempeño escolar y motivación. Autor de varios artículos en revistasespecializadas.

E-mail: [email protected]

Alejandra Valencia Cruz.

Profesor-investigador y estudiante del Doctorado en Psicología enla Universidad Nacional Autónoma de México. Área de interés:motivación escolar y social. Cuenta con 13 artículos publicados enrevistas nacionales e internacionales, 4 artículos en memorias y uncapitulo de libro sobre personalidad, aspectos motivacionales yparticipación política.

E-mail: [email protected]

Alma Vallejo Casarín.

Profesor-investigador en la Facultad de Psicología-Poza Rica dela Universidad Veracruzana. Candidata a Doctor en Psicología por laUniversidad Nacional Autónoma de México. Áreas de interés: estilosde paternidad y conflictos de autoridad en adolescentes.

E-mail: [email protected]

PUBLICACIONES DE INTERÉS

1. Fundamentos Metodológicos en Psicología y Cienciasafines . Madrid: Pirámide.Autores: Moreno, R. Martínez, R. J. y Chacón, S. (2000).

Breve reseña

La metodología de la ciencia ha venido ocupándosepreferentemente de aspectos tecnológicos, desarrollandoprocedimientos cada vez más adecuados de recogida y análisis dedatos. En cambio ha prestado menor atención a los desarrollosconceptuales y teóricos. En esta obra se plantea una solución a talsituación mediante la integración de numerosas nocionesmetodológicas en un conjunto menor de otras más generales. Suestructuración está inspirada en una noción darwinista de la ciencia,en la que tras una sucesión de variaciones conceptuales seseleccionan las de mayores garantías posibles de corrección o validez.

2. Publicaciones de la Colección de Ciencias Sociales yHumanidades del Instituto Tecnológico de Sonora:

l Aportes Conceptuales y Metodológicos en PsicologíaAplicada . ITSON, 1999.

Compilación realizada por Aldo Bazán, Incluye 13 capítulosorganizadas en tres secciones: 1) Aspectos conceptuales ymetodológicos; 2) Psicología y Educación; 3) Psicología, Salud ySociedad.

Autores de capítulos: Carlos Santoyo; Arturo Silva y LauraAragón; Francisco Obregón, Juan Irigoyen y Víctor corral; CarlosIbáñez; Claudio Carpio, Virginia Pacheco, Carlos Flores y CésarCanales; Sonia Echeverría, Juan Irigoyen y Míriam Jiménez;Walter Capa; Eugenio Díaz-González; William Montgomery; Ma.De Lourdes Rodríguez y Patricia Landa; Aldo Bazán.

l MEFLE. Enseñanza funcional de la lectura y la escritura enel primer grado de primaria . ITSON-CONACYT, 2001.

El MEFLE sugiere una serie de estrategias para la adquisiciónfuncional de la lengua escrita y está dirigido a niños entre 5 y 7años de edad. El libro incluye una guía de instrucciones para eladulto (maestro y/o familiares) y un apartado de actividades para elniño.

l Enseñanza y Evaluación de la Lectura y la Escritura:Algunos aportes de la investigación en Psicología. ITSON-CONACYT, 2001. Editor, Aldo Bazán.

El libro incluye tres secciones: 1) Acerca de la enseñanza de lalectura y la escritura; 2) la evaluación de la lectura y la escritura, y3) la comprensión de textos en la educación básica y superior.

Participan con capítulos: Julio Varela; Cecilia Thorne y TeresaNakano; Berta Cortés, Rosa del Carmen Flores y Silvia Macotela;Enrique Farfán; Ángel Vera y Sandra Domínguez; Luis Zarzosa;Sandra Castañeda; Carlos Santoyo; Aldo Bazán, Imelda García,Librada Acuña y Yuvany Vega.

La idea de elaborar el libro “Estrategias deEvaluación y Medición del Comportamiento enPsicología” representa el siguiente paso después dela edición del libro “Aportes Conceptuales yMetodológicos en Psicología Aplicada” publicado en1999 por el Instituto Tecnológico de Sonora, ideaeditorial a la que se sumó la Universidad Autónomade Yucatán, conjugando de esta forma los esfuerzosde cooperación interinstitucional en el fomento ydifusión de investigaciones realizadas poracadémicos de distintas universidades mexicanas.