la evaluación de programas y la eficacia del desarrollo carolyn j. heinrich universidad de...

La evaluacin de programas y la eficacia del desarrolloCarolyn J. HeinrichUniversidad de Wisconsin-Madison

Tercera Reunin de la Red de Monitoreo de Polticas SocialesBuenos Aires, 22-23 de noviembre de 2004

Demanda creciente para la evaluacin de rendimiento y de programas Si existe un solo tema que define el sector pblico en la dcada de los 90, fue la demanda por rendimiento. Surgi un mantra en esa dcada, que repercuta a todos los niveles de gobierno, el cual haca llamamientos a la evaluacin del rendimiento y las consecuencias especficas de las acciones de los gobiernos.

Beryl Radin, Beyond Machiavelli: Policy Analysis Comes of Age [Ms all de Maquiavelo: el anlisis de polticas llega a su plena madurez] (2000)

Gestin del rendimiento frente a la evaluacin de impactosGestin de rendimiento su propsito principal es la responsabilidad por resultados o rendicin de cuentas ante los rganos legislativos, los contribuyentes y los dems interesados en los programas.

Evaluacin de impactos su objetivo principal es la generacin de conocimientos: para poder entender y perfeccionar los impactos de los programas y acertar su orientacin.

Gestin del rendimiento en frente a la evaluacin de impactos: en la prcticaGestin del rendimientoEnfoque de ms corto alcanceAnlisis de consecuenciasPermanente, requiriendo datos fcilmente accesibles, recabados con regularidadPlanes anuales e informes anuales del rendimiento de los programasRendicin de cuentas dentro de la misma organizacin, incentivos y sanciones vinculadas al rendimientoEvaluacin de impactosEnfoque de ms largo alcanceAnlisis de impactos (valor agregado)Recopilacin y anlisis de datos, peridica y ms intensivamenteClculo preciso de los impactos de los programas y de su distribucin Contribuir informacin para: el diseo de polticas y programas, la destinacin de beneficios y la toma de decisin sobre la asignacin de fondos

Tipos de criterios de medicin utilizados en la evaluacinInsumos (recursos fsicos y financieros, personal, etc.)Resultados (bienes y servicios producidos)Proceso (monitoreo de implementacin, uso de insumos en la produccin de resultados)Eficiencia (productividad, costos por unidad)Consecuencias (metas intermedias, fcilmente observadas)Ej., nmero de estudiantes que reciben su grado (completar el tercer ciclo de la Educacin General Bsica)Impactos (logros netos, valor agregado)Ej., aumento en niveles de conocimientos, capital humano debido a la participacin en el programa

Vnculo entre la gestin de rendimiento y la evaluacin de programasDesafo: Identificar criterios de medicin de rendimiento accesibles e informativos y mtodos de anlisis, los cules estiman precisamente los impactos (valor-agregado) y refuerzan el progreso hacia las metas del programa de largo alcance

Vnculo entre la gestin de rendimiento y la evaluacin de programasProblemas: Evidencia de algunas evaluaciones experimentales de impactos manifiesta conexiones dbiles entre los criterios de las consecuencias de corto alcance y los impactos de alcance mayor EL Estudio Nacional de JTPA, el Estudio de GAIN (siglas del ingls para Vas Mayores hacia la Independencia), la evaluacin experimental del impacto de Job Corp (programa de trabajo social voluntario y capacitacin)Evidencia creciente de conducta de jugador

Ejemplo: Jugada de exmenes de rendimiento estudiantil (estudio de Koretz de mtodos de exmenes comparativos por un plazo de 4 aos)

Chart1

4.31986

19873.7

19884.05

19894.1

3.74.3

Examenes de distritoExamenes: con tutoria

Examen de estudio: sin tutoria

Test C

Test B

Year

Grade Equivalents

Sheet1

YearTest CTest B

19864.30

198703.7

198804.05

198904.1

19903.74.3

Sheet1

Test C

Test B

Ao

Equivalentes de calificacin

Evaluacin aleatoria experimental A los individuos se les asigna tratamiento o servicio al azar; ej., rifa o proceso aleatorio Asignacin aleatoria a grupos experimentales (tratamiento) y a grupos de control establece equivalencia estadstica entre individuos del grupo de tratamiento y del grupo de control Suposicin: No hay diferencias entre las caractersticas promedias (observadas o desapercibidas) entre los grupos de tratamiento y de controlCualquier diferencia de resultados entre grupos de tratamiento y de control se presume se debe al tratamiento

Estimacin del impacto promedio en experimentos aleatoriosCon asignacin aleatoria, la diferencia pos-programa observada entre los grupos de tratamiento y de control.

Limitaciones de los experimentos aleatoriosPreocupaciones ticas sobre interferir con los procesos del programa o negar acceso a los serviciosConocimiento producido es un estimado de impacto promedioSe requieren diseos ms complejos (o componentes no experimentales) para estimar la distribucin de impactosLos costos de la implementacin y coleccin de datos son ms elevadosAlgunos experimentos dependen mucho de condiciones y contexto localesLa propiedad de equivalencia estadstica de las muestra pequeas puede no reproducirse.

Evaluacin no experimental (cuasi experimentos)Los individuos no reciben tratamiento mediante un proceso aleatorio La condicin no basada en los datos no se observaEs absolutamente necesario entender y modelar los procesos usados para asignar el tratamientoAuto-seleccin (Ej., se aplica la decisin del individuo)Seleccin por el Administrador (Ej., individuos reciben tratamiento basado en criterios especficos)Combinacin de la auto-seleccin y la del Administrador Postular una relacin causal y evaluar explicaciones alternativas razonables que puedan negar la afirmacin

Evaluacin no experimental Desafos al diseoIndividuos quienes participan probablemente son diferentes en formas sistmicas de individuos quienes no participan Miembros de grupos de comparacin deben tener calificaciones e intereses similares en participar en el programa y/o deben representar el mismo mercado laboral localLos efectos de participar en el programa entre los individuos pueden ser diferentes (heterogeneidad en los efectos de tratamiento)La presencia de heterogeneidad en los efectos puede afectar la respuesta de los individuos ante la oferta de tratamiento

Estimacin del impacto no experimentalSi no se hacen correciones, las deferencias selectivas entre miembros de grupos de tratamiento y de comparacin inducirn sesgos en las estimaciones de impacto de programas.

Diseos alternativos no experimentalesEvaluacin ex ante de mtodos: Estimar el impacto probable conforme a las suposiciones alternativas de conductaUso de un suceso o factor exgeno que influye en la participacin en el programa en la ausencia de asignacin aleatoria (ej., cuotas)Ejemplos: Evaluaciones de la Bolsa Escuela o de Becas Estudiantiles

Diseos alternativos no experimentales

Estimacin de variables instrumentalesUtiliza una variable sin correlacin al trmino de error (caractersticas no observadas o variables omitidas), la cual, sin embargo, pronostica la participacin en el programa (para ajustar por el sesgo en la seleccin de la estimacin de impactoEjemplos: distancia al colegio/escuela ms cerca para estimar impactos de programas de seleccin de escuelas

Diseos alternativos no experimentales (continuacin)Metodologa de datos en paneles utiliza datos recabados de los individuos en distintos tiemposModelos de efectos fijos: controlar por caractersticas estables de individuos (observadas y no observadas)Modelos de primera diferencia y diferencia entre diferencias: controlar por todas las caractersticas estables, medidas y no medidas, y por caractersticas cambiantes medidasHacer observaciones repetidas (cuando menos en dos puntos por todos los individuos o unidades de anlisis) Modelos de primera diferencia se ajustan por caractersticas estables que afectan el nivel de la seccin trasversal de la variable dependienteModelos de diferencia entre diferencias se ajustan por caractersticas estables que afectan la variable dependiente a travs del tiempo

Estimador de primera diferencia y diferencia entre diferenciasUn modelo de primera diferencia no se ajustar por caractersticas que afectan cambios en la variable dependiente a travs del tiempo; se requiere un estimador de diferencia entre diferencias, (YT2-YT1)-(YT-1-YT0) (YC2-YC1)-(YC-1-YC0).

Evaluacin no experimentalRequisitos de los datosEs mejor tener ms periodos de datos: datos de periodos antes, durante y despus del programaMedidas deben ser congruentes en el transcurso del tiempo Datos detallados para evaluar calificaciones de participacin y descripcin de participacin en el programa y de efectos heterogneos del programa Integrar mecanismos de coleccin de datos en el programa, antes de su implementacinCalar datos independientes de seccin trasversal obtenidos de encuestas nacionales (muestras aleatorias de individuos en distintos puntos de tiempo) si no hay datos en paneles disponibles.

La evaluacin de necesidades en relacin a los datos y determinacin de criterios idneos de medicinDeterminar qu es que se quiere medir o explicarDescribir la relacin causal probable entre el programa o intervencin y el fenmeno de inters (ej., consecuencia o impacto)Identificar fuentes existentes de datos para poder crear criterios de medicin (definiciones operativas)Ej., Muestras de encuestas nacionales (ej., encuestas del censo nacional y otras de familias), fuentes administrativas de datosDisear instrumentos para la coleccin de datos no disponibles de fuentes existentesDeterminar trmino de coleccin de datos para cada criterio de medicin (ej., seccin trasversal, secciones trasversales repetidas, datos longitudinales)

Problemas con los criterios de medicin y limitaciones frecuentes de los datosFalta de claridad o acuerdo sobre objetivos del programa susceptibles a la medicinCriterios de medicin mal definidos producen datos de baja calidadCalidad de datos despareja (ej., debido a procedimientos de coleccin inferiores o malos controles sobre el ingreso de datos) Datos errneos de informantes sobre s mismosFalta de respuestas, rechazos debido a la sensibilidad de las preguntasAltos costos de la coleccin original de datosIntegridad de los datos, necesidades de almacenaje y protecciones de la privacidad

Uso de fuentes existentes de datos: Muestras de encuestas nacionalesVentajasDatos recabados en periodos regularesMediciones tpicamente congruentes a travs de periodos de tiempoSe aprovecha de la grande inversin en la coleccin de los datosNormalmente son de acceso econmicoDesventajasLa representacin de sub-grupos puede ser limitadaTpicamente, los identificadores individuales para ligar con archivos de otras fuentes no son disponiblesIncapacidad de influir en los tipos de datos recopilados (ej., formulacin de preguntas individuales)

Uso de fuentes existentes de datos: Datos administrativosVentajasInformacin detallada sobre clientes, el progreso en distintas etapas de tratamiento del programa y consecuencias Cobertura completa de poblaciones beneficiarias Datos longitudinales para unos programas Bajos costos para obtener datos por mltiples aos del programa Cambios y/o agregaciones de datos se hacen con mayor facilidad DesventajasLa calidad y uso eventual de datos administrativos demuestran grandes variacionesVerificacin regular y sistemtica por la calidad de los datos rara vez se hace Procedimientos estandarizados para la coleccin de los datos pueden incumplirse en algunos sitios del programa.Problemas con la privacidad y/o permiso de uso pueden presentar demoras en el acceso y traspaso Otros limitaciones con el uso de datos administrativos

Otros limitacines de datos administrativosTasas de la participacin del programa, anlisis de individuos quienes califican pero no solicitan y algunos consecuencias del programa no susceptibles con datos administrativos Escasez o ausencia de informacin sobre individuos que han salido del programa, ya sean los que terminan el programa o bien, no lo completan Tratarse de problemas de seleccin y la medicin ex post o a plazo largo de consecuencias, tpicamente requieren colecciones supletorias de datos

Ventajas y desventajas de datos de muestras de encuestasLos datos de las encuestas pocas veces cubren completamente las poblaciones beneficiarias, aunque cubran una amplia gama de temas (ej., informacin ms detallada sobre los antecedentes y consecuencias de los individuos) Las encuestas facilitan la coleccin de datos sobre un periodo de tiempo ms largo, despus de terminar con el programaLas encuestas pueden obtener informacin comparable de individuos quienes no han participadoFalta de respuestas es una causa comn por sesgos en los datos de las encuestasFalta de informacin sobre cundo la falta de respuesta desvirta los resultados

Otros factores de sesgos en las estimaciones no experimentales

Auto-seleccin para ingresar o salir del proceso de matrcula o del mismo programa Ubicacin del programa y otros factores que gravemente limitan el acceso al tratamientoVariaciones en la administracin e implementacin del programa Malos conteos de los que abandonan o nunca aparecen, contaminacin

Estrategias de evaluacin no experimental de impacto para corregir sesgosLa fuente del grupo de comparacin es esencial: usar reas geogrficas similares y controles internosMejorar datos y co-variar los criterios de medicin utilizados en el ajuste de estimaciones del impacto de programas, incluyendo medidas de consecuencias previa la intervencin del programa (ex ante)Tcnicas de nivelacin economtrica, ej., nivelacin del puntaje de propensin (propensity score matching)Uso de variables instrumentales u otras tcnicas de estimacin en dos etapas (ej., discontinuidad de regresin) para ajustar por diferencias no observables de diferencias entre grupos de tratamiento y comparacinExmenes de especificaciones y anlisis de sensibilidad para evaluar suposiciones

Mtodos de nivelacin economtricaEstimar el efecto del tratamiento sobre los beneficiarios, suponiendo que condicionada en las caractersticas medidas, participacin en el programa es independiente de consecuencias til cuando los datos sobre controles previos al tratamiento (caractersticas observadas) son cuantiosos y la distribucin de las caractersticas muestra variaciones significativas segn la condicin del tratamientoSi la condicin de tratamiento est influida por variables los cuales no se han medido, los mtodos de nivelacin tienden a producir estimaciones de impacto sesgados.Propensity score matching (estimacin de la probabilidad P(X) que un individuo con X caractersticas s participar) reduce el problema de nivelacin a una sola dimensinLa imposicin de apoyo comn evita malas nivelaciones entre miembros de grupos de tratamiento y de comparacin

Ejemplo de discontinuidad de la regresinLa discontinuidad de la regresin utilizando un valor de corte anterior al tratamiento, ej., puntaje de calificacin u otra medida que hace cuenta de la condicin de tratamiento

Regression discontinuity design

_1161497605.doc

Pre-treatment value

Po

s

t

-ou

t

c

o

me

Cita de James J. HeckmanLa mayora de estimaciones de sensibilidad del impacto del programa, en relacin con la seleccin del estimador, en efecto son productos de violaciones de principios bsicos del anlisis de evaluacin; tales como la comparacin entre personas no comparables. Lo que nos faltan de hecho son datos mejores, y no estimadores mejores.

Los objetivos para el anlisis permanente de rendimiento y la evaluacin de impactoEfectuar experimentos aleatorios peridicamente para evaluar los impactos del programa (valor agregado)Continuar investigaciones para identificar y desarrollar criterios de medicin de consecuencias, los cuales se correlacionan estrechamente con los impactos del programaCriterios de medicin ms alejados asociados mediante relaciones hipotticas y variables de reemplazo o supletorias (ej., notas de exmenes en lugar de avances en conocimientos educativos) aumentan el grado de incertidumbre sobre el rendimiento e imponen costos de recursosCon las evaluaciones cuyos resultados llevan graves consecuencias es necesario reconocer los errores e imprecisiones debidas a las limitaciones metodolgicas y de los datos

la evaluación de programas y la eficacia del desarrollo carolyn j. heinrich universidad de...

Documents