porque no evaluamos las pp como si fueran farmacos.pdf

Introduccin

La crisis econmica ha suscitado un renovado inte-

rs por la evaluacin de polticas pblicas o, al me-

nos, por los conceptos sobre los que sta versa. As,

ya sea en el mbito estatal, autonmico o local, los

responsables polticos, sean del color que sean, in-

sisten en la necesidad de mejorar la efectividad de

determinados programas o ganar en eficiencia en

la provisin de los servicios pblicos. Esta insisten-

cia nos parece positiva, aunque tenemos dudas de

que este nfasis se mantenga cuando vengan ti-

empos mejores, lo cual sera un error: preguntarse

si una determinada poltica activa aumenta la inser-

cin laboral de los parados (efectividad) o si, compa-

rado con otras intervenciones, el coste por parado

insertado de dicha poltica es ms o menos favora-

ble (eficiencia) son cuestiones que la Administracin

debera plantearse en todo momento, sea cul sea

la situacin econmica y el estado de las finanzas

pblicas.

No obstante, pese a este auge de la evaluacin en el

plano discursivo, lo cierto es que nuestro pas sigue

encontrndose a la cola de los pases desarrollados

en cuanto a la evaluacin de polticas pblicas

(Vias, 2009). Y, lo que resulta an ms preocupan-

te, cuando al calor de este renovado inters por la

evaluacin se discute sobre el impacto de tal o cual

poltica, los resultados que se invocan suelen estar

basados, en el mejor de los casos, en lecturas er-

rneas de los datos disponibles, cuando no en anc-

dotas de imposible generalizacin o en apriorismos

ideolgicos sin base emprica alguna.

Dejando de lado la evidencia anecdtica y los aprio-

rismos, para los que el lector seguro que tiene

ejemplos variados, centrmonos en la cuestin de

la mala interpretacin de los datos. El Plan Prepara,

que ha acaparado buena parte de las portadas du-

rante el pasado mes de agosto, resulta un ejemplo

revelador a este respecto [1]. Entre otros motivos, la

necesidad de reformar el programa se justificaba

por el hecho de que slo el 6% de beneficiarios lo-

graba reinsertarse laboralmente. Significa esto

Por qu no evaluamos las polticas pblicas como los frmacos? Una apuesta por la experimentacin social - David Casado

Avaluaci per al Bon Govern Nmero 3. Octubre 2012

David Casado es doctor en Economa por la Universitat Pompeu Fabra. Como analista de Ivlua, al que se incopora en 2009, ha participado en la elaboracin de varias de las guas metodolgicas, ha sido formador en las diversas ediciones del Ciclo de Formaci-n en Evaluacin de Polticas Pblicas y ha participado en varias de las evaluaciones realizadas por dicha institucin.

2

que el programa no es efectivo? Bueno, de-

pende de cual es el porcentaje de dichos be-

neficiarios que, en ausencia del plan Prepara,

se hubieran reinsertado: si la respuesta fu-

ese que el 6%, podramos concluir que en tr-

minos de insercin laboral el programa re-

sulta inefectivo; pero, y si dicho porcentaje

fuera del 0%? Entonces el Plan Prepara sera

el responsable de que 6 de cada 100 benefici-

aros encontraran un trabajo en vez de seguir

desempleados como el resto. Pero como

saber cuntos de los beneficiarios del Plan

Prepara habran encontrado trabajo si no

hubieran participado en el programa?

El dar respuesta a la pregunta anterior cons-

tituye el gran reto al que se enfrentan qui-

enes se dedican a la evaluacin de impacto.

Desde esta perspectiva, el impacto de una

intervencin o programa es la diferencia en-

tre aquello que realmente acontece a los par-

ticipantes y el denominado contrafactual: esto

es, lo que les hubiera ocurrido de no haber

participado. Se trata de un gran reto porque,

obviamente, no es posible que los mismos

sujetos participen y no participen simultne-

amente en un determinado programa. Por

ello, como puso de manifiesto Marcos Vera

en un nmero anterior de esta revista, los

evaluadores tratan de aproximarse a la me-

dida de dicho contrafactual mediante el em-

pleo de tcnicas diversas que, sin embargo,

comparten una caracterstica comn: compa-

rar la evolucin de los outcomes de inters,

como por ejemplo la insercin laboral, entre

los participantes en el programa y otro grupo

de personas que, pese a no haber participa-

do, resultan muy parecidas a quienes s lo

han hecho. Sin embargo, de entre los diver-

sos diseos evaluativos existentes, hay uno

que sobresale por encima del resto: los ex-

perimentos sociales (en adelante, ES).

En las pginas que siguen trataremos de ex-

plicar en qu consiste un ES y por qu, pese

a su sencillez, constituye el mtodo ms ro-

busto para estimar el impacto de una poltica

pblica. Asimismo, describiremos qu alcan-

ce tienen en el mundo este tipo de evaluacio-

nes, las principales crticas que mencionan

sus detractores y, finalmente, cul puede ser

su futuro en nuestro pas, donde hasta el mo-

mento su nivel de penetracin ha sido nulo.

Qu son los ES y por qu no tienen rival mi-

diendo impactos?

Supongamos que el Plan Prepara no fuera

un programa laboral, sino un nuevo frmaco

contra un cncer incurable, y que el 6% antes

mencionado estuviera referido no a la tasa de

insercin laboral, sino al porcentaje de per-

sonas tratadas que sobreviven al cabo de un

3

ao. Cmo responderan los mdicos a la

pregunta sobre si el nuevo tratamiento resul-

ta o no efectivo? En principio, puesto que ha-

ce varias dcadas que la profesin mdica

basa sus juicios sobre efectividad en la reali-

zacin de ensayos clnicos, cabe esperar que

tambin en este caso hubieran procedido del

mismo modo. As, lejos de pronunciarse so-

bre si una tasa de supervivencia del 6% es

baja o alta, se habran preguntado qu por-

centaje de los pacientes hubiera sobrevivido

de no haber sido tratados con el nuevo fr-

maco. En concreto, tras reclutar a por ejem-

plo- 1.000 pacientes dispuestos a participar

en el ensayo, hubieran suministrado el fr-

maco a 500 de ellos elegidos al azar, mien-

tras a los 500 restantes les hubieran admi-

nistrado un placebo. Al cabo de un ao, hubi-

eran comparado la tasa de supervivencia del

grupo de tratamiento (6%) con la del grupo de

control (x%) y declarado, sencillamente, que

el frmaco resulta efectivo o no en funcin de

que x fuera o no menor que un 6 % [2].

En esencia, un experimento social es idntico

a un ensayo clnico, con la nica diferencia de

que el tratamiento no es una intervencin

sanitaria, sino un programa o poltica que

aspira a producir cambios sobre ciertos out-

comes que la sociedad valora (incrementar la

insercin laboral de los parados, reducir el

fracaso escolar, etc.).

Un ejemplo puede resultar til para ilustrar

el funcionamiento de un experimento social.

Supongamos una hipottica poltica activa de

empleo dirigida a jvenes parados, de entre

16 y 24 aos, que carezcan del graduado en

ESO. El programa en cuestin, al que po-

dramos denominar Segunda Oportunidad,

consistira en un cierto nmero de sesiones

formativas a las que seguiran unas prcticas

de 6 meses remuneradas. Una evaluacin

experimental de este programa, obviando

por el momento mltiples detalles a los que

nos referiremos ms tarde, podra realizarse

de la siguiente manera: 1) dar instrucciones a

las oficinas de empleo para que identificaran

potenciales beneficiarios del programa, con

el propsito de alcanzar una cifra de 1.000

candidatos; 2) mediante un procedimiento

aleatorio, y previo consentimiento de los can-

didatos, aleatorizaramos la participacin en

Segunda Oportunidad: 500 jvenes lo reci-

biran y 500 no y 3) pasado un cierto tiempo

tras la finalizacin del programa, compara-

ramos los outcomes relevantes, como el

grado de insercin laboral, entre el grupo de

tratamiento y de control. La figura 1 ilustra

grficamente la esencia de una evaluacin

4

experimental del programa Segunda Oportu-

nidad.

Figura 1. Evaluacin experimental del pro-

grama Segunda Oportunidad

Fuente: Adaptado de Haynes et al. (2012: p. 9).

Ahora bien, por qu la aleatorizacin, ya sea

de pacientes en un ensayo clnico o de jve-

nes parados en nuestro ejemplo, permite

evaluar el impacto de un tratamiento o pro-

grama de un modo ms vlido que otras tc-

nicas?

Gracias a la aleatorizacin, un experimento

logra que el grupo de tratamiento y el de

control se encuentren equilibrados en todos

aquellos atributos personales que pueden

influir sobre el outcome de inters, como pu-

edan ser, en el caso de Segunda Oportuni-

dad, la motivacin, la experiencia laboral

previa o el hecho de ser o no inmigrante [3].

De ese modo, cuando tras la finalizacin del

programa comparamos los outcomes entre

ambos grupos para inferir el impacto, pode-

mos descartar que el resultado obtenido sea

la consecuencia de que ambos grupos son

distintos. Por otro lado, al estar expuestos

ambos grupos a los mismos factores de

contexto mientras dura el programa, como

pudiera ser por ejemplo una mejora del mer-

cado laboral en el caso de Segunda Oportuni-

dad, tambin podemos descartar que sean

dichos factores los responsables de las dife-

rencias post-tratamiento en los outcomes. En

resumen, si detectamos dichas diferencias

en los outcomes entre ambos grupos, podre-

mos atribuirlos a lo nico que los distingue: a

saber, haber participado o no en el mismo. El

experimento social nos proporciona, por tan-

to, una estimacin vlida del impacto del pro-

grama.

Existen diseos evaluativos no experimenta-

les que tambin utilizan grupos de compara-

cin, como puedan ser el matching o el mo-

delo de dobles diferencias, lo cual les permi-

te tener en cuenta la influencia de dichos fac-

tores contextuales. Sin embargo, en la medi-

da en que el proceso de participacin en el

programa no es aleatorio, la condicin de que

ambos grupos tengan caractersticas

5

muy similares no est garantizada.

Volvamos al ejemplo de Segunda Oportuni-

dad para tratar de ilustrar este punto. Supon-

gamos que no se trata de un programa nue-

vo, sino que lleva algunos aos en funciona-

miento, y que nos encargan evaluar el im-

pacto que ste ha tenido sobre los jvenes

que han participado en el mismo. Adems,

como de hecho suele ser habitual, suponga-

mos tambin que la participacin en el pro-

grama no viene determinada por un proceso

de asignacin aleatorio, sino que son los em-

pleados de las Oficinas de Empleo los que

seleccionan a los candidatos a participar y

stos, libremente, deciden acabar partici-

pando o no. En principio, para todas aquellas

variables registradas en las bases de datos

del Servicio de Empleo, como son el sexo, la

edad, el nivel formativo y muchas otras ca-

ractersticas de los individuos, resulta posible

identificar un grupo de jvenes parados que

no haya participado en el programa y que sea

parecido al grupo de quienes s han partici-

pado.

Ahora bien, qu ocurre con todas aquellas

variables sobre las que no disponemos de

informacin, inobservables en trminos tc-

nicos, que pueden haber influido sobre las

decisiones tanto de los trabajadores de las

Oficinas de Empleo como de los propios jve-

nes (motivacin, implicacin de los padres,

renta familiar, etc.), y que claramente afectan

a las posibilidades de insercin laboral

posterior? Constituyen un problema para to-

dos los diseos no experimentales, ya que su

influencia sobre los outcomes resulta indis-

tinguible del impacto que realmente tiene el

programa, originando un error en el clculo

de dicho impacto conocido como sesgo de

seleccin. La gran ventaja de los ES es que

dicho sesgo queda eliminado, ya que el pro-

ceso de participacin viene definido por un

proceso de asignacin totalmente aleatorio y,

como se ha mencionado anteriormente, el

grupo de tratamiento y el de control estn

equilibrados en todos los atributos que pue-

den influir sobre los outcomes de inters

(incluso aunque sean inobservables!). En el

resto de diseos no experimentales, por bien

hechos que estn, siempre existe una som-

bra de duda sobre hasta qu punto el investi-

gador ha sido capaz de eliminar completa-

mente la amenaza de dicho sesgo o, en otras

palabras, descartar la posibilidad de que el

impacto estimado de la poltica no sea el re-

sultado de que los participantes son distintos

a las personas con las que se las ha compa-

rado.

6

Qu se entiende exactamente por aleatori-

zacin?

La aleatorizacin de la participacin consti-

tuye la piedra angular de un ES y, para que

una evaluacin pueda considerarse experi-

mental, su existencia es un requisito indis-

pensable. La aleatorizacin que caracteriza

un ES no debe confundirse con el muestreo

aleatorio que debe exigirse a una encuesta,

sea sta de salud o de poblacin activa, para

que los resultados obtenidos resulten repre-

sentativos de la poblacin. Por un lado, mien-

tras lo que tiene que ser aleatorio en una en-

cuesta es la seleccin de los sujetos a entre-

vistar, lo que se precisa en un experimento

social es que, de entre los candidatos a parti-

cipar en el programa, la eleccin de quienes

acaban participando y quines no se lleve a

cabo mediante un procedimiento aleatorio.

Por otro lado, la aleatorizacin en un ES no

busca la representatividad de los resultados,

sino permitir estimar sin sesgos el impacto

del programa evaluado, como ya hemos co-

mentado.

Ello no significa, sin embargo, que un experi-

mento social no pueda aleatorizar tambin el

proceso de captacin de candidatos. Por

ejemplo, si las 1.000 escuelas de Catalunya

estuvieran dispuestas a participar en un pro-

grama de incentivos a profesores, pero slo

hubiera presupuesto para aplicar el esquema

en 100 centros, podramos elegir 200 escu-

elas al azar de entre las 1.000 (muestra de

candidatos) y, tras ello, asignar aleatoria-

mente la participacin en el programa a la

mitad de ellas. La primera aleatorizacin

conferira representatividad a nuestros re-

sultados, en el sentido de que podran consi-

derarse extrapolables a las 800 escuelas no

experimentales, pero es la segunda aleato-

rizacin la que nos permite medir el impacto

del programa y la nica necesaria para califi-

car a una evaluacin de experimental.

Otra forma de disear, implementar y re-

disear las polticas pblicas

Si bien existen evaluaciones experimentales

de programas que llevan aos funcionando,

como por ejemplo la realizada entre 1996 y

2003 del JobCorps estadounidense (Schochet

et al., 2008), un programa dirigido a jvenes

en riesgo de exclusin social iniciado en 1960

y plenamente consolidado, la mayora de ES

se plantean sobre una poltica nueva o sobre

una variacin de un programa ya existente.

De hecho, a diferencia de las evaluaciones de

tipo retrospectivo, en las cuales de lo que se

trata es de estimar el impacto que haya podi-

do tener una poltica una vez concluida, los

7

ES no slo se disean a la par que la poltica

que se pretende evaluar, sino que van de la

mano durante todo el proceso de implemen-

tacin. En el fondo, como bien indica el suge-

rente ttulo de un reciente informe sobre ex-

perimentos sociales, Test, Learn and Adapt

(Haynes et al., 2012), se trata de una modali-

dad de evaluacin que abre las puertas a una

manera distinta de desarrollar las polticas

pblicas, si bien tambin plantea retos im-

portantes a los polticos y gestores que estn

dispuestos a impulsarlos.

En primer lugar, aceptar evaluar experimen-

talmente una nueva poltica pblica exige

reconocer, explcitamente, que no se sabe

con certeza si el programa en cuestin va a

resultar o no efectivo. Se trata de un ejercicio

de humildad intelectual poco comn en el

panorama poltico actual, a pesar de que

existen innumerables ejemplos de polticas

cuyos efectos han resultado ser nulos o in-

cluso negativos: por ejemplo, en el mbito de

la justicia, de las ms de 80 evaluaciones ex-

perimentales realizadas en EEUU de progra-

mas de todo tipo, desde dispositivos de rein-

sercin de jvenes a modificaciones en los

tipos de sancin, nada menos que el 81% tuvi-

eron resultados nulos o negativos

(Farrington y Welsh, 2005). En otras ocasio-

nes, como revela la evaluacin de un progra-

ma en el Reino Unido que pretenda reducir

la dependencia de los beneficiarios de pres-

taciones asistenciales, por la va de ayudar a

los participantes a retener un empleo cuando

finalmente lo encontraban, el programa se

revela efectivo para quienes menos se espe-

raba: as, si polticos, gestores e investigado-

res pensaban, antes de llevar a cabo la eva-

luacin, que el nuevo programa sera efectivo

para las familias monoparentales pero no

para los parados de larga duracin, los re-

sultados fueron exactamente los contrarios

(Hendra et al., 2011) [4].

Por otro lado, adems de humildad intelectu-

al, la naturaleza prospectiva de los ES obliga

a polticos y gestores a explicitar, de antema-

no, cules son los outcomes sobre los cules

el programa pretende incidir, as como a

consensuar con los evaluadores el modo en

que dichos outcomes se van a cuantificar.

Asimismo, lejos de verse restringidos a usar

los datos que sobre el programa existan, co-

mo ocurre en las evaluaciones de carcter

retrospectivo, los ES permiten a los investi-

gadores definir de antemano qu tipo de in-

formacin se requiere para llevar a cabo la

evaluacin y, si es necesario, aadir alguna

nueva variable a los registros administrativos

8

o suplementar la informacin de stos a tra-

vs de encuestas. Todos estos elementos

reducen las posibilidades de manipulacin ex

-post de los resultados de la evaluacin, ya

que los diversos elementos han sido defini-

dos de antemano, por lo que la credibilidad

de los resultados obtenidos aumentan. A ello

habra que sumar, como ya se coment ante-

riormente, la superioridad de los experimen-

tos para medir el impacto de un programa de

modo vlido.

Finalmente, de cara al desarrollo de nuevas

polticas y al perfeccionamiento de las ya

existentes, los resultados de las evaluacio-

nes experimentales devienen un instrumento

socialmente muy til. La razn ms obvia es

que nos permiten determinar, de un modo

riguroso, cules son las polticas que funcio-

nan y, por tanto, acabar generalizando nica-

mente aquellos programas piloto que han

demostrado ser eficaces. No obstante, inclu-

so si los experimentos revelan la inefectivi-

dad de una poltica, este resultado deviene

igualmente valioso: nos permite comprender

por qu la poltica no surte los efectos desea-

dos y, tras ello, a proponer y testar experi-

mentalmente nuevas versiones del programa

que no ha funcionado.

Los experimentos sociales estn ya al otro

lado de los Pirineos

El New Jersey Income Maintenance Experi-

ment, llevado a cabo en los EEUU a finales de

aos 60 del pasado siglo, suele considerarse

la primera evaluacin experimental de una

poltica pblica (Burtless y Hausman, 1978).

Su propsito fue analizar en que medida los

beneficiarios de un programa de mantenimi-

ento de rentas, similar a los programas auto-

nmicos de rentas mnimas, modificaban su

comportamiento laboral ante distintas cuan-

tas de la prestacin econmica recibida. A

ese primer experimento siguieron otros

igualmente famosos, como el Rand Health

Insurance Experiment, realizado a principios

de los 80, tambin en los EEUU, con el objeti-

vo de testar el impacto sobre la salud y el uso

de servicios sanitarios de distintas configura-

ciones de copagos (Newhouse, 1993). En el

mbito educativo, destaca el conocido popu-

larmente como Proyecto STAR, llevado a ca-

bo en Tennessee a finales de los 80, con el

propsito de analizar experimentalmente si

el tamao de las clases tena impactos sobre

el rendimiento acadmico de los alumnos a

medio y largo plazo (Mosteller, 1995).

En cualquier caso, adems de los experi-

mentos anteriores, cuya influencia poltica y

9

repercusin meditica result ser especial-

mente acusada, son mltiples los ES realiza-

dos durante las ltimas tres dcadas en los

EEUU en mbitos tan diversos como la justi-

cia (Farrington y Welsh, 2005), la educacin

(Antonio Cabrales, en Nada es Gratis, aqu o

aqu) o los programas de asistencia social

(Butler et al., 2012). De hecho, segn el in-

ventario realizado por Greenberg y Shroder

(2004), el nmero de experimentos sociales

realizados en EEUU en los mbitos seala-

dos se acercara a los 300 durante el periodo

1980-2003. Hay que decir que dichos experi-

mentos no siempre evalan programas del

sector pblico, sino que a menudo se trata de

evaluaciones impulsadas por organizaciones

filantrpicas para testar la efectividad de las

polticas por ellas financiadas. Incluso en el

mbito empresarial, como detalla Manuel

Bages en esta otra entrada de Nada Gra-

tis, se han producido algunos avances sus-

tanciales en la aplicacin de evaluaciones

experimentales.

Otro mbito en el que la experimentacin

social ha registrado un avance muy notable

es el relacionado con la evaluacin de los

programas de ayuda al desarrollo, especial-

mente los auspiciados por organismos inter-

nacionales como el Banco Mundial o El Banco

Interamericano de Desarrollo. El reciente

libro de Banerjee y Duflo (2011), que lleva el

sugerente titulo de Poor Economics, ofrece

una panormica realmente interesante de lo

que ha dado de si la experimentacin social

en el mbito de los programas de ayuda al

desarrollo. Tambin en algunos pases de

Hispanoamrica se han llevado a cabo expe-

rimentos de una trascendencia notable, des-

tacando especialmente los programas Pro-

gresa y Seguro Popular de Salud, ambos lle-

vados a cabo en Mjico: el primero para com-

batir la pobreza mediante transferencias mo-

netarias que deban destinarse a la escolari-

zacin de los nios y a actividades de salud

preventivas (Schultz, 2004), y el segundo para

comprobar los efectos sobre la salud y el uso

de servicios sanitarios de la extensin del

aseguramiento sanitario a familias de bajos

recursos (King et al., 2007).

En Europa, hasta hace apenas una dcada,

los ES constituan una autntica rareza. Sin

embargo, durante estos ltimos aos se han

empezado a realizar numerosas evaluacio-

nes experimentales, especialmente en el

mbito de las polticas laborales, como la

Employment Retention and Advancement

(ERA) demonstration realizada en el Reino

Unido (Hendra et al. 2011) o la evaluacin de

varios esquemas de activacin de parados

10

realizados en Dinamarca (Graversen & Van

Ours, 2008), por poner solo dos ejemplos.

Una mencin especial merece el Fons dEx-

primentation pour la Jeunesse, el cual inicia

su andadura en 2008 y que, a travs de una

dotacin de ms de 200 millones de euros

para el periodo 2009-2014, intenta favorecer

la evaluacin experimental de nuevas formas

de intervencin destinadas a combatir el fra-

caso escolar y la exclusin laboral de los

jvenes franceses. Los programas evaluados

hasta el momento, o en curso de evaluacin,

son muy variados e incluyen desde interven-

ciones orientadas a incrementar la implicaci-

n de los padres en el proceso educativo

(aqu) a la provisin de tutoras para prevenir

el abandono escolar (aqu), pasando por la

provisin de servicios de orientacin laboral

a jvenes parados (aqu).

Crticas a los experimentos

Tratndose del diseo ms robusto para eva-

luar el impacto de una poltica, y pese haber

crecido su nmero en los ltimos aos, no

deja de sorprender que no se lleven a cabo

muchos ms ES. En parte, esta carencia de-

muestra la efectividad de algunas de las crti-

cas vertidas sobre los experimentos, si bien

el fundamento lgico de muchas de ellas re-

sulta cuanto menos cuestionable.

Un primer aspecto que suele criticarse de los

experimentos es que son caros. Sin duda,

esta apreciacin se debe en parte al poso que

dejaron los primeros ES llevados a cabo en

EEUU, como el New Jersey Income tax o el

Rand Experiment antes mencionados, que

implicaron equipos muy numerosos, realiza-

cin de encuestas muy costosas, etc. Hoy en

da, como muestra a travs de varios ejem-

plos la Coalition for Evidence-Based Policy, la

informatizacin de los registros administrati-

vos ha permitido, en muchos casos, sortear

la necesidad de realizar costosas encuestas

sin que por ello se haya perdido riqueza ana-

lstica, ya que la exhaustividad y fiabilidad de

dichos registros resulta muy notable. Por

ejemplo, como demuestra el experimento

llevado a cabo por Fryer en Nueva York ana-

lizan el impacto de un programa de incenti-

vos a profesores, basta con aleatorizar las

escuelas y analizar los outcomes de a travs

de los registros administrativos de la autori-

dad educativa (pruebas estandarizadas, tasa

de abandono escolar, etc.).

En cualquier caso, ms all de las considera-

ciones econmicas, el argumento habitual

que utilizan los que se oponen a los ES tiene

un trasfondo tico: resulta inadecuado privar

a determinados individuos (los del grupo de

control) de los beneficios que supone una

11

nueva poltica utilizando un mecanismo tan

arbitrario como la aleatorizacin. La rplica

por parte de aquellos que ven en los ES una

herramienta adecuada de evaluacin se sus-

tenta en tres consideraciones.

La primera es que la presuncin de que se

est privando a algunos individuos de algo

beneficioso no debera tener sentido si el ex-

perimento est justificado, ya que es precisa-

mente la ausencia de datos sobre la efectivi-

dad del programa lo que justifica su evaluaci-

n. Por otra parte, son pocas las ocasiones

en las que pertenecer al grupo de control

implica no recibir ningn tipo de intervenci-

n, sino que ms bien lo que se compara es

la nueva poltica respecto a seguir como

hasta ahora. Finalmente, hay situaciones

bastante frecuentes en las que la aleatoriza-

cin puede considerarse un criterio de asig-

nacin equitativo, como por ejemplo cuando

la falta de recursos no permite atender de

una sola vez a toda la poblacin potencial-

mente beneficiaria de la poltica; de hecho,

cuando se producen situaciones de este esti-

lo, un diseo experimental ms aceptable

que utilizar una simple lotera entre individu-

os es optar por un despliegue gradual aleato-

rizado: lo que se aleatoriza es el momento

del tiempo en el que distintos grupos de indi-

viduos o territorios comenzarn a recibir el

nuevo programa. Un enfoque de estas carac-

tersticas, por poner un ejemplo, es el que se

llev a cabo en Mjico para evaluar experi-

mentalmente el programa Progresa anteri-

ormente mencionado (Schultz, 2004).

Otra crtica que suele formularse con relaci-

n a los experimentos es que, pese a que

permiten establecer la efectividad de una po-

ltica, no resultan tiles para comprender por

qu la poltica funciona o no. Probablemente

la crtica fuera acertada en el caso de los pri-

meros ES, muchos de ellos de caja negra,

en el sentido de que se aleatorizaba la parti-

cipacin y se median los resultados post-

tratamiento, sin detenerse a describir el pro-

ceso de implementacin del nuevo progra-

ma. Sin embargo, desde hace ya algunos

aos, los experimentos mejor diseados su-

elen incluir una evaluacin cualitativa y cuan-

titativa de la implementacin, la cual permite

aventurar hiptesis sobre qu componentes

de la poltica pueden haber tenido una mayor

influencia en los resultados de impacto ob-

servados. Un buen ejemplo de este tipo de

enfoque es el trabajo de Bloom et al. (2003)

sobre los efectos de los programas de activa-

cin dirigidos a los perceptores de prestacio-

nes asistenciales, ya que los experimentos

realizados no slo permitieron establecer la

efectividad de los distintos programas,

12

sino tambin la mayor o menor influencia

sobre sta de diversos componentes de los

mismos (grado de personalizacin de la

atencin, nmero de casos por trabajador

social, nfasis en buscar empleo por encima

de la formacin, etc.).

Una ltima objecin que habitualmente se

hace a los experimentos es que suelen care-

cer de validez externa o, en palabras menos

tcnicas, que los resultados que se obtienen

en relacin al impacto de una poltica, aun-

que vlidos con respecto a los sujetos, mo-

mento y lugar en que el experimento se llev

a cabo, pueden no ser extrapolables a con-

textos distintos. Aquellos que se dedican a la

experimentacin social han tratado de miti-

gar la falta de validez externa por dos vas.

En primer lugar, aunque a costa de incre-

mentar los recursos necesarios, son habitua-

les las evaluaciones multi-site, en las que el

programa se evala aplicndolo en lugares

diversos (por ejemplo, escuelas pblicas y

concertadas, rurales y urbanas, etc.), con el

propsito de analizar hasta qu punto los

resultados de impacto varan de unos contex-

tos a otros. Por otro lado, cuando el nmero

de rplicas experimentales de un determina-

do tipo de programa es lo bastante importan-

te, pueden llevarse a cabo lo que se denomi-

na un meta-anlisis de los resultados obteni-

dos, esto es, un ejercicio cuantitativo de sn-

tesis que pretende establecer si el programa

resulta efectivo con carcter general, con in-

dependencia de las poblaciones, lugares y

momentos en los que este se aplique. A tal

efecto, deviene crucial la labor de inventaria-

do llevada a cabo por organizaciones o inicia-

tivas de distinta ndole, como por ejemplo el

What Works Clearinghouse, que evala y sin-

tetiza los resultados de todo tipo de experi-

mentos llevados a cabo en el mbito educati-

vo (programas de lectura, de refuerzo esco-

lar, de atencin precoz, etc.).

Algunas precauciones

Puede que las crticas a los experimentos no

resulten adecuadas en muchos casos, pero

no por ello hay que pensar que llevar a cabo

una evaluacin experimental resulta una ta-

rea sencilla. En primer lugar, desde una

perspectiva metodolgica, hay que ser cons-

ciente de los retos que supone realizar una

evaluacin experimental y de las dificultades

que pueden aparecer. Algunas de las ms

importantes son las siguientes [5]:

El tamao de los grupos. Una de las prime-

ras cuestiones a la que tiene que dar res-

puesta un ES es cuntas unidades, sean s-

tas alumnos, escuelas o juzgados, han de

formar parte de los grupos de control y

13

de tratamiento. Dejando de lado los detalles

estadsticos, diremos simplemente que hay

dos factores que influyen especialmente so-

bre la cuestin del tamao de las muestras:

de un lado, la magnitud del impacto que que-

ramos ser capaces de detectar (por ejemplo,

aumentos de la insercin laboral de un punto

porcentual) y, de otro, el grado de incerti-

dumbre sobre la validez de nuestros resulta-

dos que estemos dispuestos a tolerar. A ve-

ces, existen determinadas intervenciones en

las que basta con aleatorizar unas decenas

de unidades para extraer conclusiones rele-

vantes, mientras que en otro tipo de progra-

mas se precisan varios miles de sujetos para

conseguir lo mismo. De todos modos, es

algo a tener en cuenta desde el inicio de la

evaluacin, ya que un experimento con tama-

os muestrales insuficientes puede acabar

siendo intil para detectar los efectos de un

programa, no porque stos no existan, sino

porque nuestro diseo no es capaz de detec-

tarlos.

Riesgo de contaminacin. Un problema

con el que pueden encontrarse los ES es que,

a pesar de haber sido asignados aleatoria-

mente a los grupos de tratamiento y control,

algunos de los individuos del primer grupo

acaben no recibiendo lo que el programa

prev (por ejemplo, porque decidan no asistir

a las clases que Segunda Oportunidad esti-

pula) y/o algunos del grupo de control acaben

teniendo acceso a l (por ejemplo, porque los

trabajadores de las oficinas de empleo su-

cumben a las presiones de algunos no trata-

dos). El riesgo de que se produzca este tipo

de situaciones depende, en gran medida, de

cual sea la capacidad de los responsables del

experimento para monitorizar la actividad de

los gestores del programa y evitar situacio-

nes anmalas.

Externalidades. Cualquier efecto indirecto

sobre los outcomes del grupo de control mo-

tivado por la existencia del tratamiento pone

en entredicho la validez de los resultados

generados por el experimento. Una seleccin

precisa de las unidades a partir de las cuales

se realizar el proceso de aleatorizacin pue-

de prevenir este tipo de sesgo; a modo de

ejemplo, si estamos interesados en medir el

impacto de un programa escolar de salud

alimentaria sobre la obesidad infantil, es

evidente que la aleatorizacin no deber rea-

lizarse entre individuos de un mismo colegio

(habr procesos de imitacin), sino entre co-

legios que se encuentren a cierta distancia

unos de otros.

14

En cualquier caso, la naturaleza prospectiva

de los ES hace que las fases de planificacin

y diseo de la evaluacin sean de crucial im-

portancia. El riesgo de contaminacin, la

existencia de externalidades o cualquier otro

factor que puedan sesgar los resultados de la

evaluacin, debern ser anticipados e incor-

porados al diseo del experimento para tra-

tar de eliminarlos o, al menos, minimizar su

alcance. En caso contrario, cuando el experi-

mento ya se encuentra en marcha, resulta

prcticamente imposible rehacer el diseo y

la validez de los resultados obtenidos pueden

quedar seriamente comprometidos.

De todos modos, ms all de las cuestiones

tcnicas que acabamos de mencionar, los

verdaderos obstculos a los que se enfren-

tan los experimentos suelen ser a menudo

de carcter poltico-administrativo. No hay

constancia de la multitud de experimentos

que han sido descartados, muchas veces ale-

gando los impedimentos mencionados ante-

riormente (tica, costes, etc.), pero seguro

que se cuentan por centenares. Por otro lado,

incluso cuando un experimento acaba llevn-

dose a cabo, nada impide que un cambio de

gobierno ponga fin al experimento o que los

responsables de implementarlo en el terreno

traten de sabotearlo [6]. Sin embargo, como

apuntan King et al. (2007), la existencia de

estos y otros condicionantes poltico-

administrativos no deben ser vistos como

una anomala, sino que constituyen la esen-

cia del terreno en el que se desarrollan las

polticas pblicas y, por ende, los ES. Se tra-

ta, por el contrario, de tenerlos en cuenta

desde el principio del experimento y, por su-

puesto, descartar su aplicacin si hay indi-

cios claros de que ste no va a prosperar.

El futuro de los experimentos sociales a este

lado de los Pirineos

Los ES constituyen un diseo evaluativo de

una potencia muy notable y su uso, cuando

resulta conveniente y se realiza correcta-

mente, puede ayudar a desarrollar polticas

pblicas ms efectivas. Sin embargo, pese al

impulso que la experimentacin social ha

vivido en las ltimas dcadas, especialmente

en EEUU pero tambin en algunos pases

europeos, su utilizacin en Espaa ha sido

hasta el momento inexistente. Es cierto que

su implementacin plantea retos tcnicos

importantes y que a menudo existen condi-

cionantes polticos a tener en cuenta, pero la

total ausencia de ES en nuestro pas no nos

parece una situacin que deba mantenerse

por ms tiempo.

15

Estando como estamos inmersos en una cri-

sis de las finanzas pblicas muy preocupan-

te, parece obligado impulsar el desarrollo de

ES: permitiran cuantificar la efectividad real

de buena parte de las polticas pblicas que

estn ahora bajo sospecha, y que se eliminan

o mantienen sin evidencia alguna sobre su

efectividad, y tambin de los nuevos progra-

mas que a menudo se proponen para mejo-

rar la situacin. Asimismo, existen mltiples

profesionales con capacidad tcnica suficien-

te como para llevar a cabo este tipo de eva-

luaciones, especialmente en el mbito uni-

versitario. Por ltimo, como pone de mani-

fiesto el artculo de Blanca Lzaro en esta

misma revista, existen frmulas de institu-

cionalizacin de la evaluacin experimental

que podran aplicarse en nuestro contexto sin

demasiados problemas (por ejemplo, el Fons

dExprimentation pour la Jeunesse mencio-

nado anteriormente).

Una parte del camino ya est hecho. En el

fondo, la mayora de ES no son sino progra-

mas piloto cuya generalizacin depende, fun-

damentalmente, de la capacidad que de-

muestren de resultar eficaces. Y, los pilotos,

con ese mismo nombre, no son ajenos a la

realizada de nuestras polticas pblicas: as,

por poner solo un ejemplo, el programa Su-

mat del Servicio de Ocupacin de Catalunya,

que pretende incrementar la insercin labo-

ral de los jvenes con baja formacin, fue

concebido como un proyecto piloto. Sin em-

bargo, lejos de verse como una oportunidad

de testar la efectividad de la poltica antes de

sugerir su generalizacin, los pilotos en

nuestro pas son simplemente ensayos

destinados a mejorar la implementacin del

mismo, pues la efectividad se da por supues-

ta en la mayora de los casos. No obstante,

una vez determinado que el programa slo

se aplicar en algunos territorios, lo nico

que separa nuestros actuales pilotos de los

ES es la aleatorizacin. Y dicho mecanismo

de asignacin, como ya se ha comentado,

puede resultar fcilmente defendible cuando,

como suele ser el caso, la falta de presu-

puesto impide aplicar el nuevo programa a

todos los potenciales beneficiarios.

Sin embargo, ms all de las cuestiones an-

teriores, el gran reto es convencer a los res-

ponsables polticos y a los gestores de los

programas de las posibilidades que ofrece la

experimentacin social. Esta suerte de

conversin, por llamarlo de algn modo,

precisa de dos condiciones en absoluto trivia-

les: por un lado, reconocer que no se sabe si

una determinada intervencin va resultar o

no efectiva y, por otro lado, ser consciente de

16

que la experimentacin social es el modo

ms fiable, si se lleva a cabo correctamente,

de evaluar si algo funciona o no. Somos

conscientes de que se trata de un cambio

cultural de primera magnitud.

El camino se nos antoja largo y plagado de

dificultades, pero no hay que pensar que este

no pueda ser recorrido, a menos que acepte-

mos que hay algo intrnseco a nosotros, algo

gentico, que nos impide introducir la eva-

luacin experimental en nuestras polticas

pblicas. Nosotros creemos que no lo hay.

De hecho, con este artculo, hemos querido

aportar nuestro granito de arena para que

ms pronto que tarde se llegue a invalidar,

tambin en este campo, el viejo tpico de que

Spain is different y que, por fin, la experi-

mentacin social acabe cruzando los Piri-

neos.

17

Para saber ms

Descrgate gratuitamente el informe Test, Learn and Adapt, recientemente publicado

por el Cabinet Office del Reino Unido: http://is.gd/U29XIl

No te pierdas el excelente curso gratuito sobre evaluacin experimental impartido por Esther Duflo y otros miembros del Poverty Action Lab (MIT): http://is.gd/yBeJLN

Muy recomendable la web del What Works Clearinghouse: un magnfico repositorio sobre intervenciones en el mbito educativo evaluadas experimentalmente: http://is.gd/

j3v2R4

[1]El Plan Prepara, para aquellos que han estado de vacaciones fuera de Espaa, es el programa que concede 400 euros a

los parados de larga duracin que han agotado la prestacin o el subsidio de desempleo, siempre y cuando estos acepten

participar en acciones formativas y/o de orientacin laboral.

[2] No siempre los tratamientos sanitarios son sometidos al escrutinio de evaluaciones experimentales. A este respecto, un

caso especialmente dramtico es el tratamiento con esteroides aplicado a quienes haban sufrido un traumatismo crane-

al (Haynes et al., 2012). Esta prctica, que se haba utilizado de forma rutinaria durante dcadas, fue sometida a un ensayo

clnico en 2004. Los resultados no slo no demostraron lo que todo el mundo crea (esto es, que se trataba de un tratamien-

to efectivo), sino que indicaron que el grupo de tratamiento estaba experimentando un riesgo de muerte mayor. De hecho,

el ensayo tuvo que suspenderse para no seguir daando a los sujetos tratados.

[3] En trminos tcnicos este equilibrio implica que, para cada una de dichas caractersticas, no existen diferencias estads-

ticamente significativas entre la media observada en uno y otro grupo. Vase Duflo et al. (2007) para una descripcin formal

de los fundamentos estadsticos de los experimentos sociales como tcnica para medir impactos.

[4] Pueden encontrarse ejemplos de polticas inefectivas, o incluso perjudiciales, en muchos mbitos de intervencin pbli-

ca. Haynes et al. (2012) ofrecen ejemplos interesantes al respecto.

[5] Vase Duflo et al. (2007) para un anlisis detallado al respecto.

[6] A este respecto, resulta ilustrativo uno de los primeros experimentos llevado a cabo en Noruega en materia de polticas

laborales (Torp et al, 1993). Gracias a la existencia previa de un exceso de demanda generalizado, con ms parados que

plazas disponibles, se pens que la aleatorizacin sera factible. Sin embargo, tras la puesta en marcha del experimento,

los trabajadores de las oficinas de trabajo, que deban llevar a cabo el proceso de seleccin, optaron por identificar como

potenciales candidatos un nmero tal de personas que siempre coincida con el de plazas disponibles, eliminando por tanto

la necesidad de aleatorizar la participacin.

18

Bibliografa

Banerjee, A., & Duflo, E. (2011). Poor econo-

mics: a radical rethinking of the way to fight

global poverty. New York: PublicAffairs.

Bloom, H. S., Hill, C. J., & Riccio, J. A. (2003).

Linking program implementation and effecti-

veness: Lessons from a pooled sample of

welfaretowork experiments. Journal of Po-licy Analysis and Management, 22(4), 551

575.

Burtless, G., & Hausman, J. A. (1978). The

effect of taxation on labor supply: Evaluating

the Gary negative income tax experiment.

The Journal of Political Economy, 86(6), 1103

1130.

Butler, D., Alson, J., Bloom, D., Deitch, V., Hill,

A., Hsueh, J. A., Jacobs, E., et al. (2012). What

Strategies Work for the Hard-to-Employ? Fi-

nal Results of the Hard-to-Employ Demons-

tration and Evaluation Project and Selected

Sites from the Employment Retention and

Advancement Project ( No. 2012-08). Office of

Planning, Research and Evaluation (OPRE).

Duflo, E., Glennerster, R., & Kremer, M.

(2007). Using randomization in development

economics research: A toolkit. Handbook of

development economics, 4, 38953962.

Farrington, D. P., & Welsh, B. C. (2005). Ran-

domized experiments in criminology: What

have we learned in the last two decades?

Journal of Experimental Criminology, 1(1), 9

38.

Graversen, B. K., & Van Ours, J. C. (2008). Ac-

tivating unemployed workers works; Experi-

mental evidence from Denmark. Economics

Letters, 100(2), 308310.

Greenberg, D. H., & Shroder, M. (2004). The

digest of social experiments. Washington D.C:

Urban Inst Press.

Haynes, L. et alt. (2012). Test, Learn and

Adapt. Developing Public Policy with Rando-

mised Controlled Trials. Cabinet Office. Beha-

vioural Insights Team. Retrieved from http://

is.gd/U29XIl

Hendra, R., Riccio, J. A., Dorsett, R., Green-

berg, D. H., Knight, G., Phillips, J., Robins, P.

K., et al. (2011). Breaking the low-pay, no-pay

cycle: Final evidence from the UK Em-

ployment Retention and Advancement (ERA)

demonstration (Vol. 765). Department for

Work and Pensions.

Mosteller, F. (1995). The Tennessee study of

class size in the early school grades. The fu-

ture of children, 5(2), 113127.

19

Newhouse, J. P. (1993). Free for all?: lessons

from the RAND health insurance experiment.

Cambridge: Harvard University Press.

Paul Schultz, T. (2004). School subsidies for

the poor: evaluating the Mexican Progresa

poverty program. Journal of development

Economics, 74(1), 199250.

Schochet, P. Z., Burghardt, J., & McConnell,

S. (2008). Does Job Corps Work? Impact Fin-

dings from the National Job Corps Study. The

American Economic Review, 98(5), 1864

1886.

Torp, H., Raaum, O., Hernaes, E., & Goldstein,

H. (1993). The first Norwegian experiment. In

Karsten, J. & Madsen, P. K. (Eds.), Measuring

labour market measures: Evaluating the ef-

fects of active labour market policies. Copen-

hagen, Ministry of Labour. Copenhagen: Mi-

nistry of Labour.

Vias, V. (2009). The European Unions Drive

towards Public Policy Evaluation The Case of

Spain. Evaluation, 15(4), 459472.

porque no evaluamos las pp como si fueran farmacos.pdf

Documents