porque no evaluamos las pp como si fueran farmacos.pdf
TRANSCRIPT
-
Introduccin
La crisis econmica ha suscitado un renovado inte-
rs por la evaluacin de polticas pblicas o, al me-
nos, por los conceptos sobre los que sta versa. As,
ya sea en el mbito estatal, autonmico o local, los
responsables polticos, sean del color que sean, in-
sisten en la necesidad de mejorar la efectividad de
determinados programas o ganar en eficiencia en
la provisin de los servicios pblicos. Esta insisten-
cia nos parece positiva, aunque tenemos dudas de
que este nfasis se mantenga cuando vengan ti-
empos mejores, lo cual sera un error: preguntarse
si una determinada poltica activa aumenta la inser-
cin laboral de los parados (efectividad) o si, compa-
rado con otras intervenciones, el coste por parado
insertado de dicha poltica es ms o menos favora-
ble (eficiencia) son cuestiones que la Administracin
debera plantearse en todo momento, sea cul sea
la situacin econmica y el estado de las finanzas
pblicas.
No obstante, pese a este auge de la evaluacin en el
plano discursivo, lo cierto es que nuestro pas sigue
encontrndose a la cola de los pases desarrollados
en cuanto a la evaluacin de polticas pblicas
(Vias, 2009). Y, lo que resulta an ms preocupan-
te, cuando al calor de este renovado inters por la
evaluacin se discute sobre el impacto de tal o cual
poltica, los resultados que se invocan suelen estar
basados, en el mejor de los casos, en lecturas er-
rneas de los datos disponibles, cuando no en anc-
dotas de imposible generalizacin o en apriorismos
ideolgicos sin base emprica alguna.
Dejando de lado la evidencia anecdtica y los aprio-
rismos, para los que el lector seguro que tiene
ejemplos variados, centrmonos en la cuestin de
la mala interpretacin de los datos. El Plan Prepara,
que ha acaparado buena parte de las portadas du-
rante el pasado mes de agosto, resulta un ejemplo
revelador a este respecto [1]. Entre otros motivos, la
necesidad de reformar el programa se justificaba
por el hecho de que slo el 6% de beneficiarios lo-
graba reinsertarse laboralmente. Significa esto
Por qu no evaluamos las polticas pblicas co- mo los frmacos? Una apuesta por la experimen- tacin social - David Casado
Avaluaci per al Bon Govern Nmero 3. Octubre 2012
David Casado es doctor en Economa por la Universitat Pompeu Fabra. Como analista de Ivlua, al que se incopora en 2009, ha participado en la elaboracin de varias de las guas metodolgicas, ha sido formador en las diversas ediciones del Ciclo de Formaci-n en Evaluacin de Polticas Pblicas y ha participado en varias de las evaluaciones realizadas por dicha institucin.
-
2
que el programa no es efectivo? Bueno, de-
pende de cual es el porcentaje de dichos be-
neficiarios que, en ausencia del plan Prepara,
se hubieran reinsertado: si la respuesta fu-
ese que el 6%, podramos concluir que en tr-
minos de insercin laboral el programa re-
sulta inefectivo; pero, y si dicho porcentaje
fuera del 0%? Entonces el Plan Prepara sera
el responsable de que 6 de cada 100 benefici-
aros encontraran un trabajo en vez de seguir
desempleados como el resto. Pero como
saber cuntos de los beneficiarios del Plan
Prepara habran encontrado trabajo si no
hubieran participado en el programa?
El dar respuesta a la pregunta anterior cons-
tituye el gran reto al que se enfrentan qui-
enes se dedican a la evaluacin de impacto.
Desde esta perspectiva, el impacto de una
intervencin o programa es la diferencia en-
tre aquello que realmente acontece a los par-
ticipantes y el denominado contrafactual: esto
es, lo que les hubiera ocurrido de no haber
participado. Se trata de un gran reto porque,
obviamente, no es posible que los mismos
sujetos participen y no participen simultne-
amente en un determinado programa. Por
ello, como puso de manifiesto Marcos Vera
en un nmero anterior de esta revista, los
evaluadores tratan de aproximarse a la me-
dida de dicho contrafactual mediante el em-
pleo de tcnicas diversas que, sin embargo,
comparten una caracterstica comn: compa-
rar la evolucin de los outcomes de inters,
como por ejemplo la insercin laboral, entre
los participantes en el programa y otro grupo
de personas que, pese a no haber participa-
do, resultan muy parecidas a quienes s lo
han hecho. Sin embargo, de entre los diver-
sos diseos evaluativos existentes, hay uno
que sobresale por encima del resto: los ex-
perimentos sociales (en adelante, ES).
En las pginas que siguen trataremos de ex-
plicar en qu consiste un ES y por qu, pese
a su sencillez, constituye el mtodo ms ro-
busto para estimar el impacto de una poltica
pblica. Asimismo, describiremos qu alcan-
ce tienen en el mundo este tipo de evaluacio-
nes, las principales crticas que mencionan
sus detractores y, finalmente, cul puede ser
su futuro en nuestro pas, donde hasta el mo-
mento su nivel de penetracin ha sido nulo.
Qu son los ES y por qu no tienen rival mi-
diendo impactos?
Supongamos que el Plan Prepara no fuera
un programa laboral, sino un nuevo frmaco
contra un cncer incurable, y que el 6% antes
mencionado estuviera referido no a la tasa de
insercin laboral, sino al porcentaje de per-
sonas tratadas que sobreviven al cabo de un
-
3
ao. Cmo responderan los mdicos a la
pregunta sobre si el nuevo tratamiento resul-
ta o no efectivo? En principio, puesto que ha-
ce varias dcadas que la profesin mdica
basa sus juicios sobre efectividad en la reali-
zacin de ensayos clnicos, cabe esperar que
tambin en este caso hubieran procedido del
mismo modo. As, lejos de pronunciarse so-
bre si una tasa de supervivencia del 6% es
baja o alta, se habran preguntado qu por-
centaje de los pacientes hubiera sobrevivido
de no haber sido tratados con el nuevo fr-
maco. En concreto, tras reclutar a por ejem-
plo- 1.000 pacientes dispuestos a participar
en el ensayo, hubieran suministrado el fr-
maco a 500 de ellos elegidos al azar, mien-
tras a los 500 restantes les hubieran admi-
nistrado un placebo. Al cabo de un ao, hubi-
eran comparado la tasa de supervivencia del
grupo de tratamiento (6%) con la del grupo de
control (x%) y declarado, sencillamente, que
el frmaco resulta efectivo o no en funcin de
que x fuera o no menor que un 6 % [2].
En esencia, un experimento social es idntico
a un ensayo clnico, con la nica diferencia de
que el tratamiento no es una intervencin
sanitaria, sino un programa o poltica que
aspira a producir cambios sobre ciertos out-
comes que la sociedad valora (incrementar la
insercin laboral de los parados, reducir el
fracaso escolar, etc.).
Un ejemplo puede resultar til para ilustrar
el funcionamiento de un experimento social.
Supongamos una hipottica poltica activa de
empleo dirigida a jvenes parados, de entre
16 y 24 aos, que carezcan del graduado en
ESO. El programa en cuestin, al que po-
dramos denominar Segunda Oportunidad,
consistira en un cierto nmero de sesiones
formativas a las que seguiran unas prcticas
de 6 meses remuneradas. Una evaluacin
experimental de este programa, obviando
por el momento mltiples detalles a los que
nos referiremos ms tarde, podra realizarse
de la siguiente manera: 1) dar instrucciones a
las oficinas de empleo para que identificaran
potenciales beneficiarios del programa, con
el propsito de alcanzar una cifra de 1.000
candidatos; 2) mediante un procedimiento
aleatorio, y previo consentimiento de los can-
didatos, aleatorizaramos la participacin en
Segunda Oportunidad: 500 jvenes lo reci-
biran y 500 no y 3) pasado un cierto tiempo
tras la finalizacin del programa, compara-
ramos los outcomes relevantes, como el
grado de insercin laboral, entre el grupo de
tratamiento y de control. La figura 1 ilustra
grficamente la esencia de una evaluacin
-
4
experimental del programa Segunda Oportu-
nidad.
Figura 1. Evaluacin experimental del pro-
grama Segunda Oportunidad
Fuente: Adaptado de Haynes et al. (2012: p. 9).
Ahora bien, por qu la aleatorizacin, ya sea
de pacientes en un ensayo clnico o de jve-
nes parados en nuestro ejemplo, permite
evaluar el impacto de un tratamiento o pro-
grama de un modo ms vlido que otras tc-
nicas?
Gracias a la aleatorizacin, un experimento
logra que el grupo de tratamiento y el de
control se encuentren equilibrados en todos
aquellos atributos personales que pueden
influir sobre el outcome de inters, como pu-
edan ser, en el caso de Segunda Oportuni-
dad, la motivacin, la experiencia laboral
previa o el hecho de ser o no inmigrante [3].
De ese modo, cuando tras la finalizacin del
programa comparamos los outcomes entre
ambos grupos para inferir el impacto, pode-
mos descartar que el resultado obtenido sea
la consecuencia de que ambos grupos son
distintos. Por otro lado, al estar expuestos
ambos grupos a los mismos factores de
contexto mientras dura el programa, como
pudiera ser por ejemplo una mejora del mer-
cado laboral en el caso de Segunda Oportuni-
dad, tambin podemos descartar que sean
dichos factores los responsables de las dife-
rencias post-tratamiento en los outcomes. En
resumen, si detectamos dichas diferencias
en los outcomes entre ambos grupos, podre-
mos atribuirlos a lo nico que los distingue: a
saber, haber participado o no en el mismo. El
experimento social nos proporciona, por tan-
to, una estimacin vlida del impacto del pro-
grama.
Existen diseos evaluativos no experimenta-
les que tambin utilizan grupos de compara-
cin, como puedan ser el matching o el mo-
delo de dobles diferencias, lo cual les permi-
te tener en cuenta la influencia de dichos fac-
tores contextuales. Sin embargo, en la medi-
da en que el proceso de participacin en el
programa no es aleatorio, la condicin de que
ambos grupos tengan caractersticas
-
5
muy similares no est garantizada.
Volvamos al ejemplo de Segunda Oportuni-
dad para tratar de ilustrar este punto. Supon-
gamos que no se trata de un programa nue-
vo, sino que lleva algunos aos en funciona-
miento, y que nos encargan evaluar el im-
pacto que ste ha tenido sobre los jvenes
que han participado en el mismo. Adems,
como de hecho suele ser habitual, suponga-
mos tambin que la participacin en el pro-
grama no viene determinada por un proceso
de asignacin aleatorio, sino que son los em-
pleados de las Oficinas de Empleo los que
seleccionan a los candidatos a participar y
stos, libremente, deciden acabar partici-
pando o no. En principio, para todas aquellas
variables registradas en las bases de datos
del Servicio de Empleo, como son el sexo, la
edad, el nivel formativo y muchas otras ca-
ractersticas de los individuos, resulta posible
identificar un grupo de jvenes parados que
no haya participado en el programa y que sea
parecido al grupo de quienes s han partici-
pado.
Ahora bien, qu ocurre con todas aquellas
variables sobre las que no disponemos de
informacin, inobservables en trminos tc-
nicos, que pueden haber influido sobre las
decisiones tanto de los trabajadores de las
Oficinas de Empleo como de los propios jve-
nes (motivacin, implicacin de los padres,
renta familiar, etc.), y que claramente afectan
a las posibilidades de insercin laboral
posterior? Constituyen un problema para to-
dos los diseos no experimentales, ya que su
influencia sobre los outcomes resulta indis-
tinguible del impacto que realmente tiene el
programa, originando un error en el clculo
de dicho impacto conocido como sesgo de
seleccin. La gran ventaja de los ES es que
dicho sesgo queda eliminado, ya que el pro-
ceso de participacin viene definido por un
proceso de asignacin totalmente aleatorio y,
como se ha mencionado anteriormente, el
grupo de tratamiento y el de control estn
equilibrados en todos los atributos que pue-
den influir sobre los outcomes de inters
(incluso aunque sean inobservables!). En el
resto de diseos no experimentales, por bien
hechos que estn, siempre existe una som-
bra de duda sobre hasta qu punto el investi-
gador ha sido capaz de eliminar completa-
mente la amenaza de dicho sesgo o, en otras
palabras, descartar la posibilidad de que el
impacto estimado de la poltica no sea el re-
sultado de que los participantes son distintos
a las personas con las que se las ha compa-
rado.
-
6
Qu se entiende exactamente por aleatori-
zacin?
La aleatorizacin de la participacin consti-
tuye la piedra angular de un ES y, para que
una evaluacin pueda considerarse experi-
mental, su existencia es un requisito indis-
pensable. La aleatorizacin que caracteriza
un ES no debe confundirse con el muestreo
aleatorio que debe exigirse a una encuesta,
sea sta de salud o de poblacin activa, para
que los resultados obtenidos resulten repre-
sentativos de la poblacin. Por un lado, mien-
tras lo que tiene que ser aleatorio en una en-
cuesta es la seleccin de los sujetos a entre-
vistar, lo que se precisa en un experimento
social es que, de entre los candidatos a parti-
cipar en el programa, la eleccin de quienes
acaban participando y quines no se lleve a
cabo mediante un procedimiento aleatorio.
Por otro lado, la aleatorizacin en un ES no
busca la representatividad de los resultados,
sino permitir estimar sin sesgos el impacto
del programa evaluado, como ya hemos co-
mentado.
Ello no significa, sin embargo, que un experi-
mento social no pueda aleatorizar tambin el
proceso de captacin de candidatos. Por
ejemplo, si las 1.000 escuelas de Catalunya
estuvieran dispuestas a participar en un pro-
grama de incentivos a profesores, pero slo
hubiera presupuesto para aplicar el esquema
en 100 centros, podramos elegir 200 escu-
elas al azar de entre las 1.000 (muestra de
candidatos) y, tras ello, asignar aleatoria-
mente la participacin en el programa a la
mitad de ellas. La primera aleatorizacin
conferira representatividad a nuestros re-
sultados, en el sentido de que podran consi-
derarse extrapolables a las 800 escuelas no
experimentales, pero es la segunda aleato-
rizacin la que nos permite medir el impacto
del programa y la nica necesaria para califi-
car a una evaluacin de experimental.
Otra forma de disear, implementar y re-
disear las polticas pblicas
Si bien existen evaluaciones experimentales
de programas que llevan aos funcionando,
como por ejemplo la realizada entre 1996 y
2003 del JobCorps estadounidense (Schochet
et al., 2008), un programa dirigido a jvenes
en riesgo de exclusin social iniciado en 1960
y plenamente consolidado, la mayora de ES
se plantean sobre una poltica nueva o sobre
una variacin de un programa ya existente.
De hecho, a diferencia de las evaluaciones de
tipo retrospectivo, en las cuales de lo que se
trata es de estimar el impacto que haya podi-
do tener una poltica una vez concluida, los
-
7
ES no slo se disean a la par que la poltica
que se pretende evaluar, sino que van de la
mano durante todo el proceso de implemen-
tacin. En el fondo, como bien indica el suge-
rente ttulo de un reciente informe sobre ex-
perimentos sociales, Test, Learn and Adapt
(Haynes et al., 2012), se trata de una modali-
dad de evaluacin que abre las puertas a una
manera distinta de desarrollar las polticas
pblicas, si bien tambin plantea retos im-
portantes a los polticos y gestores que estn
dispuestos a impulsarlos.
En primer lugar, aceptar evaluar experimen-
talmente una nueva poltica pblica exige
reconocer, explcitamente, que no se sabe
con certeza si el programa en cuestin va a
resultar o no efectivo. Se trata de un ejercicio
de humildad intelectual poco comn en el
panorama poltico actual, a pesar de que
existen innumerables ejemplos de polticas
cuyos efectos han resultado ser nulos o in-
cluso negativos: por ejemplo, en el mbito de
la justicia, de las ms de 80 evaluaciones ex-
perimentales realizadas en EEUU de progra-
mas de todo tipo, desde dispositivos de rein-
sercin de jvenes a modificaciones en los
tipos de sancin, nada menos que el 81% tuvi-
eron resultados nulos o negativos
(Farrington y Welsh, 2005). En otras ocasio-
nes, como revela la evaluacin de un progra-
ma en el Reino Unido que pretenda reducir
la dependencia de los beneficiarios de pres-
taciones asistenciales, por la va de ayudar a
los participantes a retener un empleo cuando
finalmente lo encontraban, el programa se
revela efectivo para quienes menos se espe-
raba: as, si polticos, gestores e investigado-
res pensaban, antes de llevar a cabo la eva-
luacin, que el nuevo programa sera efectivo
para las familias monoparentales pero no
para los parados de larga duracin, los re-
sultados fueron exactamente los contrarios
(Hendra et al., 2011) [4].
Por otro lado, adems de humildad intelectu-
al, la naturaleza prospectiva de los ES obliga
a polticos y gestores a explicitar, de antema-
no, cules son los outcomes sobre los cules
el programa pretende incidir, as como a
consensuar con los evaluadores el modo en
que dichos outcomes se van a cuantificar.
Asimismo, lejos de verse restringidos a usar
los datos que sobre el programa existan, co-
mo ocurre en las evaluaciones de carcter
retrospectivo, los ES permiten a los investi-
gadores definir de antemano qu tipo de in-
formacin se requiere para llevar a cabo la
evaluacin y, si es necesario, aadir alguna
nueva variable a los registros administrativos
-
8
o suplementar la informacin de stos a tra-
vs de encuestas. Todos estos elementos
reducen las posibilidades de manipulacin ex
-post de los resultados de la evaluacin, ya
que los diversos elementos han sido defini-
dos de antemano, por lo que la credibilidad
de los resultados obtenidos aumentan. A ello
habra que sumar, como ya se coment ante-
riormente, la superioridad de los experimen-
tos para medir el impacto de un programa de
modo vlido.
Finalmente, de cara al desarrollo de nuevas
polticas y al perfeccionamiento de las ya
existentes, los resultados de las evaluacio-
nes experimentales devienen un instrumento
socialmente muy til. La razn ms obvia es
que nos permiten determinar, de un modo
riguroso, cules son las polticas que funcio-
nan y, por tanto, acabar generalizando nica-
mente aquellos programas piloto que han
demostrado ser eficaces. No obstante, inclu-
so si los experimentos revelan la inefectivi-
dad de una poltica, este resultado deviene
igualmente valioso: nos permite comprender
por qu la poltica no surte los efectos desea-
dos y, tras ello, a proponer y testar experi-
mentalmente nuevas versiones del programa
que no ha funcionado.
Los experimentos sociales estn ya al otro
lado de los Pirineos
El New Jersey Income Maintenance Experi-
ment, llevado a cabo en los EEUU a finales de
aos 60 del pasado siglo, suele considerarse
la primera evaluacin experimental de una
poltica pblica (Burtless y Hausman, 1978).
Su propsito fue analizar en que medida los
beneficiarios de un programa de mantenimi-
ento de rentas, similar a los programas auto-
nmicos de rentas mnimas, modificaban su
comportamiento laboral ante distintas cuan-
tas de la prestacin econmica recibida. A
ese primer experimento siguieron otros
igualmente famosos, como el Rand Health
Insurance Experiment, realizado a principios
de los 80, tambin en los EEUU, con el objeti-
vo de testar el impacto sobre la salud y el uso
de servicios sanitarios de distintas configura-
ciones de copagos (Newhouse, 1993). En el
mbito educativo, destaca el conocido popu-
larmente como Proyecto STAR, llevado a ca-
bo en Tennessee a finales de los 80, con el
propsito de analizar experimentalmente si
el tamao de las clases tena impactos sobre
el rendimiento acadmico de los alumnos a
medio y largo plazo (Mosteller, 1995).
En cualquier caso, adems de los experi-
mentos anteriores, cuya influencia poltica y
-
9
repercusin meditica result ser especial-
mente acusada, son mltiples los ES realiza-
dos durante las ltimas tres dcadas en los
EEUU en mbitos tan diversos como la justi-
cia (Farrington y Welsh, 2005), la educacin
(Antonio Cabrales, en Nada es Gratis, aqu o
aqu) o los programas de asistencia social
(Butler et al., 2012). De hecho, segn el in-
ventario realizado por Greenberg y Shroder
(2004), el nmero de experimentos sociales
realizados en EEUU en los mbitos seala-
dos se acercara a los 300 durante el periodo
1980-2003. Hay que decir que dichos experi-
mentos no siempre evalan programas del
sector pblico, sino que a menudo se trata de
evaluaciones impulsadas por organizaciones
filantrpicas para testar la efectividad de las
polticas por ellas financiadas. Incluso en el
mbito empresarial, como detalla Manuel
Bages en esta otra entrada de Nada Gra-
tis, se han producido algunos avances sus-
tanciales en la aplicacin de evaluaciones
experimentales.
Otro mbito en el que la experimentacin
social ha registrado un avance muy notable
es el relacionado con la evaluacin de los
programas de ayuda al desarrollo, especial-
mente los auspiciados por organismos inter-
nacionales como el Banco Mundial o El Banco
Interamericano de Desarrollo. El reciente
libro de Banerjee y Duflo (2011), que lleva el
sugerente titulo de Poor Economics, ofrece
una panormica realmente interesante de lo
que ha dado de si la experimentacin social
en el mbito de los programas de ayuda al
desarrollo. Tambin en algunos pases de
Hispanoamrica se han llevado a cabo expe-
rimentos de una trascendencia notable, des-
tacando especialmente los programas Pro-
gresa y Seguro Popular de Salud, ambos lle-
vados a cabo en Mjico: el primero para com-
batir la pobreza mediante transferencias mo-
netarias que deban destinarse a la escolari-
zacin de los nios y a actividades de salud
preventivas (Schultz, 2004), y el segundo para
comprobar los efectos sobre la salud y el uso
de servicios sanitarios de la extensin del
aseguramiento sanitario a familias de bajos
recursos (King et al., 2007).
En Europa, hasta hace apenas una dcada,
los ES constituan una autntica rareza. Sin
embargo, durante estos ltimos aos se han
empezado a realizar numerosas evaluacio-
nes experimentales, especialmente en el
mbito de las polticas laborales, como la
Employment Retention and Advancement
(ERA) demonstration realizada en el Reino
Unido (Hendra et al. 2011) o la evaluacin de
varios esquemas de activacin de parados
-
10
realizados en Dinamarca (Graversen & Van
Ours, 2008), por poner solo dos ejemplos.
Una mencin especial merece el Fons dEx-
primentation pour la Jeunesse, el cual inicia
su andadura en 2008 y que, a travs de una
dotacin de ms de 200 millones de euros
para el periodo 2009-2014, intenta favorecer
la evaluacin experimental de nuevas formas
de intervencin destinadas a combatir el fra-
caso escolar y la exclusin laboral de los
jvenes franceses. Los programas evaluados
hasta el momento, o en curso de evaluacin,
son muy variados e incluyen desde interven-
ciones orientadas a incrementar la implicaci-
n de los padres en el proceso educativo
(aqu) a la provisin de tutoras para prevenir
el abandono escolar (aqu), pasando por la
provisin de servicios de orientacin laboral
a jvenes parados (aqu).
Crticas a los experimentos
Tratndose del diseo ms robusto para eva-
luar el impacto de una poltica, y pese haber
crecido su nmero en los ltimos aos, no
deja de sorprender que no se lleven a cabo
muchos ms ES. En parte, esta carencia de-
muestra la efectividad de algunas de las crti-
cas vertidas sobre los experimentos, si bien
el fundamento lgico de muchas de ellas re-
sulta cuanto menos cuestionable.
Un primer aspecto que suele criticarse de los
experimentos es que son caros. Sin duda,
esta apreciacin se debe en parte al poso que
dejaron los primeros ES llevados a cabo en
EEUU, como el New Jersey Income tax o el
Rand Experiment antes mencionados, que
implicaron equipos muy numerosos, realiza-
cin de encuestas muy costosas, etc. Hoy en
da, como muestra a travs de varios ejem-
plos la Coalition for Evidence-Based Policy, la
informatizacin de los registros administrati-
vos ha permitido, en muchos casos, sortear
la necesidad de realizar costosas encuestas
sin que por ello se haya perdido riqueza ana-
lstica, ya que la exhaustividad y fiabilidad de
dichos registros resulta muy notable. Por
ejemplo, como demuestra el experimento
llevado a cabo por Fryer en Nueva York ana-
lizan el impacto de un programa de incenti-
vos a profesores, basta con aleatorizar las
escuelas y analizar los outcomes de a travs
de los registros administrativos de la autori-
dad educativa (pruebas estandarizadas, tasa
de abandono escolar, etc.).
En cualquier caso, ms all de las considera-
ciones econmicas, el argumento habitual
que utilizan los que se oponen a los ES tiene
un trasfondo tico: resulta inadecuado privar
a determinados individuos (los del grupo de
control) de los beneficios que supone una
-
11
nueva poltica utilizando un mecanismo tan
arbitrario como la aleatorizacin. La rplica
por parte de aquellos que ven en los ES una
herramienta adecuada de evaluacin se sus-
tenta en tres consideraciones.
La primera es que la presuncin de que se
est privando a algunos individuos de algo
beneficioso no debera tener sentido si el ex-
perimento est justificado, ya que es precisa-
mente la ausencia de datos sobre la efectivi-
dad del programa lo que justifica su evaluaci-
n. Por otra parte, son pocas las ocasiones
en las que pertenecer al grupo de control
implica no recibir ningn tipo de intervenci-
n, sino que ms bien lo que se compara es
la nueva poltica respecto a seguir como
hasta ahora. Finalmente, hay situaciones
bastante frecuentes en las que la aleatoriza-
cin puede considerarse un criterio de asig-
nacin equitativo, como por ejemplo cuando
la falta de recursos no permite atender de
una sola vez a toda la poblacin potencial-
mente beneficiaria de la poltica; de hecho,
cuando se producen situaciones de este esti-
lo, un diseo experimental ms aceptable
que utilizar una simple lotera entre individu-
os es optar por un despliegue gradual aleato-
rizado: lo que se aleatoriza es el momento
del tiempo en el que distintos grupos de indi-
viduos o territorios comenzarn a recibir el
nuevo programa. Un enfoque de estas carac-
tersticas, por poner un ejemplo, es el que se
llev a cabo en Mjico para evaluar experi-
mentalmente el programa Progresa anteri-
ormente mencionado (Schultz, 2004).
Otra crtica que suele formularse con relaci-
n a los experimentos es que, pese a que
permiten establecer la efectividad de una po-
ltica, no resultan tiles para comprender por
qu la poltica funciona o no. Probablemente
la crtica fuera acertada en el caso de los pri-
meros ES, muchos de ellos de caja negra,
en el sentido de que se aleatorizaba la parti-
cipacin y se median los resultados post-
tratamiento, sin detenerse a describir el pro-
ceso de implementacin del nuevo progra-
ma. Sin embargo, desde hace ya algunos
aos, los experimentos mejor diseados su-
elen incluir una evaluacin cualitativa y cuan-
titativa de la implementacin, la cual permite
aventurar hiptesis sobre qu componentes
de la poltica pueden haber tenido una mayor
influencia en los resultados de impacto ob-
servados. Un buen ejemplo de este tipo de
enfoque es el trabajo de Bloom et al. (2003)
sobre los efectos de los programas de activa-
cin dirigidos a los perceptores de prestacio-
nes asistenciales, ya que los experimentos
realizados no slo permitieron establecer la
efectividad de los distintos programas,
-
12
sino tambin la mayor o menor influencia
sobre sta de diversos componentes de los
mismos (grado de personalizacin de la
atencin, nmero de casos por trabajador
social, nfasis en buscar empleo por encima
de la formacin, etc.).
Una ltima objecin que habitualmente se
hace a los experimentos es que suelen care-
cer de validez externa o, en palabras menos
tcnicas, que los resultados que se obtienen
en relacin al impacto de una poltica, aun-
que vlidos con respecto a los sujetos, mo-
mento y lugar en que el experimento se llev
a cabo, pueden no ser extrapolables a con-
textos distintos. Aquellos que se dedican a la
experimentacin social han tratado de miti-
gar la falta de validez externa por dos vas.
En primer lugar, aunque a costa de incre-
mentar los recursos necesarios, son habitua-
les las evaluaciones multi-site, en las que el
programa se evala aplicndolo en lugares
diversos (por ejemplo, escuelas pblicas y
concertadas, rurales y urbanas, etc.), con el
propsito de analizar hasta qu punto los
resultados de impacto varan de unos contex-
tos a otros. Por otro lado, cuando el nmero
de rplicas experimentales de un determina-
do tipo de programa es lo bastante importan-
te, pueden llevarse a cabo lo que se denomi-
na un meta-anlisis de los resultados obteni-
dos, esto es, un ejercicio cuantitativo de sn-
tesis que pretende establecer si el programa
resulta efectivo con carcter general, con in-
dependencia de las poblaciones, lugares y
momentos en los que este se aplique. A tal
efecto, deviene crucial la labor de inventaria-
do llevada a cabo por organizaciones o inicia-
tivas de distinta ndole, como por ejemplo el
What Works Clearinghouse, que evala y sin-
tetiza los resultados de todo tipo de experi-
mentos llevados a cabo en el mbito educati-
vo (programas de lectura, de refuerzo esco-
lar, de atencin precoz, etc.).
Algunas precauciones
Puede que las crticas a los experimentos no
resulten adecuadas en muchos casos, pero
no por ello hay que pensar que llevar a cabo
una evaluacin experimental resulta una ta-
rea sencilla. En primer lugar, desde una
perspectiva metodolgica, hay que ser cons-
ciente de los retos que supone realizar una
evaluacin experimental y de las dificultades
que pueden aparecer. Algunas de las ms
importantes son las siguientes [5]:
El tamao de los grupos. Una de las prime-
ras cuestiones a la que tiene que dar res-
puesta un ES es cuntas unidades, sean s-
tas alumnos, escuelas o juzgados, han de
formar parte de los grupos de control y
-
13
de tratamiento. Dejando de lado los detalles
estadsticos, diremos simplemente que hay
dos factores que influyen especialmente so-
bre la cuestin del tamao de las muestras:
de un lado, la magnitud del impacto que que-
ramos ser capaces de detectar (por ejemplo,
aumentos de la insercin laboral de un punto
porcentual) y, de otro, el grado de incerti-
dumbre sobre la validez de nuestros resulta-
dos que estemos dispuestos a tolerar. A ve-
ces, existen determinadas intervenciones en
las que basta con aleatorizar unas decenas
de unidades para extraer conclusiones rele-
vantes, mientras que en otro tipo de progra-
mas se precisan varios miles de sujetos para
conseguir lo mismo. De todos modos, es
algo a tener en cuenta desde el inicio de la
evaluacin, ya que un experimento con tama-
os muestrales insuficientes puede acabar
siendo intil para detectar los efectos de un
programa, no porque stos no existan, sino
porque nuestro diseo no es capaz de detec-
tarlos.
Riesgo de contaminacin. Un problema
con el que pueden encontrarse los ES es que,
a pesar de haber sido asignados aleatoria-
mente a los grupos de tratamiento y control,
algunos de los individuos del primer grupo
acaben no recibiendo lo que el programa
prev (por ejemplo, porque decidan no asistir
a las clases que Segunda Oportunidad esti-
pula) y/o algunos del grupo de control acaben
teniendo acceso a l (por ejemplo, porque los
trabajadores de las oficinas de empleo su-
cumben a las presiones de algunos no trata-
dos). El riesgo de que se produzca este tipo
de situaciones depende, en gran medida, de
cual sea la capacidad de los responsables del
experimento para monitorizar la actividad de
los gestores del programa y evitar situacio-
nes anmalas.
Externalidades. Cualquier efecto indirecto
sobre los outcomes del grupo de control mo-
tivado por la existencia del tratamiento pone
en entredicho la validez de los resultados
generados por el experimento. Una seleccin
precisa de las unidades a partir de las cuales
se realizar el proceso de aleatorizacin pue-
de prevenir este tipo de sesgo; a modo de
ejemplo, si estamos interesados en medir el
impacto de un programa escolar de salud
alimentaria sobre la obesidad infantil, es
evidente que la aleatorizacin no deber rea-
lizarse entre individuos de un mismo colegio
(habr procesos de imitacin), sino entre co-
legios que se encuentren a cierta distancia
unos de otros.
-
14
En cualquier caso, la naturaleza prospectiva
de los ES hace que las fases de planificacin
y diseo de la evaluacin sean de crucial im-
portancia. El riesgo de contaminacin, la
existencia de externalidades o cualquier otro
factor que puedan sesgar los resultados de la
evaluacin, debern ser anticipados e incor-
porados al diseo del experimento para tra-
tar de eliminarlos o, al menos, minimizar su
alcance. En caso contrario, cuando el experi-
mento ya se encuentra en marcha, resulta
prcticamente imposible rehacer el diseo y
la validez de los resultados obtenidos pueden
quedar seriamente comprometidos.
De todos modos, ms all de las cuestiones
tcnicas que acabamos de mencionar, los
verdaderos obstculos a los que se enfren-
tan los experimentos suelen ser a menudo
de carcter poltico-administrativo. No hay
constancia de la multitud de experimentos
que han sido descartados, muchas veces ale-
gando los impedimentos mencionados ante-
riormente (tica, costes, etc.), pero seguro
que se cuentan por centenares. Por otro lado,
incluso cuando un experimento acaba llevn-
dose a cabo, nada impide que un cambio de
gobierno ponga fin al experimento o que los
responsables de implementarlo en el terreno
traten de sabotearlo [6]. Sin embargo, como
apuntan King et al. (2007), la existencia de
estos y otros condicionantes poltico-
administrativos no deben ser vistos como
una anomala, sino que constituyen la esen-
cia del terreno en el que se desarrollan las
polticas pblicas y, por ende, los ES. Se tra-
ta, por el contrario, de tenerlos en cuenta
desde el principio del experimento y, por su-
puesto, descartar su aplicacin si hay indi-
cios claros de que ste no va a prosperar.
El futuro de los experimentos sociales a este
lado de los Pirineos
Los ES constituyen un diseo evaluativo de
una potencia muy notable y su uso, cuando
resulta conveniente y se realiza correcta-
mente, puede ayudar a desarrollar polticas
pblicas ms efectivas. Sin embargo, pese al
impulso que la experimentacin social ha
vivido en las ltimas dcadas, especialmente
en EEUU pero tambin en algunos pases
europeos, su utilizacin en Espaa ha sido
hasta el momento inexistente. Es cierto que
su implementacin plantea retos tcnicos
importantes y que a menudo existen condi-
cionantes polticos a tener en cuenta, pero la
total ausencia de ES en nuestro pas no nos
parece una situacin que deba mantenerse
por ms tiempo.
-
15
Estando como estamos inmersos en una cri-
sis de las finanzas pblicas muy preocupan-
te, parece obligado impulsar el desarrollo de
ES: permitiran cuantificar la efectividad real
de buena parte de las polticas pblicas que
estn ahora bajo sospecha, y que se eliminan
o mantienen sin evidencia alguna sobre su
efectividad, y tambin de los nuevos progra-
mas que a menudo se proponen para mejo-
rar la situacin. Asimismo, existen mltiples
profesionales con capacidad tcnica suficien-
te como para llevar a cabo este tipo de eva-
luaciones, especialmente en el mbito uni-
versitario. Por ltimo, como pone de mani-
fiesto el artculo de Blanca Lzaro en esta
misma revista, existen frmulas de institu-
cionalizacin de la evaluacin experimental
que podran aplicarse en nuestro contexto sin
demasiados problemas (por ejemplo, el Fons
dExprimentation pour la Jeunesse mencio-
nado anteriormente).
Una parte del camino ya est hecho. En el
fondo, la mayora de ES no son sino progra-
mas piloto cuya generalizacin depende, fun-
damentalmente, de la capacidad que de-
muestren de resultar eficaces. Y, los pilotos,
con ese mismo nombre, no son ajenos a la
realizada de nuestras polticas pblicas: as,
por poner solo un ejemplo, el programa Su-
mat del Servicio de Ocupacin de Catalunya,
que pretende incrementar la insercin labo-
ral de los jvenes con baja formacin, fue
concebido como un proyecto piloto. Sin em-
bargo, lejos de verse como una oportunidad
de testar la efectividad de la poltica antes de
sugerir su generalizacin, los pilotos en
nuestro pas son simplemente ensayos
destinados a mejorar la implementacin del
mismo, pues la efectividad se da por supues-
ta en la mayora de los casos. No obstante,
una vez determinado que el programa slo
se aplicar en algunos territorios, lo nico
que separa nuestros actuales pilotos de los
ES es la aleatorizacin. Y dicho mecanismo
de asignacin, como ya se ha comentado,
puede resultar fcilmente defendible cuando,
como suele ser el caso, la falta de presu-
puesto impide aplicar el nuevo programa a
todos los potenciales beneficiarios.
Sin embargo, ms all de las cuestiones an-
teriores, el gran reto es convencer a los res-
ponsables polticos y a los gestores de los
programas de las posibilidades que ofrece la
experimentacin social. Esta suerte de
conversin, por llamarlo de algn modo,
precisa de dos condiciones en absoluto trivia-
les: por un lado, reconocer que no se sabe si
una determinada intervencin va resultar o
no efectiva y, por otro lado, ser consciente de
-
16
que la experimentacin social es el modo
ms fiable, si se lleva a cabo correctamente,
de evaluar si algo funciona o no. Somos
conscientes de que se trata de un cambio
cultural de primera magnitud.
El camino se nos antoja largo y plagado de
dificultades, pero no hay que pensar que este
no pueda ser recorrido, a menos que acepte-
mos que hay algo intrnseco a nosotros, algo
gentico, que nos impide introducir la eva-
luacin experimental en nuestras polticas
pblicas. Nosotros creemos que no lo hay.
De hecho, con este artculo, hemos querido
aportar nuestro granito de arena para que
ms pronto que tarde se llegue a invalidar,
tambin en este campo, el viejo tpico de que
Spain is different y que, por fin, la experi-
mentacin social acabe cruzando los Piri-
neos.
-
17
Para saber ms
Descrgate gratuitamente el informe Test, Learn and Adapt, recientemente publicado
por el Cabinet Office del Reino Unido: http://is.gd/U29XIl
No te pierdas el excelente curso gratuito sobre evaluacin experimental impartido por Esther Duflo y otros miembros del Poverty Action Lab (MIT): http://is.gd/yBeJLN
Muy recomendable la web del What Works Clearinghouse: un magnfico repositorio sobre intervenciones en el mbito educativo evaluadas experimentalmente: http://is.gd/
j3v2R4
[1]El Plan Prepara, para aquellos que han estado de vacaciones fuera de Espaa, es el programa que concede 400 euros a
los parados de larga duracin que han agotado la prestacin o el subsidio de desempleo, siempre y cuando estos acepten
participar en acciones formativas y/o de orientacin laboral.
[2] No siempre los tratamientos sanitarios son sometidos al escrutinio de evaluaciones experimentales. A este respecto, un
caso especialmente dramtico es el tratamiento con esteroides aplicado a quienes haban sufrido un traumatismo crane-
al (Haynes et al., 2012). Esta prctica, que se haba utilizado de forma rutinaria durante dcadas, fue sometida a un ensayo
clnico en 2004. Los resultados no slo no demostraron lo que todo el mundo crea (esto es, que se trataba de un tratamien-
to efectivo), sino que indicaron que el grupo de tratamiento estaba experimentando un riesgo de muerte mayor. De hecho,
el ensayo tuvo que suspenderse para no seguir daando a los sujetos tratados.
[3] En trminos tcnicos este equilibrio implica que, para cada una de dichas caractersticas, no existen diferencias estads-
ticamente significativas entre la media observada en uno y otro grupo. Vase Duflo et al. (2007) para una descripcin formal
de los fundamentos estadsticos de los experimentos sociales como tcnica para medir impactos.
[4] Pueden encontrarse ejemplos de polticas inefectivas, o incluso perjudiciales, en muchos mbitos de intervencin pbli-
ca. Haynes et al. (2012) ofrecen ejemplos interesantes al respecto.
[5] Vase Duflo et al. (2007) para un anlisis detallado al respecto.
[6] A este respecto, resulta ilustrativo uno de los primeros experimentos llevado a cabo en Noruega en materia de polticas
laborales (Torp et al, 1993). Gracias a la existencia previa de un exceso de demanda generalizado, con ms parados que
plazas disponibles, se pens que la aleatorizacin sera factible. Sin embargo, tras la puesta en marcha del experimento,
los trabajadores de las oficinas de trabajo, que deban llevar a cabo el proceso de seleccin, optaron por identificar como
potenciales candidatos un nmero tal de personas que siempre coincida con el de plazas disponibles, eliminando por tanto
la necesidad de aleatorizar la participacin.
-
18
Bibliografa
Banerjee, A., & Duflo, E. (2011). Poor econo-
mics: a radical rethinking of the way to fight
global poverty. New York: PublicAffairs.
Bloom, H. S., Hill, C. J., & Riccio, J. A. (2003).
Linking program implementation and effecti-
veness: Lessons from a pooled sample of
welfaretowork experiments. Journal of Po-licy Analysis and Management, 22(4), 551
575.
Burtless, G., & Hausman, J. A. (1978). The
effect of taxation on labor supply: Evaluating
the Gary negative income tax experiment.
The Journal of Political Economy, 86(6), 1103
1130.
Butler, D., Alson, J., Bloom, D., Deitch, V., Hill,
A., Hsueh, J. A., Jacobs, E., et al. (2012). What
Strategies Work for the Hard-to-Employ? Fi-
nal Results of the Hard-to-Employ Demons-
tration and Evaluation Project and Selected
Sites from the Employment Retention and
Advancement Project ( No. 2012-08). Office of
Planning, Research and Evaluation (OPRE).
Duflo, E., Glennerster, R., & Kremer, M.
(2007). Using randomization in development
economics research: A toolkit. Handbook of
development economics, 4, 38953962.
Farrington, D. P., & Welsh, B. C. (2005). Ran-
domized experiments in criminology: What
have we learned in the last two decades?
Journal of Experimental Criminology, 1(1), 9
38.
Graversen, B. K., & Van Ours, J. C. (2008). Ac-
tivating unemployed workers works; Experi-
mental evidence from Denmark. Economics
Letters, 100(2), 308310.
Greenberg, D. H., & Shroder, M. (2004). The
digest of social experiments. Washington D.C:
Urban Inst Press.
Haynes, L. et alt. (2012). Test, Learn and
Adapt. Developing Public Policy with Rando-
mised Controlled Trials. Cabinet Office. Beha-
vioural Insights Team. Retrieved from http://
is.gd/U29XIl
Hendra, R., Riccio, J. A., Dorsett, R., Green-
berg, D. H., Knight, G., Phillips, J., Robins, P.
K., et al. (2011). Breaking the low-pay, no-pay
cycle: Final evidence from the UK Em-
ployment Retention and Advancement (ERA)
demonstration (Vol. 765). Department for
Work and Pensions.
Mosteller, F. (1995). The Tennessee study of
class size in the early school grades. The fu-
ture of children, 5(2), 113127.
-
19
Newhouse, J. P. (1993). Free for all?: lessons
from the RAND health insurance experiment.
Cambridge: Harvard University Press.
Paul Schultz, T. (2004). School subsidies for
the poor: evaluating the Mexican Progresa
poverty program. Journal of development
Economics, 74(1), 199250.
Schochet, P. Z., Burghardt, J., & McConnell,
S. (2008). Does Job Corps Work? Impact Fin-
dings from the National Job Corps Study. The
American Economic Review, 98(5), 1864
1886.
Torp, H., Raaum, O., Hernaes, E., & Goldstein,
H. (1993). The first Norwegian experiment. In
Karsten, J. & Madsen, P. K. (Eds.), Measuring
labour market measures: Evaluating the ef-
fects of active labour market policies. Copen-
hagen, Ministry of Labour. Copenhagen: Mi-
nistry of Labour.
Vias, V. (2009). The European Unions Drive
towards Public Policy Evaluation The Case of
Spain. Evaluation, 15(4), 459472.