medición del dit de 0-3 años a escala: evidencia...
TRANSCRIPT
Medición del DIT de 0-3 años a escala: Evidencia sobre la validez concurrente y predictiva de varias pruebas ‘cortas’
en Colombia y Ecuador
Marta Rubio-Codina junto con colegas en BID y EDePo
Lima, 20 septiembre 2016
Dificultades para la medición del DIT a escala en países de bajo y medio ingreso…
• Pruebas de diagnóstico (Bayley, Battelle ‘completo’, etc.)
medidas del DIT comprehensivas, que cubren todas los dominios, pero de administración compleja y costosa.
– Costo de compra materiales y de administración por niño
– Tiempo para capacitar, aprender y administrar la prueba
– Calificación de los evaluadores
– Espacio en el que se administra la prueba
Alternativas al uso de pruebas de diagnóstico
• Pruebas de tamizaje
• Pruebas de reporte parental
• Pruebas que miden dominios específicos del desarrollo
… pero …
¿son válidas en contextos distintos para el que fueron diseñadas?
traducción, adaptación, contextualización ------- normas
Alternativas multi-dimensionales costo-eficientes (PRIDI, MELQO, IDELA, Intergrowth-21s) no disponibles para menores de 24 meses CREDI, D-Score
Características deseables de pruebas para uso a escala Factibles: de administración fácil, rápida y barata
- en el contexto de una encuesta de hogar
- por encuestadores, no psicólogos
Externamente Confiables: confiabilidad test-retest e intra-evaluador
Internamente Confiables : consistencia interna
Válidas: medición válida de la variable de interés
validez concurrente y predictiva
Invariante entre culturas (deseable para comparabilidad – normas)
Capaz de detectar cambios pequeños en DIT, como resultado del impacto de intervenciones.
¿Qué sabemos sobre las pruebas comúnmente usadas para la medición del DIT en encuestas a escala?
• Bogotá, Colombia: – Validez concurrente y viabilidad de la administración
de una batería de “pruebas cortas” vs. el Bayley-III
• Ecuador: – Análisis de validez predictiva de dos pruebas de lenguaje
9 años después en desarrollo y aprovechamiento escolar
Validez Concurrente Colombia – Estudio Bogotá
junto con Caridad Araujo, Orazio Attanasio, Pablo Muñoz y Sally Grantham-McGregor
PLoS ONE 11(8): e0160962. 2016.
Diseño Estudio
Administrado por psicólogos en un
centro
Bayley-III (n=1330)peso y talla
n=1,533 niños 6-42 meses en hogares en estratos 1 a 3
Bloques aleatorizados:
Administradas por encuestadores en el
hogar
Batería A Batería B
ASQ-3 Battelle (BDI-2)Denver-II WHO-Motor
MacArthur-Batesencuesta hogar (fci) encuesta hogar (fci)
Test Escalas Incluidas en el Estudio Edad Niños Estudio
Bayley-III Cognitiva, Lenguaje Receptivo, Lenguaje Expresivo, Motricidad Fina, Motricidad Gruesa
6-42
ASQ-3 Resolución de Problemas, ComunicaciónMotricidad Fina, Motricidad GruesaPersonal-Social
6-42
Denver-II Motricidad Fina - Adaptativo, Languaje Motricidad GruesaPersonal-Social
6-42
BDI-2 (Battelle) Cognitiva, ComunicaciónMotricidadPersonal-Social Habilidades Adaptativas
6-42
MacArthur-Bates Lenguaje Receptivo, Lenguaje Expresivo 8-18MacArthur-Bates Lenguaje Expresivo 19-30 WHO-Motor Motricidad Gruesa 6-15
Administración Bayley-III
• La evaluadora observa directamente y puntúa el desempeño del niño
Estandarizar administración: entorno, presentación de actividades, agilidad
Objetividad en la evaluación y puntuación
• Duración: 1 a 1 ½ horas (!) dependiendo de la edad
• Niño debe estar bien, cómodo y en disposición de colaborar
Test Costo (USD)
Tiempo de Administración
Días Capacitación
Bayley-III $1,050 kit + $4.34 pc
(n =36) 83.2 (18.8)
15+ prácticas
ASQ-3 $275 kit$295
materiales
(n =32) 19.7 (8.2)
6 + prácticas
Denver-II $200 kit + $0.45 pc
(n =32) 27 (10.5)
7 + prácticas
BDI-2 (Battelle) $405.70 kit + $3.08 pc
(n =30) 63 (12.5)
8 + prácticas
MacArthur-Bates (n =8) 8.6 (1.9)
MacArthur-Bates 8.2 (3.3)WHO-Motor gratis (n =9)
6 (2.7)1
+ prácticas
$90 kit + $1 pc
0.5 + prácticas
mínimas
Análisis 1. Estandarizar puntajes por edad internamente usando métodos
no-paramétricos, luego de ‘limpiar’ el efecto de evaluador
método flexible, independiente tamaño celda, menos sensible a observaciones extremas
consistente para todas las pruebas analizadas
2. Investigar validez concurrente: correlaciones de Pearson por dominio, edad y nivel socio-económico del hogar
3. Pruebas de robustez: Correlaciones de rango (Spearman) y canónicas Métodos de estandarización más convencionales y uso de
puntajes estandarizados externamente
Validez concurrente por edad: escalas coincidentes
0.119
0.001
0.323 0.315
0.395 0.455
0
0.1
0.2
0.3
0.4
0.5
0.6
6 - 18 mth 19 - 30 mth 31 - 42 mth
Corr
elac
ión
Bayley Cognitivo
ASQ3 Problem Solving (0.146)
Battelle Cognitive (0.363)
Denver Fine Motor (0.386)
0.082
0.134
0.236
0.337 0.38
0.277
0.507
0
0.1
0.2
0.3
0.4
0.5
0.6
6 - 18 mth 19 - 30 mth 31 - 42 mth
Corr
elac
ión
Bayley Motricidad Fina
ASQ3 Fine Motor (0.200)
Battelle Motor (0.316)
Denver Fine Motor (0.354)
Validez concurrente por edad: escalas coincidentes
0.178
0.458
0.56
0.29
0.65
0.61
0.702
0.242
0.6
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
6 - 18 mth 19 - 30 mth 31 - 42 mth
Corr
elac
ión
Lenguaje Expresivo
ASQ3 Communication (0.395)
Denver Language (0.506)
Battelle Language (0.495)
MacArthur Exp Lang* (0.441) * 8 - 30 months
0.585
0.175 0.218
0.371 0.311 0.335
0.654
0.406 0.426
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
6 - 18 mth 19 - 30 mth 31 - 42 mth
Corr
elac
ión
Motricidad Gruesa
Motor Milestones* (0.703)
ASQ3 Gross Motor (0.325)
Battelle Motor (0.339)
Denver Gross Motor (0.499)
Resultados – Dominios coincidentes
Escalas cognitiva, lenguaje y motricidad fina
• Correlaciones aumentan con la edad del niño y alcanzan valores moderados sobre los 31-42 meses de edad
• Denver-II y BDI-2 presentan correlaciones bajas pero significativas entre 6-18 meses
• MacArthur-expresivo presenta correlaciones moderadas con escalas de lenguaje de Bayley-III, comparables a las de las escalas de lenguaje de otras pruebas
Escala motricidad gruesa
• Correlaciones decrecientes con la edad (excepto BDI-2) • 6-15 meses: WHO-Motor alcanza los valores más altos
Dominios no-coincidentes
• En ocasiones, las escalas que miden dominios no-coincidentes presentan correlaciones mayores que las escalas que miden un mismo dominio, en particular para lenguaje y cognición en los niños más pequeños.
• Para < 19 meses, WHO-Motor y Mac-Arthur obtienen niveles de concurrencias con la escala cognitiva del Bayley tan altos como las escalas de lenguaje y cognición de las otras pruebas cortas, excepto el Denver (r = 0.31).
Pruebas de Tamizaje Multi-Dimensionales
• Denver y Battelle obtienen niveles de concurrencia similares y consistentemente mayores a los del ASQ-3.
• No obstante, Battelle es más largo y más costoso.
Denver-II parece ser el mejor candidato.
muestra sensitividad a intervenciones (Macours et al 2012)
(nueva versión del ASQ en desarrollo – ASQ: Inventory)
Pruebas que miden un único dominio
• Mac-Arthur predice lenguaje expresivo tan bien como cualquier otra escala de lenguaje para menores de 30 meses.
• WHO-Motor es el mejor predictor de desarrollo motor grueso en menores 15 meses.
• Ambas pruebas presentan niveles de concurrencia en la medición del desarrollo cognitivo tan altos como las pruebas multi-dimensionales, para el rango etario para el que están disponibles.
(Hamadami et al 2010; Hamadani et al 2013)
• Ambas son muy sencillas de administrar y tienen un costo bajo.
a considerar para encuestas a escala.
Validez Predictiva de Pruebas de Lenguaje: MacArthur & TVIP
junto con Caridad Araujo and Norbert Schady
trabajo en curso
Encuesta Longitudinal de Ecuador • Datos de zonas rurales en Ecuador, zona Andina y Costa
• Evaluación del programa de transferencias condicionadas
• 40% inferior de la distribución de riqueza
“Indicadores” en la primera infancia 2 muestras de niños :
1. MacArthur a los 2 años (N =290, 30% desnutrición crónica)
2. TVIP (versión en español del Peabody) a los 4 años (N=600, 20% desnutrición crónica)
Test Dominio Lenguaje
Costo (USD)
Forma Admin
Tiempo Admin
Días Capacitación
MacArthur II expresivo $90 kit + $1 pc
reporte materno
8-10 0.5 + prácticas mínimas
TVIP receptivo $202 kit + $1.88 pc
niño 15 1 + prácticas
4 indicadores de desempeño 9 años más tarde (a los 11 y 13 años de edad)
1. Años de educación
2. Puntaje de lenguaje: TVIP, WM verbal y comprensión lectora
3. Puntaje de matemáticas : WM series numéricas, problemas aplicados, aritmética.
4. Puntaje mixto “Otros” : WM atención, memoria de trabajo, fluidez, fortalezas y capacidades
- Estandarizar indicadores por edad, no-paramétricamente. Re-escalar tal que tengan media 0 y DS 1.
- Análisis controla por talla-por-edad y educación materna
MacArthur 2 años: predictivo a los 11 años
N ~ 290 obs
Model 1 Model 2 Model 3 Model 4MacArthur 0.205*** 0.208*** 0.208***
(0.068) (0.068) (0.069)Height-for-age -0.031 -0.043 -0.053
(0.053) (0.055) (0.059)Maternal education 0.020
0.026A: Marg contrib to r2 0.031 0.001 0.033 0.035R2 0.1211 0.0908 0.1229 0.1253
Years Education Completed
MacArthur 0.132** 0.130** 0.132** 0.135** 0.135** 0.136***(0.051) (0.051) (0.051) (0.052) (0.052) (0.051)
Height-for-age 0.042 0.035 0.016 0.013 0.006 -0.009(0.040) (0.040) (0.041) (0.041) (0.045) (0.050)
Maternal education 0.038** 0.028(0.019) (0.017)
A: Marg contrib to r2 0.028 0.011 0.030 0.042 0.032 0.011 0.032 0.039B: Marg contrib to r2 0.0277 0.0108 0.0296 0.020 0.032 0.0112 0.032 0.0394
Math Score "Other" Score
Model 1 Model 2 Model 3 Model 40.156** 0.151** 0.154**(0.066) (0.066) (0.064)
0.087** 0.079* 0.044(0.040) (0.041) (0.049)
0.067**(0.026)
0.024 0.010 0.032 0.0670.0495 0.0352 0.0576 0.0925
Language Score
TVIP a los 4 años: predictivo a los 13 años
N ~ 600 obs
Model 1 Model 2 Model 3 Model 4 Model 1 Model 2 Model 3 Model 4TVIP 0.338*** 0.334*** 0.300*** 0.472*** 0.472*** 0.443***
(0.059) (0.060) (0.056) (0.038) (0.039) (0.038)Height-for-age 0.065 0.032 -0.008 0.045 -0.002 -0.037
(0.057) (0.053) (0.056) (0.038) (0.033) (0.033)Maternal education 0.051** 0.044***
(0.022) (0.013)Marg contrib to r2 0.054 0.002 0.055 0.066 0.201 0.002 0.201 0.218R2 0.1374 0.0854 0.138 0.1496 0.2104 0.011 0.2104 0.2267
Years Education Completed Language Score
Model 1 Model 2 Model 3 Model 4 Model 1 Model 2 Model 3 Model 4TVIP 0.349*** 0.347*** 0.321*** 0.299*** 0.299*** 0.254***
(0.039) (0.040) (0.039) (0.042) (0.042) (0.041)Height-for-age 0.050 0.016 -0.017 0.029 0.000 -0.056
(0.045) (0.041) (0.042) (0.050) (0.049) (0.050)Maternal education 0.040*** 0.069***
(0.012) (0.014)Marg contrib to r2 0.112 0.003 0.112 0.126 0.082 0.001 0.082 0.123R2 0.1141 0.005 0.1144 0.1284 0.0979 0.0168 0.0979 0.1386
Math Score "Other" Score
Resumen de resultados
• MacArthur a los 2 años y TVIP a los 4 años predicen significativamente indicadores de desempeño 9 años más tarde.
• La capacidad predictiva aumenta con la edad del niño.
• Estos resultados se mantienen, luego de controlar por educación de la madre.
• Por el contrario, la validez predictiva de la talla-por-edad parece trivial.
En conclusión… • Validez concurrente y predictiva aumenta con la edad.
• Pruebas ‘cortas’ de lenguaje son promisorias en cuanto a su capacidad de predecir lenguaje, desarrollo cognitivo futuro, años de escolaridad y aprovechamiento escolar.
• Efectivamente, las pruebas de lenguaje dependen mucho más del contexto y requieren de mayor adaptación que las pruebas que miden otras dimensiones.
• No obstante, este tipo de adaptaciones es factible.
e.g. el Mac-Arthur está ya disponible en muchas lenguas.
Para discusión… • ¿Tendría sentido administrar pruebas de lenguaje tests à la
MacArthur/TVIP de forma rutinaria para la medición del DIT a escala en encuestas de hogar?
• ¿Podríamos pensar en formas en las que adaptar estas pruebas (¿selección ítems?), formas de puntuar y desarrollar normas que permitan comparabilidad a nivel internacional?
• Replicar este tipo de análisis – oportuno dadas las varias iniciativas para desarrollar indicadores poblaciones del DIT globales.
• En la selección de pruebas para evaluación de intervenciones – rango etario, habilidad pruebas detección cambios pequeños en desarrollo, comparabilidad efectos entre muestras distintas.
Predictive validity of MacArthur and Bayley of Language and School Readiness at 4.5 – 5.5 yrs
TVIP Daberon12-24 mths MacArthur 0.2824 0.3422
Bayley COG 0.2692 0.335Bayley LR 0.2921 0.3448Bayley LE 0.2993 0.3199
30-42 mths MacArthur 0.3058 0.4544Bayley COG 0.4645 0.5596Bayley LR 0.4766 0.5513Bayley LE 0.4163 0.5329
Cuttack – India 9-18 months ASQ Bayley z-scores Person r
z_asq_mg_0 0.1123 0.2483 0.1565 0.1284 0.2852 0.2734 0.2541 0.2951 1.0000
z_asq_mf_0 0.1195 0.1734 0.1448 0.1560 0.1385 0.4566 0.4146 1.0000
z_asq_lang_0 0.1275 0.2291 0.2952 0.2469 0.3114 0.3988 1.0000
z_asq_cog_0 0.2205 0.1256 0.2219 0.1767 0.1856 1.0000
mg_z 0.3570 0.3995 0.3797 0.4321 1.0000
mf_z 0.5244 0.4155 0.4075 1.0000
le_z 0.3860 0.5428 1.0000
lr_z 0.5154 1.0000
cog_z 1.0000
cog_z lr_z le_z mf_z mg_z z_a~og_0 z_a~ng_0 z_as~f_0 z_a~mg_0
Test Scale Age Caregiver Report Screener
Bayley Scales of Infant and Toddler Development, Third Edition (Bayley-III)
Cognitive
1-42 months
Receptive and Expressive
Language
Fine and Gross Motor
Ages and Stages Questionnaire, Third Edition (ASQ-3)
Problem Solving
1-66 months Some items Yes Communication Fine and Gross Motor
Personal-Social
Denver Development Screening Test, Second Edition (Denver-II)
Fine Motor-Adaptative
0-6 years
Some items Yes Lenguage
Gross Motor
Personal-Social McArthur-Bates Communicative Development Inventories I & II
Receptive and Expressive Language
8-18 &16-30 months Yes
Battelle Screening Development Inventory, Second Edition (BDI2)
Cognitive
0-7 years
Some items
Yes Communication
Motor
Personal-social Adaptative
WHO Motor Milestones Gross Motor 6-18 months Yes
Test Items Duration Min (SD) Spanish Cost
(USD)
Bayley-III [16-21]
83.2
(18.8) (now YES!)
> $1,050 kit
+$9.84 per report form
ASQ-3 9 (6) 19.7 (8.2) Yes
$295 kit $295 materials
Questionnaires photocopiable
Denver-II [9-10] 27 (10.5)
Yes (report forms)
$200 kit + $0.45 per admin
McArthur-Bates
CDI I & II 100, 104 8.6
(2)
Yes (30-37 months available soon)
$90 kit + $1 per admin
Battelle Screener (BDI-2)
[9-10] 63 (12.5)
Yes (items and report
forms; NO manuals and instructions)
$405.70 kit + $3.08 per admin
WHO Motor Milestones 6 6 (2.7) Free
Test-retest & Internal Consistency alpha test retest
Bayley-III Cognition 0.974 0.960Receptive Language 0.959 0.961Expressive Language 0.964 0.975Fine Motor 0.970 0.976Gross Motor 0.858 0.984Socio-Emotional 0.977 0.879
BDI-2 (Battelle Cognitive 0.792 0.915Communication 0.885 0.935Motor 0.880 0.978Personal-Social 0.843 0.709Adaptive Skills 0.837 0.897
WHO Motor Gross Motor Milestone 0.885 0.797
alpha test retestASQ-3 Problem Solving 0.541 0.799
Communication 0.717 0.920Fine Motor 0.574 0.368Gross Motor 0.722 0.904Personal-Social 0.544 0.726
Denver-II Language 0.928 0.925Fine Motor-Adaptive 0.909 0.829Gross Motor 0.902 0.527Personal-Social 0.913 0.488
MacArthur Receptive Lang 0.966 0.985Expressive Lang 0.921
0.119
0.001
0.323 0.315
0.395
0.455
0.141
0.361
0.205
0.35
0.488
0.224
0.56
0.258
0.168
0.224
0
0.1
0.2
0.3
0.4
0.5
0.6
6 - 18 mth 19 - 30 mth 31 - 42 mth
Corr
elat
ion
Bayley Cognitive
ASQ3 Problem Solving (0.146)
Battelle Cognitive (0.363)
Denver Fine Motor (0.386)
ASQ3 Communication (0.199)
Battelle Language (0.343)
Denver Language (0.329)
MacArthur Expressive Language(0.206)
WHO Motor Milestones
Plans for Predictive Validity – Bogota Study
• July – Nov 2016, 6-9 years of age
• Psychometric Assessments in Schools: psychologists WISC-V (Full Scale IQ), TVIP, executive function measures
• Household Survey: enumerators Hh SES, HOME environment, SDQ, child care/preschool/school history
• Match to standardised national assessments – pruebas SABER
When Choosing a Test…
1. Purpose of the assessment
2. Age of the child (baseline, follow up, cross-section)
3. Established concurrent and predictive validity
4. Context appropriateness (language/materials/etc.) and easiness to adapt – language and socio-emotional tests tend to be less “culture free”
5. Administration costs: Costs to purchase test and licenses, training times, testing times, skills of personnel
TO DO
• Bangladesh (Hamadani et al 2012, 2013) where it has also shown similar predictive ability of IQ at 5 years than the Bayley-II
• RUN SOME QUICK CORRELATIONS USING COLOMBIA DATA – 2 TO 5 YEARS PREDICTIVE VALIDITY FOR COLOMBIA ON
MACARTHUR
ALSO DO BOGOTA TESTS AND HEIGHT, WEIGHT AND SIMILAR REGRESSIONS TO ECUADOR REPORT BUT DO NOT SHOW IN A SLIDE Calculate correlations, check Jena’s papers
Next Steps in Measurements Agenda • Bogota Study: predictive validity, new measurements: Full Scale IQ WISC, TVIP, executive function, school achiev. 6-9 years of age, Aug-Dec 2016
• Maximise information content of items Use latent factor models (RASCH, IRT) to “develop” shorter, quicker, easier “tests” to implement (e.g. D-Score) and improve on test scoring (item weighting)
• Improve on standardisation methods & scoring of tests
• Sensitiveness of tests to interventions/develop such measures
• Comparability of effect sizes across samples
• Replicate this type of analysis across datasets and contexts – robustness & identify patterns
Predictive Validity - Ecuador
• MacArthur & TVIP significantly predict years of education completed, math and language learning outcomes, and executive function measures after 9 yrs
• This is above and beyond the effect of maternal education
• MacArthur explains 4-9% of learning outcomes, 12% of yrs edu
• TVIP explains 13-22% of learning outcomes, 15% of yrs edu
• In contrast, the predictive ability of height-for-age is trivial, even at 2 yrs
0.119
0.001
0.323 0.315
0.395
0.455
0.141
0.361
0.205
0.35
0.488
0.224
0.56
0.258
0.168
0.224
0
0.1
0.2
0.3
0.4
0.5
0.6
6 - 18 mth 19 - 30 mth 31 - 42 mth
Corr
elat
ion
Bayley Cognitive
ASQ3 Problem Solving (0.146)
Battelle Cognitive (0.363)
Denver Fine Motor (0.386)
ASQ3 Communication (0.199)
Battelle Language (0.343)
Denver Language (0.329)
MacArthur Expressive Language(0.206)
WHO Motor Milestones
Non-matching scales
Concurrent Validity - Bogota
• Cognition, language, fine motor – increasing concurrence with age – moderate correlations 19-30 m,
moderate-to-high >30 m
• Gross motor higher validity <19 months
• Non-matching domains sometimes higher correlations than matching domains – specially, for younger children.
• MacArthur-Bates and WHO-Motor good concurrence with matching and non-matching domains. But, limited age range.
• No significant differences by SES or gender.
Predictive Validity - Ecuador
• MacArthur & TVIP significantly predict years of education completed, math and language learning outcomes, and executive function measures after 9 yrs
• This is above and beyond the effect of maternal education
• MacArthur explains 4-9% of learning outcomes, 12% of yrs edu
• TVIP explains 13-22% of learning outcomes, 15% of yrs edu
• In contrast, the predictive ability of height-for-age is trivial, even at 2 yrs