medición del dit de 0-3 años a escala: evidencia...

Medición del DIT de 0-3 años a escala: Evidencia sobre la validez concurrente y predictiva de varias pruebas ‘cortas’

en Colombia y Ecuador

Marta Rubio-Codina junto con colegas en BID y EDePo

Lima, 20 septiembre 2016

Dificultades para la medición del DIT a escala en países de bajo y medio ingreso…

• Pruebas de diagnóstico (Bayley, Battelle ‘completo’, etc.)

medidas del DIT comprehensivas, que cubren todas los dominios, pero de administración compleja y costosa.

– Costo de compra materiales y de administración por niño

– Tiempo para capacitar, aprender y administrar la prueba

– Calificación de los evaluadores

– Espacio en el que se administra la prueba

Alternativas al uso de pruebas de diagnóstico

• Pruebas de tamizaje

• Pruebas de reporte parental

• Pruebas que miden dominios específicos del desarrollo

… pero …

¿son válidas en contextos distintos para el que fueron diseñadas?

traducción, adaptación, contextualización ------- normas

Alternativas multi-dimensionales costo-eficientes (PRIDI, MELQO, IDELA, Intergrowth-21s) no disponibles para menores de 24 meses CREDI, D-Score

Características deseables de pruebas para uso a escala Factibles: de administración fácil, rápida y barata

- en el contexto de una encuesta de hogar

- por encuestadores, no psicólogos

Externamente Confiables: confiabilidad test-retest e intra-evaluador

Internamente Confiables : consistencia interna

Válidas: medición válida de la variable de interés

validez concurrente y predictiva

Invariante entre culturas (deseable para comparabilidad – normas)

Capaz de detectar cambios pequeños en DIT, como resultado del impacto de intervenciones.

¿Qué sabemos sobre las pruebas comúnmente usadas para la medición del DIT en encuestas a escala?

• Bogotá, Colombia: – Validez concurrente y viabilidad de la administración

de una batería de “pruebas cortas” vs. el Bayley-III

• Ecuador: – Análisis de validez predictiva de dos pruebas de lenguaje

9 años después en desarrollo y aprovechamiento escolar

Validez Concurrente Colombia – Estudio Bogotá

junto con Caridad Araujo, Orazio Attanasio, Pablo Muñoz y Sally Grantham-McGregor

PLoS ONE 11(8): e0160962. 2016.

Diseño Estudio

Administrado por psicólogos en un

centro

Bayley-III (n=1330)peso y talla

n=1,533 niños 6-42 meses en hogares en estratos 1 a 3

Bloques aleatorizados:

Administradas por encuestadores en el

hogar

Batería A Batería B

ASQ-3 Battelle (BDI-2)Denver-II WHO-Motor

MacArthur-Batesencuesta hogar (fci) encuesta hogar (fci)

Test Escalas Incluidas en el Estudio Edad Niños Estudio

Bayley-III Cognitiva, Lenguaje Receptivo, Lenguaje Expresivo, Motricidad Fina, Motricidad Gruesa

6-42

ASQ-3 Resolución de Problemas, ComunicaciónMotricidad Fina, Motricidad GruesaPersonal-Social

6-42

Denver-II Motricidad Fina - Adaptativo, Languaje Motricidad GruesaPersonal-Social

6-42

BDI-2 (Battelle) Cognitiva, ComunicaciónMotricidadPersonal-Social Habilidades Adaptativas

6-42

MacArthur-Bates Lenguaje Receptivo, Lenguaje Expresivo 8-18MacArthur-Bates Lenguaje Expresivo 19-30 WHO-Motor Motricidad Gruesa 6-15

Administración Bayley-III

• La evaluadora observa directamente y puntúa el desempeño del niño

Estandarizar administración: entorno, presentación de actividades, agilidad

Objetividad en la evaluación y puntuación

• Duración: 1 a 1 ½ horas (!) dependiendo de la edad

• Niño debe estar bien, cómodo y en disposición de colaborar

Test Costo (USD)

Tiempo de Administración

Días Capacitación

Bayley-III $1,050 kit + $4.34 pc

(n =36) 83.2 (18.8)

15+ prácticas

ASQ-3 $275 kit$295

materiales

(n =32) 19.7 (8.2)

6 + prácticas

Denver-II $200 kit + $0.45 pc

(n =32) 27 (10.5)

7 + prácticas

BDI-2 (Battelle) $405.70 kit + $3.08 pc

(n =30) 63 (12.5)

8 + prácticas

MacArthur-Bates (n =8) 8.6 (1.9)

MacArthur-Bates 8.2 (3.3)WHO-Motor gratis (n =9)

6 (2.7)1

+ prácticas

$90 kit + $1 pc

0.5 + prácticas

mínimas

Análisis 1. Estandarizar puntajes por edad internamente usando métodos

no-paramétricos, luego de ‘limpiar’ el efecto de evaluador

método flexible, independiente tamaño celda, menos sensible a observaciones extremas

consistente para todas las pruebas analizadas

2. Investigar validez concurrente: correlaciones de Pearson por dominio, edad y nivel socio-económico del hogar

3. Pruebas de robustez: Correlaciones de rango (Spearman) y canónicas Métodos de estandarización más convencionales y uso de

puntajes estandarizados externamente

Validez concurrente por edad: escalas coincidentes

0.119

0.001

0.323 0.315

0.395 0.455

0

0.1

0.2

0.3

0.4

0.5

0.6

6 - 18 mth 19 - 30 mth 31 - 42 mth

Corr

elac

ión

Bayley Cognitivo

ASQ3 Problem Solving (0.146)

Battelle Cognitive (0.363)

Denver Fine Motor (0.386)

0.082

0.134

0.236

0.337 0.38

0.277

0.507

0

0.1

0.2

0.3

0.4

0.5

0.6

6 - 18 mth 19 - 30 mth 31 - 42 mth

Corr

elac

ión

Bayley Motricidad Fina

ASQ3 Fine Motor (0.200)

Battelle Motor (0.316)


Validez concurrente por edad: escalas coincidentes

0.178

0.458

0.56

0.29

0.65

0.61

0.702

0.242

0.6

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

6 - 18 mth 19 - 30 mth 31 - 42 mth

Corr

elac

ión

Lenguaje Expresivo

ASQ3 Communication (0.395)

Denver Language (0.506)

Battelle Language (0.495)

MacArthur Exp Lang* (0.441) * 8 - 30 months

0.585

0.175 0.218

0.371 0.311 0.335

0.654

0.406 0.426

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

6 - 18 mth 19 - 30 mth 31 - 42 mth

Corr

elac

ión

Motricidad Gruesa

Motor Milestones* (0.703)

ASQ3 Gross Motor (0.325)

Battelle Motor (0.339)

Denver Gross Motor (0.499)

Resultados – Dominios coincidentes

Escalas cognitiva, lenguaje y motricidad fina

• Correlaciones aumentan con la edad del niño y alcanzan valores moderados sobre los 31-42 meses de edad

• Denver-II y BDI-2 presentan correlaciones bajas pero significativas entre 6-18 meses

• MacArthur-expresivo presenta correlaciones moderadas con escalas de lenguaje de Bayley-III, comparables a las de las escalas de lenguaje de otras pruebas

Escala motricidad gruesa

• Correlaciones decrecientes con la edad (excepto BDI-2) • 6-15 meses: WHO-Motor alcanza los valores más altos

Dominios no-coincidentes

• En ocasiones, las escalas que miden dominios no-coincidentes presentan correlaciones mayores que las escalas que miden un mismo dominio, en particular para lenguaje y cognición en los niños más pequeños.

• Para < 19 meses, WHO-Motor y Mac-Arthur obtienen niveles de concurrencias con la escala cognitiva del Bayley tan altos como las escalas de lenguaje y cognición de las otras pruebas cortas, excepto el Denver (r = 0.31).

Pruebas de Tamizaje Multi-Dimensionales

• Denver y Battelle obtienen niveles de concurrencia similares y consistentemente mayores a los del ASQ-3.

• No obstante, Battelle es más largo y más costoso.

Denver-II parece ser el mejor candidato.

muestra sensitividad a intervenciones (Macours et al 2012)

(nueva versión del ASQ en desarrollo – ASQ: Inventory)

Pruebas que miden un único dominio

• Mac-Arthur predice lenguaje expresivo tan bien como cualquier otra escala de lenguaje para menores de 30 meses.

• WHO-Motor es el mejor predictor de desarrollo motor grueso en menores 15 meses.

• Ambas pruebas presentan niveles de concurrencia en la medición del desarrollo cognitivo tan altos como las pruebas multi-dimensionales, para el rango etario para el que están disponibles.

(Hamadami et al 2010; Hamadani et al 2013)

• Ambas son muy sencillas de administrar y tienen un costo bajo.

a considerar para encuestas a escala.

Validez Predictiva de Pruebas de Lenguaje: MacArthur & TVIP

junto con Caridad Araujo and Norbert Schady

trabajo en curso

Encuesta Longitudinal de Ecuador • Datos de zonas rurales en Ecuador, zona Andina y Costa

• Evaluación del programa de transferencias condicionadas

• 40% inferior de la distribución de riqueza

“Indicadores” en la primera infancia 2 muestras de niños :

1. MacArthur a los 2 años (N =290, 30% desnutrición crónica)

2. TVIP (versión en español del Peabody) a los 4 años (N=600, 20% desnutrición crónica)

Test Dominio Lenguaje

Costo (USD)

Forma Admin

Tiempo Admin

Días Capacitación

MacArthur II expresivo $90 kit + $1 pc

reporte materno

8-10 0.5 + prácticas mínimas

TVIP receptivo $202 kit + $1.88 pc

niño 15 1 + prácticas

4 indicadores de desempeño 9 años más tarde (a los 11 y 13 años de edad)

1. Años de educación

2. Puntaje de lenguaje: TVIP, WM verbal y comprensión lectora

3. Puntaje de matemáticas : WM series numéricas, problemas aplicados, aritmética.

4. Puntaje mixto “Otros” : WM atención, memoria de trabajo, fluidez, fortalezas y capacidades

- Estandarizar indicadores por edad, no-paramétricamente. Re-escalar tal que tengan media 0 y DS 1.

- Análisis controla por talla-por-edad y educación materna

MacArthur 2 años: predictivo a los 11 años

N ~ 290 obs

Model 1 Model 2 Model 3 Model 4MacArthur 0.205*** 0.208*** 0.208***

(0.068) (0.068) (0.069)Height-for-age -0.031 -0.043 -0.053

(0.053) (0.055) (0.059)Maternal education 0.020

0.026A: Marg contrib to r2 0.031 0.001 0.033 0.035R2 0.1211 0.0908 0.1229 0.1253

Years Education Completed

MacArthur 0.132** 0.130** 0.132** 0.135** 0.135** 0.136***(0.051) (0.051) (0.051) (0.052) (0.052) (0.051)

Height-for-age 0.042 0.035 0.016 0.013 0.006 -0.009(0.040) (0.040) (0.041) (0.041) (0.045) (0.050)

Maternal education 0.038** 0.028(0.019) (0.017)

A: Marg contrib to r2 0.028 0.011 0.030 0.042 0.032 0.011 0.032 0.039B: Marg contrib to r2 0.0277 0.0108 0.0296 0.020 0.032 0.0112 0.032 0.0394

Math Score "Other" Score

Model 1 Model 2 Model 3 Model 40.156** 0.151** 0.154**(0.066) (0.066) (0.064)

0.087** 0.079* 0.044(0.040) (0.041) (0.049)

0.067**(0.026)

0.024 0.010 0.032 0.0670.0495 0.0352 0.0576 0.0925

Language Score

TVIP a los 4 años: predictivo a los 13 años

N ~ 600 obs

Model 1 Model 2 Model 3 Model 4 Model 1 Model 2 Model 3 Model 4TVIP 0.338*** 0.334*** 0.300*** 0.472*** 0.472*** 0.443***

(0.059) (0.060) (0.056) (0.038) (0.039) (0.038)Height-for-age 0.065 0.032 -0.008 0.045 -0.002 -0.037

(0.057) (0.053) (0.056) (0.038) (0.033) (0.033)Maternal education 0.051** 0.044***

(0.022) (0.013)Marg contrib to r2 0.054 0.002 0.055 0.066 0.201 0.002 0.201 0.218R2 0.1374 0.0854 0.138 0.1496 0.2104 0.011 0.2104 0.2267

Years Education Completed Language Score

Model 1 Model 2 Model 3 Model 4 Model 1 Model 2 Model 3 Model 4TVIP 0.349*** 0.347*** 0.321*** 0.299*** 0.299*** 0.254***

(0.039) (0.040) (0.039) (0.042) (0.042) (0.041)Height-for-age 0.050 0.016 -0.017 0.029 0.000 -0.056

(0.045) (0.041) (0.042) (0.050) (0.049) (0.050)Maternal education 0.040*** 0.069***

(0.012) (0.014)Marg contrib to r2 0.112 0.003 0.112 0.126 0.082 0.001 0.082 0.123R2 0.1141 0.005 0.1144 0.1284 0.0979 0.0168 0.0979 0.1386

Math Score "Other" Score

Resumen de resultados

• MacArthur a los 2 años y TVIP a los 4 años predicen significativamente indicadores de desempeño 9 años más tarde.

• La capacidad predictiva aumenta con la edad del niño.

• Estos resultados se mantienen, luego de controlar por educación de la madre.

• Por el contrario, la validez predictiva de la talla-por-edad parece trivial.

En conclusión… • Validez concurrente y predictiva aumenta con la edad.

• Pruebas ‘cortas’ de lenguaje son promisorias en cuanto a su capacidad de predecir lenguaje, desarrollo cognitivo futuro, años de escolaridad y aprovechamiento escolar.

• Efectivamente, las pruebas de lenguaje dependen mucho más del contexto y requieren de mayor adaptación que las pruebas que miden otras dimensiones.

• No obstante, este tipo de adaptaciones es factible.

e.g. el Mac-Arthur está ya disponible en muchas lenguas.

Para discusión… • ¿Tendría sentido administrar pruebas de lenguaje tests à la

MacArthur/TVIP de forma rutinaria para la medición del DIT a escala en encuestas de hogar?

• ¿Podríamos pensar en formas en las que adaptar estas pruebas (¿selección ítems?), formas de puntuar y desarrollar normas que permitan comparabilidad a nivel internacional?

• Replicar este tipo de análisis – oportuno dadas las varias iniciativas para desarrollar indicadores poblaciones del DIT globales.

• En la selección de pruebas para evaluación de intervenciones – rango etario, habilidad pruebas detección cambios pequeños en desarrollo, comparabilidad efectos entre muestras distintas.

Muchas gracias

EXTRA SLIDES –

Predictive validity of MacArthur and Bayley of Language and School Readiness at 4.5 – 5.5 yrs

TVIP Daberon12-24 mths MacArthur 0.2824 0.3422

Bayley COG 0.2692 0.335Bayley LR 0.2921 0.3448Bayley LE 0.2993 0.3199

30-42 mths MacArthur 0.3058 0.4544Bayley COG 0.4645 0.5596Bayley LR 0.4766 0.5513Bayley LE 0.4163 0.5329

Cuttack – India 9-18 months ASQ Bayley z-scores Person r

z_asq_mg_0 0.1123 0.2483 0.1565 0.1284 0.2852 0.2734 0.2541 0.2951 1.0000

z_asq_mf_0 0.1195 0.1734 0.1448 0.1560 0.1385 0.4566 0.4146 1.0000

z_asq_lang_0 0.1275 0.2291 0.2952 0.2469 0.3114 0.3988 1.0000

z_asq_cog_0 0.2205 0.1256 0.2219 0.1767 0.1856 1.0000

mg_z 0.3570 0.3995 0.3797 0.4321 1.0000

mf_z 0.5244 0.4155 0.4075 1.0000

le_z 0.3860 0.5428 1.0000

lr_z 0.5154 1.0000

cog_z 1.0000

cog_z lr_z le_z mf_z mg_z z_a~og_0 z_a~ng_0 z_as~f_0 z_a~mg_0

Test Scale Age Caregiver Report Screener

Bayley Scales of Infant and Toddler Development, Third Edition (Bayley-III)

Cognitive

1-42 months

Receptive and Expressive

Language

Fine and Gross Motor

Ages and Stages Questionnaire, Third Edition (ASQ-3)

Problem Solving

1-66 months Some items Yes Communication Fine and Gross Motor

Personal-Social

Denver Development Screening Test, Second Edition (Denver-II)

Fine Motor-Adaptative

0-6 years

Some items Yes Lenguage

Gross Motor

Personal-Social McArthur-Bates Communicative Development Inventories I & II

Receptive and Expressive Language

8-18 &16-30 months Yes

Battelle Screening Development Inventory, Second Edition (BDI2)

Cognitive

0-7 years

Some items

Yes Communication

Motor

Personal-social Adaptative

WHO Motor Milestones Gross Motor 6-18 months Yes

Test Items Duration Min (SD) Spanish Cost

(USD)

Bayley-III [16-21]

83.2

(18.8) (now YES!)

> $1,050 kit

+$9.84 per report form

ASQ-3 9 (6) 19.7 (8.2) Yes

$295 kit $295 materials

Questionnaires photocopiable

Denver-II [9-10] 27 (10.5)

Yes (report forms)

$200 kit + $0.45 per admin

McArthur-Bates

CDI I & II 100, 104 8.6

(2)

Yes (30-37 months available soon)

$90 kit + $1 per admin

Battelle Screener (BDI-2)

[9-10] 63 (12.5)

Yes (items and report

forms; NO manuals and instructions)

$405.70 kit + $3.08 per admin

WHO Motor Milestones 6 6 (2.7) Free

Test-retest & Internal Consistency alpha test retest

Bayley-III Cognition 0.974 0.960Receptive Language 0.959 0.961Expressive Language 0.964 0.975Fine Motor 0.970 0.976Gross Motor 0.858 0.984Socio-Emotional 0.977 0.879

BDI-2 (Battelle Cognitive 0.792 0.915Communication 0.885 0.935Motor 0.880 0.978Personal-Social 0.843 0.709Adaptive Skills 0.837 0.897

WHO Motor Gross Motor Milestone 0.885 0.797

alpha test retestASQ-3 Problem Solving 0.541 0.799

Communication 0.717 0.920Fine Motor 0.574 0.368Gross Motor 0.722 0.904Personal-Social 0.544 0.726

Denver-II Language 0.928 0.925Fine Motor-Adaptive 0.909 0.829Gross Motor 0.902 0.527Personal-Social 0.913 0.488

MacArthur Receptive Lang 0.966 0.985Expressive Lang 0.921

0.119

0.001

0.323 0.315

0.395

0.455

0.141

0.361

0.205

0.35

0.488

0.224

0.56

0.258

0.168

0.224

0

0.1

0.2

0.3

0.4

0.5

0.6

6 - 18 mth 19 - 30 mth 31 - 42 mth

Corr

elat

ion

Bayley Cognitive







MacArthur Expressive Language(0.206)

WHO Motor Milestones

Plans for Predictive Validity – Bogota Study

• July – Nov 2016, 6-9 years of age

• Psychometric Assessments in Schools: psychologists WISC-V (Full Scale IQ), TVIP, executive function measures

• Household Survey: enumerators Hh SES, HOME environment, SDQ, child care/preschool/school history

• Match to standardised national assessments – pruebas SABER

When Choosing a Test…

1. Purpose of the assessment

2. Age of the child (baseline, follow up, cross-section)

3. Established concurrent and predictive validity

4. Context appropriateness (language/materials/etc.) and easiness to adapt – language and socio-emotional tests tend to be less “culture free”

5. Administration costs: Costs to purchase test and licenses, training times, testing times, skills of personnel

TO DO

• Bangladesh (Hamadani et al 2012, 2013) where it has also shown similar predictive ability of IQ at 5 years than the Bayley-II

• RUN SOME QUICK CORRELATIONS USING COLOMBIA DATA – 2 TO 5 YEARS PREDICTIVE VALIDITY FOR COLOMBIA ON

MACARTHUR

ALSO DO BOGOTA TESTS AND HEIGHT, WEIGHT AND SIMILAR REGRESSIONS TO ECUADOR REPORT BUT DO NOT SHOW IN A SLIDE Calculate correlations, check Jena’s papers

Next Steps in Measurements Agenda • Bogota Study: predictive validity, new measurements: Full Scale IQ WISC, TVIP, executive function, school achiev. 6-9 years of age, Aug-Dec 2016

• Maximise information content of items Use latent factor models (RASCH, IRT) to “develop” shorter, quicker, easier “tests” to implement (e.g. D-Score) and improve on test scoring (item weighting)

• Improve on standardisation methods & scoring of tests

• Sensitiveness of tests to interventions/develop such measures

• Comparability of effect sizes across samples

• Replicate this type of analysis across datasets and contexts – robustness & identify patterns

Predictive Validity - Ecuador

• MacArthur & TVIP significantly predict years of education completed, math and language learning outcomes, and executive function measures after 9 yrs

• This is above and beyond the effect of maternal education

• MacArthur explains 4-9% of learning outcomes, 12% of yrs edu

• TVIP explains 13-22% of learning outcomes, 15% of yrs edu

• In contrast, the predictive ability of height-for-age is trivial, even at 2 yrs

0.119

0.001

0.323 0.315

0.395

0.455

0.141

0.361

0.205

0.35

0.488

0.224

0.56

0.258

0.168

0.224

0

0.1

0.2

0.3

0.4

0.5

0.6

6 - 18 mth 19 - 30 mth 31 - 42 mth

Corr

elat

ion

Bayley Cognitive







MacArthur Expressive Language(0.206)

WHO Motor Milestones

Non-matching scales

Concurrent Validity - Bogota

• Cognition, language, fine motor – increasing concurrence with age – moderate correlations 19-30 m,

moderate-to-high >30 m

• Gross motor higher validity <19 months

• Non-matching domains sometimes higher correlations than matching domains – specially, for younger children.

• MacArthur-Bates and WHO-Motor good concurrence with matching and non-matching domains. But, limited age range.

• No significant differences by SES or gender.

Predictive Validity - Ecuador

• MacArthur & TVIP significantly predict years of education completed, math and language learning outcomes, and executive function measures after 9 yrs

• This is above and beyond the effect of maternal education

• MacArthur explains 4-9% of learning outcomes, 12% of yrs edu

• TVIP explains 13-22% of learning outcomes, 15% of yrs edu

• In contrast, the predictive ability of height-for-age is trivial, even at 2 yrs

medición del dit de 0-3 años a escala: evidencia...

Documents