medición del dit de 0-3 años a escala: evidencia...

41
Medición del DIT de 0-3 años a escala: Evidencia sobre la validez concurrente y predictiva de varias pruebas ‘cortas’ en Colombia y Ecuador Marta Rubio-Codina junto con colegas en BID y EDePo Lima, 20 septiembre 2016

Upload: nguyenliem

Post on 19-Sep-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

Medición del DIT de 0-3 años a escala: Evidencia sobre la validez concurrente y predictiva de varias pruebas ‘cortas’

en Colombia y Ecuador

Marta Rubio-Codina junto con colegas en BID y EDePo

Lima, 20 septiembre 2016

Dificultades para la medición del DIT a escala en países de bajo y medio ingreso…

• Pruebas de diagnóstico (Bayley, Battelle ‘completo’, etc.)

medidas del DIT comprehensivas, que cubren todas los dominios, pero de administración compleja y costosa.

– Costo de compra materiales y de administración por niño

– Tiempo para capacitar, aprender y administrar la prueba

– Calificación de los evaluadores

– Espacio en el que se administra la prueba

Alternativas al uso de pruebas de diagnóstico

• Pruebas de tamizaje

• Pruebas de reporte parental

• Pruebas que miden dominios específicos del desarrollo

… pero …

¿son válidas en contextos distintos para el que fueron diseñadas?

traducción, adaptación, contextualización ------- normas

Alternativas multi-dimensionales costo-eficientes (PRIDI, MELQO, IDELA, Intergrowth-21s) no disponibles para menores de 24 meses CREDI, D-Score

Características deseables de pruebas para uso a escala Factibles: de administración fácil, rápida y barata

- en el contexto de una encuesta de hogar

- por encuestadores, no psicólogos

Externamente Confiables: confiabilidad test-retest e intra-evaluador

Internamente Confiables : consistencia interna

Válidas: medición válida de la variable de interés

validez concurrente y predictiva

Invariante entre culturas (deseable para comparabilidad – normas)

Capaz de detectar cambios pequeños en DIT, como resultado del impacto de intervenciones.

¿Qué sabemos sobre las pruebas comúnmente usadas para la medición del DIT en encuestas a escala?

• Bogotá, Colombia: – Validez concurrente y viabilidad de la administración

de una batería de “pruebas cortas” vs. el Bayley-III

• Ecuador: – Análisis de validez predictiva de dos pruebas de lenguaje

9 años después en desarrollo y aprovechamiento escolar

Validez Concurrente Colombia – Estudio Bogotá

junto con Caridad Araujo, Orazio Attanasio, Pablo Muñoz y Sally Grantham-McGregor

PLoS ONE 11(8): e0160962. 2016.

Diseño Estudio

Administrado por psicólogos en un

centro

Bayley-III (n=1330)peso y talla

n=1,533 niños 6-42 meses en hogares en estratos 1 a 3

Bloques aleatorizados:

Administradas por encuestadores en el

hogar

Batería A Batería B

ASQ-3 Battelle (BDI-2)Denver-II WHO-Motor

MacArthur-Batesencuesta hogar (fci) encuesta hogar (fci)

Test Escalas Incluidas en el Estudio Edad Niños Estudio

Bayley-III Cognitiva, Lenguaje Receptivo, Lenguaje Expresivo, Motricidad Fina, Motricidad Gruesa

6-42

ASQ-3 Resolución de Problemas, ComunicaciónMotricidad Fina, Motricidad GruesaPersonal-Social

6-42

Denver-II Motricidad Fina - Adaptativo, Languaje Motricidad GruesaPersonal-Social

6-42

BDI-2 (Battelle) Cognitiva, ComunicaciónMotricidadPersonal-Social Habilidades Adaptativas

6-42

MacArthur-Bates Lenguaje Receptivo, Lenguaje Expresivo 8-18MacArthur-Bates Lenguaje Expresivo 19-30 WHO-Motor Motricidad Gruesa 6-15

Administración Bayley-III

• La evaluadora observa directamente y puntúa el desempeño del niño

Estandarizar administración: entorno, presentación de actividades, agilidad

Objetividad en la evaluación y puntuación

• Duración: 1 a 1 ½ horas (!) dependiendo de la edad

• Niño debe estar bien, cómodo y en disposición de colaborar

Test Costo (USD)

Tiempo de Administración

Días Capacitación

Bayley-III $1,050 kit + $4.34 pc

(n =36) 83.2 (18.8)

15+ prácticas

ASQ-3 $275 kit$295

materiales

(n =32) 19.7 (8.2)

6 + prácticas

Denver-II $200 kit + $0.45 pc

(n =32) 27 (10.5)

7 + prácticas

BDI-2 (Battelle) $405.70 kit + $3.08 pc

(n =30) 63 (12.5)

8 + prácticas

MacArthur-Bates (n =8) 8.6 (1.9)

MacArthur-Bates 8.2 (3.3)WHO-Motor gratis (n =9)

6 (2.7)1

+ prácticas

$90 kit + $1 pc

0.5 + prácticas

mínimas

Análisis 1. Estandarizar puntajes por edad internamente usando métodos

no-paramétricos, luego de ‘limpiar’ el efecto de evaluador

método flexible, independiente tamaño celda, menos sensible a observaciones extremas

consistente para todas las pruebas analizadas

2. Investigar validez concurrente: correlaciones de Pearson por dominio, edad y nivel socio-económico del hogar

3. Pruebas de robustez: Correlaciones de rango (Spearman) y canónicas Métodos de estandarización más convencionales y uso de

puntajes estandarizados externamente

Validez concurrente por edad: escalas coincidentes

0.119

0.001

0.323 0.315

0.395 0.455

0

0.1

0.2

0.3

0.4

0.5

0.6

6 - 18 mth 19 - 30 mth 31 - 42 mth

Corr

elac

ión

Bayley Cognitivo

ASQ3 Problem Solving (0.146)

Battelle Cognitive (0.363)

Denver Fine Motor (0.386)

0.082

0.134

0.236

0.337 0.38

0.277

0.507

0

0.1

0.2

0.3

0.4

0.5

0.6

6 - 18 mth 19 - 30 mth 31 - 42 mth

Corr

elac

ión

Bayley Motricidad Fina

ASQ3 Fine Motor (0.200)

Battelle Motor (0.316)

Denver Fine Motor (0.354)

Validez concurrente por edad: escalas coincidentes

0.178

0.458

0.56

0.29

0.65

0.61

0.702

0.242

0.6

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

6 - 18 mth 19 - 30 mth 31 - 42 mth

Corr

elac

ión

Lenguaje Expresivo

ASQ3 Communication (0.395)

Denver Language (0.506)

Battelle Language (0.495)

MacArthur Exp Lang* (0.441) * 8 - 30 months

0.585

0.175 0.218

0.371 0.311 0.335

0.654

0.406 0.426

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

6 - 18 mth 19 - 30 mth 31 - 42 mth

Corr

elac

ión

Motricidad Gruesa

Motor Milestones* (0.703)

ASQ3 Gross Motor (0.325)

Battelle Motor (0.339)

Denver Gross Motor (0.499)

Resultados – Dominios coincidentes

Escalas cognitiva, lenguaje y motricidad fina

• Correlaciones aumentan con la edad del niño y alcanzan valores moderados sobre los 31-42 meses de edad

• Denver-II y BDI-2 presentan correlaciones bajas pero significativas entre 6-18 meses

• MacArthur-expresivo presenta correlaciones moderadas con escalas de lenguaje de Bayley-III, comparables a las de las escalas de lenguaje de otras pruebas

Escala motricidad gruesa

• Correlaciones decrecientes con la edad (excepto BDI-2) • 6-15 meses: WHO-Motor alcanza los valores más altos

Dominios no-coincidentes

• En ocasiones, las escalas que miden dominios no-coincidentes presentan correlaciones mayores que las escalas que miden un mismo dominio, en particular para lenguaje y cognición en los niños más pequeños.

• Para < 19 meses, WHO-Motor y Mac-Arthur obtienen niveles de concurrencias con la escala cognitiva del Bayley tan altos como las escalas de lenguaje y cognición de las otras pruebas cortas, excepto el Denver (r = 0.31).

Pruebas de Tamizaje Multi-Dimensionales

• Denver y Battelle obtienen niveles de concurrencia similares y consistentemente mayores a los del ASQ-3.

• No obstante, Battelle es más largo y más costoso.

Denver-II parece ser el mejor candidato.

muestra sensitividad a intervenciones (Macours et al 2012)

(nueva versión del ASQ en desarrollo – ASQ: Inventory)

Pruebas que miden un único dominio

• Mac-Arthur predice lenguaje expresivo tan bien como cualquier otra escala de lenguaje para menores de 30 meses.

• WHO-Motor es el mejor predictor de desarrollo motor grueso en menores 15 meses.

• Ambas pruebas presentan niveles de concurrencia en la medición del desarrollo cognitivo tan altos como las pruebas multi-dimensionales, para el rango etario para el que están disponibles.

(Hamadami et al 2010; Hamadani et al 2013)

• Ambas son muy sencillas de administrar y tienen un costo bajo.

a considerar para encuestas a escala.

Validez Predictiva de Pruebas de Lenguaje: MacArthur & TVIP

junto con Caridad Araujo and Norbert Schady

trabajo en curso

Encuesta Longitudinal de Ecuador • Datos de zonas rurales en Ecuador, zona Andina y Costa

• Evaluación del programa de transferencias condicionadas

• 40% inferior de la distribución de riqueza

“Indicadores” en la primera infancia 2 muestras de niños :

1. MacArthur a los 2 años (N =290, 30% desnutrición crónica)

2. TVIP (versión en español del Peabody) a los 4 años (N=600, 20% desnutrición crónica)

Test Dominio Lenguaje

Costo (USD)

Forma Admin

Tiempo Admin

Días Capacitación

MacArthur II expresivo $90 kit + $1 pc

reporte materno

8-10 0.5 + prácticas mínimas

TVIP receptivo $202 kit + $1.88 pc

niño 15 1 + prácticas

4 indicadores de desempeño 9 años más tarde (a los 11 y 13 años de edad)

1. Años de educación

2. Puntaje de lenguaje: TVIP, WM verbal y comprensión lectora

3. Puntaje de matemáticas : WM series numéricas, problemas aplicados, aritmética.

4. Puntaje mixto “Otros” : WM atención, memoria de trabajo, fluidez, fortalezas y capacidades

- Estandarizar indicadores por edad, no-paramétricamente. Re-escalar tal que tengan media 0 y DS 1.

- Análisis controla por talla-por-edad y educación materna

MacArthur 2 años: predictivo a los 11 años

N ~ 290 obs

Model 1 Model 2 Model 3 Model 4MacArthur 0.205*** 0.208*** 0.208***

(0.068) (0.068) (0.069)Height-for-age -0.031 -0.043 -0.053

(0.053) (0.055) (0.059)Maternal education 0.020

0.026A: Marg contrib to r2 0.031 0.001 0.033 0.035R2 0.1211 0.0908 0.1229 0.1253

Years Education Completed

MacArthur 0.132** 0.130** 0.132** 0.135** 0.135** 0.136***(0.051) (0.051) (0.051) (0.052) (0.052) (0.051)

Height-for-age 0.042 0.035 0.016 0.013 0.006 -0.009(0.040) (0.040) (0.041) (0.041) (0.045) (0.050)

Maternal education 0.038** 0.028(0.019) (0.017)

A: Marg contrib to r2 0.028 0.011 0.030 0.042 0.032 0.011 0.032 0.039B: Marg contrib to r2 0.0277 0.0108 0.0296 0.020 0.032 0.0112 0.032 0.0394

Math Score "Other" Score

Model 1 Model 2 Model 3 Model 40.156** 0.151** 0.154**(0.066) (0.066) (0.064)

0.087** 0.079* 0.044(0.040) (0.041) (0.049)

0.067**(0.026)

0.024 0.010 0.032 0.0670.0495 0.0352 0.0576 0.0925

Language Score

TVIP a los 4 años: predictivo a los 13 años

N ~ 600 obs

Model 1 Model 2 Model 3 Model 4 Model 1 Model 2 Model 3 Model 4TVIP 0.338*** 0.334*** 0.300*** 0.472*** 0.472*** 0.443***

(0.059) (0.060) (0.056) (0.038) (0.039) (0.038)Height-for-age 0.065 0.032 -0.008 0.045 -0.002 -0.037

(0.057) (0.053) (0.056) (0.038) (0.033) (0.033)Maternal education 0.051** 0.044***

(0.022) (0.013)Marg contrib to r2 0.054 0.002 0.055 0.066 0.201 0.002 0.201 0.218R2 0.1374 0.0854 0.138 0.1496 0.2104 0.011 0.2104 0.2267

Years Education Completed Language Score

Model 1 Model 2 Model 3 Model 4 Model 1 Model 2 Model 3 Model 4TVIP 0.349*** 0.347*** 0.321*** 0.299*** 0.299*** 0.254***

(0.039) (0.040) (0.039) (0.042) (0.042) (0.041)Height-for-age 0.050 0.016 -0.017 0.029 0.000 -0.056

(0.045) (0.041) (0.042) (0.050) (0.049) (0.050)Maternal education 0.040*** 0.069***

(0.012) (0.014)Marg contrib to r2 0.112 0.003 0.112 0.126 0.082 0.001 0.082 0.123R2 0.1141 0.005 0.1144 0.1284 0.0979 0.0168 0.0979 0.1386

Math Score "Other" Score

Resumen de resultados

• MacArthur a los 2 años y TVIP a los 4 años predicen significativamente indicadores de desempeño 9 años más tarde.

• La capacidad predictiva aumenta con la edad del niño.

• Estos resultados se mantienen, luego de controlar por educación de la madre.

• Por el contrario, la validez predictiva de la talla-por-edad parece trivial.

En conclusión… • Validez concurrente y predictiva aumenta con la edad.

• Pruebas ‘cortas’ de lenguaje son promisorias en cuanto a su capacidad de predecir lenguaje, desarrollo cognitivo futuro, años de escolaridad y aprovechamiento escolar.

• Efectivamente, las pruebas de lenguaje dependen mucho más del contexto y requieren de mayor adaptación que las pruebas que miden otras dimensiones.

• No obstante, este tipo de adaptaciones es factible.

e.g. el Mac-Arthur está ya disponible en muchas lenguas.

Para discusión… • ¿Tendría sentido administrar pruebas de lenguaje tests à la

MacArthur/TVIP de forma rutinaria para la medición del DIT a escala en encuestas de hogar?

• ¿Podríamos pensar en formas en las que adaptar estas pruebas (¿selección ítems?), formas de puntuar y desarrollar normas que permitan comparabilidad a nivel internacional?

• Replicar este tipo de análisis – oportuno dadas las varias iniciativas para desarrollar indicadores poblaciones del DIT globales.

• En la selección de pruebas para evaluación de intervenciones – rango etario, habilidad pruebas detección cambios pequeños en desarrollo, comparabilidad efectos entre muestras distintas.

Muchas gracias

EXTRA SLIDES –

Predictive validity of MacArthur and Bayley of Language and School Readiness at 4.5 – 5.5 yrs

TVIP Daberon12-24 mths MacArthur 0.2824 0.3422

Bayley COG 0.2692 0.335Bayley LR 0.2921 0.3448Bayley LE 0.2993 0.3199

30-42 mths MacArthur 0.3058 0.4544Bayley COG 0.4645 0.5596Bayley LR 0.4766 0.5513Bayley LE 0.4163 0.5329

Cuttack – India 9-18 months ASQ Bayley z-scores Person r

z_asq_mg_0 0.1123 0.2483 0.1565 0.1284 0.2852 0.2734 0.2541 0.2951 1.0000

z_asq_mf_0 0.1195 0.1734 0.1448 0.1560 0.1385 0.4566 0.4146 1.0000

z_asq_lang_0 0.1275 0.2291 0.2952 0.2469 0.3114 0.3988 1.0000

z_asq_cog_0 0.2205 0.1256 0.2219 0.1767 0.1856 1.0000

mg_z 0.3570 0.3995 0.3797 0.4321 1.0000

mf_z 0.5244 0.4155 0.4075 1.0000

le_z 0.3860 0.5428 1.0000

lr_z 0.5154 1.0000

cog_z 1.0000

cog_z lr_z le_z mf_z mg_z z_a~og_0 z_a~ng_0 z_as~f_0 z_a~mg_0

Test Scale Age Caregiver Report Screener

Bayley Scales of Infant and Toddler Development, Third Edition (Bayley-III)

Cognitive

1-42 months

Receptive and Expressive

Language

Fine and Gross Motor

Ages and Stages Questionnaire, Third Edition (ASQ-3)

Problem Solving

1-66 months Some items Yes Communication Fine and Gross Motor

Personal-Social

Denver Development Screening Test, Second Edition (Denver-II)

Fine Motor-Adaptative

0-6 years

Some items Yes Lenguage

Gross Motor

Personal-Social McArthur-Bates Communicative Development Inventories I & II

Receptive and Expressive Language

8-18 &16-30 months Yes

Battelle Screening Development Inventory, Second Edition (BDI2)

Cognitive

0-7 years

Some items

Yes Communication

Motor

Personal-social Adaptative

WHO Motor Milestones Gross Motor 6-18 months Yes

Test Items Duration Min (SD) Spanish Cost

(USD)

Bayley-III [16-21]

83.2

(18.8) (now YES!)

> $1,050 kit

+$9.84 per report form

ASQ-3 9 (6) 19.7 (8.2) Yes

$295 kit $295 materials

Questionnaires photocopiable

Denver-II [9-10] 27 (10.5)

Yes (report forms)

$200 kit + $0.45 per admin

McArthur-Bates

CDI I & II 100, 104 8.6

(2)

Yes (30-37 months available soon)

$90 kit + $1 per admin

Battelle Screener (BDI-2)

[9-10] 63 (12.5)

Yes (items and report

forms; NO manuals and instructions)

$405.70 kit + $3.08 per admin

WHO Motor Milestones 6 6 (2.7) Free

Test-retest & Internal Consistency alpha test retest

Bayley-III Cognition 0.974 0.960Receptive Language 0.959 0.961Expressive Language 0.964 0.975Fine Motor 0.970 0.976Gross Motor 0.858 0.984Socio-Emotional 0.977 0.879

BDI-2 (Battelle Cognitive 0.792 0.915Communication 0.885 0.935Motor 0.880 0.978Personal-Social 0.843 0.709Adaptive Skills 0.837 0.897

WHO Motor Gross Motor Milestone 0.885 0.797

alpha test retestASQ-3 Problem Solving 0.541 0.799

Communication 0.717 0.920Fine Motor 0.574 0.368Gross Motor 0.722 0.904Personal-Social 0.544 0.726

Denver-II Language 0.928 0.925Fine Motor-Adaptive 0.909 0.829Gross Motor 0.902 0.527Personal-Social 0.913 0.488

MacArthur Receptive Lang 0.966 0.985Expressive Lang 0.921

0.119

0.001

0.323 0.315

0.395

0.455

0.141

0.361

0.205

0.35

0.488

0.224

0.56

0.258

0.168

0.224

0

0.1

0.2

0.3

0.4

0.5

0.6

6 - 18 mth 19 - 30 mth 31 - 42 mth

Corr

elat

ion

Bayley Cognitive

ASQ3 Problem Solving (0.146)

Battelle Cognitive (0.363)

Denver Fine Motor (0.386)

ASQ3 Communication (0.199)

Battelle Language (0.343)

Denver Language (0.329)

MacArthur Expressive Language(0.206)

WHO Motor Milestones

Plans for Predictive Validity – Bogota Study

• July – Nov 2016, 6-9 years of age

• Psychometric Assessments in Schools: psychologists WISC-V (Full Scale IQ), TVIP, executive function measures

• Household Survey: enumerators Hh SES, HOME environment, SDQ, child care/preschool/school history

• Match to standardised national assessments – pruebas SABER

When Choosing a Test…

1. Purpose of the assessment

2. Age of the child (baseline, follow up, cross-section)

3. Established concurrent and predictive validity

4. Context appropriateness (language/materials/etc.) and easiness to adapt – language and socio-emotional tests tend to be less “culture free”

5. Administration costs: Costs to purchase test and licenses, training times, testing times, skills of personnel

TO DO

• Bangladesh (Hamadani et al 2012, 2013) where it has also shown similar predictive ability of IQ at 5 years than the Bayley-II

• RUN SOME QUICK CORRELATIONS USING COLOMBIA DATA – 2 TO 5 YEARS PREDICTIVE VALIDITY FOR COLOMBIA ON

MACARTHUR

ALSO DO BOGOTA TESTS AND HEIGHT, WEIGHT AND SIMILAR REGRESSIONS TO ECUADOR REPORT BUT DO NOT SHOW IN A SLIDE Calculate correlations, check Jena’s papers

Next Steps in Measurements Agenda • Bogota Study: predictive validity, new measurements: Full Scale IQ WISC, TVIP, executive function, school achiev. 6-9 years of age, Aug-Dec 2016

• Maximise information content of items Use latent factor models (RASCH, IRT) to “develop” shorter, quicker, easier “tests” to implement (e.g. D-Score) and improve on test scoring (item weighting)

• Improve on standardisation methods & scoring of tests

• Sensitiveness of tests to interventions/develop such measures

• Comparability of effect sizes across samples

• Replicate this type of analysis across datasets and contexts – robustness & identify patterns

Predictive Validity - Ecuador

• MacArthur & TVIP significantly predict years of education completed, math and language learning outcomes, and executive function measures after 9 yrs

• This is above and beyond the effect of maternal education

• MacArthur explains 4-9% of learning outcomes, 12% of yrs edu

• TVIP explains 13-22% of learning outcomes, 15% of yrs edu

• In contrast, the predictive ability of height-for-age is trivial, even at 2 yrs

0.119

0.001

0.323 0.315

0.395

0.455

0.141

0.361

0.205

0.35

0.488

0.224

0.56

0.258

0.168

0.224

0

0.1

0.2

0.3

0.4

0.5

0.6

6 - 18 mth 19 - 30 mth 31 - 42 mth

Corr

elat

ion

Bayley Cognitive

ASQ3 Problem Solving (0.146)

Battelle Cognitive (0.363)

Denver Fine Motor (0.386)

ASQ3 Communication (0.199)

Battelle Language (0.343)

Denver Language (0.329)

MacArthur Expressive Language(0.206)

WHO Motor Milestones

Non-matching scales

Concurrent Validity - Bogota

• Cognition, language, fine motor – increasing concurrence with age – moderate correlations 19-30 m,

moderate-to-high >30 m

• Gross motor higher validity <19 months

• Non-matching domains sometimes higher correlations than matching domains – specially, for younger children.

• MacArthur-Bates and WHO-Motor good concurrence with matching and non-matching domains. But, limited age range.

• No significant differences by SES or gender.

Predictive Validity - Ecuador

• MacArthur & TVIP significantly predict years of education completed, math and language learning outcomes, and executive function measures after 9 yrs

• This is above and beyond the effect of maternal education

• MacArthur explains 4-9% of learning outcomes, 12% of yrs edu

• TVIP explains 13-22% of learning outcomes, 15% of yrs edu

• In contrast, the predictive ability of height-for-age is trivial, even at 2 yrs