pruebas aleatorias 1. introducción
TRANSCRIPT
PRUEBAS ALEATORIAS
1. Introducción.
1.1. Bootstrap.
1.2. Jacknife.
1.3. Pruebas Aleatorias.
2. Tipos de Pruebas de Aleatorización.
2.1. Prueba de la Aleatorización en Diseños AB
2.2. Prueba de la Aleatorización en Diseños de Reversión.
2.2.1. Prueba de la Aleatorización en Diseños ABA.
2.2.2. Prueba de la Aleatorización en Diseños ABAB.
2.2.3. Prueba de la Aleatorización en Diseños Multifase de Reversión.
2.3. Prueba de la Aleatorización en Diseños AB con más de una unidad
experimental.
2.4. Prueba de la Aleatorización en Diseños de Línea Base Múltiple.
2.5. Prueba de la Aleatorización en Diseños de Tratamientos Alternos.
3. Ventajas y Limitaciones de las pruebas paramétricas.
3.1. Ventajas.
3.2. Desventajas.
4. Prueba de Rangos.
1. INTRODUCCIÓN.
Una distribución muestral se define como la distribución de un estadístico a lo
largo de todas las muestras de un tamaño dado tomadas de una población específica. Si
la población fuese observable en su totalidad podríamos hacer uso de los recursos
informáticos para generar la distribución del estadístico que requerimos, y se obviarían
muchos procesos necesarios cuando la población no está disponible (Rodgers, 1999).
Existen tres clases de distribuciones muestrales:
→ Distribución Muestral Ideal: Generada directamente desde la población de
valores.
→ Distribución Muestral Teórica: Cuando la población no está disponible
totalmente, se puede generar un modelo de “distribución muestral ideal” usando una
distribución matemática abstracta. Gosset and Fisher usaron este método en la
generación de las distribuciones maestrales de “t” y “F”.
→ Distribución Muestral Empírica: Se realiza tomando una sola muestra y una
rutina o algoritmo para reordenar estos elementos muestrales y obtener la distribución
del estadístico.
Sir Ronald Fisher reconoció la utilidad de la distribución muestral generada
empíricamente, puesto que es una buena aproximación a la que se obtendría realmente
si la población estuviese disponible. Sin embargo, dada sus limitaciones informáticas,
llevó a cabo, sobre todo, distribuciones teóricas para realizar dichas aproximaciones.
Al aumentar la capacidad de procesamiento de los equipos informáticos, se ha
producido un mayor auge en el uso de las distribuciones muestrales empíricas, en
detrimento de los análisis teóricos.
Existen diversas aproximaciones basadas en distribuciones muestrales
empíricas, de las cuales, trataremos : “Bootstrap” , “Jacknife” y “Randomization
Test” ( Prueba de la Aleatorización). Estos tres modelos asumen que la muestra
observada (la cual sirve de marco de referencia para generar la distribución) contiene
toda la información necesaria de la población de origen.
Las muestras generadas a partir de la de referencia pueden tener un tamaño
similar o diferente a ésta; a su vez, los valores pueden ser organizados en subgrupos
con o sin reasignación. Todo esto dependerá del procedimiento que utilicemos.
A continuación, se puede observar en la tabla qué métodos trabajan con
muestras de tamaño igual o inferior al de la muestra observada, y aquellos que trabajan
con reasignación y sin ella.
Tamaño
de la Muestra
Método
de Muestreo
1.1. BOOTSTRAP.
Es el método desarrollado más recientemente, siendo Efron (1979) la referencia
original de este procedimiento. Esta prueba requiere reasignación de valores y utiliza
muestras de tamaño similar al de la observada.
Consiste en lo siguiente: “Una vez considerado el grupo original como una
población de valores se re-muestrea reasignando ( lo que equivale a realizar muestras
sobre una población de infinito tamaño) para crear muestras del mismo tamaño que el
grupo original. Esta distribución de estadísticos a través de las muestras definen una
Tamaño
Menor
Tamaño
Completo
Sin
Reasignación
JACKNIFE
PRUEBAS
ALEATORIAS
Con
Reasignación
BOOTSTRAP
distribución muestral empírica, la cual puede ser utilizada para definir estabilidad e
hipótesis estadísticas.
1.2. JACKNIFE.
En orden cronológico, fue la segunda prueba en aparecer. También es conocida
como “Quenouille-Tukey Jacknife”. Mosteller & Tukey (1977) la describen así:
“Su nombre intenta sugerir la gran utilidad de una técnica como sustituto de otras
herramientas especializadas no disponibles, tal como la fiel herramienta de los Boy
Scout, la cual tiene diversos usos… La idea básica de esta prueba consiste en calcular
el efecto de cada grupo en que los datos han sido divididos, no tomando el resultado de
ese grupo individualmente…. sino tomando el efecto del conjunto de datos que resulta
de omitir dicho grupo.”
En otras palabras, dada una población de valores obtenidas de los datos
observados, se muestrea aleatoriamente de dicha población, sin reasignar, hasta llenar
los diferentes grupos con un número menor de valores que el grupo original. Es decir,
sólo un subgrupo de valores originales son reasignados aleatoriamente a través del
muestreo sin reasignación; el resto son eliminados.
En muchas aplicaciones de esta prueba, una distribución muestral empírica se
genera eliminando un dato puntual, por ejemplo, tomando sólo (n – 1) observaciones de
la de original. De hecho, aquellos subgrupos muestrales que dejan una, dos o incluso un
grupo de observaciones sin tomar y generan distribuciones de esta forma, están basados
en los presupuestos de la prueba Jacknife.
Esta prueba no requiere reasignación de valores y utiliza muestras de tamaño
inferior al de la muestra observada.
1.3. PRUEBAS ALEATORIAS.
Las Pruebas Aleatorias, también conocidas como “Pruebas Realeatorias” o
“Pruebas Permutacionales”, fueron el primer tipo de procedimiento de re-muestreo, y
fueron conceptualizadas en principio por Fisher. Este método utiliza muestras del
mismo tamaño que la original y no necesita de reasignación de valores.
Edgington (1987) las define así: “Las pruebas aleatorias son pruebas
permutacionales basadas en la aleatorización (asignación aleatoria)… Una vez
obtenido el estadístico de los datos experimentales, estos últimos son permutados
(divididos o reordenados) repetidamente según un procedimiento de asignación
aleatoria y, de nuevo, se obtiene el estadístico para cada permutación de datos
obtenidos. Los datos permutados, incluyendo los que representan los resultados
obtenidos, constituyen la referencia para determinar la significación. Aquella
proporción de valores mayores o iguales al valor obtenido en el experimento forman el
p-Value o Valor de probabilidad.”
Éstas son no paramétricas pues no requieren asunciones acerca de poblaciones,
incluso del muestreo aleatorio de una población. Cotton (1967) señaló que esta
propiedad de las pruebas aleatorias las hace las más adecuadas para ser aplicadas en la
investigación comportamental.
Se usan en diseños de sujeto único, ya que son las únicas pruebas válidas en
ausencia de muestreo aleatorio (el cual es infrecuente en “sujeto-único” y “multi-
sujeto”). La selección aleatoria de un sujeto de una población es inapropiada para un
experimento de sujeto único, porque el interés está centrado en ese sujeto en particular y
no en cualquiera que pudiese ser seleccionado de la población. Además, si nos
interesara sacar inferencias de esa población, la selección aleatoria del sujeto desde una
población incumple los supuestos de una prueba paramétrica, ya que las medidas
tomadas de un único sujeto no sirven para estimar la variabilidad intersujetos dentro de
la población. Aparentemente, una alternativa a esto sería seleccionar aleatoriamente la
duración de la sesión de tratamiento desde un gran conjunto de tiempos; sin embargo,
esto no sería llevado a cabo en la mayoría de las investigaciones porque es inviable.
Las pruebas aleatorias han adquirido mayor uso en los experimentos de sujeto único
desde que se ha hecho innecesario el muestreo aleatorio.
El requisito indispensable en esta prueba es la presencia de algún tipo de
aleatorización en el experimento. En los diseños de grupo, se refiere a la asignación
aleatoria de los sujetos a las condiciones experimentales. En los diseños de sujeto único
puede haber diferentes tipos de asignación aleatoria: el orden de aplicación de los
tratamientos a las unidades experimentales, orden de las fases, selección aleatoria de la
sesión o punto de intervención, o bien, alguna combinación de éstas.
La hipótesis nula de las pruebas aleatorias predice que no existen efectos
diferenciales respecto del tratamiento para cada unidad experimental (sujetos, …), y
los valores de las pruebas estadísticas se consiguen por permutación de los datos que se
obtendrían en asignaciones alternativas (bajo la hipótesis nula).
En este tipo de prueba, existen dos clases de procedimiento de aleatorización
para la permutación de los datos:
→ Procedimiento aleatorio: Sucede cuando el número de permutaciones es tan
alto que no se puede trabajar con ellos y entonces se realiza un muestreo de estas
combinaciones.
→ Procedimiento sistemático: Cuando los datos se permutan de forma que se
puede producir una permutación de datos para cada asignación.
El objetivo de estas pruebas es determinar con qué probabilidad el estadístico de
igual tamaño al observado, resultaría de una asignación aleatoria bajo la hipótesis nula;
es decir, en ausencia de efectos del tratamiento.
El proceso de análisis se resume en los siguientes siete pasos:
1. Determinar el procedimiento de asignación aleatoria.
2. Enunciar las hipótesis nula y alternativa.
3. Elección del nivel de significación y del estadístico de contraste adecuado.
4. Recogida de datos y cálculo del valor muestral del estadístico seleccionado.
5. Generación de la distribución del estadístico.
6. Cálculo del nivel de significación asociado al estadístico observado a partir de
la distribución generada.
7. Adopción de la decisión estadística.
2.1. PRUEBA DE LA ALEATORIZACIÓN EN DISEÑOS AB
La aleatorización en este tipo de diseños se centra en la selección al azar del
punto de intervención, existiendo unas observaciones mínimas para la línea base y para
la fase de tratamiento.
Los estadísticos que se pueden utilizar son el estadístico t, pues se trata de
comparar dos series de datos, y el estadístico D propuesto por Edgington.
* D = X A −− XB → Hipótesis de una cola.
* D = XA −− XB → Hipótesis bidireccionales.
Ejemplo.
Supongamos que queremos corregir ciertas conductas disruptivas de un niño de
7 años mediante la aplicación de un determinado tratamiento farmacológico; para ello,
contamos con un total de 20 observaciones, de las cuales corresponderán como mínimo
5 a la línea base, y 7 a la fase de tratamiento. El proceso de análisis sería el siguiente:
1. Procedimiento de aleatorización. Seleccionamos al azar el punto en que será
llevada a cabo la introducción del tratamiento. Ya que existen como mínimo 5
observaciones para la línea base y 7 para la fase de introducción del tratamiento, el
punto de introducción de éste se puede aleatorizar sólo entre la sesión 6 y la 13. Es
decir, habrá 9 sesiones posibles para comenzar la intervención. En nuestro caso será la
número 11.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Sesiones mínimas fase A
Sesiones para seleccionar aleatoriamente el punto de
intervención.
Sesiones mínimas fase de
tratamiento.
Aleatorización del punto de intervención en un diseño AB.
2. Enunciar las hipótesis estadísticas: La hipótesis nula enuncia que no se
observará efecto del tratamiento, mientras que la hipótesis alternativa mantiene que sí
habrá efecto, y que será un aumento de la conducta.
3. Seleccionar el estadístico y la significación. Puesto que esperamos un cambio
de nivel de la fase A a la fase B, el estadístico seleccionado será “D” para hipótesis de
una cola. El nivel de significación será igual a 0.05.
4. Recogida de datos y cálculo del estadístico observado. Siguiendo la
planificación establecida, los datos recogidos son los expuestos en la siguiente tabla.
Sesiones
Fase
A
Sesiones
Fase
B
1 2 11 8
2 4 12 9
3 3 13 7
4 4 14 9
5 5 15 8
6 3 16 7
7 2 17 10
8 4 18 9
9 3 19 8
10 5 20 9
El estadístico observado se calcula restando la media de la fase B (XB ) a la
media de la fase A (XA ). El resultado es el siguiente:
DO = 3.5 −− 8.4 = - 4.9
5. Generar la distribución del estadístico de contraste. Han de realizarse todas
las divisiones posibles de introducción del tratamiento y, una vez hechas, se procede a
calcular la diferencia entre las medias de las fases en cada permutación. En nuestro
caso, los resultados se exponen en la siguiente tabla.
Sesiones
XA
Sesiones
XB
XA −− XB
1 – 5 3.6 6 – 20 6.73 - 3.13
1 – 6 3.5 7 – 20 7 - 3.5
1 – 7 3.28 8 – 20 7.38 - 4.1
1 – 8 3.37 9 – 20 7.67 - 4.3
1 – 9 3.33 10 – 20 8.09 - 4.76
1 – 10 3.5 11 – 20 8.4 - 4.9 *
1 – 11 3.9 12 – 20 8.44 - 4.54
1 – 12 4.33 13 – 20 8.37 - 4.04
1 – 13 4.53 14 – 20 8.57 - 4.04
6. Determinar el valor de probabilidad. Como en nuestro caso la hipótesis
predice que el tratamiento aumentará la conducta, la probabilidad de significación se
calcula dividiendo el número de D menores o iguales a DO (en valor absoluto) entre
el número de bloques posibles para la introducción del tratamiento; lo que resultaría:
111.091
==p
7. Adoptar la decisión estadística. Ya que el valor p es mayor que el α de 0.05
preestablecido, no nos es posible rechazar la hipótesis nula, por lo que podemos
concluir que no existe un aumento de la conducta coincidiendo con la introducción del
tratamiento.
En el ejemplo que acabamos de desarrollar se pone en evidencia el bajo poder de
rechazo de la hipótesis nula que posee esta prueba en el diseño AB, puesto que se
requieren 20 sesiones como mínimo de introducción del tratamiento para alcanzar la
significación estadística con una zona de rechazo formada por un solo valor
( p = 1/ 20= 0.05 ). Así, en nuestro ejemplo, aún siendo el estadístico observado el
mayor de todos, no se puede rechazar la hipótesis nula porque “p” siempre será mayor
que 0.05. Para solucionar este problema podemos, o bien, aumentar el número de
sesiones posibles de comienzo del tratamiento, o bien, incrementar el número de
unidades experimentales.
2.2. PRUEBA DE LA ALEATORIZACIÓN EN DISEÑOS DE REVERSIÓN.
2.2.1. PRUEBA DE ALEATORIZACIÓN EN DISEÑOS ABA.
En este tipo de diseños se sigue un procedimiento similar al empleado en los
diseños AB, con la salvedad de que en este caso se aleatorizan tanto el punto de
introducción del tratamiento como el de la retirada del mismo.
El número total de diferentes posibilidades de introducción y retirada del
tratamiento se puede calcular mediante la fórmula de permutación siguiente:
++−=
k
kknNP
)1(
Así, si realizásemos un total de 25 observaciones (N), con 6 observaciones
mínimas bajo cada fase (n), y, por tanto, existiendo dos puntos de cambio de condición
experimental (k), tendríamos un total de 36 diferentes posibilidades de introducción y
retirada del tratamiento.
++−=
2
2)12(625P =
2
9 =
)!29(!2!9−
= 36.
Estos puntos de cambio de condición experimental se representan mediante los
“pares de observaciones”: (7,13), (7,14), (7,15),…
El análisis de datos en este caso se realiza de igual forma que en el diseño AB,
con la excepción de que en el cálculo del estadístico D, la media XA es la media de las
puntuaciones conjuntas de la línea base (fase A1 ) y de la fase de retirada (fase A2 ).
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Observaciones mínimas
Fase A (n=6).
Selección aleatoria de los pares correspondientes a los
puntos de intervención y retirada dejando 6
observaciones entre ellos.
Observaciones mínimas
de la fase de reversión
(n=6).
Aleatorización de los puntos de intervención y retirada en un diseño ABA.
2.2.2. PRUEBA DE ALEATORIZACIÓN EN DISEÑOS ABAB.
El análisis de datos en este tipo de diseños fue propuesto como extensión de los
procedimientos de los diseños AB y ABA; salvo que en este caso la aleatorización
consiste en la selección al azar de tres puntos de cambio: el de la primera intervención
B1 , el de retirada del tratamiento A2 , y el de reinstauración de la intervención B2 . El
número de divisiones posibles se calcula utilizando la fórmula expuesta en el apartado
anterior.
++−=
k
kknNP
)1(
Para analizar el cambio de medias entre las fases con ausencia de tratamiento
( A1 , A2 ) y con presencia del mismo (B1 , B2 ) podemos hacer uso del estadístico D de
Edgington ( donde XA correspondería a la media conjunta de las fases con ausencia de
tratamiento y XB correspondería a la de las fases con presencia) , o bien, el estadístico
S propuesto por Onghena.
)XX()XX(S BBAA 2121 +−+= La significación del estadístico de contraste se realiza según lo expuesto en el
diseño ABA, a partir de su cálculo para cada una de las combinaciones posibles. A su
vez, la decisión de aceptar o rechazar la hipótesis nula proviene de la comparación
entre el α predeterminado y la probabilidad obtenida.
Levine et al. (1978) propusieron un procedimiento de análisis alternativo dentro
de los diseños ABAB, consistente en predecir un ordenamiento de las diferentes fases
según la puntuación media esperada en ellas. De esta forma, el número de
permutaciones se deriva de los ordenamientos posibles, que serían en los diseños
ABAB, igual a 4!= 24 , alcanzándose una significación igual o menor a la requerida,
con un solo valor:
05.0042.0!4
1≤==p
Ejemplo.
Supongamos un diseño ABAB donde las medias obtenidas en cada fase son,
respectivamente, 30, 10, 25 y 5. El proceso de análisis sería el siguiente:
1. Enunciar la hipótesis estadística. Se ordenan a priori las fases de mayor a
menor, según su media esperada; este orden que se prevé recibe el nombre de “orden
crítico”, y a cada media que lo compone se le adjudica un valor ordinal (a la media
mayor se adjudica un 4, a la siguiente 3, y así sucesivamente ). Hipotetizamos el
siguiente orden:
XXXX BBAA 2121 >>>
A su vez, Levin et al. (1978) proponen que estos pesos asignados a las medias
no han de seguir obligatoriamente una distribución continua (4, 3, 2, 1), sino que
pueden basarse en un patrón más realista según lo esperado (7, 2, 5, 1, …).
2. Seleccionar el estadístico y la significación. El nivel de significación se fija en
0.05; para este tipo de análisis Levine et al. propusieron el estadístico L el cual se
calcula a partir de la suma del producto de las medias por su respectivo valor de rango :
RXL j
i
1jj∑
=
=
3. Recogida de datos y cálculo del estadístico observado. Nuestro LO es el
siguiente:
RXL j
i
1jj∑
=
= = (30x4)+(10x2)+(25x3)+(5x1)=220
4. Valor de la probabilidad y decisión estadística. Una vez generada la
distribución del estadístico L bajo todas las permutaciones posibles, se ha observado que
nuestro LO es el de mayor magnitud, por lo que la probabilidad vendrá determinada
por:
05.0042,0241
<==p
Rechazándo la hipótesis nula, se concluye que las medias de las fases están
ordenadas según el orden crítico hipotetizado.
2.2.3. PRUEBA DE ALEATORIZACIÓN EN DISEÑOS MULTIFASE DE
REVERSIÓN.
Este tipo de diseños constituyen una extensión de los diseños ABAB en el cual
se han introducido un mayor número de fases ( ABABAB, ABABABAB, etc.). La
prueba de aleatorización puede seguirse bien asignando al azar los puntos de
intervención y de retirada del tratamiento, o bien, aleatorizando el orden de las fases A y
B. El número total de órdenes posibles de las fases viene determinado por la siguiente
fórmula:
)!(!!
fFfF
f
FP
aaa −=
=
donde F representa el número total de fases y f a el número de fases A ó B.
Así, dada un diseño de reversión con 6 fases tendríamos
=
3
6P =20 formas de ordenarlas.
El análisis de las diferencias de medias entre las fases con presencia de
tratamiento y con ausencia de éste se puede realizar mediante el estadístico D de
Edgington, el estadístico S de Onghena, o bien, el L de Levin propuesto para los
diseños ABAB. El procedimiento de análisis es igual a los expuestos anteriormente para
los diseños AB y los diseños de reversión (ABA, ABAB).
1 A A A B B B
2 A A B A B B
3 A A B B A B
4 A A B B B A
5 A B A A B B
6 A B A B A B
7 A B A B B A
8 A B B A A B
9 A B B A B A
10 A B B B A A
11 B A A A B B
12 B A A B A B
13 B A A B B A
14 B A B A A B
15 B A B A B A
16 B A B B A A
17 B B A A A B
18 B B A A B A
19 B B A B A A
20 B B B A A A
Formas posibles de planificar un diseño multifase de reversión (diseño ABABAB), aleatorizando el
orden de las fases.
2.3. PRUEBA DE ALEATORIZACIÓN EN DISEÑOS AB CON MÁS DE UNA
UNIDAD EXPERIMENTAL.
Las estrategias de los diseños de caso único también pueden ser seguidas con
más de una unidad experimental, siendo el caso más simple la replicación del diseño
AB. Marascuilo y Busk propusieron una extensión del procedimiento aplicado al diseño
AB, en el cual se aleatorizaba el punto de intervención. Para comenzar se selecciona al
azar la primera sesión de tratamiento para cada sujeto de manera independiente,
calculándose el estadístico D (diferencia de las medias de las puntuaciones del sujeto
entre la fase A y de la fase B, D = X A −− XB ) para cada división posible,
después para analizar los efectos del tratamiento en todos los sujetos conjuntamente se
calcula en todas las combinaciones el estadístico T, a partir de la suma de los
estadísticos D de cada división ( ++= DDT 21 … Di+ ). Las combinaciones se
derivan del producto de divisiones posibles para la introducción de tratamientos en cada
sujeto. Para poder calcular el estadístico T las hipótesis del cambio conductual de todos
los sujetos deben ir en la misma dirección.
El valor de la probabilidad se calcula a partir de la ratio entre el número de
resultados, igual o mayor al estadístico observado en el caso de que la hipótesis verse
sobre un decremento de la conducta y entre el numero de resultados igual o menor que
el estadístico observado si la hipótesis versa sobre un aumento de la conducta, y el
número de permutaciones posibles. Todos estos pasos los veremos mejor a través de
este ejemplo.
Ejemplo.
Como ejemplo supongamos que se registran datos de dos sujetos con un diseño
AB, en el que se espera un decremento de la conducta como consecuencia de la
intervención, se planifican 20 observaciones, se dejan como mínimo 5 para la fase A y
10 para la fase B. el punto de intervención se aleatorizaría entre la sesión 6 y la 10,
existiendo por tanto un total de 5 divisiones para introducir el experimento en cada
unidad experimental. Teniendo en cuenta que son dos unidades tenemos una P=5x5=25
(posibles formas de combinar la introducción de la intervención en las dos unidades).
La inclusión de un sujeto más supone incrementar la potencia de la prueba de manera
notable al aumentar las combinaciones posibles.
A continuación al azar se selecciona la observación 7 para el primer sujeto y la
9 para el segundo.
SUJETO 1
Sesiones 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Fases A A A A A A B B B B B B B B B B B B B B
Datos 9 8 8 7 8 8 2 1 0 0 1 3 2 1 2 0 1 1 2 2
SUJETO 2
Sesiones 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Fases A A A A A A A A B B B B B B B B B B B B
Datos 9 9 8 9 9 8 9 9 3 4 3 2 4 4 5 4 3 4 4 4
Como decíamos en el encabezamiento el siguiente paso consiste en calcular el
estadístico D para cada sujeto.
D1 = 8-1.28 = 6.72
D2 = 8.75-3.6 = 5.15
Siguiendo las indicaciones del encabezamiento pasamos a continuación al
cálculo del estadístico de contraste T:
DDT 21 += = 6.72 + 5.15=11.87
En este tipo de diseño para generar las distribuciones T es necesario previamente
realizar la distribución D para cada sujeto:
Sujeto 1 Sujeto 2
Divisiones X A X B D1 X A X B D2
6-20 8 1.53 6.47 8.8 4.6 4.2
7-20 8 1.28 6.72 8.6 4.43 4.17
8-20 7.14 1.23 5.91 8.71 4.08 4.63
9-20 6.375 1.25 5.125 8.75 3.6 5.15
10-20 5.5 1.36 4.14 8.1 4.1 4
Ahora ya podemos realizar la distribución T a partir de la suma de los estadísticos D de
cada división posible en cada sujeto:
Sujeto 1
Sujeto 2 D1 = 6.47 D1 = 6.72 D1 = 5.91 D1 = 5.125 D1 = 4.14
D2 = 4.2 10.67 10.92 10.11 9.325 8.34
D2 = 4.17 10.64 10.89 10.08 9.295 8.31
D2 = 4.63 11.1 11.35 10.54 9.755 8.77
D2 = 5.15 11.62 11.87 11.006 10.275 9.29
D2 = 4 10.47 10.72 9.91 9.125 8.14
Para calcular la probabilidad en nuestro ejemplo, debido a que la hipótesis
anuncia un decremento de la conducta debemos de realizar la ratio entre el número de
resultados igual o mayor al estadístico observado y el número de permutaciones
posibles. Como el valor observado es el mayor y existen 25 permutaciones posibles:
1/25= 0.04. este valor es menor al α establecido, por lo que se rechaza la hipótesis nula
concluyéndose que ha habido un efecto de la intervención, provocando una disminución
de la conducta.
2.4. PRUEBA DE LA ALEATORIZACIÓN EN DISEÑOS DE LINEA BASE
MÚLTIPLE
Estos diseños implican una serie de diseños AB con diferentes unidades
experimentales (sujetos, conductas o situaciones), donde el tratamiento se implanta de
forma escalonada para cada una de estas unidades. Estos diseños permiten tener una
gran certeza de los efectos de la variable
Para este tipo de diseños Wampold y Worsham proponen aleatorizar el orden en
el cual los sujetos, conductas o situaciones van a ser tratadas. Los autores proponen usar
el estadístico W para el contraste de diferencias entre medias. Este es el resultado del
sumatorio de las diferencias entre las medias de la fase A y de la fase B a través de los
sujetos, conductas o situaciones:
)(1
∑=
−=k
iXX BA ii
W
Expliquemos por partes: primero se identifican varios sujetos (por lo general 3,
S1, S2 y S3) que presentan la misma conducta (Línea base múltiple a través de sujetos),
o se identifica una conducta la cual es presentada por un mismo sujeto en varias
situaciones (Línea base múltiple a través de situaciones), o se identifica a un sujeto que
presenta varias conductas las cuales se requieren modificar (línea base múltiple a través
de conductas); segundo se toma de manera simultánea la línea base, ya sea por las
conductas que muestra un mismo sujeto, de la conducta que es mostrada por diferente
sujetos, o la conducta de un sujeto en ambientes diferentes; y tercero se establece la
secuencia de aplicación de la intervención. Es importante señalar que la intervención no
se aplica de manera simultánea sino de forma secuencial.
Como podemos observar podríamos contar con una serie de línea base (línea
base múltiple) que combinan situaciones, conductas y sujetos. El registro consiste en no
aplicar la intervención de manera simultánea en las conductas, situaciones o sujetos.
Implica tomar las líneas base, posteriormente aplica la intervención de manera sucesiva
a una sola conducta, sujeto o situación, según sea el caso, mientras las otras situaciones,
conductas o sujeto continúan en línea base. Una vez concluida la primera intervención
se continúa con la siguiente hasta concluir con todas las intervenciones necesarias.
A continuación se describe cada tipo de diseño de línea base múltiple.
→→ Línea base múltiple a través de conductas. El investigador evalúa dos o más
conductas o respuesta en un solo individuo o grupo. Una vez alcanzado un nivel estable
en la línea base, se introduce la intervención sobre una de las conductas y
posteriormente de manera sucesiva en las otras. Se espera que la intervención sólo
modifique la conducta en donde está siendo aplicada la intervención, lo cual refuerza la
relación que existe entre variable dependiente e independiente. En el caso de
modificarse una de las conductas observadas o no intervenidas se puede hablar de
conductas dependientes o covariación.
Ejemplo: Para ejemplificar este diseño citaremos el trabajo de Liberman y Smith
(1972) en donde trataron de evaluar los efectos de la desensibilización sistemática sobre
conductas específicas. En este estudio se empleó el diseño de línea base múltiple a
través de conductas, el sujeto fue un paciente afeminado de 28 años de edad. Cuatro
fueron las conductas que trataron de modificarse: aislamiento, masturbación, masticar y
lavarse los dientes. Una vez que se determinaron dichas conductas se tomó una línea
base de cada uno de los comportamientos mencionados, midiéndose a través de
autoreporte. Después de cuatro semanas de línea base la primera conducta fue tratada
con desensibilización sistemática en vivo, mientras que el resto de las conductas
permanecieron en observación (línea base). A la sexta semana se aplicó tratamiento a la
conducta de masturbación con desensibilización imaginaria, las conductas de masticar y
lavarse los dientes permanecieron en línea base. Finalmente a la séptima y octava
semana de haber iniciado el estudio fueron tratadas las conductas restantes. Los
resultados demostraron que la aplicación secuencial del tratamiento afecto a la conducta
particular que era intervenida. Como no se observó generalización del tratamiento de
una conducta a otra se puede decir que estas conductas eran independientes entre sí. Los
autores concluyen que es necesario llevar a cabo nuevas investigaciones donde se
realice una evaluación directa de las conductas.
→→ Línea base múltiple a través de situaciones. Puede emplearse para cambiar algunas
conductas manejando situaciones o periodos de tiempo en un sujeto o grupo. El
procedimiento es el mismo que en el caso anterior: se definen las situaciones en donde
ocurren las conductas de interés y se observa. Se introduce la intervención en solo una
de las situaciones mientras la conducta de interés en las otras situaciones permanecen en
línea base.
Ejemplo: Allen en 1973 realizó una investigación que ejemplifica de una forma clara
este tipo de diseño. El estudio estuvo dirigido a un niño de 8 años de edad que tenía el
diagnóstico de daño cerebral mínimo. El objetivo fue reducir de una forma sistemática
la alta frecuencia de verbalizaciones bizarras en cuatro ambientes de actividades
(andadores, comedor, cabina y salón de clase). Durante los primeros seis días se obtuvo
una línea base, pidiéndoles a los encargados que registraran las verbalizaciones del niño
en cada uno de los ambientes sin intervenir o cambiar su propio comportamiento. En el
séptimo día se les pidió ignorar (extinción) las verbalizaciones bizarras del niño pero
sólo en el primer ambiente (andadores), así mismo deberían continuar registrando las
verbalizaciones en las otras situaciones. Posteriormente se fue introduciendo el
tratamiento de forma secuencial al comedor, cabina y salón de clases, continuando con
el registro de las verbalizaciones bizarras. Los resultados demostraron que la aplicación
progresiva del tratamiento produjo una reducción de las conductas indeseables,
alcanzando en éstas puntuaciones cercanas a cero. Los autores concluyeron que la
técnica de extinción es efectiva para eliminar conductas problema. También señalan lo
fácil que es entrenar al personal en el manejo de estas técnicas.
→→ Línea base múltiple a través de sujetos. El investigador recoge datos de los sujetos
hasta que los datos de la línea base sean estables. El tratamiento entonces empieza para
uno de los participantes, continuando los demás participantes en la línea base. Esta
situación continúa hasta que se vuelven a estabilizar las conductas esperando un cambio
en el sujeto tratado y ninguno en los restantes. En este momento el tratamiento es
introducido en un segundo participante siguiendo el proceso hasta el último
participante.
Ejemplo: Describiremos en este caso el estudio realizado por Charlop (1983). Los
sujetos que participaron en el estudio fueron tres niños autistas ecolálicos. Durante la
fase de línea base todos los sujetos fueron evaluados a través de una tarea que consistió
en presentarles pares de objetos ante los cuales el experimentador decía el nombre de
uno de ellos y el niño debía poner en la mano del experimentador el objeto mencionado,
no hubo ninguna consecuencia a la respuesta de los niños. Después de 8 sesiones de 20
bloques de ensayos cada una, el sujeto 1 fue sometido a una fase de entrenamiento
denominada ensayo y error, mientras que los sujetos restantes permanecieron en línea
base. Durante dicho entrenamiento los objetos eran puestos enfrente del niño, cuando el
niño estaba sentado y mostraba atención el experimentador estiraba su mano y entonces
decía el nombre del objeto, el niño debía poner en la mano del experimentador el objeto
nombrado. Si la respuesta era correcta el experimentador le entregaba comida, si la
respuesta era incorrecta, el investigador decía "no" e inmediatamente retiraba ambos
objetos. Y daba de nuevo la instrucción con objetos diferentes, este entrenamiento se
surgió hasta que el niño alcanzó 90% de respuestas correctas durante 20 ensayos
consecutivos. Posteriormente, el sujeto 2 inició dicho tratamiento y el sujeto 3
permaneció en línea base, cuando el sujeto 2 terminó su entrenamiento el sujeto 3 lo
inicio. Es importante señalar que los 3 sujetos terminaron con una fase de revisión. Los
resultados demostraron que el entrenamiento facilitó el desarrollo de conducta verbal
funcional, dado que se disminuyo la conducta ecolálica de los sujetos.
Aquí os hemos mostrado una serie de experimentos de cada una de las unidades
experimentales posibles con objeto de que se logre un mayor entendimiento de cada uno
de ellos. A continuación mostramos como se realiza el cálculo para saber si aceptamos
la hipótesis nula a través de la W.
Ejemplo.
Supongamos un diseño de linea base múltiple entre sujetos con tres unidades
experimentales, en el que se planifica que los comienzos de la intervención serán las
sesiones 4, 7, 10 y se predice una disminución de la conducta tras la intervención. El
procedimiento de aleatorización consiste en adjudicar al azar un comienzo de sesión
para cada sujeto, en nuestro caso será:
Sujeto 1
Sesión 1 2 3 4 5 6 7 8 9 10 11 12 13
Fase A A A B B B B B B B B B B
Datos 10 9 9 3 4 3 2 2 4 2 1 3 3
Sujeto 2
Fase A A A A A A B B B B B B B
Datos 11 12 11 10 13 12 4 4 6 4 6 5 4
Sujeto 3
Fase A A A A A A A A A A B B B
Datos 14 13 12 12 10 9 15 12 12 13 1 1 1
La W de nuestra observación sería igual a :
)(1
∑=
−=k
iXX BA ii
W = (18.6 - 2.7) + (11.5 - 4.71) + (12.2 - 1) = 33.9
Como en los casos anteriores, tenemos que calcular a continuación la generación
del estadístico, pero en esta ocasión se calculan las diferencias de medias entre las fases
A y B para cada sujeto en el supuesto de que la intervención hubiese sido introducida en
primer, según o tercer lugar para calcular posteriormente el estadístico W. En nuestro
caso esto sería:
Orden sujetos XX BA 11− XX BA 22
− XX BA 33− W
1-2-3 15.9 6.79 11.2 33.9
1-3-2 15.9 3.7 3.74 23.34
2-1-3 3.9 4.5 11.2 19.6
2-3-1 4.5 4.5 3.74 12.74
3-2-1 4.5 6.79 4.4 15.69
3-1-2 3.9 3.7 4.4 12
Vemos como el valor del estadístico observado es el mayor de la distribución, el
valor p es igual a 1/6=0.1666, en este caso la razón por la que no se rechaza la
hipótesis nula es porque la muestra es muy pequeña, con un sujeto, situación o conducta
más ésta hubiera sido significativa.
→→ Ventajas :
a) Promueve la medición simultánea de varios objetivos concurrente.
b) No se presentan problemas éticos.
c) Promueve mediciones concurrentes implica una aproximación a situaciones naturales.
d) Permite alcanzar la covariación conductual, sobre todo en el caso de diferentes
conductas y situaciones observadas en un individuo pues en ocasiones, al modificarse
una por efecto de la intervención se modifica otra.
e) Puede aplicarse este diseño cuando por cualquier razón no debe aplicarse una
reversión.
→→ Desventajas:
Es más débil que los diseños de retirada.
La principal desventaja de este diseño como comprobamos en nuestro ejemplo
es que necesita como mínimo cuatro unidades experimentales para poder alcanzar un
nivel de significación del 0.05, y en el caso de cuatro unidades el valor de W para el
orden real debería ser el mayor (o menor según la dirección de la hipótesis alternativa)
encontrado en la distribución del estadístico para alcanzar este nivel de significación,
con lo que la potencia del procedimiento es limitada para cuatro líneas base. Con todo
esto como señalan Marascuilo y Busk, con este método si se rechaza la hipótesis nula el
investigador tendrá garantías de que toma la decisión correcta pero no será así si ésta es
aceptada.
Para solucionar este problema estos autores sugieren que se amplie el método
enunciado por Edgington para los diseños AB, en el cual se aleatoriza el punto de
intervención, junto con el del diseño AB con más de una unidad experimental. Así se
selecciona el punto de intervención para cada sujeto indenpendientemente y se calcula
el estadístico D para cada permutación, a continuación se calcula la distribución del
estadístico de contraste conjuntamente para todos los sujetos que sería:
DDT 21 += … Dn+ .
Koehler y Levin han sugerido que el método de Marasculio y Busk no tiene una
planificación en la secuencia de asignación del tratamiento a las unidades
experimentales. Sin esto, el punto de intervención puede coincidir en el tiempo o estar
muy próximo entre dos unidades experimentales poniendo en duda la validez interna del
diseño. Su modelo sigue los siguientes pasos:
1. planificar el número de datos mínimo para cada fase y en cada una de las
unidades experimentales.
2. seleccionar aleatoriamente un orden de tratamiento para cada unidad
experimental.
3. seleccionar aleatoriamente un punto de intervención del intervalo temporal
preestablecido para cada orden posible.
De esta forman aumentan el número de divisiones posibles al ser el producto del
número de unidades experimentales por el número de puntos para introducir el
tratamiento asociado con cada orden posible.
2.5. PRUEBA DE ALEATORIZACIÓN EN DISEÑOS DE TRATAMIENTOS
ALTERNOS.
En estos diseños, donde diferentes intervenciones son alternadas en sucesivas
sesiones, el sistema de aleatorización consiste en adjudicar al azar estas intervenciones a
las sesiones. Este tipo de diseño no requiere de línea base.
Los estadísticos pertinentes para el cambio de medida son los estadísticos D de
Edgington y S de Onghena .
A veces, es necesario imponer restricciones al sistema de aleatorización, por
ejemplo, la aleatorización puede asegurar que los tratamientos se repartan de forma
homogénea en diferentes periodos del día.
A su vez, Edgington plantea el uso del estadístico t para muestras relacionadas,
considerando las sesiones como si fueran sujetos distintos.
Otras limitaciones pueden ser: “Limitar el número de veces que un tratamiento
puede ser administrado consecutivamente; limitar el número de veces que los
tratamientos se administran en la primera y segunda mitad del número total de sesiones;
imponer restricciones para asegurar la simetría de aplicación de los tratamientos dentro
de cada mitad de sesiones.”
→→ Ventajas
a) No requiere de fase de retirada
b) Proporciona datos útiles con mayor rapidez que un diseño de retirada
c) Es relativamente insensible a las tendencias ascendentes de las conductas, ya que
compara el resultado de dos tratamientos en el contexto de cualquier tendencia
antecedente
d) No se requiere formalmente ninguna línea base
e) Al no importar la tendencia, puede analizarse mediante inspección gráfica
→→ Desventajas:
a) Es menos generalizable que otros diseños.
3. VENTAJAS Y LIMITACIONES DE LAS PRUEBAS PARAMETRICAS.
3.1. VENTAJAS:
a) Flexibilidad en cuanto al tipo de asignación aleatoria posible y en cuanto a los
estadísticos pertinentes para cada secuencia de datos
b) No solo se puede contrastar los cambios de nivel sino también los cambios de
tendencias entre fases.
c) No se ve afectada por la dependencia serial de los errores, ya que la inferencia
estadística se realiza a través de los datos muestrales.
d) El estadístico no esta afectado por la violación de la normalidad de los datos ni por
los valores extremos. En caso de diseños con muchos datos extremos se ha propuesto la
utilización de la mediana en lugar de la media.
e) Efecto durante el tratamiento
f) Efectos específicos de la V.I.
g) Aísla componentes de un tratamiento
h) Elimina algunos problemas éticos
i) Disminuye el costo de los estudios clínicos
3.2. DESVENTAJAS:
a) Requieren gran cantidad de datos
b) Necesidad de repetición de los estudios para la generalización.
c) Las diferentes permutaciones pueden ser extremadamente numerosas dificultando el
análisis
d) Requieren planificar de antemano el número de observaciones o en su caso la
longitud de cada fase.
e) La aleatorización aumenta la validez interna aunque desde un punto de vista clínico a
veces no es factible puesto que la introducción del tratamiento puede depender de la
conducta del sujeto y de su patrón de cambio.
f) Cuando se obtiene una significación estadística esta no proporciona una clave
necesaria para entender el cambio de conducta.
4. PRUEBA DE RANGOS
Se ha propuesto una prueba de rangos para evaluar los datos obtenidos en
diseños de línea base múltiple. La prueba exige que los datos sean recogidos a lo largo
de varias líneas base (sujetos, situaciones…). El resultado estadísticamente fiable de una
intervención esta determinado por la evaluación de la ejecución de cada una de las
líneas base en el punto en el que se introduce la intervención. Tomamos a cada
individuo como un subexperimento, cuando a uno cualquiera se le introduce el
tratamiento se tiene en cuenta los comportamientos de todos los sujetos en ese momento
La suma de los rangos de todos los subexperimentos en el momento en el que se
introduce el tratamiento constituye el estadístico R.
Una característica esencial de esta prueba es que la intervención se aplica a
diferentes líneas base en un orden aleatorio, debido a esto la combinación de rangos en
el punto de la intervención para todos los sujetos será distribuida al azar si la
intervención no tiene efectos, pero si la conducta del sujeto que recibe la intervención
cambia al comienzo de esta, al ser comparada con los sujetos que aun no han recibido la
intervención, esto debe reflejarse en los rangos. Esto sugiere que los rangos no son el
resultado de factores aleatorios. Se requiere varias líneas base para evaluar si el cambio
en el punto del tratamiento es fiable o no. Con un nivel de confianza del 0.05 para que
los resultados sean estadísticamente significativos son como mínimo necesarias cuatro
líneas base.
En algunos casos es probable que los resultados de la intervención no fueran
evidentes el mismo día en que la intervención es aplicada pudiendo incluso empeorar
las ejecuciones antes de mejorar.
Bibliografía.
→ Arnau, J. (2001). Diseños de Series Temporales: técnicas de análisis. Barcelona:
Edicions Universitat de Barcelona. 371-397.
→ Barlow, D.H. y Hersen, M. (1988). Diseños experimentales de caso único.
Barcelona: Martínez Roca ( Or. 1984 ).
→ Byrne, M.D. A Better Tool for the Cognitive Scientist’s Toolbox:
Randomization Statistics. School of Psychology. Georgia Institute of
Technology.
→ Kratochwill, T.R. y Levin, J.R.(1992). Single-Case Research Design and Analysis.
New Directions for Psychology and Education. Hillsdale, N.J.: L.E.A. 133-158.
→ Lunneborg, C. E. Randomized Treatment Sequence Designs: The
Randomization Test as a Nonparametric Replacement for anova and manova.
University of Washington.
→ Rodgers, J. L. (1999). The Bootstrap, the Jacknife, and the Randomization Test: A
Sampling Taxonomy. Multivariate Behavioral Research, 34 (4), 441-456.
http://europa.eu.int/comm/eurostat/research/index.htm?http://europa.eu.int/en/comm/eurostat/research/isi/alpha/es/es80.htm&1
http://www.fil.ion.ucl.ac.uk/spm/snpm/SnPMpaper.pdf