pruebas aleatorias 1. introducción

PRUEBAS ALEATORIAS

1. Introducción.

1.1. Bootstrap.

1.2. Jacknife.

1.3. Pruebas Aleatorias.

2. Tipos de Pruebas de Aleatorización.

2.1. Prueba de la Aleatorización en Diseños AB

2.2. Prueba de la Aleatorización en Diseños de Reversión.

2.2.1. Prueba de la Aleatorización en Diseños ABA.

2.2.2. Prueba de la Aleatorización en Diseños ABAB.

2.2.3. Prueba de la Aleatorización en Diseños Multifase de Reversión.

2.3. Prueba de la Aleatorización en Diseños AB con más de una unidad

experimental.

2.4. Prueba de la Aleatorización en Diseños de Línea Base Múltiple.

2.5. Prueba de la Aleatorización en Diseños de Tratamientos Alternos.

3. Ventajas y Limitaciones de las pruebas paramétricas.

3.1. Ventajas.

3.2. Desventajas.

4. Prueba de Rangos.

1. INTRODUCCIÓN.

Una distribución muestral se define como la distribución de un estadístico a lo

largo de todas las muestras de un tamaño dado tomadas de una población específica. Si

la población fuese observable en su totalidad podríamos hacer uso de los recursos

informáticos para generar la distribución del estadístico que requerimos, y se obviarían

muchos procesos necesarios cuando la población no está disponible (Rodgers, 1999).

Existen tres clases de distribuciones muestrales:

→ Distribución Muestral Ideal: Generada directamente desde la población de

valores.

→ Distribución Muestral Teórica: Cuando la población no está disponible

totalmente, se puede generar un modelo de “distribución muestral ideal” usando una

distribución matemática abstracta. Gosset and Fisher usaron este método en la

generación de las distribuciones maestrales de “t” y “F”.

→ Distribución Muestral Empírica: Se realiza tomando una sola muestra y una

rutina o algoritmo para reordenar estos elementos muestrales y obtener la distribución

del estadístico.

Sir Ronald Fisher reconoció la utilidad de la distribución muestral generada

empíricamente, puesto que es una buena aproximación a la que se obtendría realmente

si la población estuviese disponible. Sin embargo, dada sus limitaciones informáticas,

llevó a cabo, sobre todo, distribuciones teóricas para realizar dichas aproximaciones.

Al aumentar la capacidad de procesamiento de los equipos informáticos, se ha

producido un mayor auge en el uso de las distribuciones muestrales empíricas, en

detrimento de los análisis teóricos.

Existen diversas aproximaciones basadas en distribuciones muestrales

empíricas, de las cuales, trataremos : “Bootstrap” , “Jacknife” y “Randomization

Test” ( Prueba de la Aleatorización). Estos tres modelos asumen que la muestra

observada (la cual sirve de marco de referencia para generar la distribución) contiene

toda la información necesaria de la población de origen.

Las muestras generadas a partir de la de referencia pueden tener un tamaño

similar o diferente a ésta; a su vez, los valores pueden ser organizados en subgrupos

con o sin reasignación. Todo esto dependerá del procedimiento que utilicemos.

A continuación, se puede observar en la tabla qué métodos trabajan con

muestras de tamaño igual o inferior al de la muestra observada, y aquellos que trabajan

con reasignación y sin ella.

Tamaño

de la Muestra

Método

de Muestreo

1.1. BOOTSTRAP.

Es el método desarrollado más recientemente, siendo Efron (1979) la referencia

original de este procedimiento. Esta prueba requiere reasignación de valores y utiliza

muestras de tamaño similar al de la observada.

Consiste en lo siguiente: “Una vez considerado el grupo original como una

población de valores se re-muestrea reasignando ( lo que equivale a realizar muestras

sobre una población de infinito tamaño) para crear muestras del mismo tamaño que el

grupo original. Esta distribución de estadísticos a través de las muestras definen una

Tamaño

Menor

Tamaño

Completo

Sin

Reasignación

JACKNIFE

PRUEBAS

ALEATORIAS

Con

Reasignación

BOOTSTRAP

distribución muestral empírica, la cual puede ser utilizada para definir estabilidad e

hipótesis estadísticas.

1.2. JACKNIFE.

En orden cronológico, fue la segunda prueba en aparecer. También es conocida

como “Quenouille-Tukey Jacknife”. Mosteller & Tukey (1977) la describen así:

“Su nombre intenta sugerir la gran utilidad de una técnica como sustituto de otras

herramientas especializadas no disponibles, tal como la fiel herramienta de los Boy

Scout, la cual tiene diversos usos… La idea básica de esta prueba consiste en calcular

el efecto de cada grupo en que los datos han sido divididos, no tomando el resultado de

ese grupo individualmente…. sino tomando el efecto del conjunto de datos que resulta

de omitir dicho grupo.”

En otras palabras, dada una población de valores obtenidas de los datos

observados, se muestrea aleatoriamente de dicha población, sin reasignar, hasta llenar

los diferentes grupos con un número menor de valores que el grupo original. Es decir,

sólo un subgrupo de valores originales son reasignados aleatoriamente a través del

muestreo sin reasignación; el resto son eliminados.

En muchas aplicaciones de esta prueba, una distribución muestral empírica se

genera eliminando un dato puntual, por ejemplo, tomando sólo (n – 1) observaciones de

la de original. De hecho, aquellos subgrupos muestrales que dejan una, dos o incluso un

grupo de observaciones sin tomar y generan distribuciones de esta forma, están basados

en los presupuestos de la prueba Jacknife.

Esta prueba no requiere reasignación de valores y utiliza muestras de tamaño

inferior al de la muestra observada.

1.3. PRUEBAS ALEATORIAS.

Las Pruebas Aleatorias, también conocidas como “Pruebas Realeatorias” o

“Pruebas Permutacionales”, fueron el primer tipo de procedimiento de re-muestreo, y

fueron conceptualizadas en principio por Fisher. Este método utiliza muestras del

mismo tamaño que la original y no necesita de reasignación de valores.

Edgington (1987) las define así: “Las pruebas aleatorias son pruebas

permutacionales basadas en la aleatorización (asignación aleatoria)… Una vez

obtenido el estadístico de los datos experimentales, estos últimos son permutados

(divididos o reordenados) repetidamente según un procedimiento de asignación

aleatoria y, de nuevo, se obtiene el estadístico para cada permutación de datos

obtenidos. Los datos permutados, incluyendo los que representan los resultados

obtenidos, constituyen la referencia para determinar la significación. Aquella

proporción de valores mayores o iguales al valor obtenido en el experimento forman el

p-Value o Valor de probabilidad.”

Éstas son no paramétricas pues no requieren asunciones acerca de poblaciones,

incluso del muestreo aleatorio de una población. Cotton (1967) señaló que esta

propiedad de las pruebas aleatorias las hace las más adecuadas para ser aplicadas en la

investigación comportamental.

Se usan en diseños de sujeto único, ya que son las únicas pruebas válidas en

ausencia de muestreo aleatorio (el cual es infrecuente en “sujeto-único” y “multi-

sujeto”). La selección aleatoria de un sujeto de una población es inapropiada para un

experimento de sujeto único, porque el interés está centrado en ese sujeto en particular y

no en cualquiera que pudiese ser seleccionado de la población. Además, si nos

interesara sacar inferencias de esa población, la selección aleatoria del sujeto desde una

población incumple los supuestos de una prueba paramétrica, ya que las medidas

tomadas de un único sujeto no sirven para estimar la variabilidad intersujetos dentro de

la población. Aparentemente, una alternativa a esto sería seleccionar aleatoriamente la

duración de la sesión de tratamiento desde un gran conjunto de tiempos; sin embargo,

esto no sería llevado a cabo en la mayoría de las investigaciones porque es inviable.

Las pruebas aleatorias han adquirido mayor uso en los experimentos de sujeto único

desde que se ha hecho innecesario el muestreo aleatorio.

El requisito indispensable en esta prueba es la presencia de algún tipo de

aleatorización en el experimento. En los diseños de grupo, se refiere a la asignación

aleatoria de los sujetos a las condiciones experimentales. En los diseños de sujeto único

puede haber diferentes tipos de asignación aleatoria: el orden de aplicación de los

tratamientos a las unidades experimentales, orden de las fases, selección aleatoria de la

sesión o punto de intervención, o bien, alguna combinación de éstas.

La hipótesis nula de las pruebas aleatorias predice que no existen efectos

diferenciales respecto del tratamiento para cada unidad experimental (sujetos, …), y

los valores de las pruebas estadísticas se consiguen por permutación de los datos que se

obtendrían en asignaciones alternativas (bajo la hipótesis nula).

En este tipo de prueba, existen dos clases de procedimiento de aleatorización

para la permutación de los datos:

→ Procedimiento aleatorio: Sucede cuando el número de permutaciones es tan

alto que no se puede trabajar con ellos y entonces se realiza un muestreo de estas

combinaciones.

→ Procedimiento sistemático: Cuando los datos se permutan de forma que se

puede producir una permutación de datos para cada asignación.

El objetivo de estas pruebas es determinar con qué probabilidad el estadístico de

igual tamaño al observado, resultaría de una asignación aleatoria bajo la hipótesis nula;

es decir, en ausencia de efectos del tratamiento.

El proceso de análisis se resume en los siguientes siete pasos:

1. Determinar el procedimiento de asignación aleatoria.

2. Enunciar las hipótesis nula y alternativa.

3. Elección del nivel de significación y del estadístico de contraste adecuado.

4. Recogida de datos y cálculo del valor muestral del estadístico seleccionado.

5. Generación de la distribución del estadístico.

6. Cálculo del nivel de significación asociado al estadístico observado a partir de

la distribución generada.

7. Adopción de la decisión estadística.

2.1. PRUEBA DE LA ALEATORIZACIÓN EN DISEÑOS AB

La aleatorización en este tipo de diseños se centra en la selección al azar del

punto de intervención, existiendo unas observaciones mínimas para la línea base y para

la fase de tratamiento.

Los estadísticos que se pueden utilizar son el estadístico t, pues se trata de

comparar dos series de datos, y el estadístico D propuesto por Edgington.

* D = X A −− XB → Hipótesis de una cola.

* D = XA −− XB → Hipótesis bidireccionales.

Ejemplo.

Supongamos que queremos corregir ciertas conductas disruptivas de un niño de

7 años mediante la aplicación de un determinado tratamiento farmacológico; para ello,

contamos con un total de 20 observaciones, de las cuales corresponderán como mínimo

5 a la línea base, y 7 a la fase de tratamiento. El proceso de análisis sería el siguiente:

1. Procedimiento de aleatorización. Seleccionamos al azar el punto en que será

llevada a cabo la introducción del tratamiento. Ya que existen como mínimo 5

observaciones para la línea base y 7 para la fase de introducción del tratamiento, el

punto de introducción de éste se puede aleatorizar sólo entre la sesión 6 y la 13. Es

decir, habrá 9 sesiones posibles para comenzar la intervención. En nuestro caso será la

número 11.

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

Sesiones mínimas fase A

Sesiones para seleccionar aleatoriamente el punto de

intervención.

Sesiones mínimas fase de

tratamiento.

Aleatorización del punto de intervención en un diseño AB.

2. Enunciar las hipótesis estadísticas: La hipótesis nula enuncia que no se

observará efecto del tratamiento, mientras que la hipótesis alternativa mantiene que sí

habrá efecto, y que será un aumento de la conducta.

3. Seleccionar el estadístico y la significación. Puesto que esperamos un cambio

de nivel de la fase A a la fase B, el estadístico seleccionado será “D” para hipótesis de

una cola. El nivel de significación será igual a 0.05.

4. Recogida de datos y cálculo del estadístico observado. Siguiendo la

planificación establecida, los datos recogidos son los expuestos en la siguiente tabla.

Sesiones

Fase

A

Sesiones

Fase

B

1 2 11 8

2 4 12 9

3 3 13 7

4 4 14 9

5 5 15 8

6 3 16 7

7 2 17 10

8 4 18 9

9 3 19 8

10 5 20 9

El estadístico observado se calcula restando la media de la fase B (XB ) a la

media de la fase A (XA ). El resultado es el siguiente:

DO = 3.5 −− 8.4 = - 4.9

5. Generar la distribución del estadístico de contraste. Han de realizarse todas

las divisiones posibles de introducción del tratamiento y, una vez hechas, se procede a

calcular la diferencia entre las medias de las fases en cada permutación. En nuestro

caso, los resultados se exponen en la siguiente tabla.

Sesiones

XA

Sesiones

XB

XA −− XB

1 – 5 3.6 6 – 20 6.73 - 3.13

1 – 6 3.5 7 – 20 7 - 3.5

1 – 7 3.28 8 – 20 7.38 - 4.1

1 – 8 3.37 9 – 20 7.67 - 4.3

1 – 9 3.33 10 – 20 8.09 - 4.76

1 – 10 3.5 11 – 20 8.4 - 4.9 *

1 – 11 3.9 12 – 20 8.44 - 4.54

1 – 12 4.33 13 – 20 8.37 - 4.04

1 – 13 4.53 14 – 20 8.57 - 4.04

6. Determinar el valor de probabilidad. Como en nuestro caso la hipótesis

predice que el tratamiento aumentará la conducta, la probabilidad de significación se

calcula dividiendo el número de D menores o iguales a DO (en valor absoluto) entre

el número de bloques posibles para la introducción del tratamiento; lo que resultaría:

111.091

==p

7. Adoptar la decisión estadística. Ya que el valor p es mayor que el α de 0.05

preestablecido, no nos es posible rechazar la hipótesis nula, por lo que podemos

concluir que no existe un aumento de la conducta coincidiendo con la introducción del

tratamiento.

En el ejemplo que acabamos de desarrollar se pone en evidencia el bajo poder de

rechazo de la hipótesis nula que posee esta prueba en el diseño AB, puesto que se

requieren 20 sesiones como mínimo de introducción del tratamiento para alcanzar la

significación estadística con una zona de rechazo formada por un solo valor

( p = 1/ 20= 0.05 ). Así, en nuestro ejemplo, aún siendo el estadístico observado el

mayor de todos, no se puede rechazar la hipótesis nula porque “p” siempre será mayor

que 0.05. Para solucionar este problema podemos, o bien, aumentar el número de

sesiones posibles de comienzo del tratamiento, o bien, incrementar el número de

unidades experimentales.

2.2. PRUEBA DE LA ALEATORIZACIÓN EN DISEÑOS DE REVERSIÓN.

2.2.1. PRUEBA DE ALEATORIZACIÓN EN DISEÑOS ABA.

En este tipo de diseños se sigue un procedimiento similar al empleado en los

diseños AB, con la salvedad de que en este caso se aleatorizan tanto el punto de

introducción del tratamiento como el de la retirada del mismo.

El número total de diferentes posibilidades de introducción y retirada del

tratamiento se puede calcular mediante la fórmula de permutación siguiente:

++−=

k

kknNP

)1(

Así, si realizásemos un total de 25 observaciones (N), con 6 observaciones

mínimas bajo cada fase (n), y, por tanto, existiendo dos puntos de cambio de condición

experimental (k), tendríamos un total de 36 diferentes posibilidades de introducción y

retirada del tratamiento.

++−=

2

2)12(625P =

2

9 =

)!29(!2!9−

= 36.

Estos puntos de cambio de condición experimental se representan mediante los

“pares de observaciones”: (7,13), (7,14), (7,15),…

El análisis de datos en este caso se realiza de igual forma que en el diseño AB,

con la excepción de que en el cálculo del estadístico D, la media XA es la media de las

puntuaciones conjuntas de la línea base (fase A1 ) y de la fase de retirada (fase A2 ).

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

Observaciones mínimas

Fase A (n=6).

Selección aleatoria de los pares correspondientes a los

puntos de intervención y retirada dejando 6

observaciones entre ellos.

Observaciones mínimas

de la fase de reversión

(n=6).

Aleatorización de los puntos de intervención y retirada en un diseño ABA.

2.2.2. PRUEBA DE ALEATORIZACIÓN EN DISEÑOS ABAB.

El análisis de datos en este tipo de diseños fue propuesto como extensión de los

procedimientos de los diseños AB y ABA; salvo que en este caso la aleatorización

consiste en la selección al azar de tres puntos de cambio: el de la primera intervención

B1 , el de retirada del tratamiento A2 , y el de reinstauración de la intervención B2 . El

número de divisiones posibles se calcula utilizando la fórmula expuesta en el apartado

anterior.

++−=

k

kknNP

)1(

Para analizar el cambio de medias entre las fases con ausencia de tratamiento

( A1 , A2 ) y con presencia del mismo (B1 , B2 ) podemos hacer uso del estadístico D de

Edgington ( donde XA correspondería a la media conjunta de las fases con ausencia de

tratamiento y XB correspondería a la de las fases con presencia) , o bien, el estadístico

S propuesto por Onghena.

)XX()XX(S BBAA 2121 +−+= La significación del estadístico de contraste se realiza según lo expuesto en el

diseño ABA, a partir de su cálculo para cada una de las combinaciones posibles. A su

vez, la decisión de aceptar o rechazar la hipótesis nula proviene de la comparación

entre el α predeterminado y la probabilidad obtenida.

Levine et al. (1978) propusieron un procedimiento de análisis alternativo dentro

de los diseños ABAB, consistente en predecir un ordenamiento de las diferentes fases

según la puntuación media esperada en ellas. De esta forma, el número de

permutaciones se deriva de los ordenamientos posibles, que serían en los diseños

ABAB, igual a 4!= 24 , alcanzándose una significación igual o menor a la requerida,

con un solo valor:

05.0042.0!4

1≤==p

Ejemplo.

Supongamos un diseño ABAB donde las medias obtenidas en cada fase son,

respectivamente, 30, 10, 25 y 5. El proceso de análisis sería el siguiente:

1. Enunciar la hipótesis estadística. Se ordenan a priori las fases de mayor a

menor, según su media esperada; este orden que se prevé recibe el nombre de “orden

crítico”, y a cada media que lo compone se le adjudica un valor ordinal (a la media

mayor se adjudica un 4, a la siguiente 3, y así sucesivamente ). Hipotetizamos el

siguiente orden:

XXXX BBAA 2121 >>>

A su vez, Levin et al. (1978) proponen que estos pesos asignados a las medias

no han de seguir obligatoriamente una distribución continua (4, 3, 2, 1), sino que

pueden basarse en un patrón más realista según lo esperado (7, 2, 5, 1, …).

2. Seleccionar el estadístico y la significación. El nivel de significación se fija en

0.05; para este tipo de análisis Levine et al. propusieron el estadístico L el cual se

calcula a partir de la suma del producto de las medias por su respectivo valor de rango :

RXL j

i

1jj∑

=

=

3. Recogida de datos y cálculo del estadístico observado. Nuestro LO es el

siguiente:

RXL j

i

1jj∑

=

= = (30x4)+(10x2)+(25x3)+(5x1)=220

4. Valor de la probabilidad y decisión estadística. Una vez generada la

distribución del estadístico L bajo todas las permutaciones posibles, se ha observado que

nuestro LO es el de mayor magnitud, por lo que la probabilidad vendrá determinada

por:

05.0042,0241

<==p

Rechazándo la hipótesis nula, se concluye que las medias de las fases están

ordenadas según el orden crítico hipotetizado.

2.2.3. PRUEBA DE ALEATORIZACIÓN EN DISEÑOS MULTIFASE DE

REVERSIÓN.

Este tipo de diseños constituyen una extensión de los diseños ABAB en el cual

se han introducido un mayor número de fases ( ABABAB, ABABABAB, etc.). La

prueba de aleatorización puede seguirse bien asignando al azar los puntos de

intervención y de retirada del tratamiento, o bien, aleatorizando el orden de las fases A y

B. El número total de órdenes posibles de las fases viene determinado por la siguiente

fórmula:

)!(!!

fFfF

f

FP

aaa −=

=

donde F representa el número total de fases y f a el número de fases A ó B.

Así, dada un diseño de reversión con 6 fases tendríamos

=

3

6P =20 formas de ordenarlas.

El análisis de las diferencias de medias entre las fases con presencia de

tratamiento y con ausencia de éste se puede realizar mediante el estadístico D de

Edgington, el estadístico S de Onghena, o bien, el L de Levin propuesto para los

diseños ABAB. El procedimiento de análisis es igual a los expuestos anteriormente para

los diseños AB y los diseños de reversión (ABA, ABAB).

1 A A A B B B

2 A A B A B B

3 A A B B A B

4 A A B B B A

5 A B A A B B

6 A B A B A B

7 A B A B B A

8 A B B A A B

9 A B B A B A

10 A B B B A A

11 B A A A B B

12 B A A B A B

13 B A A B B A

14 B A B A A B

15 B A B A B A

16 B A B B A A

17 B B A A A B

18 B B A A B A

19 B B A B A A

20 B B B A A A

Formas posibles de planificar un diseño multifase de reversión (diseño ABABAB), aleatorizando el

orden de las fases.

2.3. PRUEBA DE ALEATORIZACIÓN EN DISEÑOS AB CON MÁS DE UNA

UNIDAD EXPERIMENTAL.

Las estrategias de los diseños de caso único también pueden ser seguidas con

más de una unidad experimental, siendo el caso más simple la replicación del diseño

AB. Marascuilo y Busk propusieron una extensión del procedimiento aplicado al diseño

AB, en el cual se aleatorizaba el punto de intervención. Para comenzar se selecciona al

azar la primera sesión de tratamiento para cada sujeto de manera independiente,

calculándose el estadístico D (diferencia de las medias de las puntuaciones del sujeto

entre la fase A y de la fase B, D = X A −− XB ) para cada división posible,

después para analizar los efectos del tratamiento en todos los sujetos conjuntamente se

calcula en todas las combinaciones el estadístico T, a partir de la suma de los

estadísticos D de cada división ( ++= DDT 21 … Di+ ). Las combinaciones se

derivan del producto de divisiones posibles para la introducción de tratamientos en cada

sujeto. Para poder calcular el estadístico T las hipótesis del cambio conductual de todos

los sujetos deben ir en la misma dirección.

El valor de la probabilidad se calcula a partir de la ratio entre el número de

resultados, igual o mayor al estadístico observado en el caso de que la hipótesis verse

sobre un decremento de la conducta y entre el numero de resultados igual o menor que

el estadístico observado si la hipótesis versa sobre un aumento de la conducta, y el

número de permutaciones posibles. Todos estos pasos los veremos mejor a través de

este ejemplo.

Ejemplo.

Como ejemplo supongamos que se registran datos de dos sujetos con un diseño

AB, en el que se espera un decremento de la conducta como consecuencia de la

intervención, se planifican 20 observaciones, se dejan como mínimo 5 para la fase A y

10 para la fase B. el punto de intervención se aleatorizaría entre la sesión 6 y la 10,

existiendo por tanto un total de 5 divisiones para introducir el experimento en cada

unidad experimental. Teniendo en cuenta que son dos unidades tenemos una P=5x5=25

(posibles formas de combinar la introducción de la intervención en las dos unidades).

La inclusión de un sujeto más supone incrementar la potencia de la prueba de manera

notable al aumentar las combinaciones posibles.

A continuación al azar se selecciona la observación 7 para el primer sujeto y la

9 para el segundo.

SUJETO 1

Sesiones 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Fases A A A A A A B B B B B B B B B B B B B B

Datos 9 8 8 7 8 8 2 1 0 0 1 3 2 1 2 0 1 1 2 2

SUJETO 2

Sesiones 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Fases A A A A A A A A B B B B B B B B B B B B

Datos 9 9 8 9 9 8 9 9 3 4 3 2 4 4 5 4 3 4 4 4

Como decíamos en el encabezamiento el siguiente paso consiste en calcular el

estadístico D para cada sujeto.

D1 = 8-1.28 = 6.72

D2 = 8.75-3.6 = 5.15

Siguiendo las indicaciones del encabezamiento pasamos a continuación al

cálculo del estadístico de contraste T:

DDT 21 += = 6.72 + 5.15=11.87

En este tipo de diseño para generar las distribuciones T es necesario previamente

realizar la distribución D para cada sujeto:

Sujeto 1 Sujeto 2

Divisiones X A X B D1 X A X B D2

6-20 8 1.53 6.47 8.8 4.6 4.2

7-20 8 1.28 6.72 8.6 4.43 4.17

8-20 7.14 1.23 5.91 8.71 4.08 4.63

9-20 6.375 1.25 5.125 8.75 3.6 5.15

10-20 5.5 1.36 4.14 8.1 4.1 4

Ahora ya podemos realizar la distribución T a partir de la suma de los estadísticos D de

cada división posible en cada sujeto:

Sujeto 1

Sujeto 2 D1 = 6.47 D1 = 6.72 D1 = 5.91 D1 = 5.125 D1 = 4.14

D2 = 4.2 10.67 10.92 10.11 9.325 8.34

D2 = 4.17 10.64 10.89 10.08 9.295 8.31

D2 = 4.63 11.1 11.35 10.54 9.755 8.77

D2 = 5.15 11.62 11.87 11.006 10.275 9.29

D2 = 4 10.47 10.72 9.91 9.125 8.14

Para calcular la probabilidad en nuestro ejemplo, debido a que la hipótesis

anuncia un decremento de la conducta debemos de realizar la ratio entre el número de

resultados igual o mayor al estadístico observado y el número de permutaciones

posibles. Como el valor observado es el mayor y existen 25 permutaciones posibles:

1/25= 0.04. este valor es menor al α establecido, por lo que se rechaza la hipótesis nula

concluyéndose que ha habido un efecto de la intervención, provocando una disminución

de la conducta.

2.4. PRUEBA DE LA ALEATORIZACIÓN EN DISEÑOS DE LINEA BASE

MÚLTIPLE

Estos diseños implican una serie de diseños AB con diferentes unidades

experimentales (sujetos, conductas o situaciones), donde el tratamiento se implanta de

forma escalonada para cada una de estas unidades. Estos diseños permiten tener una

gran certeza de los efectos de la variable

Para este tipo de diseños Wampold y Worsham proponen aleatorizar el orden en

el cual los sujetos, conductas o situaciones van a ser tratadas. Los autores proponen usar

el estadístico W para el contraste de diferencias entre medias. Este es el resultado del

sumatorio de las diferencias entre las medias de la fase A y de la fase B a través de los

sujetos, conductas o situaciones:

)(1

∑=

−=k

iXX BA ii

W

Expliquemos por partes: primero se identifican varios sujetos (por lo general 3,

S1, S2 y S3) que presentan la misma conducta (Línea base múltiple a través de sujetos),

o se identifica una conducta la cual es presentada por un mismo sujeto en varias

situaciones (Línea base múltiple a través de situaciones), o se identifica a un sujeto que

presenta varias conductas las cuales se requieren modificar (línea base múltiple a través

de conductas); segundo se toma de manera simultánea la línea base, ya sea por las

conductas que muestra un mismo sujeto, de la conducta que es mostrada por diferente

sujetos, o la conducta de un sujeto en ambientes diferentes; y tercero se establece la

secuencia de aplicación de la intervención. Es importante señalar que la intervención no

se aplica de manera simultánea sino de forma secuencial.

Como podemos observar podríamos contar con una serie de línea base (línea

base múltiple) que combinan situaciones, conductas y sujetos. El registro consiste en no

aplicar la intervención de manera simultánea en las conductas, situaciones o sujetos.

Implica tomar las líneas base, posteriormente aplica la intervención de manera sucesiva

a una sola conducta, sujeto o situación, según sea el caso, mientras las otras situaciones,

conductas o sujeto continúan en línea base. Una vez concluida la primera intervención

se continúa con la siguiente hasta concluir con todas las intervenciones necesarias.

A continuación se describe cada tipo de diseño de línea base múltiple.

→→ Línea base múltiple a través de conductas. El investigador evalúa dos o más

conductas o respuesta en un solo individuo o grupo. Una vez alcanzado un nivel estable

en la línea base, se introduce la intervención sobre una de las conductas y

posteriormente de manera sucesiva en las otras. Se espera que la intervención sólo

modifique la conducta en donde está siendo aplicada la intervención, lo cual refuerza la

relación que existe entre variable dependiente e independiente. En el caso de

modificarse una de las conductas observadas o no intervenidas se puede hablar de

conductas dependientes o covariación.

Ejemplo: Para ejemplificar este diseño citaremos el trabajo de Liberman y Smith

(1972) en donde trataron de evaluar los efectos de la desensibilización sistemática sobre

conductas específicas. En este estudio se empleó el diseño de línea base múltiple a

través de conductas, el sujeto fue un paciente afeminado de 28 años de edad. Cuatro

fueron las conductas que trataron de modificarse: aislamiento, masturbación, masticar y

lavarse los dientes. Una vez que se determinaron dichas conductas se tomó una línea

base de cada uno de los comportamientos mencionados, midiéndose a través de

autoreporte. Después de cuatro semanas de línea base la primera conducta fue tratada

con desensibilización sistemática en vivo, mientras que el resto de las conductas

permanecieron en observación (línea base). A la sexta semana se aplicó tratamiento a la

conducta de masturbación con desensibilización imaginaria, las conductas de masticar y

lavarse los dientes permanecieron en línea base. Finalmente a la séptima y octava

semana de haber iniciado el estudio fueron tratadas las conductas restantes. Los

resultados demostraron que la aplicación secuencial del tratamiento afecto a la conducta

particular que era intervenida. Como no se observó generalización del tratamiento de

una conducta a otra se puede decir que estas conductas eran independientes entre sí. Los

autores concluyen que es necesario llevar a cabo nuevas investigaciones donde se

realice una evaluación directa de las conductas.

→→ Línea base múltiple a través de situaciones. Puede emplearse para cambiar algunas

conductas manejando situaciones o periodos de tiempo en un sujeto o grupo. El

procedimiento es el mismo que en el caso anterior: se definen las situaciones en donde

ocurren las conductas de interés y se observa. Se introduce la intervención en solo una

de las situaciones mientras la conducta de interés en las otras situaciones permanecen en

línea base.

Ejemplo: Allen en 1973 realizó una investigación que ejemplifica de una forma clara

este tipo de diseño. El estudio estuvo dirigido a un niño de 8 años de edad que tenía el

diagnóstico de daño cerebral mínimo. El objetivo fue reducir de una forma sistemática

la alta frecuencia de verbalizaciones bizarras en cuatro ambientes de actividades

(andadores, comedor, cabina y salón de clase). Durante los primeros seis días se obtuvo

una línea base, pidiéndoles a los encargados que registraran las verbalizaciones del niño

en cada uno de los ambientes sin intervenir o cambiar su propio comportamiento. En el

séptimo día se les pidió ignorar (extinción) las verbalizaciones bizarras del niño pero

sólo en el primer ambiente (andadores), así mismo deberían continuar registrando las

verbalizaciones en las otras situaciones. Posteriormente se fue introduciendo el

tratamiento de forma secuencial al comedor, cabina y salón de clases, continuando con

el registro de las verbalizaciones bizarras. Los resultados demostraron que la aplicación

progresiva del tratamiento produjo una reducción de las conductas indeseables,

alcanzando en éstas puntuaciones cercanas a cero. Los autores concluyeron que la

técnica de extinción es efectiva para eliminar conductas problema. También señalan lo

fácil que es entrenar al personal en el manejo de estas técnicas.

→→ Línea base múltiple a través de sujetos. El investigador recoge datos de los sujetos

hasta que los datos de la línea base sean estables. El tratamiento entonces empieza para

uno de los participantes, continuando los demás participantes en la línea base. Esta

situación continúa hasta que se vuelven a estabilizar las conductas esperando un cambio

en el sujeto tratado y ninguno en los restantes. En este momento el tratamiento es

introducido en un segundo participante siguiendo el proceso hasta el último

participante.

Ejemplo: Describiremos en este caso el estudio realizado por Charlop (1983). Los

sujetos que participaron en el estudio fueron tres niños autistas ecolálicos. Durante la

fase de línea base todos los sujetos fueron evaluados a través de una tarea que consistió

en presentarles pares de objetos ante los cuales el experimentador decía el nombre de

uno de ellos y el niño debía poner en la mano del experimentador el objeto mencionado,

no hubo ninguna consecuencia a la respuesta de los niños. Después de 8 sesiones de 20

bloques de ensayos cada una, el sujeto 1 fue sometido a una fase de entrenamiento

denominada ensayo y error, mientras que los sujetos restantes permanecieron en línea

base. Durante dicho entrenamiento los objetos eran puestos enfrente del niño, cuando el

niño estaba sentado y mostraba atención el experimentador estiraba su mano y entonces

decía el nombre del objeto, el niño debía poner en la mano del experimentador el objeto

nombrado. Si la respuesta era correcta el experimentador le entregaba comida, si la

respuesta era incorrecta, el investigador decía "no" e inmediatamente retiraba ambos

objetos. Y daba de nuevo la instrucción con objetos diferentes, este entrenamiento se

surgió hasta que el niño alcanzó 90% de respuestas correctas durante 20 ensayos

consecutivos. Posteriormente, el sujeto 2 inició dicho tratamiento y el sujeto 3

permaneció en línea base, cuando el sujeto 2 terminó su entrenamiento el sujeto 3 lo

inicio. Es importante señalar que los 3 sujetos terminaron con una fase de revisión. Los

resultados demostraron que el entrenamiento facilitó el desarrollo de conducta verbal

funcional, dado que se disminuyo la conducta ecolálica de los sujetos.

Aquí os hemos mostrado una serie de experimentos de cada una de las unidades

experimentales posibles con objeto de que se logre un mayor entendimiento de cada uno

de ellos. A continuación mostramos como se realiza el cálculo para saber si aceptamos

la hipótesis nula a través de la W.

Ejemplo.

Supongamos un diseño de linea base múltiple entre sujetos con tres unidades

experimentales, en el que se planifica que los comienzos de la intervención serán las

sesiones 4, 7, 10 y se predice una disminución de la conducta tras la intervención. El

procedimiento de aleatorización consiste en adjudicar al azar un comienzo de sesión

para cada sujeto, en nuestro caso será:

Sujeto 1

Sesión 1 2 3 4 5 6 7 8 9 10 11 12 13

Fase A A A B B B B B B B B B B

Datos 10 9 9 3 4 3 2 2 4 2 1 3 3

Sujeto 2

Fase A A A A A A B B B B B B B

Datos 11 12 11 10 13 12 4 4 6 4 6 5 4

Sujeto 3

Fase A A A A A A A A A A B B B

Datos 14 13 12 12 10 9 15 12 12 13 1 1 1

La W de nuestra observación sería igual a :

)(1

∑=

−=k

iXX BA ii

W = (18.6 - 2.7) + (11.5 - 4.71) + (12.2 - 1) = 33.9

Como en los casos anteriores, tenemos que calcular a continuación la generación

del estadístico, pero en esta ocasión se calculan las diferencias de medias entre las fases

A y B para cada sujeto en el supuesto de que la intervención hubiese sido introducida en

primer, según o tercer lugar para calcular posteriormente el estadístico W. En nuestro

caso esto sería:

Orden sujetos XX BA 11− XX BA 22

− XX BA 33− W

1-2-3 15.9 6.79 11.2 33.9

1-3-2 15.9 3.7 3.74 23.34

2-1-3 3.9 4.5 11.2 19.6

2-3-1 4.5 4.5 3.74 12.74

3-2-1 4.5 6.79 4.4 15.69

3-1-2 3.9 3.7 4.4 12

Vemos como el valor del estadístico observado es el mayor de la distribución, el

valor p es igual a 1/6=0.1666, en este caso la razón por la que no se rechaza la

hipótesis nula es porque la muestra es muy pequeña, con un sujeto, situación o conducta

más ésta hubiera sido significativa.

→→ Ventajas :

a) Promueve la medición simultánea de varios objetivos concurrente.

b) No se presentan problemas éticos.

c) Promueve mediciones concurrentes implica una aproximación a situaciones naturales.

d) Permite alcanzar la covariación conductual, sobre todo en el caso de diferentes

conductas y situaciones observadas en un individuo pues en ocasiones, al modificarse

una por efecto de la intervención se modifica otra.

e) Puede aplicarse este diseño cuando por cualquier razón no debe aplicarse una

reversión.

→→ Desventajas:

Es más débil que los diseños de retirada.

La principal desventaja de este diseño como comprobamos en nuestro ejemplo

es que necesita como mínimo cuatro unidades experimentales para poder alcanzar un

nivel de significación del 0.05, y en el caso de cuatro unidades el valor de W para el

orden real debería ser el mayor (o menor según la dirección de la hipótesis alternativa)

encontrado en la distribución del estadístico para alcanzar este nivel de significación,

con lo que la potencia del procedimiento es limitada para cuatro líneas base. Con todo

esto como señalan Marascuilo y Busk, con este método si se rechaza la hipótesis nula el

investigador tendrá garantías de que toma la decisión correcta pero no será así si ésta es

aceptada.

Para solucionar este problema estos autores sugieren que se amplie el método

enunciado por Edgington para los diseños AB, en el cual se aleatoriza el punto de

intervención, junto con el del diseño AB con más de una unidad experimental. Así se

selecciona el punto de intervención para cada sujeto indenpendientemente y se calcula

el estadístico D para cada permutación, a continuación se calcula la distribución del

estadístico de contraste conjuntamente para todos los sujetos que sería:

DDT 21 += … Dn+ .

Koehler y Levin han sugerido que el método de Marasculio y Busk no tiene una

planificación en la secuencia de asignación del tratamiento a las unidades

experimentales. Sin esto, el punto de intervención puede coincidir en el tiempo o estar

muy próximo entre dos unidades experimentales poniendo en duda la validez interna del

diseño. Su modelo sigue los siguientes pasos:

1. planificar el número de datos mínimo para cada fase y en cada una de las

unidades experimentales.

2. seleccionar aleatoriamente un orden de tratamiento para cada unidad

experimental.

3. seleccionar aleatoriamente un punto de intervención del intervalo temporal

preestablecido para cada orden posible.

De esta forman aumentan el número de divisiones posibles al ser el producto del

número de unidades experimentales por el número de puntos para introducir el

tratamiento asociado con cada orden posible.

2.5. PRUEBA DE ALEATORIZACIÓN EN DISEÑOS DE TRATAMIENTOS

ALTERNOS.

En estos diseños, donde diferentes intervenciones son alternadas en sucesivas

sesiones, el sistema de aleatorización consiste en adjudicar al azar estas intervenciones a

las sesiones. Este tipo de diseño no requiere de línea base.

Los estadísticos pertinentes para el cambio de medida son los estadísticos D de

Edgington y S de Onghena .

A veces, es necesario imponer restricciones al sistema de aleatorización, por

ejemplo, la aleatorización puede asegurar que los tratamientos se repartan de forma

homogénea en diferentes periodos del día.

A su vez, Edgington plantea el uso del estadístico t para muestras relacionadas,

considerando las sesiones como si fueran sujetos distintos.

Otras limitaciones pueden ser: “Limitar el número de veces que un tratamiento

puede ser administrado consecutivamente; limitar el número de veces que los

tratamientos se administran en la primera y segunda mitad del número total de sesiones;

imponer restricciones para asegurar la simetría de aplicación de los tratamientos dentro

de cada mitad de sesiones.”

→→ Ventajas

a) No requiere de fase de retirada

b) Proporciona datos útiles con mayor rapidez que un diseño de retirada

c) Es relativamente insensible a las tendencias ascendentes de las conductas, ya que

compara el resultado de dos tratamientos en el contexto de cualquier tendencia

antecedente

d) No se requiere formalmente ninguna línea base

e) Al no importar la tendencia, puede analizarse mediante inspección gráfica

→→ Desventajas:

a) Es menos generalizable que otros diseños.

3. VENTAJAS Y LIMITACIONES DE LAS PRUEBAS PARAMETRICAS.

3.1. VENTAJAS:

a) Flexibilidad en cuanto al tipo de asignación aleatoria posible y en cuanto a los

estadísticos pertinentes para cada secuencia de datos

b) No solo se puede contrastar los cambios de nivel sino también los cambios de

tendencias entre fases.

c) No se ve afectada por la dependencia serial de los errores, ya que la inferencia

estadística se realiza a través de los datos muestrales.

d) El estadístico no esta afectado por la violación de la normalidad de los datos ni por

los valores extremos. En caso de diseños con muchos datos extremos se ha propuesto la

utilización de la mediana en lugar de la media.

e) Efecto durante el tratamiento

f) Efectos específicos de la V.I.

g) Aísla componentes de un tratamiento

h) Elimina algunos problemas éticos

i) Disminuye el costo de los estudios clínicos

3.2. DESVENTAJAS:

a) Requieren gran cantidad de datos

b) Necesidad de repetición de los estudios para la generalización.

c) Las diferentes permutaciones pueden ser extremadamente numerosas dificultando el

análisis

d) Requieren planificar de antemano el número de observaciones o en su caso la

longitud de cada fase.

e) La aleatorización aumenta la validez interna aunque desde un punto de vista clínico a

veces no es factible puesto que la introducción del tratamiento puede depender de la

conducta del sujeto y de su patrón de cambio.

f) Cuando se obtiene una significación estadística esta no proporciona una clave

necesaria para entender el cambio de conducta.

4. PRUEBA DE RANGOS

Se ha propuesto una prueba de rangos para evaluar los datos obtenidos en

diseños de línea base múltiple. La prueba exige que los datos sean recogidos a lo largo

de varias líneas base (sujetos, situaciones…). El resultado estadísticamente fiable de una

intervención esta determinado por la evaluación de la ejecución de cada una de las

líneas base en el punto en el que se introduce la intervención. Tomamos a cada

individuo como un subexperimento, cuando a uno cualquiera se le introduce el

tratamiento se tiene en cuenta los comportamientos de todos los sujetos en ese momento

La suma de los rangos de todos los subexperimentos en el momento en el que se

introduce el tratamiento constituye el estadístico R.

Una característica esencial de esta prueba es que la intervención se aplica a

diferentes líneas base en un orden aleatorio, debido a esto la combinación de rangos en

el punto de la intervención para todos los sujetos será distribuida al azar si la

intervención no tiene efectos, pero si la conducta del sujeto que recibe la intervención

cambia al comienzo de esta, al ser comparada con los sujetos que aun no han recibido la

intervención, esto debe reflejarse en los rangos. Esto sugiere que los rangos no son el

resultado de factores aleatorios. Se requiere varias líneas base para evaluar si el cambio

en el punto del tratamiento es fiable o no. Con un nivel de confianza del 0.05 para que

los resultados sean estadísticamente significativos son como mínimo necesarias cuatro

líneas base.

En algunos casos es probable que los resultados de la intervención no fueran

evidentes el mismo día en que la intervención es aplicada pudiendo incluso empeorar

las ejecuciones antes de mejorar.

Bibliografía.

→ Arnau, J. (2001). Diseños de Series Temporales: técnicas de análisis. Barcelona:

Edicions Universitat de Barcelona. 371-397.

→ Barlow, D.H. y Hersen, M. (1988). Diseños experimentales de caso único.

Barcelona: Martínez Roca ( Or. 1984 ).

→ Byrne, M.D. A Better Tool for the Cognitive Scientist’s Toolbox:

Randomization Statistics. School of Psychology. Georgia Institute of

Technology.

→ Kratochwill, T.R. y Levin, J.R.(1992). Single-Case Research Design and Analysis.

New Directions for Psychology and Education. Hillsdale, N.J.: L.E.A. 133-158.

→ Lunneborg, C. E. Randomized Treatment Sequence Designs: The

Randomization Test as a Nonparametric Replacement for anova and manova.

University of Washington.

→ Rodgers, J. L. (1999). The Bootstrap, the Jacknife, and the Randomization Test: A

Sampling Taxonomy. Multivariate Behavioral Research, 34 (4), 441-456.

http://europa.eu.int/comm/eurostat/research/index.htm?http://europa.eu.int/en/comm/eurostat/research/isi/alpha/es/es80.htm&1

http://www.fil.ion.ucl.ac.uk/spm/snpm/SnPMpaper.pdf

pruebas aleatorias 1. introducción

Documents