uy dic tarea 6 validez y confiabilidad
TRANSCRIPT
UNIVERSIDAD YACAMBU VICERECTORADO DE INVESTIGACION Y POSTGRADO
INSTITUTO DE INVESTIGACION Y POSTGRADO
Profesor: Leonardo . Castillo Autoras: Brenda M. Sánchez M María. Torres R. Marzo 2014
Validez y
Confiabilidad
Medición de las variables Las variables se miden al llevar sus
indicadores a ítem o preguntas en el
instrumento.
Estas preguntas corresponden a las
escalas de medición nominal, ordinal,
de intervalo y de razón.
Escala Nominal: los códigos o
números asignados a las alternativas no
representan ningún orden. Por ejemplo,
con la variable “Razones de compra” las
posibles alternativas serian: 1.- Por el
sabor; 2.-Por el aroma3.-Por la marca; 4.-
Por el precio; 5.- Por la tradición.
El código asignado a cada alternativa no
representa orden o jerarquía; resultaría
indiferente que “por el sabor” fuera código
4 y por tradición fuera código 2 y “Por el
aroma” fuera el código 1. En consecuencia
no se puede señalar que 1+2+3=4
Escala Ordinal: es una de las escalas más utilizadas.
Permite la posibilidad de “mayor que” y “menor que” para
describir las variables en estudio. En este tipo de escala los
códigos asignados a las alternativas representan orden; sin
embargo la distancia entre una alternativa y otra no es exacta,
por lo que no se puede aplicar las operaciones matemáticas
básicas.
Ejemplo: ¿Cual es su nivel de instrucción aprobado?
1.- Primaria; 2.- Secundaria, 3.- Técnica; 4.- universitaria; 5.-
Post- grado. No se puede decir que 3
(técnico)+4(universitarios)= 5 (post-grado).
Otros ejemplos son aquellos realizados a los entrevistados la
opinión en relación con el producto, atendiendo a su calidad,
durabilidad, atractivo y precio. Para evaluar estos aspectos se
podría utilizar una escala de cinco alternativas: excelente,
bueno, regular, malo y pésimo, con los códigos,5,4,3,2,y 1
respectivamente. Es decir dichos códigos no dicen nada sobre
la distancia relativa entre ellos. Sin embargo se comete el error
de medir la media o promedio.
Gran parte de los datos recolectados a través de las
encuestas/entrevistas estructuradas son de tipo ordinal.
Escala de Intervalos .Las escalas de intervalo
no solo permiten la posibilidad de “ mayor que y menor
que” sino también permite precisar “ cuanto más o cuanto
menos” se tiene una característica. Luego los códigos
asignados a las alternativas de las preguntas, además de
representar orden, indican que las distancias entre una
alternativa y otra son las mismas.; es decir se establecen
intervalos constantes en la medición, que permiten
realizar operaciones aritméticas, que miden las distancias
en relación con los valores de los intervalos de esta
escala.
Ejemplo: la escala de temperatura en grados centígrados
y Fahrenheit; el cero grado es arbitrario porque no
representa la ausencia de temperatura, sino un punto
relativo en la escala. Si la temperatura es de 40 grados
no significa que sea dos veces mas caliente que la
temperatura de 20 grados.
Al asignar los números en una escala de intervalo, hay
que considerar que los criterios de grupo o unidad de
estudio pueden tratarse como datos de intervalo
Escala de Razón. Posee todas las
características de una escala de intervalo más un punto
cero absoluto. Este punto se refiere a la asignación del
número cero a la ausencia de la característica que se
busca medir.
Si se mide en 4cm la distancia entre dos puntos, y en 2
cm la distancia entre otros dos puntos, se podría decir
que una distancia es el doble de la otra porque cada
distancia es el doble de la otra porque cada distancia
se mide a partir de un punto cero
Validez y confiabilidad de los
instrumentos El instrumento debe de reunir dos características
básicas: Validez y confiabilidad.
La primera se refiere a la precisión con que un
instrumento mide lo que se persigue en una
investigación, mientras que la segunda señala el
grado de seguridad que presenta al medir.
Si los datos obtenidos no son producto de
instrumentos validos y confiables, los resultados
no serán consistentes y las conclusiones que
partan de estos merecerán poco crédito.
Por consiguiente, la validez del instrumento,
depende de cómo se llevaron los indicadores de
las dimensiones, de la variable objeto de estudio
y sometidas a medición a preguntas en el
instrumento.
Validez de Contenido. A través de este tipo
de validez se busca determinar el grado en que las
diferentes preguntas, permiten obtener el contenido
específico de lo que se quiere medir. En general la
validez de contenido es evaluada con base en un
análisis racional del contenido del ítem, para lo cual
se procede de la siguiente forma.
Se seleccionan dos o cuatro expertos, los cuales
emitirán su criterio conceptual y técnico, con la
finalidad de que evalúen de manera independiente,
correspondencia de las preguntas(o de los ítem) del
instrumento. Considerando los siguientes aspectos:
1.- La Congruencia ítem-temario, los especialistas
deben evaluar hasta qué punto los ítem del
instrumento traducen los indicadores del cuadro de
operacionalizacion de las variables.
2.- la Claridad de la redacción: Concordancia
gramatical y la relación que guarden las alternativas
u opciones con el enunciado del ítem.
3.- El sesgo o tendenciosidad en la formulación del
ítem: cada ítem debe estar redactado considerando
las reglas de fondo y forma.
Cada experto debe recibir información escrita en relación con: los objetivos,
conceptos relacionados con el tema, y tabla de operacionalizacion de las
variables. Así mismo , los expertos deben recibir u instrumento de validez (ver
cuadro), en el cual se presenta por cada item los aspectos señalados.
Los especialistas deben evaluar a partir de su experiencia, cada item y juzgar su
grado de dificultad en cada categorías muy favorable, favorable, intermedio,
desfavorable y muy desfavorable, con los códigos 5,4,3,2,1 respectivamente
para reflejar la evaluación de cada item , el especialista encerraría en un circulo
el código de la categoría. Ejemplo.
item Congruencia item-temario obse
rvaci
on
1 5 4 3 2 1
2 5 4 3 2 1
3 5 4 3 2 1
4 5 4 3 2 1
Una vez terminado el proceso de validación de los instrumentos
se procede a revisar los resultados obtenidos por ítem, con la finalidad de analizar las
sugerencias y observaciones. Se partirá de los resultados de la evaluación obtenida por
cada ítem, sobre la base siguiente.
Aquellos ítem cuyos aspectos obtuvieron un puntaje de:
•5, se consideran resultados favorables; se acepta completamente el ítem.
•4, se consideran resultados favorables; sin embargo se debe pulir el ítem.
•3, se consideran resultados parcialmente favorables y/o desfavorable; estos ítem deben
ser revisados y reformulados.
•2 y 1, se consideran resultados desfavorable; estos ítem deben ser descartados del
instrumento
Luego se procede con:
Prueba Piloto. Seguidamente es conveniente realizar una prueba piloto con una muestra
pequeña.se recomienda el 10% del tamaño de la muestra calculada para el estudio.
Luego sobre la base de los resultados de la prueba piloto, se puede determinar otros
tipos de validez como la validez de criterio y la de constructo.
Validez de Criterio: este
tipo de validez se efectúa
“comparando los puntajes de
prueba o de escala con una o más
variables externas, o criterios
conocidos o que se cree que mide
el atributo en estudio”(kerlinger,
1998 p.474).
Validez de
Constructo: según
Nunally, 1987, citado por
Hurtado (2000), este tipo de
validez “intenta determinar en
qué medida un instrumento
mide los aspectos
relacionados con la teoría
que sustenta la investigación”.
En este sentido es
fundamental partir del marco
teórico para llevar a cabo este
tipo de validez. Hernández y
otros (2003) señalan que para
llevar a cabo la validez de
constructo, se debe crear
relaciones entre los
conceptos y posteriormente
hacer las correlaciones
pertinentes y su respectivo
análisis e interpretación.
La aplicación de la
validez de criterio y de
constructo, requiere de
sólidos conocimientos de
estadísticas y un software
como el SPSS.
Confiabilidad. La confiabilidad según Ary y otros (1989), se refiere al grado de
congruencia con que se efectúa una medición. No interesa saber si lo
que se mide es lo que se desea, por ser cuestión de validez; un
instrumento puede ser confiable y carecer de validez. Sin embargo, no
puede ser válido si no es confiable. En tal sentido la confiabilidad es
una condición necesaria, pero no suficiente para la validez.
La confiabilidad de un instrumento se refiere a los resultados de la
medición y se expresa siempre mediante algún coeficiente de
correlación, cuyos valores oscilan entre 0 y 1; prueba del coeficiente de
confiabilidad con resultados iguales o superiores a 0,75 se consideran
aceptables y a medida que se aproximan a 1, el grado de confiabilidad
del instrumento será mayor. Con respecto a la confiabilidad del
instrumento Hernández y otros (2003)y Hurtado (2000)señalan que a
mayor cantidad de ítem aumenta el nivel de confiabilidad
Las diferentes técnicas para estimar la confiabilidad reflejan también, diferentes tipos de
consistencia en los resultados entre estas técnicas se describen.
Técnica test Retest.
Consiste en aplicar las mismas preguntas al grupo o unidades de estudio, dos veces.
Luego se debe determinar la correlación entre los puntajes obtenidos al aplicar el
instrumento, en las dos ocasiones, a través del coeficiente de correlación de Pearson. La
fórmula para determinar el coeficiente de correlación es el siguiente:
r = n * Σx * y- (Σx) * (Σy)
√n Σx2 – (Σx2) * √n- Σy2 – (Σy2)
r = coeficiente de correlación
n= unidades seleccionadas o sujetos
x= valores obtenidos en la primera aplicación de la prueba
y= Valores obtenidos de la segunda aplicación de la prueba
Σx= sumatoria total de los valores de x obtenidos en la primera aplicación.
Σy= Sumatoria total de los valores de y obtenidos en la segunda aplicación
Σx2= Sumatoria total de los valores de x obtenidos en la primera aplicación elevados al
cuadrado.
Σy2= Sumatoria total de los valores de y obtenidos en la segunda aplicación elevados al
cuadrado.
Σxy= suma total de los resultados obtenidos al multiplicar por cada sujeto, el valor de x por
el valor de y.
Sujetos
(n)
X X2 Y Y
2 X*Y
1
2
3
4
5
6
7
n ΣX ΣX2 ΣY ΣY
2 ΣXY
Técnica test Retest
Se recomienda tabular los datos de
ambas aplicaciones de la siguiente
manera.
Coeficiente de formas
paralelas Al aplicar una forma paralela luego de un
intervalo apropiado que sigue a la
aplicación de la primera forma puede
determinarse un coeficiente de
confiabilidad que refleje los errores de
medición debidos a los diferentes reactivos
y los distintos momentos de aplicación.
Para controlar los efectos de confusión de
la forma de la prueba con el momento de la
aplicación, la forma A debe administrarse
primero a la mitad del grupo y la forma B a
la otra mitad; luego en la segunda
aplicación , el primer grupo presenta la
forma B y el segundo grupo la forma A.. La
correlación resultante entre la calificación
de dos formas, conocido como coeficiente
de estabilidad y equivalencia, toma en
cuenta errores debidos a los diferentes
momentos de aplicación o a los distintos
reactivos
Método de mitades
partidas ( Split-Half) Partiendo de una sola
aplicación del instrumento,
es posible determinar una
medida de confiabilidad. Así
en un instrumento, que
midiera un único rasgo
podríamos dividir todas las
preguntas en dos mitades,
por ejemplo ítem pares e
impares y calcular un índice
de concordancia entre
ambas. Si las puntuaciones
de ambas partes están muy
correlacionadas, el
instrumento es confiable.
En este enfoque simplificado de la consistencia
interna una sola prueba se considera compuesta
por dos partes ( formas paralelas) que miden la
misma cosa.
De este modo , puede aplicarse una prueba y
asignar calificaciones separadas a sus dos
mitades seleccionadas de manera arbitraria.
Por ejemplo: los reactivos con números nones
pueden calificarse por separado de los que
tienen números pares. Entonces la correlación r
entre los dos conjuntos de calificaciones
obtenidas por un grupo de personas es un
coeficiente de confiabilidad de formas paralelas
para una mitad de la prueba tan larga como la
prueba original.
Suponiendo que las dos mitades equivalentes
tienen medias y varianza iguales, la confiabilidad
de la prueba como un todo puede estimarse por
la formula Sperman-Brown:
r 11 = 2r oe
1+ r oe
Ejemplo= r = 2(0.80)/ (1+.80)= 0.89
Coeficiente Alfa de Crombach.
Este coeficiente requiere una sola aplicación del instrumento. Se utiliza en instrumentos de
varias alternativas ( tipo escala ordinal y de intervalo) y sus valores oscilan entre 0 y 1. Este
coeficiente se calcula a través de la siguiente formula.
m =K (1- ΣSi2)
K-1 St2
Donde:
m = coeficiente de Crombach
K =numero de ítem del instrumento
ΣSi2 =Sumatoria de la varianza de los puntajes de cada ítem
St2 =varianza de los puntajes totales del instrumento
La fórmula para determinar Si2 es la siguiente:
Si2 = (R1-X1)2 + (R2-X2 )2 + (R3-X3)2……(Rn-Xn)2
N
En donde R es igual al código de la alternativa de la pregunta seleccionada por el primer
encuestado. R2 es el código de la alternativa de la pregunta seleccionada por el segundo
encuestado y así sucesivamente con R3 y R4; n es el número de preguntas y Xi2 es la media
de la pregunta que resulta de sumar los códigos de las alternativas seleccionadas por los
encuestados y dividirlas entre el total de preguntas.
La mayoría de los programas de procesamiento de datos, entre ellos el SPSS, ofrece
diferentes métodos para determinar la confiabilidad del instrumento. Al aplicar el coeficiente
Alpha a través del SPSS el programa muestra los resultados obtenidos por cada ítem y ofrece
la alternativa de eliminar aquellos ítem que no contribuyen a lograr un mayor nivel de
confiabilidad.
Método de Kuder Richardson:
Se trata de la misma fórmula de
Alfa de Crombach, solo que esta
última es para ítem continuos y
Kuder Richardson para item
dicotómicos.
Una prueba puede dividirse de
muchas formas diferentes en dos
mitades que contengan igual
número de reactivos. Bajo ciertas
condiciones, la media de todos los
coeficientes de división por mitades
puede estimarse mediante una de
las siguientes formulas
En donde:
K= numero de reactivos en la prueba
¨X = es la media totales
S2= varianza Calculadas con n en lugar de n-1, en el
denominador
P= proporción de examinados que dan la repuesta de la
clave al reactivo i . Las p se suman a lo largo de todos los
reactivos K. a diferencia de la formula 5.5 a la 5.6 se basa
en la suposición de que todos los reactivos son con igual
dificultad; esto conduce a una estimación mas
conservadora y es mas fácil de calcular que la 5.5.
Para demostrar la aplicación de la 5.6,
supongamos que una prueba que contiene 75
reactivos tiene una media de 50 y una varianza
de 100. entonces r 11= (75-50 (75-50)/ 100))/74
=.84
Software didáctico,
formación de pensamiento estadístico