curso de estadística básica - uteq.edu.mx curso mars/sesiones/pdf... · cuando los datos...
TRANSCRIPT
Estadística Básica
Curso de Estadística Básica
MCC. Manuel Uribe Saldaña
MCC. José Gonzalo Lugo Pérez
SESION 6
ANÁLISIS DESCRIPTIVO Y REPRESENTACIÓN DE DATOS
DE DOS VARIABLES
Estadística Básica
Objetivo
Representar datos de dos variables de forma
tabular y gráfica. Comprender la distinción entre los
propósitos básicos del análisis de correlación y
regresión lineal. (Sesión 6 y 7)
Estadística Básica
Agenda Sesión 6
• Datos de dos variables
• Correlación lineal (Sesión 6)
• Regresión lineal (Sesión 7)
• Evaluación (Sesión 7)
Estadística Básica
Casos
• A medida que una persona crece, por lo general
aumenta de peso. Alguien podría preguntar,
“¿existe alguna relación entre la estatura y el
peso?”
• Médicos dedicados a la investigación, prueban
fármacos nuevos y obsoletos prescribiendo dosis
diferentes en pacientes y observando sus
respuestas. Una de las preguntas podría ser, “¿la
dosis del medicamento prescrito determina la
cantidad de tiempo de recuperación que necesita el
paciente?”
Estadística Básica
Datos de dos variables
Estos datos constan de los valores de dos variables respuesta
diferentes que se obtienen del mismo elemento de la población.
Cada una puede ser cualitativa o cuantitativa. Como resultado, los
datos bivariados pueden formarse mediante tres combinaciones de
variable:
1. Ambas variables son cualitativas (de atributo)
2. Una variable es cualitativa y otra cuantitativa (numérica)
3. Ambas variables son cuantitativas
Estadística Básica
Dos variables cualitativas
Cuando los datos bivariados resultan de dos variables cualitativas, los
datos se disponen en una tabla cruzada o de contingencia.
Filosofía y LetrasAdministración de
EmpresasTecnología Totales por renglón
Masculino 5 6 7 18
Femenino 5 5 2 12
Totales por
columna 10 11 9 30
Especialización
Género
Estadística Básica
Ejemplo
Treinta estudiantes de una Universidad fueron
identificados y clasificados aleatoriamente
según dos variables:
• Género (M/F)
• Especialización (Filosofía y Letras,
Administración de Empresas, Tecnología)
A continuación se muestran los datos en la tabla:
Estadística Básica
Nombre Género Especialización Nombre Género Especialización
Adams M FyL Kee M AE
Argento F AE Kleeberg M FyL
Baker M FyL Light M FyL
Bennet F FyL Linton F FyL
Brock M AE Lopez M T
Brand M T McGowan M AE
Chun F FyL Mowers F AE
Crain M T Ornt M T
Cross F FyL Palmer F AE
Ellis F FyL Pullen M T
Feeney M T Rattan M AE
Flanigau M AE Sherman F AE
Hodge F AE Small F T
Holmes M T Tate M AE
Jopson F T Yamamoto M FyL
Estadística Básica
Tabla cruzada
Estos datos pueden resumirse en una tabla
cruzada o de contingencia de 2 x 3 donde se
presenta la frecuencia para cada categoría
cruzada de las dos variables junto con los
totales por renglón y por columna
denominados totales marginales (o
marginales). El total de los totales marginales
es el gran total y es igual a n, el tamaño de la
muestra.
Estadística Básica
Filosofía y LetrasAdministración de
EmpresasTecnología Totales por renglón
Masculino 5 6 7 18
Femenino 5 5 2 12
Totales por
columna 10 11 9 30
Especialización
Género
Tabla cruzada
Estadística Básica
Frecuencias relativas
Las tablas de contingencia a menudo presentan
porcentajes (frecuencias relativas). Estos
porcentajes pueden estar basados en toda la
muestra o en las clasificaciones de la
submuestra (renglones o columnas).
Estadística Básica
Porcentajes basados en el
gran total (toda la muestra)
La tabla de contingencia puede convertirse
fácilmente en porcentajes del gran total, al dividir
cada frecuencia entre el gran total y multiplicar por
100 el resultado.
Filosofía y LetrasAdministración de
EmpresasTecnología Totales por renglón
Masculino 17% 20% 23% 60%
Femenino 17% 17% 7% 40%
Totales por
columna 33% 37% 30% 100%
Especialización
Género
Estadística Básica
Porcentajes basados en el gran total
Con la tabla de contingencia expresada en
porcentajes puede verse fácilmente que el 60% de
la muestra son hombres, 40% mujeres, 30% están
especializándose en tecnología, etc.
0%
5%
10%
15%
20%
25%
Filosofía y Letras Administración de Empresas
Tecnología
Porcentajes basados en el gran total
Masculino
Femenino
Estadística Básica
Porcentajes basados en
los totales por renglón
Los elementos de la misma tabla de contingencia
pueden expresarse como porcentajes de los totales
por renglón (o género), al dividir cada elemento del
renglón entre el total de éste y multiplicar por 100 el
resultado.
Filosofía y LetrasAdministración de
EmpresasTecnología Totales por renglón
Masculino 28% 33% 39% 100%
Femenino 42% 42% 17% 100%
Totales por
columna 33% 37% 30% 100%
Especialización
Género
Estadística Básica
Porcentajes basados en
los totales por renglón
En la tabla anterior se observa que el 28% de los
hombres están especializándose en Filosofía y
Letras, mientras que el 42% de las mujeres están
especializándose en la misma área.
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
Masculino Femenino
Porcentajes basados en el género
Filosofía y Letras
Administración de Empresas
Tecnología
Estadística Básica
Porcentajes basados en
los totales por columna
Los elementos de la tabla de contingencia también
pueden expresarse como porcentajes de los totales
por columna (o especialización), al dividir cada
elemento de la columna entre el total de ésta y
multiplicar por 100 el resultado.
Filosofía y LetrasAdministración de
EmpresasTecnología Totales por renglón
Masculino 50% 55% 78% 60%
Femenino 50% 45% 22% 40%
Totales por
columna 100% 100% 100% 100%
Especialización
Género
Estadística Básica
Porcentajes basados en
los totales por columna
Con base en la tabla anterior, se observa que de
todos los estudiantes de Filosofía y Letras, la mitad
son hombres y la otra mitad son mujeres.
0%10%20%30%40%50%60%70%80%90%
Filosofía y Letras Administración de Empresas
Tecnología
Porcentajes basados en la especialización
Masculino
Femenino
Estadística Básica
Una variable cualitativa y
otra cuantitativa
Cuando los datos bivariados se obtienen de una
variable cuantitativa y otra cualitativa, los valores
cuantitativos se consideran como muestras ajenas,
cada una identificada por niveles de la variable
cualitativa. Se aplica la estadística descriptiva vista
en sesiones anteriores como, la media, varianza,
desviación estándar, Q1, mediana, Q3, etc., y los
resultados se presentan uno junto al otro para
efectos de comparación.
Estadística Básica
Ejemplo
Para comparar la capacidad de frenado de tres
diseños de bandas de rodamiento, se midió la
distancia necesaria para detener un automóvil de
3000 libras que se desplazaba sobre pavimento
húmedo. Los neumáticos de cada diseño fueron
probados en el mismo vehículo que circulaba sobre
un pavimento húmedo controlado.
37 36 33 35 40 39
34 40 34 42 41 41
38 32 38 34 40 43
Diseño A Diseño B Diseño C
n=6 n=6 n=6
Estadística Básica
Nota
El diseño de la banda de rodamiento es una
variable cualitativa con tres niveles de respuesta y
la distancia de frenado es una variable cuantitativa.
La distribución de las distancias de frenado del
diseño A, de la banda de rodamiento, debe
compararse con las distribuciones de las distancias
de frenado de cada uno de los diseños de la banda.
Esta comparación puede efectuarse aplicando
técnicas numéricas y gráficas.
Estadística Básica
Resumen de cinco puntos
para cada diseño
Diseño A Diseño B Diseño C
Máximo 40 42 43
Q3 37.8 37.3 41
Mediana 36.5 34.5 40.5
Q1 34.5 34 40
Mínimo 32 33 39
Media 36.2 36.0 40.7
Desviación estándar 2.9 3.4 1.4
Estadística Básica
Dos variables cuantitativas
Cuando los datos bivariados son resultado de dos
variables cuantitativas, los datos matemáticos
suelen expresarse como pares ordenados (x, y),
donde x es la variable de entrada (variable
independiente) y y es la variable de salida
(variable dependiente).
En los problemas en que intervienen dos variables
cuantitativas, los datos de la muestra se presentan
gráficamente en un diagrama de dispersión
Estadística Básica
Diagrama de dispersión
Es la gráfica de todos los pares ordenados de datos
de dos variables que están en un sistema de ejes
coordenados . La variable de entrada, x, se grafica
en el eje horizontal y la variable de salida, y, se
grafica en el eje vertical.
Estadística Básica
Ejemplo
En la clase de educación física del señor Torres, se
tomaron varios puntajes de condición física. La
muestra siguiente es el número de “lagartijas” y
“sentadillas” realizadas por 10 estudiantes elegidos
aleatoriamente:
En la siguiente tabla se presentan estos datos
muestrales y un diagrama de dispersión de los
datos
(27,30) (22,26) (15,25) (35,42) (30,38)
(52,40) (35,32) (55,54) (40,50) (40,43)
Estadística Básica
1 2 3 4 5 6 7 8 9 10
Lagartijas (x) 27 22 15 35 30 52 35 55 40 40
Sentadillas (y) 30 26 25 42 38 40 32 54 50 43
Estudiante
25
35
45
55
15 25 35 45 55
Sen
tad
illas
Lagartijas
Clase de educación física del señor Torres
Estadística Básica
Correlación Lineal
El objetivo primordial del análisis de correlación lineal es medir la
intensidad de una relación lineal entre dos variables. Se aplica en
datos cuantitativos que muestran diferentes relaciones entre
variables independientes o de entrada, x, y variables dependientes
o de salida, y. Si a medida que crece x no hay un cambio definido
en los valores de y, se dice que no hay correlación o relación entre
x y y. Si a medida que crece x, hay un cambio en los valores de y,
existe una correlación. La correlación es positiva cuando y tiende a
crecer, y es negativa cuando y tiende a decrecer. Si los pares
ordenados (x, y) tienden a seguir un patrón de línea recta, se tiene
una correlación lineal. La precisión del cambio en y cuando crece x,
determina la intensidad de la correlación lineal.
Estadística Básica
Estadística Básica
Coeficiente de correlación lineal
El coeficiente de correlación lineal r, es la medida
numérica de la intensidad de la relación lineal entre
dos variables. El coeficiente refleja la consistencia
del efecto que el cambio en una variable tiene sobre
la otra. Este valor ayuda a responder a la pregunta
¿Existe una correlación lineal entre las dos
variables en consideración? El coeficiente de
correlación lineal, r, siempre tiene un valor entre -1
y +1. Un valor de +1 significa una correlación
positiva perfecta, y un valor de -1 indica una
correlación negativa perfecta.
Estadística Básica
Cálculo de r
El valor de r está definido por la fórmula producto momento de
Pearson:
yxssn
yyxxr
)1(
))((
yx ss ,
Donde:
Son las desviaciones estándar de las variables x y y
Estadística Básica
Cálculo de r
El valor de r se puede calcular con una fórmula alternativa
equivalente al momento de Pearson como:
)_____)(_____(
_____
ydecuadradoslosdesumaxdecuadradoslosdesuma
xydecuadradoslosdesumar
)()(
)(
ySCxSC
xySCr
n
xxxSC
2
2)(
n
yyySC
2
2)(
n
yxxyxySC )(
Donde:
Estadística Básica
Ejemplo
Encuentre el coeficiente de correlación lineal para
los datos de “lagartijas” y “sentadillas” mostrados
anteriormente.
Solución:
Primero, es necesario, elaborar una tabla de
extensiones enumerando todos los pares de valores
(x, y) para poder encontrar las extensiones x2, xy y
y2, así como los totales en cada una de las cinco
columnas.
Estadística Básica
Tabla de extensiones
Estudiante Lagartijas (x) x2 Sentadillas (y) y2 xy
1 27 729 30 900 810
2 22 484 26 676 572
3 15 225 25 625 375
4 35 1225 42 1764 1470
5 30 900 38 1444 1140
6 52 2704 40 1600 2080
7 35 1225 32 1024 1120
8 55 3025 54 2916 2970
9 40 1600 50 2500 2000
10 40 1600 43 1849 1720
Sumatoria 351 13717 380 15298 14257
Estadística Básica
Cálculos
A continuación se realizan los preliminares,
sustituyendo las cinco sumatorias de la tabla de
extensiones en sus correspondientes fórmulas:
9.1396
10
)351(13717
2)(
22
n
xxxSC
0.858
10
)380(15298
2)(
22
n
yyySC
0.91910
)380)(351(14257)(
n
yxxyxySC
Estadística Básica
Cálculo de r
Finalmente se sustituyen las tres sumas de
cuadrados en el cálculo de r y se obtiene el valor
del coeficiente de correlación.
84.08394.0)0.858)(9.1396(
0.919
)()(
)(
ySCxSC
xySCr
Nota: El valor de r suele redondearse a la centésima más próxima
Estadística Básica
Conclusión
El valor del coeficiente de correlación lineal calculado ayuda a
responder a la pregunta: “¿existe una correlación lineal entre las
dos variables en consideración?”. Cuando el valor calculado de r
está próximo a cero, se concluye que hay poca correlación lineal o
que no hay correlación lineal. A medida que el valor calculado de r
cambia de 0 a +1 ó -1, indica una correlación lineal cada vez más
fuerte entre las dos variables.
Desde el punto de vista gráfico, al calcular r, se mide qué tan bien
una recta describe el diagrama de dispersión de los pares
ordenados. Cuando el valor de r cambia de 0 a +1 ó -1, los puntos
de datos que crean un patrón se acercan más a una recta.
Estadística Básica
Estimación visual del coeficiente de
correlación lineal
El siguiente método para estimar r es rápido y en
general produce un estimado razonable cuando la
“ventana de datos” es aproximadamente cuadrada.
Procedimiento
1. Coloque dos lápices sobre su diagrama de dispersión.
Manténgalos paralelos y muévalos de modo que estén lo más
cerca posible, de modo que todos los puntos del diagrama de
dispersión están entre ellos.
2. Visualice una región rectangular acotada por los dos lápices y
que termina de manera justa en los puntos extremos del
diagrama de dispersión.
Estadística Básica
Ventana de datos
Estadística Básica
Estimación visual del coeficiente de
correlación lineal
3. Estime cuántas veces más largo que ancho es el
rectángulo. Una forma fácil de hacerlo es marcar
mentalmente cuadrados en el rectángulo. Denomine
k a este número de múltiplos.
k=2.5
Estadística Básica
Estimación visual del coeficiente de
correlación lineal
4. El valor de r puede estimarse como:
5. El signo de r se determina por la posición general
del largo de la región rectangular. Si el largo está en
posición creciente, r es positivo; si está en posición
decreciente, r es negativo. Si el rectángulo está en
posición horizontal o vertical, entonces r es cero, sin
importar la razón del largo al ancho.
k
11
Estadística Básica
Estimación de r para la relación entre el
número de lagartijas y sentadillas
25
35
45
55
15 25 35 45 55
Sen
tad
illas
Lagartijas
Clase de educación física del señor Torres
k=4
Estadística Básica
Cálculo de r
75.0)4
11( r
Estadística Básica
Coeficientes de correlación lineal
Estadística Básica
Problema
Suponga que la compañía Trigos Excelentes, S.A. le haya
pedido a varios de sus representantes regionales trabajar
tiempo extra para incrementar las ventas. Usted no está
convencido de que el tiempo extra sea necesario, ni que las
horas extras estén correlacionadas con el incremento de
ventas. La siguiente tabla de datos muestra el número de horas
mensuales que los representantes trabajaban anteriormente
junto con el promedio de ventas. La tabla de datos también
muestra el incremento de horas y las nuevas ventas. Compare
el incremento de horas con el incremento de ventas para
determinar si están correlacionados.
Estadística Básica
Problema