presentación de powerpoint · 3 introducción ejemplos de algunos problemas a estudiar 1) se...
TRANSCRIPT
MODULO: TRATAMIENTO DE DATOS Y AZA.
CONTENIDO: Agrupa y grafica conjunto de datos cualitativos
y cuantitativos con base en su distribución de frecuencias.
GRUPOS: 408,409,410.
ELABORADO POR: MARTHA IVONNE CANO CRUZ.
2
Introducción Esquema de las etapas de un estudio estadístico
AREA DE INTERES DATOS
Tema de Investigación
-Antecedentes Previos
-Objetivos
-Preguntas de Investigación
-Posibles Hipótesis
-Unidad de Análisis
-Población
-Variables
ORGANIZAR Y RESUMIR
ESTADÍSTICA DESCRIPTIVA (Tablas, Gráficos, Medidas
Descriptivas, etc.)
INTERPRETACIÓN
INFERENCIA ESTADÍSTICA
¿Población o Muestra?
CONCLUSIONES
Población
Muestra
Probabilidad INFORMACIÓN
3
Introducción
Ejemplos de algunos problemas a estudiar
1) Se quiere estudiar si en cierto colectivo existe discriminación salarial debida al sexo de
la persona empleada.
2) Se quiere determinar el perfil de los trabajadores en términos de condiciones
económicas y sociales en diferentes comunidades.
3) Se quiere estudiar el consumo de las personas de una zona determinada en cuanto a
vestuario, alimentación, ocio y vivienda.
4) Se quiere determinar las tallas estándar en vestuario para mujeres españolas.
5) Se quiere determinar el tiempo que dedican al trabajo y a la familia los trabajadores de
distintas empresas del país.
6) Se quiere determinar el perfil sociodemográfico de los estudiantes de una Universidad.
7) Se quiere estudiar el gasto en teléfono móvil mensual de los estudiantes de una
Universidad, y si éste tiene alguna relación con su edad u otras características.
4
• VARIABLE: es lo que se va a medir y representa una característica de la UNIDAD DE ANÁLISIS.
• ¿QUIÉNES VAN A SER MEDIDOS?: Los sujetos u objetos o Unidades de Análisis de una
Población o una Muestra
• POBLACIÓN : Es el total de unidades de análisis que son tema de estudio.
Muestra: 60 trabajadores de empresas de comunicación
Unidad de análisis: Trabajador de empresa de comunicación
Variables: sexo, edad, salario, Nº de horas de trabajo, etc.
Población:
“Las personas que
trabajan en empresas de
comunicación”
• MUESTRA: Es un conjunto de unidades de análisis provenientes de una población.
Muestra
Resumen de algunos conceptos planteados en la Introducción
5
TIPOS DE VARIABLES
Variables Cuantitativas
Variable: corresponde a la característica de la Unidad de Análisis
Intervalo
DISCRETA
Variables Cualitativas
CONTINUA
Toma valores enteros
Ejemplos: Número de Hijos, Número de
empleados de una empresa, Número de
asignaturas aprobadas en un semestre, etc.
Toma cualquier valor dentro de un intervalo
Ejemplos: Peso; Estatura; Temperatura, etc.
Unidad de Medida: Gramos o Kilos para la variable Peso; Grados C o F para Temperatura
ORDINAL NOMINAL
Característica o cualidad
cuyas categorías no tienen
un orden preestablecido.
Ejemplos: Sexo, Deporte
Favorito, etc.
Característica o cualidad cuyas
categorías tienen un orden
preestablecido.
Ejemplos: Calificación (S, N, A);
Grado de Interés por un tema, etc.
Estadística
6
Frecuencia: desde un conjunto de unidades, corresponde al Número o Porcentaje de veces que se
presenta una característica.
DISCRETA
CONTINUA
ORDINAL
NOMINAL
TIPO FRECUENCIA
Frecuencia Absoluta (F) Frecuencia Relativa (f)
Frecuencia Absoluta
Acumulada (FAA)
Frecuencia Relativa
Acumulada (fra)
DISCRETA
CONTINUA NOMINAL
ORDINAL
Variable
Cuantitativa
Variable
Cualitativa Variable
Cuantitativa
Variable
Cualitativa
7
Variables - Tipo de Industria: se clasifica en industria tipo A, B, C o D. (cualitativa nominal)
- Nº de Empleados: se refiere al número de empleados en las líneas de producción. (cuantitativa discreta)
- Superficie: se refiere a los metros cuadrados (unidad de medida) disponibles para las áreas de
producción. (cuantitativa continua)
- Calificación: calificación realizada por una institución pública sobre cumplimiento de ciertos estándares
(Muy Bien, Bien, Regular, Mal). (cualitativa ordinal)
Industria nº Tipo Nº Empleados Superficie Calificación
1 A 100 1000,6 Muy Bien
2 B 150 1200,4 Bien
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
299 D 250 800,3 Mal
300 C 300 4000,2 Regular
Problema de Investigación: Se quiere establecer el perfil de las industrias
de conserva en función de algunas características.
Unidad de Análisis: Industria de Conserva
Población: Industrias de Conservas del país
Datos
EJEMPLO
8
EJEMPLO
TABLAS DE
FRECUENCIA
Tipo de
Industria
Frecuencia
Absoluta (Fj)
Frecuencia
Relativa (fj)
Porcentaje
(%)
A
B
C
D
Total 300 1 100
Calificación
Frec.
Absoluta (Fj)
Frec.Relativa
(fj) o %
Frec. Absol.
Acum. (FAAj)
Frec. Relat.
Acum. (fraj) o %
Muy Bien
Bien
Regular
Mal 300 1 (o 100)
Total 300 1 (o 100)
Numero de
Empleados
Frec.
Absoluta (Fj)
Frec.Relativa
(fj) o %
Frec. Absol.
Acum. (FAAj)
Frec. Relat.
Acum. (fraj) o %
<100
[100-150[
.
.
[950-1000] 300 1 (o 100%)
Total 300 1 (o 100%)Superficie
(mt2)
Frec.
Absoluta (Fj)
Frec.Relativa
(fj) o %
Frec. Absol.
Acum. (FAAj)
Frec. Relat.
Acum. (fraj) o %
<200
[200-400[
.
.
[50000-5200] 300 1 (o 100%)
Total 300 1 (o 100%)
(1) (2)
(3)
(4)
Problema de Investigación: Se quiere establecer el perfil de las industrias de conserva en
función de algunas características.
Unidad de Análisis: Industria de Conserva
Población: Industrias de Conservas del país
9
Elementos de una tabla de frecuencia cuando la variable es continua (x)
Intervalo
Centro
de clase Amplitud F f FAA fra
I1 c1 a1
I2 c2 a2
.
.
Ik ck ak n 1
Total n 1
[LI1 ; LS1 [
[LI2 ; LS2 [
[LIk ; LSk]
aj = (LSj – LIj)) cj = (LIj) + LSj )/2
10
Ejercicio: confección de una tabla de frecuencia para una variable continua
10,5 10,7 9,5 10,5 11,8 11,2
12,0 10,3 13,5 12,3 10,6 9,8
10,7 11,5 11,1 10,6 9,3 12,9
10,4 7,5 10,2 8,7 10,9 9,9
11,7 10,3 10,6 10,5 11,9 11,0
13,9 10,6 10,0 10,8 10,6 -
7,3 8,0 8,5 12,5 9,7 -
Los datos corresponden a la edad de los
hijos de los trabajadores de una empresa
7,3 9,7 10,4 10,6 11,1 12,3
7,5 9,8 10,5 10,6 11,2 12,5
8,0 9,9 10,5 10,7 11,5 12,9
8,5 10,0 10,5 10,7 11,7 13,5
8,7 10,2 10,6 10,8 11,8 13,9
9,3 10,3 10,6 10,9 11,9 -
9,5 10,3 10,6 11,0 12,0 -
Datos ordenados de menor a mayor
1) Construya un Diagrama de Tallo y Hoja
2) ¿Cuál es la variable?; ¿Cuál es la Unidad de
análisis?; ¿Cuánto vale n?; ¿Cuál es el rango
de la variable?.
3) Sobre una Tabla de frecuencia: ¿Cuántos
intervalos podría construir?; ¿Cuál es la
amplitud de cada intervalo?; ¿Cuántas
medidas de frecuencia puede obtener para
cada intervalo?.
4) Construir tabla de frecuencia para la
variable: Intervalos, centro de clase,
amplitud, frecuencias.
Realice la siguiente actividad
Diagrama de Tallo y Hoja: permite organizar los
datos de una variable medida sobre un conjunto de
individuos. Su utilidad viene dada cuando no
contamos con herramientas automáticas para
ordenar los datos.
11
TIPOS DE GRÁFICOS 1. Gráfico de Sectores Circulares (de Torta)
Distribución de las unidades de análisis de
acuerdo a variable 1
A
20%D
10%
C
40%
B
30%
Distribución de las unidades de
análisis de acuerdo a variable 1
B
30%
C
40%
D
10% A
20%
Distribución de las unidades de
análisis de acuerdo a variable 1
B
30%
C
40%
D
10%A
20%
12
TIPOS DE GRÁFICOS 2. Gráfico de Barras
Numero de unidades de análisis
de acuerdo a variable 1
0
100
200
300
400
500
A B C D
variable 1
Nº
Porcentaje de unidad de análisis de acuerdo a
variable 1
0 20 40 60 80 100
A
B
C
D
variab
le 1
% unidad de análisis
-Este tipo de gráfico se utiliza generalmente para
representar la frecuencia de las categorías de una
variable cualitativa.
-Cuando una variable es cuantitativa se puede utilizar
este tipo de gráfico sólo si la variable se ha
transformada en categorías.
-Hay distintas versiones de estos gráficos (por ejemplo
en Excel), y en algunos casos son muy útiles para
describir el comportamiento de una variable en distintos
grupos.
Proporción de unidad de análisis de acuerdo a
variable 1
0 0,2 0,4 0,6 0,8 1
A
B
C
D
variab
le 1
Proporción de unidad de análisis
13
Histograma
- Permite la representación de
la frecuencia de una variable
Cuantitativa.
- El eje x se refiere a la
variable.
- El eje y se refiere a la
frecuencia (Nº , %).
- Cada barra representa la
frecuencia de la variable en la
población en estudio (o la
muestra).
-El histograma se puede
construir desde los datos de la
tabla de frecuencia de la
variable en estudio.
TIPOS DE GRÁFICOS 3. Histograma
1413121110987
15
10
5
0
edad
Fre
cuencia
Nº
edad
Histograma
Distribución de los hijos de trabajadores
de la empresa de acuerdo a edad
Ejemplo
En el gráfico se puede observar el número de
hijos , de menor edad (7-8 años), las de mayor
edad (13-14 años); y además que la mayoría de
hijos de los trabajadores están entre los 10 y 12
años.
14
TIPOS DE GRÁFICOS 5. Polígono de Frecuencia
edad
1413121110987
15
10
5
0
edad
Fre
cuencia
Nº
Distribución de los hijos de trabajadores
de la empresa de acuerdo a edad -Esta representación se basa en
el Histograma.
-Sólo es útil para variables
cuantitativas.
-El eje x se refiere a la
variable.
- El eje y se refiere a la
frecuencia (Nº , %).
-Los puntos que permiten la
unión de las líneas representa
el centro de clase (o marca de
clase).
15
OBSERVACIONES
* El Tipo de Gráfico seleccionado va a depender de la variable en estudio.
* El Gráfico debe contener un Título General y la identificación de cada
eje (variable en estudio y frecuencia).
* En ocasiones resulta más ilustrativo un gráfico que una tabla de
frecuencia.
* Al igual que las tablas, los gráficos deben ser auto-explicativos.
Variables Cuantitativas
variablex i individuo elen variablela devalor ixni ,...,1
nccccn
i
1
n
iin
n
ii xccxcxcx
11
1
bxabaxbaxbaxn
iin
n
ii
11
1
)()()(
22
11
2
n
n
ii xxx
2
1
2
1
)()( n
n
ii xxx
)()()( 111
nn
n
iii yxyxyx
)()()( 111
nn
n
iii yxyxyx
variabley i individuo elen variablela devalor iy
NOTACION
constantes:,, cba
16
MEDIDAS DE TENDENCIA CENTRAL
-Media Aritmética (Promedio)
-Mediana
-Moda
n
x
x
n
ii
1
Media Aritmética o Promedio
Mediana
)(EM kx
2M
)1()(
E
kk xx
x
1x
2x
nx
Datos Cuantitativos
x
)1(x
)2(x
)(nx
Datos Cuantitativos ordenados de menor a mayor
Si n es par
Si n es impar
centro del dato)( kx
repite" se más que dato el"Mo Moda Datos
Cualitativos y Cuantitativos
17
Percentiles, Deciles o Cuartiles
-Percentil (ejemplo: 25, 50, 75)
-Decil (ejemplo: 4, 5, 8)
-Cuartil (ejemplo: 1, 2, 3)
El Decil va de 1 a 10
El Decil 4 (4/10): es el valor de la variable que reúne al menos el 40% de los datos
Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posición 32.
Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posición 34.
Percentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando los n
datos están ordenados de Menor a Mayor
El Percentil va de 1 a 100
El percentil 25 (25/100): es el valor de la variable que reúne al menos el 25% de los datos
Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posición 20.
Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posición 22.
El Cuartil va de 1 a 4
El Cuartil 3 (3/4): es el valor de la variable que reúne al menos el 75% de los datos
Ejemplo: Si N=80, el 75% de 80 es 60; por lo tanto, se busca el dato que este en la posición 60.
Si N=85, el 75% de 85 es 63,75; por lo tanto se busca el dato que este en la posición 64.
18
MEDIDAS DE DISPERSIÓN
-Rango
-Varianza
-Desviación Estándar
Rango
Varianza
x
1x
2x
nx
Datos Cuantitativos
Coeficiente de Variación Comparación entre Variables
Se refiere al comportamiento de las variables cuantitativas en un
grupo. Por ejemplo: Si se tiene un conjunto de personas a las que
se les mide Estatura, Peso, Edad: Entre estas variables ¿cuál
presenta mayor variación?
)min()max( ii xxR
Desviación Típica o Estándar
2
1
21 1
22
1
2
2 1)(
1)(
xxnn
xn
x
n
xx
sn
i
i
n
i
n
i
ii
n
i
i
2ss
x
scv
19
Media, Desviación típica, Coeficientes de Asimetría y Apuntamiento
para datos Agrupados (tabla de frecuencias)
Intervalo
Centro
de clase Amplitud F f FAA fra
I1 c1 a1
I2 c2 a2
.
.
Ik ck ak n 1
Total n 1
f1
f2
fk
n1
n2
nk
Tabla de frecuencia (para variable cuantitativa)
1) La Media para datos agrupados es igual a la
suma de los productos de las marcas de clase
por sus frecuencias relativas, de la forma:
k
j
jjcc fcxMedia1
Sea cj la marca de clase (o centro de clase) y fj la
frecuencia relativa de la clase j, donde j=1, 2,…, k.
2) La Desviación típica para datos
agrupados esta dada por:
k
j
jcjc fxcs1
2)(
3) El Coeficiente de Asimetría para
datos agrupados esta dado por:
3
1
3)(
c
k
j
jcj
cs
fxc
CA
4) El Coeficiente de apuntamiento para
datos agrupados esta dada por:
4
1
4)(
c
k
j
jcj
cs
fxc
CAp
20
Descripción de 2 variables cualitativas
Distribución conjunta
Tabla 1 Actividad
Transporte Estudia Pensionado Trabaja
Autobus 5 7 0
Bicicleta 3 3 2
Caminar 2 5 2
Coche 5 4 5
Metro 6 7 4
Transporte Nº %
Autobus 12 20,0
Bicicleta 8 13,3
Caminar 9 15,0
Coche 14 23,3
Metro 17 28,3
TOTAL 60 100
Actividad Nº %
Estudia 21 35,0
Pensionado 26 43,3
Trabaja 13 21,7
TOTAL 60 100
Problema
Interesa estudiar cual es el
principal medio de transporte
preferido por un grupo de
personas a la hora de dirigirse
al centro comercial.
Para esto se consultó a cada
persona sobre la actividad a la
que se dedicaba y el medio de
transporte preferido.
21
Descripción de 2 variables cualitativas
Distribución conjunta
Nº de personas
Actividad: confeccionar tabla con porcentajes respecto del total de personas (n=60)
Tabla 2 Actividad
Transporte Estudia Pensionado Trabaja TOTAL
Autobus 5 7 0 12
Bicicleta 3 3 2 8
Caminar 2 5 2 9
Coche 5 4 5 14
Metro 6 7 4 17
TOTAL 21 26 13 60
22
Descripción de 2 variables cualitativas
Distribución conjunta
Nº de personas y % respecto de tipo de Transporte
Tabla 3 Actividad
Transporte Estudia Pensionado Trabaja TOTAL
Autobus 5 7 0 12
% 41,7 58,3 0 100
Bicicleta 3 3 2 8
% 37,5 37,5 25 100
Caminar 2 5 2 9
% 22,2 55,6 22,2 100
Coche 5 4 5 14
% 35,7 28,6 35,7 100
Metro 6 7 4 17
% 35,3 41,2 23,5 100
TOTAL 21 26 13 60
% 35 43,3 21,7 100