probabilidad unidad 1
TRANSCRIPT
1
UNIVERSIDAD TECNOLÓGICA NACIONAL
FACULTAD REGIONAL AVELLANEDA
PROBABILIDAD Y ESTADÍSTICA UNIDAD 1: ESTADÍSTICA DESCRIPTIVA
Autores: Lic. Andrea Álvarez
Lic Luis Alberto Garaventa Mg. María Cristina Kanobel
Año 2014
2 UNIDAD 1: Estadística descriptiva
Como toda disciplina científica la Estadística tiene un lenguaje que le es propio. En el texto que sigue encontrarán los conceptos básicos de estadística que necesitan para afrontar el estudio
de la materia.
Esperamos que al finalizar la lectura del siguiente texto puedan diferenciar los conceptos
población de muestra, variable cualitativa de variable cuantitativa y censo de muestreo
¿QUÉ ES LA ESTADÍSTICA?
La Estadística es una ciencia que se ocupa de recolectar, organizar, y analizar información sobre un grupo de datos de forma tal que podamos obtener
conclusiones válidas sobre ellos.
Podemos clasificar la Estadística en dos ramas:
La ESTADÍSTICA DESCRIPTIVA trata sobre el procesamiento de los datos sin intenciones de
formular inferencias sobre ellos. Se ocupa de recolectar, organizar y procesar los datos sin intenciones de formular inferencias sobre ellos. Presenta datos por medio de gráficos y tablas
que describen una determinada situación particular. Esta es la noción de estadística que tiene asociada la mayoría de la gente.
La INFERENCIA ESTADÍSTICA es la disciplina científica que se ocupa de sacar conclusiones sobre determinado grupo de estudio para poder realizar inferencias a partir de los datos
obtenidos. En este rol de generar procedimientos válidos para el análisis de los datos, la estadística complace las necesidades de la investigación científica en sus diversas disciplinas.
POBLACIÓN y MUESTRA
Uno de los objetivos de la investigación estadística es explorar las características
de una población de utilizando sólo unas pocas observaciones. Por ejemplo: frente a una elección, si queremos pronosticar sus resultados, encuestamos a un grupo
reducido de votantes (ya que encuestar a todos sería un proceso engorroso y muy caro). Es decir que, mediante el grupo que encuestamos estamos analizando el comportamiento de
todos los votantes en las urnas.
Se denomina POBLACIÓN al conjunto de elementos de un grupo en estudio
La Teoría de la Probabilidad es la base del desarrollo y los fundamentos de la inferencia estadística
3 UNIDAD 1: Estadística descriptiva
Una población puede ser finita o infinita. Si podemos listar a los miembros de una población, entonces la población es finita. En caso contrario decimos que es infinita.
Los términos población y muestra son relativos. Por ejemplo, todos los habitantes de Córdoba constituyen una población respecto de Córdoba. En cambio, son una muestra cuando
la población en estudio son los habitantes de la Argentina. Para obtener conclusiones sobre una población infinita o cuando el estudio de una población
finita es costoso, es conveniente trabajar con muestras.
VARIABLES ESTADÍSTICAS
Las variables pueden clasificarse en dos grandes grupos: cuantitativa o numérica: son aquellas variables que toman valores numéricos.
cualitativa o categórica: son aquellas definidas por clases o categorías
Cuando los valores que toma una variable cuantitativa pertenecen a un conjunto finito o infinito numerable decimos que la variable es discreta. En caso contrario, decimos que es continua.
Cuando en una variable cualitativa podemos ordenar los datos, decimos que la variable es
ordenable. En caso contrario decimos que es no ordenable. Las variables generadas por la ausencia o presencia de una categoría se denominan
dicotómicas o binarias.
La característica que estudiamos de una población es lo que denominamos VARIABLE.
Una MUESTRA es el conjunto de elementos que componen una parte representativa de la población de estudio
4 UNIDAD 1: Estadística descriptiva
f
PARÁMETRO Y ESTADÍSTICO
Un parámetro es un número fijo que resume información sobre la población en cambio, el
estadístico depende de la muestra seleccionada.
MATRICES DE DATOS
Cuando se relevan varias características de una población, los datos se
organizan en una matriz llamada matriz de datos. En una matriz de datos consignamos las unidades de observación en las filas y
las variables en las columnas como en el ejemplo que sigue:
En esta tabla encontramos 5 observaciones de variables vinculadas con una investigación en empresas constructoras acerca de los salarios de los empleados del área específica de la construcción.
Edad Sexo Categoría Antigüedad Titulo Salario
25 F J 1 E $8000
35 M SS 10 I $25000
28 F SS 5 A $20000
30 M J 5 M $9000
55 M S 25 I $5000
Por categoría se consigna: J (Junior) SS (Semi – Senior) S (Senior)
Por Antigüedad entendemos el tiempo que lleva trabajando en este empleo o en otras empresas pero con funciones similares
Por Título categorizamos I: (Ingeniero), A (Arquitecto) E (Estudiante de Ingeniería o
Arquitectura) M (Maestro Mayor de Obras, que no continúa sus estudios superiores)
TABLAS DE FRECUENCIAS
Las tablas de frecuencias permiten ordenar los datos de una muestra para que se pueda leer la información en forma más clara. Se definen distintos tipos de
frecuencias:
Se simboliza
Se denomina frecuencia absoluta parámetro al número de veces que se
observa un dato
Se denomina parámetro a toda medida que describe una característica de una
población. Un estadístico es toda medida que describe una característica de una muestra
5 UNIDAD 1: Estadística descriptiva
Se calcula como:
Determina en términos de porcentajes qué parte del total de los datos corresponde
al dato determinado. Esto es:
Es decir:
En resumen, es posible organizar la información:
Siempre que sea posible, agrupamos los datos en tablas simples, que son aquellas que toman un solo valor por categoría, en caso contrario, debemos utilizar tablas agrupadas por intervalos,
en las cuales cada categoría se representa con un intervalo numérico.
Por ejemplo
a) Cantidad de hijos por familia. (Tabla simple)
X 0 1 2 3 4 5
Frecuencia 8 12 20 5 4 1
Se denomina frecuencia acumulada a la cantidad de datos observados menores o iguales que el dato determinado.
Se denomina frecuencia porcentual a la frecuencia relativa multiplicada por 100
Se denomina frecuencia relativa a la razón entre la frecuencia relativa y el
número total de datos
100.% frf
n
ffr
11
11
ifFF
fF
iii
6 UNIDAD 1: Estadística descriptiva
b) Concentración de alcohol en una muestra de 40 botellas de vino de mesa (tabla de datos agrupados)
Concentración [10; 11) [11; 12) [12; 13) [13; 14)
Frecuencia 15 18 5 2
LABORATORIO DE INFORMÁTICA
Analizaremos con un ejemplo cómo construir tablas de frecuencias.
Tabla de frecuencias para variable discreta
Para construir la tabla iremos siguiendo el procedimiento frente a la computadora, a partir del
siguiente ejemplo:
Una revista de la construcción realizó un relevamiento por encuesta para observar los hábitos de las familias que construyeron una casa nueva en el último año. Al grupo de encuestados se les consultó cuántos presupuestos, además del de el estudio contratado, solicitaron antes de cerrar el contrato. Las respuestas se volcaron en una matriz de datos
1 2 5 0 3 2 6 3 2 5
4 2 3 5 6 6 7 3 5 2
2 3 5 0 0 1 3 5 3 4
Es posible resumir la información anterior en una tabla de frecuencias. Para ello sigan los pasos
detallados en la siguiente imagen:
Luego de aceptar necesitamos copiar la fórmula en toda la tabla de frecuencias. Para ello:
Cargamos los datos en un rango de celdas (lo llamaremos matriz) En una columna escribimos los posibles valores que toma la variable. Nos posicionamos en la celda contigua al primer valor de la tabla Aplicamos la función estadística FRECUENCIA oprimiendo el asistente de fórmulas (marcado con un círculo en el gráfico)
En DATOS, seleccionamos el rango de celdas que contienen la matriz En GRUPOS, seleccionamos el rango de celdas que contienen los valores de la variable.
Aceptamos.
7 UNIDAD 1: Estadística descriptiva
seleccionamos la celda donde pegamos la fórmula
Llevamos el puntero hasta el extremo inferior derecho de la celda (el puntero cambiará de
una cruz blanca a una cruz más delgada y negra). En ese punto oprimimos el botón y arrastramos la fórmula hasta la última celda de la tabla.
Los datos que van a observar no se corresponden con la respuesta que esperaban. Ahora
deben proceder como se indica en la siguiente pantalla.
Tablas de frecuencias para datos agrupados
Para realizar en Excel una tabla de frecuencias con datos agrupados, procedemos de igual
forma que en la anterior sólo que los datos de la variable los separamos en dos columnas: en una anotamos los extremos inferiores de los intervalos y en la otra los extremos superiores.
Cuando asignamos la función frecuencia para armar la tabla, seleccionamos como grupo sólo la columna de los extremos superiores
GRÁFICOS ESTADÍSTICOS
Una forma de describir la información recolectada es mediante gráficos estadísticos. Entre los más usuales encontramos los siguientes:
Gráfico circular:
Se puede aplicar para todo tipo de
variables y permite ver la distribucion de los datos en relación proporcional al área
que ocupa cada sector. Una restricción para el uso de este tipo de gráfico es
que las categorías de la variable deben
ser excluyentes.
Hacer click en este punto. La pantalla se seleccionará
recuadrando los rangos del mismo color que las letras que los referencias. Luego
oprimir CTL+SHIFT+ENTER
DITRIBUCIÓN DE LOS EMPLEADOS
SEGÚN SEXO
30%
70%
femenino
masculino
Fuente: Registros de la oficina de personal
8 UNIDAD 1: Estadística descriptiva
Gráficos de columnas
Se utilizan para diversos tipos de presentaciones.
Cuando la variable representada es cualitativa, se pueden utilizar barras horizontales (esto permite una
mejor lectura de las categorías), cuando los datos
están agrupados en intervalos se suelen utilizar histogramas que son gráficos de columnas una a
continuación de la otra
Gráficos de líneas
Son adecuados cuando la variable
analizada es temporal. En este caso no deben confundirse con
gráficos de funciones continuas, dado que
los valores de la variable son discretos y se unen los puntos solo para facilitar la
lectura.
Existen otras formas de gráficos que se pueden encontrar en informes o en el menú de la
planilla de cálculo y que son, en cierta forma, variaciones respecto de estos tres modelos. Algunos aspectos que no deben dejar de tomar en cuenta al construir un gráfico es consignar
en el mismo: Un título que es la descripción de la variable que se releva
El tipo de dato que se representó en cada eje horizontal y, en el eje vertical de las
frecuencias, si los valores son absolutos, relativos o porcentuales.
Aclarar, cuando no sea absolutamente claro, la fuente de donde se extrajeron los datos
(esto se omite cuando los datos son producidos por el responsable del informe y en ese caso
solamente se aclara en el caso que los datos sean obtenidos de fuentes externas
MEDIDAS DE POSICIÓN Y DISPERSIÓN
Las medidas de posición y dispersión nos facilitan información sobre la serie de
datos que estamos analizando. Son medidas que sintetizan características de una
muestra o de una población.
Las medidas de posición se clasifican en:
a) Medidas de posición central o tendencia central: que informan sobre los valores medios de la serie de datos.
b) Medidas de posición no centrales: que describen cómo se distribuye el resto de los valores de la serie.
Describiremos a continuación las siguientes medidas de posición:
Unidades vendidas según tipo
58
43
23
50
20
0
20
40
60
80
2 amb 3 amb 4 amb duplex otros
Años
Can
tid
ad
de
un
idad
es
Fuente: Departamento de ventas
Unidades vendidas por año
325 350
198 225
350
0
100
200
300
400
2000 2001 2002 2003 2004
Años
Can
tid
ad
de
un
idad
es
Fuente: Departamento de ventas
9 UNIDAD 1: Estadística descriptiva
Si kf es la mayor de las frecuencias absolutas, entonces:
Veamos los siguientes ejemplos:
a) En la muestra
25 36 25 36 29 25 15
la moda es 25 porque tiene mayor frecuencia (3)
b) En la siguiente tabla de frecuencias
x f
1 5
2 10
3 15
4 15
Las modas son 3 y 4 porque corresponden a los valores de la variable que tienen mayor frecuencia.
En ese caso decimos que la muestra es bimodal (tiene dos modas)
LABORATORIO DE INFORMÁTICA
Usando el asistente de fórmulas, seleccionaremos la función estadística
MODA, en el cuadro de diálogo se propone ingresar Número1. Allí deben ingresar el rango de celdas que contienen los datos, o ingresar uno
por uno los datos llevando el cursor al renglón siguiente. En la siguiente imagen se explica el procedimiento:
Llamamos moda al valor que tiene mayor frecuencia en un grupo de datos
(muestra o población)
kxmo
centradas
No centradas
cuartiles
deciles
10 UNIDAD 1: Estadística descriptiva
Para calcular la mediana de un conjunto de datos, se ordenan y luego se determina como
mediana el valor central considerando:
Si el total n de datos es impar, entonces la mediana es el valor central. Esto es,el dato
ésimon
1
2
1
Por ejemplo:
Para los datos de la muestra 2 2 4 4 4 7 7 7 9 10 10
11n
612
1n la mediana es el 6°dato
Significa que los datos que forman la primera mitad (50% de los más chicos), no superan 7 y
los datos que forman la segunda mitad (50% de los más grandes) no son superados por 7.
Si el total n es par, entonces la mediana es el promedio de los datos ésimon
2y
ésimon
1
2
Por ejemplo, si los datos de la muestra son: 2 2 4 4 4 7 7 9 10 10
Entonces será:
10n
Llamamos mediana al valor que divide a la muestra (ordenada de menor a
mayor) en dos subconjuntos que tienen la misma cantidad de datos
7me
2 2 4 4 4 7 7 7 9 10 10
50% 50%
me
11 UNIDAD 1: Estadística descriptiva
52
ny 61
2
n la mediana es el promedio entre el 5° dato y el 6°dato
Esto significa que los datos que forman la primera mitad (50% de los más chicos), no superan 5,5 y los datos que forman la segunda mitad (50% de los más grandes) no son superados por
5,5.
LABORATORIO DE INFORMÁTICA
En el asistente de fórmulas, usaremos la función estadística es MEDIANA, en el cuadro de diálogo se propone ingresar Número1. Allí deben Ingresar el
rango de celdas que contienen los datos, o ingresar uno por uno los datos llevando el cursor al renglón siguiente
Si los datos estuvieran organizados según una tabla de frecuencias, la media es el
promedio ponderado de los valores de la variable, siendo la frecuencia absoluta
( f ) la que proporciona el peso a cada valor.
siendo ix un dato
Llamamos media al promedio aritmético de los valores de la muestra.
n
x
x
n
i
i 1
5,52
74
me
2 2 4 4 4 7 7 9 10 10
50% 50%
Me =5,5
12 UNIDAD 1: Estadística descriptiva
siendo ix un valor de la variable X
Por ejemplo
a) el promedio de los siguientes números: 7, 9, 12, 16 es 4
161297x
b) En la tabla con datos agrupados
x f
10;0 20
20;10 15
30;20 10
40;30 25
50;40 5
En este caso decimos que el intervalo modal es 40;30 o bien, que aproximamos la moda
en 35.
En distribuciones representadas mediante histogramas la mediana es el valor que divide al gráfico en dos partes de igual área
0
10
20
30
40
50
60
kP es el número que supera al k% de los datos más chicos y es superado por el
(100-k)% de los datos más grandes. En particular, 15P es el número que supera al
15% de los datos más chicos y es superado por el 85% de los datos más grandes.
Observación: la mediana es el percentil 50 (me= 50P )
Entre los percentiles se destacan los deciles y los cuartiles:
Los percentiles de una distribución (ordenada de menor a mayor) son los valores que la dividen en cien partes iguales.
Me
n
fx
x
k
i
ii 1
.
13 UNIDAD 1: Estadística descriptiva
Veamos los siguientes ejemplos:
a) En la siguiente tabla de frecuencias, X representa la cantidad de hijos de un grupo de
personas.
x f F
0 4 4
1 7 11
2 4 15
3 3 18
4 2 20
La matriz de datos es la siguiente:
Buscamos los Cuartiles:
54
20n
n cada una de las cuatro partes tendrá 5 datos
El promedio entre el último dato de la primera parte y el primero de la segunda parte es el
cuartil 1: 11 Q
Los cuartiles de una distribución (ordenada de menor a mayor) son los
valores que la dividen en cuatro partes iguales.
Los deciles de una distribución (ordenada de menor a mayor) son los valores que la dividen en diez partes iguales.
909
202
101
...................
PD
PD
PD
753
502
251
PQ
mePQ
PQ
0 0 0 0 1 1 1 1 1 1 1 2 2 2 2 3 3 3 4 4
0 0 0 0 1 1 1 1 1 1 1 2 2 2 2 3 3 3 4 4
11 Q
12 Q 5,23 Q
44 Q
14 UNIDAD 1: Estadística descriptiva
El promedio entre el último dato de la segunda parte y el primero de la tercera parte es el
cuartil 2: 12 Q
El promedio entre el último dato de la tercera parte y el primero de la cuarta parte es el
cuartil 3: 5,23 Q
El último dato es el cuartil 4: 44 Q
b) Observen la siguiente muestra de 25 datos
%75
1 1 2 3 3 4 4 5 5 5 5 6 7 7 8 8 8 8 8 9 9 9 10 11 12
%40
El percentil 40 ( 40P ) es el valor que deja a la izquierda el 40% de los valores. El 40% de 25 es
10 por lo tanto el Percentil es 5.
El tercer cuartil 3Q es equivalente al Percentil 75, por lo tanto, el 75% de 25 es 18,75. Por lo
que aproximaremos como 3Q al valor que se encuentra en la posición 19 que es 8.
Simbólicamente escribiremos 8Qy5P 340
Las técnicas para calcular percentiles y cuartiles son varias, y las diversas bibliografías proponen
fórmulas distintas de cálculo para aproximarlos. Nosotros trabajaremos con el concepto y aplicando la proporcionalidad directa aproximaremos
los percentiles o, en la mayoría de los casos, recurriremos a la planilla de cálculo.
LABORATORIO DE INFORMÁTICA
Usando el asistente de fórmulas, la función estadística es PERCENTIL, en el cuadro de diálogo se propone ingresar Número1. Allí deben Ingresar el rango
de celdas que contienen los datos, o ingresar uno por uno los datos llevando el cursor al renglón siguiente.
¿Es suficiente el promedio para representar una muestra?
Los locales A y B tienen 3 empleados cada una que ganan en promedio $8000
mensuales. Ambos negocios están uno al lado del otro en un shopping center y
P40 Q3
P40
15 UNIDAD 1: Estadística descriptiva
venden el mismo tipo de ropa. A simple vista pareciera que ambas tiendas tienen la misma política salarial, pero veamos el detalle:
Local A
Laura gana $9000.- (es la encargada) Inés gana $8000.- (es vendedora)
Pedro gana $7000.- (es el cadete)
Local B
Diego gana $12000.- (es el encargado) Susana gana $8000.- (es la vendedora)
Emiliano es el cadete (cuánto gana?)
Veamos los datos en un gráfico:
En el caso A los tres sueldos están próximos a la recta promedio. En el caso B no lo están. Con
lo que se hace evidente que la media por sí sola no es una buena síntesis de las características de la muestra.
Se hace necesario buscar un valor para medir esa dispersión ya que en este caso es muy evidente que no son iguales pero hay casos en los que se hace muy difícil ver cuál es la
muestra en la que los datos están más dispersos. Una forma de aproximar a esta medida podría ser promediar las diferencias entre cada valor y
el promedio:
Lo calculamos para el local A 9000 8000 8000 8000 7000 8000
03
Pero
da cero siempre. Una manera de evitar esto es elevar al cuadrado las diferencias para evitar que al sumar los
opuestos se cancelen y la suma de cero.
A la medida que se calcula de esta forma se la llama Varianza muestral y se la simboliza con 2S
3
800070008000800080009000222
2 S =666666,67
El inconveniente con el uso de la varianza es que queda expresada en unidades cuadradas. Por
ejemplo para el caso del local A la varianza da 6666,67 pesos al cuadrado. Para evitar esto y trabajar con una medida que esté expresada en la misma unidad de medida
que la media definimos el desvío estándar que es la raíz cuadrada de la varianza.
MEDIDAS DE DISPERSIÓN
Para describir y resumir el comportamiento de un conjunto de datos se hace necesario, no sólo conocer las medidas de posición que los caracterizan, sino
también otras medidas que sintetizan cómo se distribuyen dichos datos alrededor
del promedio. Para ello recurrimos a las llamadas medidas de variabilidad o dispersión:
Diego
Laura Inés
Pedro$
$$
$
$
$
Susana
Emiliano
16 UNIDAD 1: Estadística descriptiva
Para un conjunto de datos se calcula como
Si los datos están organizados según una tabla de frecuencias, la varianza es el promedio
ponderado de los cuadrados de los desvíos de los valores de la variable respecto de la media
aritmética, siendo la frecuencia absoluta ( f ) la que proporciona el peso a cada valor.
Su fórmula es la siguiente:
Es decir:
Es una especie de “desvío promedio”; representa de alguna forma a todos los
desvíos sin contemplar su signo.
LABORATORIO DE INFORMÁTICA
Usando el asistente de fórmulas, la función estadística para el desvío
estándar es DESVEST en el cuadro de diálogo se propone ingresar Número1. Allí deben Ingresar el rango de celdas que contienen los datos, o ingresar uno
por uno los datos llevando el cursor al renglón siguiente
Definimos desvío standard como la raíz cuadrada de la varianza
Llamamos varianza al promedio de los cuadrados de los desvíos de los
datos respecto de la media aritmética
n
xx
s
n
i
i
1
2
2
n
fxx
s
k
i
ii
1
2
2
2ss
17 UNIDAD 1: Estadística descriptiva
Se expresa en porcentaje y expresa qué parte de la media representa el desvío. Esto es:
El coeficiente de variación es una medida que relaciona la media y el desvío de una muestra y
permite comparar muestras en función de la homogeneidad. Dadas dos muestras será más homogénea aquella que tenga el menor coeficiente de variación.
Media acotada
Respecto del coeficiente de variación hay una cuestión que se hace muy importante
para tener en cuenta: cuando una muestra tiene una gran dispersión, la media no es una medida adecuada como síntesis de información de la muestra y se deben
recurrir a otras medidas como la mediana o la moda para representarla. Otra estrategia cuando las muestras no son pequeñas cuando se observa una gran dispersión
relativa, es trabajar con los valores centrales y para ello se usa la MEDIA ACOTADA.
Por ejemplo una media acotada al 80% se calcula despreciando el 10% de los valores menores y el 10% de los valores superiores para evitar que los extremos modifiquen el valor de la media
En la muestra:
15 158 170 195 165 172 185 192 195 1500
Observamos que el 15 y el 1500 son valores extremos. Si calculamos el promedio,
obtenemos 7,294x que es un valor muy poco representativo de los valores de la muestra. Si
excluimos los valores extremos 15 y 1500 estamos tomando el 80% de los valores centrales y
Media acotada es el promedio de los datos centrales sin considerar
valores extremos.
Coeficiente de variación es la relación entre el desvío estándar y la
media aritmética.
100... %x
svc
18 UNIDAD 1: Estadística descriptiva
el promedio nos da %80x =179 que es un valor comprendido en el rango que determina la
mayor cantidad de datos de la muestra
LABORATORIO DE INFORMÁTICA
Usando el asistente de fórmulas, la función estadística para la media acotada es MEDIA.ACOTADA. En el cuadro de diálogo se propone ingresar matriz. Allí
se ingresa el rango de celdas que contienen los datos, y en otro renglón se les solicitará el porcentaje. En este punto deben consignar el porcentaje de datos que, en total,
quitarán de la muestra para recalcular. Por ejemplo para tomar un 80% de los datos centrales
(en el ejemplo que se ve en la pantalla para excluir al 1 y al 150) se debe poner 0,20 que representa el porcentaje que se excluye de la muestra.
Cálculo de medidas de posición y dispersión en el caso de variables continuas
Cuando la variable es continua, los datos se agrupan en intervalos de clase (intervalos de números reales).
Para hallar la media aritmética, la varianza, el desvío estándar y el coeficiente de variación, se
utilizan las mismas definiciones dadas para variables discretas, tomando como ix a la marca de
clase del intervalo. Para el cálculo de la moda, sólo indicamos el “intervalo modal” (intervalo que contiene la
moda) el cual es el que tiene la mayor frecuencia absoluta. Es decir, es el intervalo al cual
pertenecen la mayoría de los datos. Un valor estimativo de la moda es ix .
Análogamente se procede con el cálculo de la mediana y los percentiles.
Se llama marca de clase al punto medio del intervalo de clase. A este valor
se lo designa como xi