3 analisis descriptivo de los datos -...
TRANSCRIPT
3 ANALISIS DESCRIPTIVO DE LOS DATOS
3.1 La tabulación de los datos3.1.1 Tabla de distribución de frecuencias.3.1.2 El histograma.
3.2 Medidas de tendencia central3.2.1 La media.3.2.2 La mediana.3.2.3 La moda.
3.3 Medidas de dispersión3.3.1 El rango.3.3.2 La varianza.3.3.3 Desviación estándar.3.3.4 El coeficiente de variación.3.3.5 La distribución normal y dispersión experimental en las medidas. (Practica de probabilidad para mostrar la distribución normal).
3.1.1 Tabla de distribución de frecuencias
Una distribución de frecuencias es una tabla enla que se organizan los datos en clases, es decir,en grupos de valores que describen unacaracterística de los datos y muestra el númerode observaciones del conjunto de datos quecaen en cada una de las clases.
3.1.1 Tabla de distribución de frecuencias
xo fi Fi fr Fr
xo: Variable ordenada
fi: Frecuencia Absoluta (ni)fr: Frecuencia Relativa.
Fi: Frecuencia Absoluta acumulada (Ni)Fr: Frecuencia Relativa acumulada
3.1.1 Tabla de distribución de frecuencias
En estadística se pueden distinguir hasta cuatro tipos de frecuencias, que son:
Frecuencia absoluta (fi): es el número de veces que un valor aparece en el estudio.
Frecuencia relativa (fr): es el cociente entre la frecuencia absoluta y el tamaño de la muestra (N). Es decir, ni / N = ni / i ni
Frecuencia absoluta acumulada (Fi): es el número de veces ni en la muestra N con un valor igual o menor al de la variable.
Frecuencia relativa acumulada (Fr): es el cociente entre la frecuencia absoluta acumulada y el número total de datos, N. Es decir, Fr = Fi / N
3.1.2 El histograma
Es una representación gráfica de una variable enforma de barras, donde la superficie de cadabarra es proporcional a la frecuencia de losvalores representados. En el eje vertical serepresentan las frecuencias, y en el ejehorizontal los valores de las variables,normalmente señalando las marcas de clase, esdecir, la mitad del intervalo en el que estánagrupados los datos.
3.1.2 El histograma. Construcción de un histograma
Paso 1Determinar el rango de los datos. Rango es igual al dato mayor menosel dato menor.Paso 2Obtener los números de clases.Existen varios criterios para determinar el número de clases (o barras)‐por ejemplo la regla de Sturgess‐. Sin embargo ninguno de ellos esexacto. Algunos autores recomiendan de cinco a quince clases,dependiendo de cómo estén los datos y cuántos sean. Un criteriousado frecuentemente es que el número de clases debe seraproximadamente a la raíz cuadrada del número de datos. Porejemplo, la raíz cuadrada de 30 ( número de artículos) es mayor quecinco, por lo que se seleccionan seis clases.
3.1.2 El histograma. Construcción de un histograma
Paso 3Establecer la longitud de clase: es igual al rango dividido por el númerode clases.Paso 4Construir los intervalos de clases: Los intervalos resultan de dividir elrango de los datos en relación al resultado del PASO 2 en intervalosiguales.Paso 5Graficar el histograma: En caso de que las clases sean todas de lamisma amplitud, se hace un gráfico de barras, las bases de las barrasson los intervalos de clases y altura son la frecuencia de las clases. Si seunen los puntos medios de la base superior de los rectángulos seobtiene el polígono de frecuencias.
3.1.2 El histograma. Ejemplo
frecuencia
Intervalos de clase
3.2 Medidas de tendencia central.3.2.1 La media
• es el número obtenido al dividir la suma detodos los valores de la variable entre elnúmero total de observaciones.
n
iix
nx
1
1
3.2 Medidas de tendencia central.3.2.1 La media
Ejemplo:
Xi = [54 59 63]
n
iix
nx
1
1
6.5863595431
x
3.2 Medidas de tendencia central.3.2.2 La mediana
• Representa el valor de la variable de posicióncentral en un conjunto de datos ordenados.
• Dada una distribución de frecuencias con losvalores ordenados de menor a mayor,llamamos mediana y la representamos porMe, al valor de la variable, que deja a suizquierda el mismo número de frecuenciasque a su derecha.
3.2 Medidas de tendencia central.3.2.2 La mediana
Ejemplo:en las cantidades 6,000 6,000 6,000 y 42,000 elpromedio es 15,000 y no representaadecuadamente la distribución de frecuencias.
6,000 6,000 6,000 42,000^
Mediana = 6,000
3.2 Medidas de tendencia central.3.2.2 La mediana
Ejemplo:
Para los números [5 6 7 8] la mediana es 6.5.
Para los números [3 4 5 5 5 6 7] la mediana es 5.
3.2 Medidas de tendencia central.3.2.3 La moda
• es el valor con una mayor frecuencia en unadistribución de datos.
• es el valor de la variable que más veces serepite.
3.2 Medidas de tendencia central.3.2.3 La moda
Ejemplo:Para los números [60 75 75 80 90]la moda es 75.
Para los números [60 74 82 85 90]la moda no existe.
3.3 Medidas de dispersión.3.3.1 El rango
• En estadística descriptiva se denomina rangoestadístico, R, o recorrido estadístico al intervalode menor tamaño que contiene a los datos.
• Se calcula mediante la resta del valor mínimo alvalor máximo.
• Es decir el rango es la diferencia entre el valormáximo y el valor mínimo de un conjunto dedatos. Cuanto mayor es el rango, más dispersosestán los datos de un conjunto.
3.3 Medidas de dispersión.3.3.2 La varianza
• la varianza (2) de una variable aleatoria esuna medida de dispersión definida comola esperanza del cuadrado de la desviación dedicha variable respecto a su media.
Donde: X es una variable aleatoria (xi). la media de X.
21)( XN
XVar
3.3 Medidas de dispersión.3.3.3 Desviación estándar
• La desviación estándar o desviación típica (σ) esuna medida de centralización o dispersión paravariables de razón (ratio o cociente) y deintervalo, de gran utilidad en la estadísticadescriptiva. Se define como la raíz cuadrada dela varianza. Junto con este valor, la desviacióntípica es una medida (cuadrática) que informa dela media de distancias que tienen los datosrespecto de su media aritmética, expresada en lasmismas unidades que la variable.
3.3 Medidas de dispersión.3.3.3 Desviación estándar
N
xxn
ii
1
2
3.3 Medidas de dispersión.3.3.4 El coeficiente de variación.
En estadística el coeficiente de variación adistintas escalas pero que estáncorrelacionadas estadísticamente ysustantivamente con un factor en común. Esdecir, ambas variables tienen una relacióncausal con ese factor. Su fórmula expresa ladesviación estándar como porcentaje de lamedia aritmética, mostrando una mejorinterpretación porcentual del grado devariabilidad que la desviación típica o estándar.
3.3 Medidas de dispersión.3.3.4 El coeficiente de variación.
100
xC
xC
v
v
3.3 Medidas de dispersión.3.3.4 El coeficiente de variación.
• Es típicamente menor que uno, pero, en ciertas distribuciones de probabilidad puede ser 1 o mayor que 1.
• Para su mejor interpretación se expresa como porcentaje.
• Depende de la desviación típica y en mayor medida de la media aritmética, dado que cuando ésta es 0 o muy próxima a este valor pierde significado, ya que puede dar valores muy grandes, que no necesariamente implican dispersión de datos.
3.3 Medidas de dispersión.3.3.5 La distribución normal y dispersión experimental en las medidas.
• (Practica de probabilidad para mostrar la distribución normal).
3.3 Medidas de dispersión.3.3.5 La distribución normal y dispersión experimental en las medidas.
• Es una distribución simétrica alrededor de la media con una curva de frecuencias en forma de campana. Media o Promedio
3.3 Medidas de dispersión.3.3.5 La distribución normal y dispersión experimental en las medidas.
• Consiste en comparar el Coeficiente de Variación entre los resultados de dos experimentos.