estadistica

92
ESTADÍSTICA Jorge Ulises Camacho Liévano 1

Upload: ulises-camacho-lievano

Post on 07-Nov-2015

41 views

Category:

Documents


0 download

DESCRIPTION

Estadistica

TRANSCRIPT

estadstica

estadsticaJorge Ulises Camacho Livano1introduccinLa palabra viene del latn statisticus que significa del estadoPor mucho tiempo, la palabra estadstica se refera a informacin numrica sobre los estados o territorios polticos.John Graunt (1620-1674) fue el primero en publicar sobre el anlisis estadstico y su trabajo llev al desarrollo de las ciencias actuariales utilizadas por las compaas de seguros; estudiaba los expedientes de los nacimientos y muertes descubri que nacan ms nios que nias, pero tambin encontr que por estar los hombres ms expuestos a accidentes ocupacionales , a enfermedades y la guerra, el nmero de hombres y mujeres en la edad de casarse era ms o menos la misma.2Qu es?Es una coleccin de mtodos para planificar y realizar experimentos, obtener datos y luego analizar, interpretar, y formular una conclusin basada en esos datos.La estadstica se puede definir como la ciencia que recopila, organiza, analiza e interpreta la informacin numrica o cualitativa, mejor conocida como datos, de manera que pueda llevar a conclusiones vlidas.3La estadstica descriptiva es la ciencia que recopila, organiza e interpreta la informacin numrica cualitativa. Los peridicos, revistas, radio y televisin usan la estadstica descriptiva para informar y persuadirnos acerca de ciertas acciones a tomar y en la formacin de opiniones.4La estadstica inferencial es la ciencia que interpreta informacin de manera que pueda llevar a conclusiones vlidas. Los gobiernos y las organizaciones utilizan la estadstica para tomar decisiones que afectan directamente nuestras vidas.5Elemento, poblacin, muestraElemento es cada unidad utilizada para un estudio estadstico. Por ejemplo, el conjunto de los datos 3, 5, 5, 3, 7, 2, 4, 1 contiene 8 elementos.Poblacin es la totalidad de los elementos del grupo particular que se estudia.Por ejemplo una empresa que est llevando a cabo un estudio a todos los 350 empleados de la empresa; la poblacin es todos los empleados de la empresa.6Una muestra es un subconjunto de una poblacin.Una muestra es representativa de la poblacin si al escogerla cada elemento tiene la misma probabilidad de salir o de ser escogido.Por ejemplo, la empresa del ejemplo anterior escoger 100 empleados de los 350 para hacerles un estudio.78Medidas de tendencia central8Media, mediana, modaLa media es la suma de los valores de los elementos dividida por la cantidad de stos. Es conocida tambin como promedio, o media aritmtica.Frmula de la media:

Media Poblacional = 9

= sumatoria = mediaN = nmero de elementosX = valores o datos

MediaEsta frmula se lee:mu es igual a la sumatoria de x dividido entre N

Media Muestral:

Ejemplo: Calcular la media de los siguientes nmeros:10 , 11 , 12 , 12 , 131. Sumar las cantidades < 10 + 11 + 12 + 12 + 13 = 58>2. Dividir la suma por la cantidad de elementos < 58/5>3. El resultado es la media 10

MedianaLa mediana es el valor del elemento intermedio cuando todos los elementos se ordenan.

Frmula de la mediana:

Mediana = X[n/2 +1/2]

Donde X es la posicin de los nmeros y n es el nmero de elementos.

11La parte de [n/2 + 1/2] representa la posicinmedianaEjemplo: Buscar la mediana de los siguientes nmeros: 2 4 1 3 5 6 3

Primero, hay que ordenarlos: 1 2 3 3 4 5 6X1 X2 X3 X4 X5 X6 X7 ( Las posiciones de los nmeros)Mediana = X[7/2 + ]X[3.5 + .5] < Se cambi el a .5>X4 < La mediana est en la posicin 4>Por lo tanto, la mediana es 3.12medianaNota: Si el nmero de elementos es impar, la mediana es el nmero del elemento intermedio. Si el nmero de elementos es par, hay que utilizar los dos nmeros intermedios.10 , 11 , 12 , 13 , 14 , 15 , 16, 18

Ahora, para buscar la mediana:1. Sumar ambos nmeros. 2. Dividirlo entre 2. < 27/2 = 13.5>3. El resultado es la mediana. < 13.5>13modaLa moda es el valor que se presenta el mayor nmero de veces.

Ejemplo 1: Buscar la moda de:

5 12 9 5 8 7 1

Como la moda es el nmero que ms se repite, la moda es 5.14modaEjemplo 2: Buscar la moda de :

23 35 45 33 47 31 29 22

Como ningn nmero se repite, no tiene moda.

1516PRUEBAS ESTADISTICAS16Pruebas Paramtricas17Se llaman as porque su clculo implica una estimacin de los parmetros de la poblacin con base en muestras estadsticas. Mientras ms grande sea la muestra ms exacta ser la estimacin, mientras ms pequea, ms distorsionada ser la media de las muestras por los valores raros extremos. Ventajas de las Pruebas ParamtricasTienen mas poder de contrasteMs poder de eficiencia. Ms sensibles a los rasgos de los datos recolectados. Menos posibilidad de errores. Completas (dan estimaciones probabilsticas bastante exactas).

18Cules son los mtodos o pruebas estadsticas paramtricas ms utilizadas?Coeficiente de Correlacin de Pearson y la regresin lineal

Prueba t de student

Prueba de contraste de la diferencia de proporciones

Anlisis de varianza unidireccional (ANOVA Oneway)

Anlisis de varianza factorial (ANOVA)

Anlisis de covarianza (ANCOVA)

19Tipos de pruebas20Prueba t (student): Es una prueba parametrica que es utilizada para comparar las medias de dos grupos independientes. Nos permite establecer diferencias estadsticamente significativas entre las medias de dos grupos.Para esto se ve el valor de p o de significancia estadstica debe ser mayor que 0.05. Que es el nivel de significancia? La probabilidad de que un evento ocurra oscila entre 0 y 1, donde:0= significa la imposibilidad de ocurrencia1=la certeza de que ocurra el fenmeno 21 Anova:

Es una prueba estadstica para analizar si dos o mas grupos difieren significativamente entre si, en cuanto a sus medias y varianzas.Se utiliza para la comparacin de medias de 2 o mas grupos. 22Pruebas no paramtricas23Se denominan pruebas no paramtricas aquellas que no presuponen una distribucin de probabilidad para los datos, por ello se conocen tambin como de distribucin libre (distribution free).Cules son los mtodos o pruebas estadsticas no paramtricas ms utilizadas?La Ji cuadrada o Chi cuadradraPrueba de Wilcoxon para contrastar datos pareados.Prueba de Mann-Whitney para muestras independientesPrueba de Kruskal-Wallis para comparar K muestrasPrueba de Friedman para comparar K muestras pareadas (bloques)Coeficiente de correlacin de Spearman para rangosPrueba de rachas de Wald-Wolfowitz24Qu es la Ji cuadrada o Chi Cuadrado?Definicin:Es una prueba estadstica para evaluar la hiptesis acerca de la relacin entre dos variables categricas

Se simboliza por x2

Hiptesis a probar: Correlacionales

Variables Involucradas: Dos

Nivel de medicin de las variables :Nominal u ordinal (o intervalos o razn reducida a ordinales)

La Chi cuadrada se calcula a travs de una tabla de contingencia o tabulacin cruzada, de dos dimensiones y cada una representa una variable.

25Tipos de hipotesis26NULA (H0): Es aquella en la que se asegura que los dos parmetros analizados son independientes uno del otro.

ALTERNATIVA (H1): Es aquella en la que se asegura que los dos parmetros analizados s son dependientes.27T de student, anova y chi cuadrada27Distribucin t de StudentLa distribucin de Student fue descrita en 1908 por William Sealy Gosset. Gosset trabajaba en una fbrica de cerveza, Guinness, que prohiba a sus empleados la publicacin de artculos cientficos debido a una difusin previa de secretos industriales. De ah que Gosset publicase sus resultados bajo el seudnimo de Student.

Historia28R.A. Fisher quien apreci la importancia de los trabajos de Gosset sobre muestras pequeas, tras recibir correspondencia de Gosset en la que le deca le envo una copia de las Tablas de Student, ya que es la nica persona que probablemente las use jams!

La estadstica de Gosset era z=t/(n-1). Fisher introdujo la forma t debido a que se ajustaba a su teora de grados de libertad Fisher es responsable tambin de la aplicacin de la distribucin t a la regresin.Distribucin t de StudentHistoria

29En probabilidad y estadstica la distribucin t de student es una distribucin de probabilidad que surge del problema de estimar la media de una poblacin normalmente distribuida cuando el tamao de la muestra es pequea

Distribucin t de StudentDefinicin30Se utiliza para hacer estimaciones de parmetros de las poblaciones a partir de los valores de los estadsticos correspondientes en las muestras, cuando se desconoce el valor de la varianza o la desviacin estndar de la poblacin.

Definicin311. cada curva t tiene forma de campana con centro en 0.Cada curva t, es mas dispersa que la curva normal estndar.A medida de que aumenta, la dispersin de la curva t correspondiente disminuye. a medida de que k tiende a infinito, la secuencia de curvas t se aproxima a la curva normal estndar.

Propiedades32Cuando la desviacin estndar del estadstico se estima a partir de datos, el resultado se llama error estndar del estadstico. El error estndar se calcula usando la formula:

Error Estndar33Cuando conocemos el valor de la desviacin estndar , basamos los intervalos de confianza y las pruebas para la media en ele estadstico z de una muestra.

T= media muestra-media/ desviacin estndar/ raz n34Representan el nmero de datos independientes que se pueden tomar de la poblacin para construir la muestra, de tal manera que los valores de los estadsticos en la muestra sean cercanos a los valores de los parmetros correspondientes en la poblacin.Al escoger una muestra de tamao n, el numero de datos independientes que se pueden tomar es n-1, ya que el ultimo dato que se escoja, es el que viene a definir el valor del estadstico en la muestra gl=n-1Grados de Libertad35

Representacin Grafica 36

Representacin Grafica 3738anova38Qu es el anlisis de varianza?En estadstica, el anlisis de la varianza (ANOVA, ANalysis Of VAriance, segn terminologa inglesa) es una coleccin de modelos estadsticos y sus procedimientos asociados, en el cual la varianza est particionada en ciertos componentes debidos a diferentes factores (variables).Es una prueba estadstica para analizar si dos o mas grupos difieren significativamente entre si, en cuanto a sus medias y varianzas.Se utiliza para la comparacin de medias de 2 o mas grupos.

3939Cmo surge ANOVA?Las tcnicas iniciales del anlisis de varianza fueron desarrolladas por el estadstico y genetista R. A. Fisher en los aos 1920 y 1930 y es algunas veces conocido como "Anova de Fisher" o "anlisis de varianza de Fisher", debido al uso de la distribucin F de Fisher como parte del contraste de hiptesis.

4040Para qu hacer un ANOVA?El anlisis de varianza lo vamos a utilizar para verificar si hay diferencias estadsticamente significativas entre medias cuando tenemos ms de dos muestras o grupos en el mismo planteamiento.41Para qu hacer un ANOVA?Su verdadero objetivo no es la variabilidad, sino otros contrastes, como la igualdad de medias o el ajuste en un problema de Regresin. 4243

43

44

45

46

47

DESVIACION ESTANDAR48

49

50

51

52

53

54

55

56

57

58

59

CONTROL DE PESO CON 3 DIETAS60

61

62

63

64

65

66

6768

69

70

71

72

73Chi cuadrada73PRUEBA CHI-CUADRADOChi-Cuadrado ( ) es el nombre de una prueba de hiptesis que determina si dos variables estn relacionadas o no.Pasos:Realizar una conjetura.Escribir la hiptesis nula y la alternativa.Calcular el valor de .Determinar el valor de p y el grado de libertad.Obtener el valor crtico.Realizar una comparacin entre el chi-cuadrado calculado y el valor crtico.Interpretar la comparacin.74

74TABLA DE CONTINGENCIAEs la tabla que contiene los datos obtenidos contados y organizados.

Ejemplo:75USO DE CINTURN DE SEGURIDADGNEROSNOFEMENINO5025MASCULINO404575FORMULACIN DE HIPTESISNULA (H0): Es aquella en la que se asegura que los dos parmetros analizados son independientes uno del otro.

ALTERNATIVA (H1): Es aquella en la que se asegura que los dos parmetros analizados s son dependientes.7676EJEMPLOMelissa conjetura que el uso de cinturn de seguridad, en los conductores, est relacionado con el gnero.

H0: El uso del cinturn de seguridad es independiente del gnero.H1: El uso del cinturn de seguridad no es independiente del gnero.7777TABLA DE FRECUENCIAS ESPERADASPara calcular todos y cada uno de los valores de la tabla de frecuencias esperadas se realiza:

78

787950254045REALIZAR UNA TABLA CON LOS VALORES DE LA TABLA DE CONTINGENCIA Y AADIR UNA FILA EN LA PARTE INFERIOR Y UNA COLUMNA EN LA PARTE DERECHA.79805025754045859070160SUMA DE FILASSUMA DE COLUMNASSUMA TOTALREALIZAR LAS SUMAS POR FILAS, POR COLUMNAS Y LA SUMA TOTALFRECUENCIAS DE VALORES OBSERVADOS808142.187532.812547.812537.1875

Usar la frmula para obtener las frecuencias esperadas.FRECUENCIAS DE VALORES ESPERADOS81CHI CUADRADO CALCULADOPara obtener el valor de Chi-Cuadrado Calculado se tiene la frmula82

82EJEMPLO8342.187532.812547.812537.187550254045TABLA DE VALORES OBSERVADOSTABLA DE VALORES ESPERADOS

83GRADO DE LIBERTAD vPara calcular el grado de libertad (v) se realiza:84

84EJEMPLO8550254045TABLA DE VALORES OBSERVADOS

85NIVEL DE SIGNIFICANCIAEs el error que se puede cometer al rechazar la hiptesis nula siendo verdadera.

Por lo general se trabaja con un nivel de significancia de 0.05, que indica que hay una probabilidad del 0.95 de que la hiptesis nula sea verdadera.

8686EJEMPLOMelissa conjetura que el uso de cinturn de seguridad, en los conductores, est relacionado con el gnero. Los datos se muestran en la tabla inferior. Melissa realiza la prueba de su conjetura usando chi-cuadrado con un nivel de significancia del 1%.

Entonces se tiene un nivel de significancia del 0.01.87USO DE CINTURN DE SEGURIDADGNEROSNOFEMENINO5025MASCULINO404587VALOR DEL PARMETRO pPara calcular el valor de p se realiza:

Ejemplo:88

88TABLA PARA VALORES DE CHI-CUADRADO CRTICO89

89EJEMPLO90

90COMPARACIN ENTRE LOS VALORES DEL CHI-CUADRADO CALCULADO Y EL CRTICOSi el valor del chi-cuadrado calculado es menor o igual que el chi-cuadrado crtico entonces se acepta la hiptesis nula, caso contrario no se la acepta.

Ejemplo:

Entonces se acepta la hiptesis nula, la cual es El uso del cinturn de seguridad es independiente del gnero.91

91Muchas Gracias92