estadistica basica en uso.ppt [autoguardado]
Post on 28-Oct-2015
102 Views
Preview:
TRANSCRIPT
EstadísticaLIC. GASTÓN GARCÍA SIMÓN,
MSC. TOXICOLOGIA EXPERIMENTAL2013
PROGRAMA DEL CURSO
6. LA FORMA DE DISTRIBUCIÓN• Distribución simétrica• Distribución asimétrica• La Curtosis. Forma de expresarla
7. Regresión y correlación• Introducción• Diagrama de dispersión• Análisis de Regresión• Ajuste de una recta• Aplicación del método de los mínimos cuadrados• Coeficiente de correlación de Pearson• Coeficiente de correlación de Spearman.
8. Elementos de probabilidades.•Introducción•Tipos de probabilidades•Probabilidad de frecuencias relativas•Regla del complemento•Tipos de eventos
9. DISTRIBUCIÓN FUNDAMENTAL DE PROBABILIDADCLASIFICACIÓN
1.Variables discretas: •Distribución Binomial•Distribución de Poisson•Distribución Normal2, Variables continuas--Distribucion Normal--Distribucion de la t de Student--Distribucion de la χ2 de Pearson
10. ANALISIS DE VARIANZA (ANOVA)•Desarrollo del ANOVA•Pruebas para determinar las diferencias entre las medias, o sea pruebas post hoc.1.Prueba de los rangos múltiples de Duncan2.La prueba de Scheffe3.El test de Dunnett
11. LA PRUEBAS NO PARAMETRICaS.1. Introducción 2. Prueba de Wilcoxon para comparar dos grupos3. Desarrollo del ANOVA no paramétrico• La prueba de Kruskal Walis• Pruebas para determinar las diferencias entre las grupos , o sea pruebas post hoc. 1. Comparación múltiple de distribución libre
LA PALABRA ESTADÍSTICA comenzó a usarse en el siglo XVIII, en Alemania, en relación a estudios donde los grandes números, que representaban datos, eran de importancia para el estado. Sin embargo, la estadística moderna se desarrolló
EN EL SIGLO XX A PARTIR DE LOS ESTUDIOS DE KARL PEARSON.
Hoy LA ESTADÍSTICA tiene gran importancia, no sólo por que presenta información, sino que además permite inferir y predecir lo que va a ocurrir, y por lo tanto, es una herramienta fundamental a la hora de tomar decisiones de importancia.
¿PARA QUÉ SIRVE LA ESTADÍSTICA?
La Estadística se utiliza como tecnología al servicio de las ciencias donde la variabilidad y la incertidumbre forman parte de su naturaleza
La Bioestadística enseña y ayuda a investigar en todas las áreas de las Ciencias de la Vida donde la variabilidad no es la excepción sino la regla” Carrasco de la Peña (1982)
La Estadística es la Ciencia de la
•Sistematización, recogida, ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de
•deducir las leyes que rigen esos fenómenos,
•y poder de esa forma hacer previsiones sobre los mismos, tomar:
DECISIONES Y OBTENER CONCLUSIONES.
•Descriptiva
• Inferencia
ESTADÍSTICA DESCRIPTIVA: Describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos.
ESTADÍSTICA INFERENCIAL: Apoyándose en el calculo de probabilidades y a partir de datos muestrales, efectúa estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de datos.
MÉTODO CIENTÍFICO Y ESTADÍSTICA
Plantear hipótesis
Obtenerconclusiones
Recoger datosy analizarlos
Diseñar experimento
Pasos en un estudio estadístico
Plantear hipótesis sobre una población:
Los fumadores tienen “más bajas” laborales que los no fumadores debido a sus posibles patologias pulmonares y otras asociadas¿En qué sentido? ¿Mayor número? ¿Tiempo medio?.
También puede adecuarse a las plantas medicinales, o sea algunas tiene mayor efecto diurético, que otras a pesar de ser de la misma especie, a que puede deberse esto¿Tipo de cultivo? ¿ terreno en que se cultivan?, procedimiento de extracción del principio activo
Decidir qué datos recoger (diseño de experimentos).
• Qué individuos pertenecerán al estudio (muestras)Fumadores y no fumadores en edad laboral. Plantas obtenidas de un determinado herbario en determinada época del año.Criterios de exclusión ¿Cómo se eligen? ¿Descartamos los que padecen enfermedades crónicas? ¿Cuáles plantas se descartan?
• Qué datos recoger de los mismos (variables)Número de bajas, Tiempo de duración de cada baja¿Sexo? ¿Sector laboral? ¿Otros factores?Numero de plantas , forma de selección y quién la selecciona
Recoger los datos (muestreo)¿Estratificado? ¿Sistemáticamente?
PASOS EN UN ESTUDIO ESTADÍSTICO CONTINUACION. Describir (resumir) los datos obtenidos
• tiempo medio de baja en fumadores y no (estadísticos).
• Tipo de plantas cuyo extracto ejerce el efecto deseado
• % de bajas por fumadores y sexo (frecuencias), gráficos.
• % de plantas con actividad y sin ella. Realizar una inferencia sobre la población
• Los fumadores están de baja al menos 10 días/año más de media que los no fumadores.
• Las plantas cuyo efecto se pueda producir en los animales experimentales medible y que estadísticamente tengan diferencias significativas.
Cuantificar la confianza en la inferencia• Nivel de confianza del 95%
PREGUNTAS PARA RECAPITULAR LA CLASE # 1
1.Para que nos sirve la estadística
1.Ponga un ejemplo que nos demuestre qué se conoce como Bioestadística.
2.Ponga un ejemplo que nos indique ¿que es la estadística descriptiva?
3.¿Que se entiende por estadística inferencial).
4.Diseñe un experimento
PARTIENDO DE LA DEFINICIÓN DE ESTADÍSTICA DESCRIPTIVA: que es la que describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos.
Describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos.
Ejemplo:En la tabla podemos ver los datos de un análisis realizado en un hospital sobre un determinado tipo de patología en pacientes por sexo .
Sexo Cantidad de pacientes con el mal de Parkinson
Macho 125
hembra 106
Total 231
Partiendo de la definición deESTADÍSTICA INFERENCIAL: que es la que apoyándose en el cálculo de probabilidades y a partir de datos muestrales, efectúa estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de datos
Cantones Cantidad total de pacientes que
presentan como promedio el mal de Parkinson en el
_ cantón (X )
Machala 125
Guayaquil 87
Santa Rosa 150
Total 362
•OBTENER LAS CONCLUSIONES DE LOS RESULTADOS
DISEÑE UN EXPERIMENTO
Plantear hipótesis sobre una población:
Decidir qué datos recoger (diseño de experimentos).
Recoger los datos (muestreo).
Describir (resumir) los datos obtenidos
Cuantificar la confianza en la inferencia
CLASE NUMERO 2
CONCEPTOS BÁSICOSEn muchas ocasiones, para llevar a cabo una investigación se hacen encuestas, las cuales son dirigidas a una
MUESTRA REPRESENTATIVA DE LA POBLACIÓN.
Para comprender mejor este tipo de estudios es importante que conocer los siguientes términos básicos:
POBLACIÓN:
Es un conjunto de personas, eventos o cosas de las cuales se desea hacer un estudio, y tienen una característica en común. (hacer inferencia).
•Por su tamaño las poblaciones pueden ser finitas o infinitas
• Normalmente es demasiado grande para poder abarcarlo.
En la práctica, y para facilitar los cálculos, una población se considera “infinita” a partir de un tamaño de 10.000 individuos.
• La obtención de datos de una población se llama censo.
• Teóricamente un individuo puede tener infinitas características y por tanto puede formar parte de infinitas poblaciones.
MUESTRA:
Es un subconjunto cualquiera de la población; al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones).
Debería ser “representativo”.
Esta formado por miembros “seleccionados” de la población (individuos, unidades experimentales).
Un conjunto de individuos, según las circunstancias, puede ser población o muestra.
¿Como es esto ejemplifíquelo ?
Por ejemplo:Los alumnos de la Escuela serán “POBLACIÓN” cuando tomemos a unos cuantos de ellos para estimar la talla de todo el alumnado de la misma.
Y serán “MUESTRA” si toda la Escuela ha sido seleccionada para participar en un estudio a nivel nacional.
DE LA EXPERIENCIA DE SU PROPIA ESPECIALIDAD, DESCRIBA UN EJEMPLO DE POBLACIÓN y MUESTRA
ALGUNOS EJEMPLOS
Para determinar si un medicamento hipoglicemiante producido en una Empresa de Medicamentos tiene la calidad adecuada, o sea cumple los parámetros de calidad, se toman 5 frascos de 100 tabletas al azar de la producción de ese lote. ¿Cual es la población y cuál la muestra?
¿Cómo Ud planificaría el experimento?
Un grupo de investigadores desea estudiar el efecto afrodisíaco de las ratas ante un determinado medicamento, como paso de un estudio preclínico. Como se diseña el experimento para realizar los estudios pertinentes.
DESARRROLLO1.¿Como se planifica el diseño del efecto hipoglucemiante, en un ensayo preclínico?•Plantear hipótesis•Diseñar experimento•Recoger datos y analizarlos•Obtener conclusiones
1.¿ Como se planifica el diseño del efecto afrodisiaco?
VARIABLES
Una VARIABLE es una característica observable que varía entre los diferentes individuos de una población.
En los individuos de una población de uno a otro ES VARIABLE:
• El grupo sanguíneo {A, B, AB, O}
• Su nivel de felicidad “declarado” {Deprimido, Regular , Muy Feliz}
• El número de hijos {0,1,2,3,...}
• La altura {1’62 ; 1’74; ...}
PARA ESTUDIAR ALGUNA CARACTERÍSTICA ESPECIFICA DE LA POBLACIÓN SE PUEDEN DEFINIR LOS SIGUIENTES TIPOS DE VARIABLES:
VARIABLES CUALITATIVAS Y VARIABLES CUANTITATIVAS:
Variables cualitativasNo se expresan numéricamente es decir sus valores no se pueden asociar naturalmente a un número (no se pueden hacer operaciones algebraicas con ellos). , esto significa lo relativo a la cualidad; siendo la cualidad cada una de las circunstancias o caracteres, naturales o adquiridos, que distinguen a las personas o cosas.
Ejemplo: relacionadas con características no numéricas de un individuo.
por ejemplo: Atributos de una persona
Estado civil de una persona
colores de la córnea.
La Variables Cualitativas pueden enmarcarse como:
Nominales: Si sus valores no se pueden ordenar por Ej:
Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No).
Ordinales: Si sus valores se pueden ordenar. Es decirSerán datos cualitativos ordinales cuando ellos pueden ser jerarquizados en una relación de orden, por ejemplo la cualidad de educación se puede jerarquizar en educación básica, media, técnica, universitaria Mejoría a un tratamiento, Grado de satisfacción, la educación (poca educación, mucha educación);Intensidad del dolor
VARIABLES CUANTITATIVAS:Se expresan numéricamente es decir relacionadas con las características numéricas del individuo. Es decir significa lo relativo a la cantidad; siendo la cantidad todo lo que es capaz de aumento y disminución y puede, por consiguiente, medirse o numerarse.
De modo que estas mediciones numéricas llevan asociadas unidades físicas (no son números abstractos ¡sin dimensión!).
Estas mediciones se definen mediante una variable, puesto que lo que se va a medir son cantidades que son capaces de aumentar o disminuir, y esta variación lo define de buena manera una variable, ya que una variable es una magnitud que puede tener un valor cualquiera de los comprendidos en un conjunto
LAS VARIABLES CUANTITATIVAS SE DIVIDEN EN
DISCRETAS• (aquellas que no admiten otro valor entre 2 valores distintos y consecutivos) , es decir toman valores enteros.
•De modo que una variable será discreta si los valores que se asumirá pertenecen al conjunto de los números enteros, o en general a cualquier conjunto discreto (finito o infinito)
•Ejemplos
• Cantidad de caballos en una granja.
• Cantidad de ojos pardos
• Número de paciente con HPB y con HIV
• CONTINUAS• Aquellas que pueden tomar una infinidad de valores entre
dos de ellos.
• O sea será continua cuando la cantidad que se quiere medir será cualquier número que se encuentra en un intervalo de la recta real
Ej: Estatura de las personas, determinación de glucosa en sangre, etc
EJEMPLOSLlene con una x los casilleros correspondientes
CARACTERÍSTICA
CUANTITATIVA CUALITATIVA
discreta continua nominal ordinal
Estatura en m
Religión que profesa
Intensidad del dolor de muelas
Color del cabello
Ratas apareadas
Valores de GOT Y GPT en sangre
Respuesta Llene con una x los casilleros correspondientes. Respuestas
CARACTERÍSTICA
CUANTITATIVA CUALITATIVA
discreta continua nominal ordinal
Estatura en m x
Religión que profesa
x
Intensidad del dolor de muelas
x
Color del cabello
x
Ratas apareadas
x
Valores de GOT Y GPT en sangre
x
EJERCICIO PARA ENTREGAR
En la siguiente tabla diga cuales son variables cualitativas y cuales las cuantitativas y clasifíquelas :
CARACTERÍSTICA CUANTITATIVA CUALITATIVA
discreta continua nominal ordinal
Cantidad de hormigas en un hormiguero
El amigo es soltero
Frecuencia cardíaca
Medidas que vienen en una regla
Signos clínicos en un experimento . (Señalarlos)
Conjunto de personas felices
CARACTERÍSTICA
CUANTITATIVA CUALITATIVA
discreta continua nominal ordinal
Cantidad de hormigas en un hormiguero
x
Medidas que viene en una regla
x
Frecuencia cardíaca
x
Es amigo es soltero
x
Signos clínicos en un experimento.Señalarlos
x
Conjunto de personas felices
x
RESPUESTAS
EL TRABAJO CON PROGRAMAS ESTADISTICOS:
Cuando se trabaja con programas estadísticos es BUENO codificar las variables como números
Sexo (Cualitativo: Códigos arbitrarios) 1 = Hombre
2 = Mujer.
Raza (Cualitativo : Códigos arbitrarios)1 = Blanca2 = Negra.
Felicidad Ordinal: Respetar un orden al codificar.1 = Muy feliz2 = Bastante feliz3 = No demasiado feliz
Se pueden asignar códigos a respuestas especiales como 0 = No sabe99 = No contesta.
VEAMOS LOS SIGUIENTE EJEMPLO
VARIABLES CUALITATIVAS CODIFICADAS SON ANALIZADAS COMO VARIABLES DISCRETAS.
VARIABLES
Discretas
VARIABLESINDEPENDIENTES O PREDICTORAS: se establecen al inicio del experimento y se controlan por el investigador.Ej: La dosis del medicamento frente a un ensayode hipoglucemiantes, antitusígeno, cardiotónico, Hipotensor, diurético, laxante, antidiarreico.
DEPENDIENTE O VARIABLE CRITERIO: depende de los niveles de la variable independienteEj: Respuesta frente a la dosis, ej: a mayor dosis mayor efecto hipoglucemico en los animales de experimentación después de haberse hecho hiperglucémica a la rata Ejercicio de clases: Ponga ejemplos donde se presenten las variables dependiente e independientes
IDENTIFIQUE LAS VARIABLES
ESTADO NUTRICIONAL
SOBREVIVENCIA
POBRE (N1) BUENO (N2)
SOBREVIVE (S1)
72 79
MUERE (S2) 87 32
RESPUESTAVARIABLE INDEPENDIENTE: Estado nutricional (cualitativa ordinal)
VARIABLE DEPENDIENTE: Supervivencia (cualitativa ordinal)
EVALUATIVO:
SEÑALA UN EJEMPLO DE VARIABLES DEPENDIENTES E INDEPENDIENTES
(Empleando variables cuantitativas ó cualitativas)
EJEMPLO 2
SE PRODUCE UN MEDICAMENTO PARA DISMINUIR EL ESTADO FEBRIL DE LOS PACIENTES, EL MISMO SE ENSAYO EN LA FASE PRECLÍNICA EN ANIMALES DE EXPERIMENTACIÓN, PARA ELLO SE LE ADMINISTRA A LOS CONEJOS DETERMINADAS DOSIS DEL ANTIPIRÉTICO Y SE REGISTRA LA TEMPERATURA CORPORAL DE LOS ANIMALES .
¿ CUALES SON LAS VARIABLES: INDEPENDIENTE Y DEPENDIENTE
¿POR QUÉ?
VARIABLE INDEPENDIENTE: VARIABLE DEPENDIENTE:
EJEMPLO 2
SE ESTUDIA UNA POBLACIÓN PARA VER EL DAÑO CAUSADO POR UNA PLAGA EN PLANTAS QUE VAN A SER UTILIZADAS COMO DESINTOXICANTES. COMO DESCRIBIRÍA EL EXPERIMENTO Y COMO HARIA LA TOMA DE MUESTRAS CUAL UD CONSIDERA QUE SERIA LA VARIABLE INDEPENDIENTE Y CUAL LA DEPENDIENTE
Respuesta
Planteo de la hipótesis Diseño del experimento:
Variable independiente: las plantas Variable dependiente: el efecto que producen luego de haber sido infectada por una plaga .
Obtención de las datos.
Procesamiento de los resultados.
Conclusiones.
PRESENTACIÓN ORDENADA DE DATOSPRESENTACIÓN TABULAR: Su utilización resulta imprescindible para describir datos de fenómenos científicos, comerciales, educativos, sociales, ´políticos, etc, que en forma clara y adecuada se presentan en tablas estadísticas de ahí el termino tabular.
PRESENTACIÓN DE GRÁFICAS: Es la presentación de datos mediante gráficas constituyendo el medio más eficaz para que los mismos sean interpretados con claridad y objetividad. Por ello con justicia se dice:
¨Una buena gráfica vale por mil palabras¨
Sexo del encuestado
636 41,9 41,9
881 58,1 58,1
1517 100,0 100,0
Hombre
Mujer
Total
VálidosFrecuencia Porcentaje
Porcentajeválido
•
ESTRUCTURA DE LA TABLA ESTADÍSTICA
TITULO: EXPRESA EL CONTENIDO DE LA TABLA EN FORMA RESUMIDA Y CLARA. SE UBICA EN LA PARTE SUPERIOR DE LA MISMA
ENCABEZADO: CONSTITUYE LOS CONCEPTOS O TÍTULOS DEL CONTENIDO DE LAS COLUMNAS CORRESPONDIENTES A LA COLUMNA MATRIZ Y CUERPO DE LA TABLA
COLUMNA MATRIZ: ES LA PRIMERA COLUMNA DE LA TABLA QUE DETALLA LA CLASIFICACION DE LOS DATOS ES DECIR EL TIPO DE SERIE ESTADISTICA.
CUERPO CONSTITUYE LA EXPRESION CUANTITATIVA DEL FENOMENO INVESTIGADO Y QUE SE EXPRESA MEDIAN TE LAS CANTIDADES A PARTIR DE LA SEGUNDA COLUMNA DE LA TABLA
PRESENTACIÓN GRAFICATIVA ES LA PRESENTACION DE LOS DATOS MEDIANTE GRAFICAS CONSTITUYENDO EL MEDIO MAS EFICAZ PARA QUE LOS MISMOS SEAN INTERPRETADOS CON CLARIDAD Y OBJETIVIDAD
ESTRUCTURA DE LA TABLA ESTADISTICA(TITULO).VENTAS ANUALES DE UN MEDICAMENTO, SINTETICO O DE ORIGEN VEGETALEN UNA FARMACIAENCABEZADO: AÑOS,. PRODUCTOS MEDICAMENTOSOS DE ORIGEN SINTETICO O VEGETAL OTROS ARTICULOS QUE PUEDEN EXPENDERSE EN LA MISMA, SUBTOTAL, CREMA DENTAL, LOCIONES,, TOTAL COLUMNA MATRIZ: ES LA PRIMERA COLUMNA DE LA TABLA QUE DETALLA LA CLASIFICACION DE LOS DATOS , EN ESTE CASO LA SERIE ES CRONOLOGICACUERPOCONSTITUYE LA EXPRESION CUANTITATIVA DEL FENOMENO INVESTIGADO (VENTAS).PRESENTACION GRAFICATIVASE UTILIZAN LAS GRAFICAS PARA QUE SEAN MAS COMPRENSIBLES LOS RESULTADOSAÑO
SPRODUCTOS
MEDICAMENTOS
SUBTOTAL
CREMA DENTAL, LOCIONES
TOTAL
2010 80 25 105 15 120
2011 105 35 140 40 180
2012 250 48 300 12 312
TOTAL
435 108 545 65 612
Ordenando la información•Al ordenar datos muy numerosos, es usual agruparlos en :
CLASES O CATEGORÍAS.• Al determinar cuantos pertenecen a cada clase, establecemos
LA FRECUENCIA. •Construimos así una tabla de datos llamada:
TABLA DE FRECUENCIA.
LAS TABLAS DE FRECUENCIAS Y LAS REPRESENTACIONES GRÁFICAS son
DOS MANERAS EQUIVALENTES de presentar la información. LAS DOS EXPONEN ORDENADAMENTE LA INFORMACIÓN RECOGIDA EN UNA MUESTRA
POR EJEMPLO PODEMOS VER:
Género Frec.
Hombre 4
Mujer 60
1
2
3
4
5
6
7
Hombre Mujer
TABLAS DE FRECUENCIAS Y REPRESENTACIONES GRÁFICAS
Ejemplo:
Los siguientes datos corresponden a las notas obtenidas por un curso de 24 alumnos en un
trabajo de matemática:
4.24.2 5.05.0 5.65.6 5.05.0
3.23.2 4.24.2 5.65.6 6.06.0 2.82.8
3.93.9 4.24.2 4.24.2 5050 5.05.0
3.93.9 3.93.9 3.23.2 3.23.2 4.24.2
5.65.6 6.06.0 6.06.0 3.23.2 6.06.0
DEFINICIONES:1. LA FRECUENCIA ABSOLUTA DE UNA CLASE ES EL NUMERO DE DATOS QUE FORMA DICHA CLASE. O SEA QUE APARECE CADA VALOR DE LA VARIABLE.
2. LA FRECUENCIA RELATIVA CORRESPONDE A LA RAZÓN ENTRE LA FRECUENCIA ABSOLUTA Y EL TOTAL DE DATOS, LA CUAL SE PUEDE EXPRESAR MEDIANTE EL USO DE PORCENTAJES. REPRESENTAN LA RELACIÓN ENTRE LA FRECUENCIA ABSOLUTA Y EL TAMAÑO DE LA MUESTRA. (PORCENTAJES Y PROPORCIONES)
3. 3. FRECUENCIA RELATIVA ACUMULADAFRECUENCIA RELATIVA ACUMULADA: RELACIÓN ENTRE LA FRECUENCIA ABSOLUTA ACUMULADA DIVIDIDO POR EL TAMAÑO DE LA MUESTRA (N).
Ordenando la información
NotaNota Frecuencia Frecuencia Absoluta (f i)Absoluta (f i)
Frecuencia Frecuencia Relativa (h i)Relativa (h i)
Frecuencia Frecuencia relativa relativa
porcentual (%)porcentual (%)2.82.8 11 1/241/24 4.24.2
3.23.2 44 4/244/24 16.716.7
3.93.9 33 3/243/24 12.512.5
4.24.2 55 5/245/24 20.820.8
5.05.0 44 4/244/24 16.716.7
5.65.6 33 3/243/24 12.512.5
6.06.0 44 4/244/24 16.716.7
TOTALTOTAL 2424 -- 100100
ORDENEMOS ESTOS DATOS EN LA SIGUIENTE TABLA:
Indicaremos que es lo que representa cada columna:
TABLA DE FRECUENCIA DE DATOS AGRUPADOS En ocasiones, el agrupar los datos en intervalos, nos puede
ayudar para realizar un mejor análisis de ellos.
Consideremos los siguientes datos, expresados en metros, correspondientes a las estaturas de 80 estudiantes de cuarto año de educación media.
1,671,67 1,721,72 1,811,81 1,721,72 1,741,74 1,831,83 1,841,84 1,881,88 1,921,92 1,751,75
1,841,84 1,861,86 1,731,73 1,841,84 1,871,87 1,831,83 1,811,81 1,771,77 1,731,73 1,751,75
1,781,78 1,771,77 1,671,67 1,831,83 1,831,83 1,721,72 1,711,71 1,851,85 1,841,84 1,931,93
1,821,82 1,691,69 1,701,70 1,811,81 1,661,66 1,761,76 1,751,75 1,801,80 1,791,79 1,841,84
1,861,86 1,801,80 1,771,77 1,801,80 1,761,76 1,881,88 1,751,75 1,791,79 1,871,87 1,791,79
1,771,77 1,671,67 1,741,74 1,751,75 1,781,78 1,771,77 1,741,74 1,731,73 1,831,83 1,761,76
1,831,83 1,771,77 1,751,75 1,771,77 1,771,77 1,841,84 1,831,83 1,791,79 1,821,82 1,761,76
1,761,76 1,761,76 1,791,79 1,881,88 1,661,66 1,801,80 1,721,72 1,751,75 1,791,79 1,771,77
Notamos que la estatura mayor es :1,93 m
La estatura menor es :1,66m;
El rango es : 0,27m = 27 cm.
Formaremos 6 intervalos.
Para calcular el tamaño de cada uno dividimos 27 : 6 = 4,5 lo aproximamos a 5.
Nos queda la siguiente tabla:
¿Cual seria la frecuencia absoluta?
IntervalosIntervalos Frecuencia AbsolutaFrecuencia Absoluta1,65 – 1,691,65 – 1,691,70 – 1,741,70 – 1,741,75 – 1,791,75 – 1,791,80 – 1,841,80 – 1,841,85 – 1,891,85 – 1,891,90 – 1,941,90 – 1,94
Total : Total :
LA FRECUENCIA ABSOLUTA SERIA
IntervalosIntervalos Frecuencia AbsolutaFrecuencia Absoluta1,65 – 1,691,65 – 1,69 661,70 – 1,741,70 – 1,74 12121,75 – 1,791,75 – 1,79 30301,80 – 1,841,80 – 1,84 22221,85 – 1,891,85 – 1,89 881,90 – 1,941,90 – 1,94 22
Total : Total : 8080
PARA CONSTRUIR UNA TABLA DE FRECUENCIAS PARA DATOS AGRUPADOS,
1. Determinamos el tamaño de cada intervalo.
2Dividiendo el valor del rango
3Por la cantidad de intervalos que se desea obtener.
IMPORTANTE RECORDAR:
1.El rango, está dado por la diferencia entre el máximo y el mínimo valor de la variable.
2.El tamaño del intervalo se aproxima al impar más cercano.
3.La Marca de clase es el representante de un intervalo, y corresponde al promedio entre los extremos
EN RESUMEN:Exponen la información recogida en la muestra, de
forma que no se pierda nada de información (o poca).
FRECUENCIAS ABSOLUTAS: Contabilizan el número de individuos de cada modalidad
FRECUENCIAS RELATIVAS (PORCENTAJES): Contabilizan el número de individuos de cada modalidad, pero dividido por el total
fi = ni n
Frecuencias (absolutas o relativas) acumuladas: Sólo tienen sentido para variables ordinales y numéricas
Sexo del encuestado
636 41,9 41,9
881 58,1 58,1
1517 100,0 100,0
Hombre
Mujer
Total
VálidosFrecuencia Porcentaje
Porcentajeválido
Nivel de felicidad
467 30,8 31,1 31,1
872 57,5 58,0 89,0
165 10,9 11,0 100,0
1504 99,1 100,0
13 ,9
1517 100,0
Muy feliz
Bastante feliz
No demasiado feliz
Total
Válidos
No contestaPerdidos
Total
Frecuencia PorcentajePorcentaje
válidoPorcentajeacumulado
Ejemplos:Número de hijos
419 27,6 27,8 27,8
255 16,8 16,9 44,7
375 24,7 24,9 69,5
215 14,2 14,2 83,8
127 8,4 8,4 92,2
54 3,6 3,6 95,8
24 1,6 1,6 97,3
23 1,5 1,5 98,9
17 1,1 1,1 100,0
1509 99,5 100,0
8 ,5
1517 100,0
0
1
2
3
4
5
6
7
Ocho o más
Total
Válidos
No contestaPerdidos
Total
Frecuencia PorcentajePorcentaje
válidoPorcentajeacumulado
GRÁFICOS PARA VARIABLES CUALITATIVASPictogramas: Son gráficas elaboradas con símbolos, figuras o
signos y totalmente libres cuya presentación es eminentemente estética y representa la imagen del fenómeno que se grafica
Fáciles de entender. El área de cada modalidad debe ser proporcional a la
frecuencia. Ejemplo Botellas de cerveza recogidas el fin de semana.
SÁBADO DOMINGO
GRAFICAS LINEAL SIMPLEPara elaborar esta gráfica se emplea como base un eje de coordenadas positivas y se utiliza preferentemente para graficar el comportamiento de tendencia de series cronológicas.
Nos permite observar el desarrollo o tendencia que tiene el fenómeno en su comportamiento durante un lapso de tiempo determinado.
Ventas (millones Dls)
10
9 8 7
6
años1 2 3 4 5 6 7 8
Ventas (millones Dls)
GRÁFICOS DIFERENCIALES PARA VARIABLES NUMÉRICAS
DIAGRAMAS BARRAS PARA VARIABLES DISCRETASSe deja un hueco entre barras para indicar los valores que no son posibles
0 1 2 3 4 5 6 7 Ocho o más
Número de hijos
100
200
300
400
419
255
375
215
127
54
24 23 17
DIAGRAMAS INTEGRALES
REPRESENTACIÓN ESTADÍSTICA
GRÁFICOS PARA VARIABLES CUALITATIVAS
Diagramas de barras (múltiples)
Alturas proporcionales a las frecuencias (absoluta o relativa.)Se pueden aplicar también a variables discretas
Diagramas de sectores (tortas, polares)
No usarlo con variables ordinales.El área de cada sector es proporcional a su frecuencia (absoluta o relativa.)
EJEMPLO
CON LOS DATOS QUE SE MUESTRAN CONFECCIONE UN GRAFICO DE BARRA EXPLIQUE QUE HA SUCEDIDO CON LA PRODUCCION DE BANANO DURANTE ESTOS AÑOS.
AÑO PRODUCCION DE BANANO (TON)
2009 15000
2010 12000
2011 18000
2012 11000
Diagramas integrales
PARÁMETROS Y ESTADÍSTICO
Parámetro: Es una cantidad numérica calculada sobre una población
La altura media de los individuos de un país
La idea es resumir toda la información que hay en la población en unos pocos números (parámetros).
Estadístico: Es una cantidad numérica calculada sobre una muestra
la altura media de los que están en un teatro en un momento dado.
Son una muestra (¿representativa?) de la población.
Si un estadístico se usa para aproximar un parámetro también se le suele llamar ESTIMADOR.
MEDIDAS DESCRIPTIVAS
POSICIÓNDividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos.
Cuantiles, percentiles, cuartiles, deciles,...CENTRALIZACIÓN
Indican valores con respecto a los que los datos parecen agruparse.
Media, mediana y modaDISPERSIÓN
Indican la mayor o menor concentración de los datos con respecto a las medidas de centralización.
Desviación típica, coeficiente de variación, rango, varianzaFORMA
AsimetríaApuntamiento o curtosis
MEDIDAS DESCRIPTIVAS
Medidas de tendencia central
Refiere a los valores de las variables que suelen estar en el centro de la distribución.
Posición donde se centra una distribución en una escala de valores
MEDIA
MEDIANA
MODA
La MEDIA ARITMÉTICA O PROMEDIO es una medida estadística de tendencia central. De una cantidad finita de números, es igual a la suma de todos ellos dividida entre el número de sumandos.
También la media aritmética puede ser denominada como centro de gravedad de una distribución.
Medidas de tendencia centralMedidas de tendencia central
Inconvenientes de la media:
EJEMPLOS DE CALCULOS DE LA MEDIA ARITMETICA
SE HA INVESTIGADO EL PRECIO DE UN ARTICULO EN CUATRO ESTABLECIMIENTOS COMERCIALES DIFERENTES. ¿CUAL ES EL PRECIO PROMEDIO DEL ARTICULO INVESTIGADO?
PRECIO (Xi)
20
25
30
36
RESPUESTA:
PRECIO (Xi)
20
25
30
36
LA MEDIA SERIA 27.75 ARTICULOS
EJEMPLOS DE CALCULOS DE LA MEDIA ARITMETICASe ha hecho una encuesta sobre el número de veces que semanalmente concurren los clientes a un comisariato a realizar compras . ¿Cuántas veces a la semana concurren como promedio los clientes al comisariato?
Concurrencia semanal
Clientes
Xi Fi Xi.fi
1 32
2 11
3 15
4 7
6 5
RESPUESTA:
Concurrencia semanal
Clientes
Xi Fi Xi.fi
1 32 32
2 11 22
3 15 45
4 7 28
6 5 30
LOS CLIENTES CONCURREN COMO PROMEDIO 31,4 VECES
VALOR DEL PRODUCTO 10
8
6
5
3
0 32 37 42 47 52 57 62 67 añosMedia = 49,5
APROXIMACION GRAFICA DE LA MEDIA ARITMETICACon el fin de ratificar que la media aritmética es un promedio de tendencia central podemos mediante un polígono de frecuencia podemos señalar el valor aproximado de la media en el eje horizontal, y con ello comprobar el promedio aritmético se ubica por el centro de la distribución.
OTRAS MEDIAS:MEDIA GEOMETRICA:Es de gran utilidad para calcular tasas, porcentajes y números índices y permite medir el comportamiento de las series cronológicas a través del promedio del crecimiento y decrecimiento de una variable en el tiempoSe define a la media geométrica como la raíz enésima de los valores que adopta la variablees decir que la fórmula seria n..
G = √X1 . X2………..Xn, Esta fórmula tiene un inconveniente que si un valor fuera cero entonces no podría calcularse la media geométrica.Para salvar este inconveniente entonces se utiliza la fórmula basada en los logaritmos
MEDIA GEOMETRICAEJEMPLO DE CALCULO :CALCULE LA MEDIA GEOMÉTRICA DE LOS SIGUIENTES DATOS QUE SE REFIEREN AL PRECIO DEL BANANO.
PRECIO (X i) Log Xi
20
25
30
36
TOTAL
G = ANTILOG DE n G = √n1.n2.n3.n4
RESPUESTA:
PRECIO (X i) Log Xi
20 1,3010
25 1,3979
30 1,4771
36 1,5563
TOTAL 5,7323
G = ANTILOG DE 5,7323 G= 27,11 4 4 4 G = √20.25.30.36 G = √540,000 4 G =27,11
UNA PROPIEDAD IMPORTANTE DE LA MEDIA ES QUE LA SUMA DE LAS DESVIACIONES (∑X) DE CADA VALOR INDIVIDUAL DE LA VARIABLE CON RELACION A LA MEDIA ARITMETICA ES IGUAL A 0
Estadísticos de CentralizaciónMediana Es un valor que divide a las observaciones en dos grupos con el mismo número de individuos .Es decir es aquel valor de la variable que supera y es superado por no más de la mitad de los datos.La mediana se calcula en primer lugar ordenando los datos y luego:
Si el número de datos es par, se elige la media de los dos datos centrales
Mediana de 1,2,4,5,6,6,8 es 5
Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5
Es conveniente cuando los datos son asimétricos.
Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7!
Propiedades de la mediana
20 150 250 300 400 500 600 700 800 100040 150 250 300 400 500 600 700 850 100072 150 280 300 400 500 600 750 900 100090 160 280 320 450 510 600 760 900 1100100 160 300 330 450 540 600 800 900 1150120 200 300 350 480 550 640 800 960 1200120 200 300 360 480 550 650 800 960 1200120 200 300 380 500 550 650 800 980 1500150 220 300 400 500 570 680 800 1000 1800150 250 300 400 500 580 700 800 1000 2440
EJEMPLOS DE CALCULOSEN EL EJEMPLO QUE SE EXPONE A CONTINUACION BUSCAR LA MEDIANA DE LOS DATOS QUE SE PRESENTAN
MEDIANA
RESPUESTA:MEDIANA
20 150 250 300 400 500 600 700 800 100040 150 250 300 400 500 600 700 850 100072 150 280 300 400 500 600 750 900 100090 160 280 320 450 510 600 760 900 1100100 160 300 330 450 540 600 800 900 1150120 200 300 350 480 550 640 800 960 1200120 200 300 360 480 550 650 800 960 1200120 200 300 380 500 550 650 800 980 1500150 220 300 400 500 570 680 800 1000 1800150 250 300 400 500 580 700 800 1000 2440
MEDIANA
edad
Frecuencia Porcentaje Porcentaje
válido Porcentaje acumulado
15 439878 7,1 7,1 7,1 16 427380 6,9 6,9 14,0 17 412200 6,7 6,7 20,6 18 419529 6,8 6,8 27,4 19 415349 6,7 6,7 34,1
20 399023 6,4 6,4 40,6 21 428206 6,9 6,9 47,5 22 378808 6,1 6,1 53,6 23 461983 7,5 7,5 61,0 24 408871 6,6 6,6 67,6
25 415516 6,7 6,7 74,3 26 430316 6,9 6,9 81,3 27 407540 6,6 6,6 87,9 28 385408 6,2 6,2 94,1 29 367549 5,9 5,9 100,0
Válidos
Total 6197556 100,0 100,0
Estadísticos edad
Válidos 6197556 N
Perdidos 0 Media 21,89 Mediana 22,00
Moda 23
Estadísticos edad
Válidos 6197556 N
Perdidos 0 Media 21,89 Mediana 22,00
Moda 23
EJEMPLOS DE CALCULOS Se aprecian la media , la mediana y la moda del ejemplo anterior
ModaEs un promedio posicional que puede definirse como: Aquel valor de la variable o aquella categoría o modalidad del atributo que mayormente se repite en la distribución.Dicho de otra manera la Moda es aquél valor o modalidad de mayor frecuencia en la distribución
Cuando en la serie se presenta un Si hubiesen dos valores o mismo valor o una misma modalidad modalidades con la misma o categoría con mayor frecuencia mayor frecuencia
Unimodal Bimodal
EJEMPLOS DE CALCULOS PARA LA MODAEN LA TABLA SE PRESENTA EL SALARIO DE DIVERSAS PERSONAS QUE EJERCEN COMO OFICINISTA DIGA CUAL ES LA MODA EN ESTE EJEMPLO
MO=
Sueldos Oficinistas
350 2
380 3
400 25
450 1
500 1
EJEMPLOS DE CALCULOS PARA LA MODAEn la tabla se presenta el salario de diversas personas que ejercen como oficinista diga cual es la moda en este ejemplo.
La s unidades de vehículos vendidas tienen diferentes colores diga cual es el color Modal que se presenta en este ejemplo
Color del vehículo Unidades vendidas
Azul 3
Blanco 15
Rosado 2
Negro 5
Carmelita 2
N = 27
COMPARACIÓN ENTRE LA MODA, LA MEDIANA Y LA MEDIA.
•En el caso que los datos sean cualitativos ( ejemplo: el tipo de reacción), no hay otra manera que usar la•MODA, ya que estos eventos pueden ser solo contados.
•Si los datos pueden ser ordenados de alguna forma, entonces puede usarse •LA MODA Y LA MEDIANA
•Por ultimo si los datos son medibles de forma cuantitativas, es posible usar también •LA MEDIA.
Como se ha señalado la media es la medida de tendencia central mas utilizada debido a sus propiedades , sin embargo es necesario señalar que la misma puede alterarse como hemos visto considerablemente en algunos casos, en presencia de valores extremos considerables (muy grandes o muy pequeños
ESTADIGRAFOS DE DISPERSIONINTRODUCCIÓN
LOS MEDIDAS DE TENDENCIA CENTRAL COMO LA MEDIA, NOS SEÑALAN HACIA DONDE TIENDE A CONCENTRARSE LOS VALORES DE LA DISTRIBUCIÓN, PERO NINGUNO DE LOS PROMEDIOS SEAN MATEMÁTICOS O POSICIONALES NO NOS INDICAN
COMO O CUANTO SE DISPERSAN LOS VALORES DE LA VARIABLE EN TORNO A UN PROMEDIO.
DE TAL MANERA QUE ADEMÁS DE UNA MEDIDA DE TENDENCIA CENTRAL NECESITAMOS UNA MEDIDA DE DISPERSIÓN QUE NOS PERMITA CERTIFICAR LA REPRESENTATIVIDAD QUE SOBRE EL COLECTIVO TIENE UN VALOR PROMEDIAL..VEAMOS UN EJEMPLO DE LO DICHO HASTA AHORA.
EL SUELDO PROMEDIO DE A ES MAS REPRESENTATIVO , A PESAR DE SER EL PROMEDIO DE LOS TRES IGUALES, ESTO SE EXPRESA EN LA DISPERSION MEDIDA A TRAVÉS DE LA DESVIACIÓN ESTÁNDAR PUES ES IGUAL A CERO EN LA EMPRESA A
DE FORMA QUE LAS MEDIDAS DE DISPERSION O VARIABILIDAD NOS PERMITEN CUANTIFICAR COMO ESTÁN CONCENTRADOS O DISPERSOS LOS VALORES DE LA VARIABLE EN TORNO A UN PROMEDIO QUE GENERALMENTE ES LA MEDIA ARITMÉTICA O MEDIANA.
Empresas Salario en USD MEDIA ARITMETICA
DESVIOACION ESTANDAR
A 400-400-400 400 0
B 200-400-600 400 163,3
C 300-400-500 400 81,65
MEDIDAS DE DISPERSIÓNMEDIDAS DE DISPERSIÓNDE MANERA QUE :DE MANERA QUE : Los datos también se deben caracterizar en términos de su dispersión o
variabilidad.
Las medidas de variabilidad cuantifican la extensión de la dispersión
La variabilidad tiene que ver con qué tan alejados están los datos de la media.
Miden el grado de cercanía o lejanía de las puntuaciones respecto a la media
Permiten describir el grado de homogeneidad / heterogeneidad de la distribución de una variable
LOS ESTADÍSTICOS DE DISPERSIÓN SE PUEDEN CLASIFICAR DE LA FORMA
SIGUIENTE
Máximo y Mínimo
Rango
Amplitud Intercuartílica
Varianza
Desvío típico
Coeficiente de variabilidad
Mínimo Máximo rango o recorrido y amplitud intercuartílicaMínimo Máximo rango o recorrido y amplitud intercuartílica
20 150 250 300 400 500 600 700 800 100040 150 250 300 400 500 600 700 850 100072 150 280 300 400 500 600 750 900 100090 160 280 320 450 510 600 760 900 1100100 160 300 330 450 540 600 800 900 1150120 200 300 350 480 550 640 800 960 1200120 200 300 360 480 550 650 800 960 1200120 200 300 380 500 550 650 800 980 1500150 220 300 400 500 570 680 800 1000 1800150 250 300 400 500 580 700 800 1000 2440
MínimoMínimo
MáximoMáximoRANGO O RECORRIDORANGO O RECORRIDO
Distancia entre el máximo valor y el mínimo valor que puede asumir la variable.
Es la medida de dispersión mas simple, mide el campo de variación de la variable a través de la diferencia entre le máximo y el mínimo
R = XM - Xm
Máximo - Mínimo
2240- 20 = 22202220
LA UTILIDAD DEL RANGO
RESIDE EN QUE NOS PERMITE DIVIDIR LA DISTRIBUCIÓN EN INTERVALOS INFORMÁNDONOS DE LOS VALORES EXTREMOS. COMO MEDIDA DE DISPERSION ES ONOS DE LOS VALORES EXTREMOS. COMO MEDIDA DE DISPERSION ES LIMITADA SU FUNCION PUES TOMA EN CONSIDERACIÓN SOLAMENTE LOS LIMITADA SU FUNCION PUES TOMA EN CONSIDERACIÓN SOLAMENTE LOS VALORES EXTREMOS.VALORES EXTREMOS.
DESVIACIÓN ESTÁNDAR (O DESVIACIÓN TÍPICA) Y LA VARIANZA
La desviación estándar (o desviación típica) y la varianza son medidas de dispersión para variables de razón y de intervalo.
Son medidas que informan acerca del promedio de distancias que tienen los datos respecto de su media aritmética, expresada en las mismas unidades de medida que la variable de origen. n
Varianza S2: Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media.
n
Ambas medidas están estrechamente relacionadas ya que se define una a partir de la otra.
.
DESVÍ TÍPICODESVÍ TÍPICO
i
i xxn
S 22 )(1
2SS
DESVIACIÓN ESTÁNDAR Denominada también como desviación típica: Es la raíz cuadrada de la varianza
El significado de la desviación estándar Cuando una distribución la representamos gráficamente mediante un polígono de frecuencia La desviación estándar representa la VARIABILIDAD PROMEDIO que nos permite medir la distancia entre los valores de la variable y la media aritmética en unidades de desviaciones estándares denominadas unidades sigma
µ -2s µ-s µ µ+ s µ +s
Curva simétrica que muestra las relaciones entre las desviaciones estándar y la media
2SS
EJEMPLOEn un experimento con ratas en el cual se quería saber si la planta estudiada tenia efecto hipoglucemiante Se obtuvieron los siguiente valores al determinar la glucosa en un experimento (en mmol/L). Calcule la media, la desviación estándar y la desviación típica.
Valores deGlucosa
Media Diferencia
Diferencia al cuadrado
20
25
30
36
total
Solución del EJEMPLOValores deGlucosa
Media Diferencia
Diferencia al cuadrado
20 27,50 -7,75 60,0625
25 27,75 -2,75 7.5625
30 27,75 2,25 5,0625
36 27,75 8,25 68,0625
total 140,75
Aplicando las formulaciones tendremos:
Media: 27,50La varianza es 35,18La desviación estándar es: 5,93
Respuesta : los valores medios de la glucosa en ratas son 27,50, mientras que la la varianza es 35,18 y La desviación estándar es: 5,93
i
i xxn
S 22 )(1
2SS
EJEMPLO 2En tres empresas se pagan diferentes salarios, como puede observarse en la tabla , diga cuales son las correspondientes medias y calcule la desviación estándar y la varianza. Si tuviese alguna oportunidad de trabajo cual de ellos escogeria
Empresas Salario en USD
MEDIA ARITMETICA
DESVIACION ESTANDAR
varianza
A 400-400-400
B 200-400-600
C 300-400-500
Empresas Salario en USD MEDIA ARITMETICA
DESVIACION ESTANDAR
varianza
A 400-400-400 400 0 0
B 200-400-600 400 163,3 26666,89
C 300-400-500 400 81,65 6666,7225
Solución del EJEMPLO
Respuesta:
Medidas de dispersión / desviación Medidas de dispersión / desviación respecto a la mediarespecto a la mediaCoeficiente de variación: Es la razón entre la desviación típica y la media. Mide la desviación típica en forma de “qué tamaño tiene con respecto a la media”. También se la denomina variabilidad relativa. se calcula dividiendo la desviación estándar por la media
x
SCV
Si se multiplica por 100 se obtiene el grado de variabilidad respecto de Si se multiplica por 100 se obtiene el grado de variabilidad respecto de la mediala media
Es de particular utilidad comparar la variabilidad de 2 o mas conjuntos de datos con medias diferentes.
El coeficiente de variabilidad es una medida relativa que se expresa en porcentaje en vez de en términos de las unidades de los datos.
Es una forma de estandarizar el desvío
Indica la relación entre el desvío y la media
EJEMPLO CUANDO LAS VARIABLES DE LAS DISTRIBUCIONES A COMPARAR SEAN DE IGUAL NATURALEZA.
ESTADÍGRAFO SUELDOS
Empresa pequeña Empresa grande
Media aritmética 100000 2000000
Desviación estándar
10 200000
Diga en que empresa ha habido mayor variación
Resolución del ejemploESTADÍGRAFO SUELDOS
Empresa pequeña Empresa grande
Media aritmética 100000 2000000
Desviación estándar
10.000 200000
x
SCV
Cv = 10000 .100 100,000CV = 10% CV = 10%
Cv = 200000 .100 2,000.000
A simple vista podíamos haber estimado que la Empresa Grande habrían existido mayor variación dad su media y su desviación estándar, sin embargo mediante el coeficiente de variación podemos comprobar que tiene la misma variación
EJEMPLO CUANDO LAS VARIABLES DE LAS DISTRIBUCIONES A COMPARAR SEAN DE DISTINTA NATURALEZA.
ESTADÍGRAFO VARIABLES
MINUTOS DE ATRASOS
PRODUCTOS VENDIDOS
Media aritmética 49,27 30,80
Desviación estándar
8,97 9,83
Diga EN QUE VARIABLE OCURRE MAYOR VARIACION
SOLUCION DEL EJEMPLO ANTERIOR
ESTADÍGRAFO VARIABLES
MINUTOS DE ATRASOS
PRODUCTOS VENDIDOS
Media aritmética 49,27 30,80
Desviación estándar
8,97 9,83
CV = 8,97 (100) CV = 9,83 (100) 49,27 30,80 V = 18% V= 32%
RESPUESTA: Con los resultados del coeficiente de variación determinamos que la distribución de productos vendidos (32%), tiene mayor variación que la serie de minutos de atrasos (18%).
AMPLITUD O RANGO: La diferencia entre las observaciones extremas.
2, 1, 4, 3, 8, 4.
EL RANGO ES : 8-1=7
LA FORMA DE LA LA FORMA DE LA DISTRIBUCIÓNDISTRIBUCIÓN
Una característica de un conjunto de datos es la forma, es decir, la manera en que están distribuidas las observaciones.
La distribución de los datos puede ser o no SIMÉTRICA. Si la distribución de los datos no es simétrica, se llama ASIMÉTRICA O SESGADA.
Para describir la forma se puede comparar LA MEDIA Y LA MEDIANA.
También puede observarse a través del coeficiente de asimetría Mide el grado de Simetría / Asimetría de la distribución
EJEMPLO DE UNA DISTRIBUCION SIMETRICA
ASIMETRÍA O SESGO Una distribución es simétrica si la mitad
izquierda de su distribución es la imagen especular de su mitad derecha.
En las distribuciones simétricas, media y mediana coinciden. Si sólo hay una moda también coincide
La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución.
La media tiende a desplazarse hacia las valores extremos (colas).
Mdn = MediaMdn = Media
EN LA DISTRIBUCIÓN NORMAL ES SIMÉTRICA SI
MEDIA = MEDIANA: SIMÉTRICOS O CON SESGAMIENTO CERO.
Mdn
Media
Si es + indicará muchos casos en los valores más bajos y pocos en los más altos positivamente asimétrica .
Media > Mediana: Positivos o con sesgamiento a la derecha
MdnMdnMediaMedia
Si es - indicará muchos casos en los valores más altos y pocos en los más bajos negativamente asimétrica.
Media < Mediana: Negativos o con sesgaminto a la izquierda.
LA CURTOSIS NOS INDICA EL GRADO DE APUNTAMIENTO (APLASTAMIENTO) DE UNA DISTRIBUCIÓN CON RESPECTO A LA DISTRIBUCIÓN NORMAL O GAUSSIANA. ES ADIMENSIONAL
LA CURTOSISLA CURTOSIS
Otra manera de apreciar la forma de una distribución es observar el nivel de apilamiento o llanura de la curva
LA FORMA DE LA DISTRIBUCIÓNLA FORMA DE LA DISTRIBUCIÓN
leptocúrtica (menor dispersión)LEPTO= ESBELTO
Platicúrtica (mayor dispersión)
PLATO= ANCHO O PLANO
MesocúrticaMESO= MITAD
Leptocúrtica: curtosis > 0
Mesocúrtica: curtosis = 0
Platicúrtica: curtosis < 0
4 4 K>0 (LEPTOCURTICA K>0 (LEPTOCURTICA
f(X – media) K < 0 (PLATICURTICA).
K = nn - 3 K = 0 (MESOCURTICA) 4
S
Calcule el coeficiente de curtosis y diga como es la curva atendiendo Calcule el coeficiente de curtosis y diga como es la curva atendiendo al mismoal mismo
L i Ls Xi fi Xi.fi X-Xm=x
4 X
4
fi . x
2
fi. X .
0 2 1 20 20 1-10= -9
6561 131220
20
3 5 4 30 120 4-10=-6
1296 38880 480
6 8 7 80 560 7-10=-3
81 6480 3920
9 11 10 129 1290 10-10=0
0 0 12900
12 14 13 80 1040 13-10=3
81 6480 13520
15 17 16 30 480 16-10=6
1296 38880 7680
18 20 19 20 380 19-10=9
6561 131220
7220
Total 389 3980 353160
45740
353,16K = K = 389_ - 3 K = 907,87 - 3 (4,19) 4 308,22
K = 2,95- 3= -0,05Por su cercanía al cero se le puede considerar simétrica
MESOCURTICA
GRÁFICOS PARA VARIABLES CONTINUAS
Histogramas para variables continuas
El área que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo.
20 40 60 80
Edad del encuestado
50
100
150
200
250
¿Qué hemos visto?Introduccion
HISTORIA DE LA ESTADISTICA.
Utilidad de la estadística.
Pasos en un estudio estadístico.
Definiciones básicas en estadística
Población y Muestra
Variables
Cualitativas
Numéricas
Presentación ordenada de datos.
Estructura de las tablas estadisticas
Tablas de frecuencias y Representaciones gráficas
Medidas descriptivas
Medidas de centralización: Media, mediana y moda
Medidas de dispersión (varianza, desviación estandar, CV, rango
Asimetría y Medidas de apuntamiento (curtosis)
Regresión y correlaciónRegresión y correlaciónAsociación entre variables
Hemos visto las distribuciones Unidimensionales , esto es analizamos una sola variable Hemos visto las distribuciones Unidimensionales , esto es analizamos una sola variable (peso, contenido de glucosa, sueldos, edad, etc.) y se describió su comportamiento a través (peso, contenido de glucosa, sueldos, edad, etc.) y se describió su comportamiento a través de tablas y gráficos y medidas tanto de tendencia central como de dispersión, (media y de tablas y gráficos y medidas tanto de tendencia central como de dispersión, (media y desviación estándar).desviación estándar). Correlación significa relación mutua y expresa el grado de asociación existente entre las variables,Cuando estudiamos dos variables en su posible relación, influencia o dependencia se busca Cuando estudiamos dos variables en su posible relación, influencia o dependencia se busca como objetivos Establecer la naturaleza de la relación digamos tambiéncomo objetivos Establecer la naturaleza de la relación digamos tambiénPREDECIRPREDECIREl comportamiento de dichas variables . Así por ejemplo un medicamento determinado El comportamiento de dichas variables . Así por ejemplo un medicamento determinado conlleva a una mejoría durante un tiempo dado, , pero podemos preguntarnos ¿ si se conlleva a una mejoría durante un tiempo dado, , pero podemos preguntarnos ¿ si se continua con el mismo podríamos tener iguales resultadoscontinua con el mismo podríamos tener iguales resultados ? ? Su parámetro es el coeficiente de correlación. Su símbolo es r, que puede acompañarse, si la claridad lo exige, de un subíndice con la notación de las variables (p.e. rxy)
La precisión de nuestra predicción depende de l a :La precisión de nuestra predicción depende de l a :
FUERZA DE LA RELACION QUE TIENE LAS VARIABLES MEDICAMENTO Y MEJORÍAFUERZA DE LA RELACION QUE TIENE LAS VARIABLES MEDICAMENTO Y MEJORÍA..
Este análisis de relación entre dos variables nos lleva al estudio de laEste análisis de relación entre dos variables nos lleva al estudio de la
REGRESION Y CORRELACIONREGRESION Y CORRELACION
Regresión Estimamos la relación de una variable con otra en términos de una función lineal (o más compleja ) de la otra. Nos permite además hacer predicciones . Hoy en día el sentido de regresión es el de predicción de una medida basándonos en el conocimiento de otra. (Variables cuantitativas continuas ).La regresión es la forma, el COMO de esa asociación. Expresa la relación entre las dos variables, X e Y, mediante la ecuación de regresión y su representación gráfica la línea de regresión.Mediante ella conocida una variable es posible predecir la otra. Por consenso X es la variable Independiente e Y la dependiente. De esta forma Y = f(X).Coeficiente de Correlación Estimamos el grado en que 2 o más variables cambian simultáneamente. (Variables cuantitativas continuas ). Se plantea que LA CORRELACIÓN MIDE LA FUERZA DE UNA RELACIÓN ENTRE VARIABLES LA REGRESIÓN DA LUGAR A UNA ECUACIÓN QUE DESCRIBE DICHA RELACIÓN EN TÉRMINOS MATEMÁTICOS
En nuestro trabajo podemos señalar los siguientes ejemplos de Relaciones bidimensionales :Edad y pesoContenido de glucosa y diabetesEnfermedad y tipo de medicamento o clase.
DIAGRAMA DE DISPERSIÓNRegresión El análisis de regresión sirve para predecir una medida en función de otra medida (o varias).
Una función es una relación matemática que nos permite predecir que valores de una variable Y corresponden a determinados valores de una variable X. tal relación generalmente se escribe como: Y = F(X) Y - variable dependiente (predicha o explicada) X - variable independiente (predictiva o explicativa)
El diagrama de dispersión es una gráfica de puntos en la que cada punto del plano representa un par de valores correspondientes de la variable X e Y
y = a + b x Ecuación de regresión b es la pendiente y el coeficiente de regresión y a el intercepto
Ejemplos de varios tipos de relaciones
y = a + b x LINEALy = a + b x + c x 2 Cuadráticay =ab n Exponencialy = log a + x log b Logaritmica
El objetivo de la Regresión lineal es encontrar la línea que mejor predice la Y a partir de la X. Es + cuando al aumentar el valor de X también aumenta el de Y o viceversa. Cuando disminuye la X también disminuyen los valores de Y.Es - cuando al aumentar el valor de X disminuyen los valores de Y o Cuando disminuye la X aumentan los valores de Y
Relación directa
Ventas (millones Dls)
10
9 8 7
6
años1 2 3 4 5 6 7 8
ANALISIS DE REGRESIONCOMO VIMOS EL OBJETIVO FUNDAMENTAL DE UN ANÁLISIS DE REGRESIÓN ES PREDECIR EL VALOR DE LA VARIABLE DEPENDIENTE (Y) CONOCIENDO EL VALOR DE LA OTRA.EN UN SENTIDO AMPLIO LA REGRESIÓN BUSCA COMO OBJETIVO UNA LÍNEA O UNA FUNCIÓN MATEMÁTICA QUE EXPRESE SIN IRREGULARIDADES LA RELACIÓN ENTRE DOS VARIABLES.Ejemplo de confección de curva dosis /efectoEn un experimento con ratones se suministraron varias dosis de una planta medicinal determinada y se encontró que los pesos corporal aumentaban como se observa en la tabla. Confeccione la curva correspondiente como es la pendiente de la curva con relación al signo.
X y
1 21
2 22
3 23
4 24
5 25
6 26
y = a + b x
De no darse esta relación perfecta y de hecho en la práctica no es así o sea no se disponen los pares ordenados en una ¨línea ideal.
La regresión tiene como objetivo determinar la Relación Funcional de las dos variables a través de una ecuación y una línea que describa la forma de relación existente , es decir determinar un modelo matemático que exprese la supuesta relación funcional entre X e Y.
AJUSTE DE UNA RECTA.Entonces lo que buscamos es la llamada línea de Regresión a través de una ecuación matemática denominada
ECUACION DE LA RECTA.
Ejemplos: EN UN ENSAYO DE PESO DE ORGANOS EN RATAS MACHOS SE ENCONTRARON LOS SIGUIENTES RESULTADOS . Ver tabla en la pagina siguientePREGUNTAS: Diga cuales son los pares ordenados. • Porque se dicen que forman u par•Plotee los resultados obtenidos de los pares ordenados • Que conclusiones puede obtener• Cual es la ecuación que representan estos resultados
DATOS DEL PROBLEMA ANTERIOR
X Y
100 40
200 45
300 50
400 65
500 70
600 70
700 80
DATOS DEL PROBLEMA ANTERIOR
80
60
40
20
10
0
0 100 200 300 400 500 600 700
EL MEJOR METODO MATEMATICO UTILIZADO EN ESTADISTICA PARA OBTENER UNA ECUACION DE REGRESION Y AJUSTAR LA RECTA ES EL DENOMINADO
METODO DE LOS MINIMOS CUADRADOS
CUANDO UNA LINEA RECTA NO PUEDE AJUSTARSE PERFECTAMENTE A LOS PUNTOS DEL PLANO , LAS DESVIACIONES ENTRE LOS VALORES INDIVIDUALES REALES (Y) Y LA RECTA IDEAL (YC) SE LE MINIMIZA A TRAVÉS DEL METODO DE LOS MINIMOS CUADRADOS QUE PROPORCIONA LA RECTA DE MEJOR AJUSTE PUES MINIMIZA LA SUMA DE LOS CUADRADOS DE LAS DESVIACIONES CON RESPECTO A LA RECTA.
METODO DE LOS MINIMOS CUADRADOSES EL METODO MATEMATICO UTILIZADO PARA DETERMINAR LA ECUACION DE REGRESION QUE MINIMIZA LA SUMA DE LOS CUADRADOS DE LAS DISTANCIAS ENTRE LOS VALORES REALES Y LOS PRONOSTICADO O ESTIMADOS (YC).PARA COMPRENDER ESTE TERMINO PONDREMOS UN EJEMPLO MATEMATICOLA ECUACIÓN LINEAL ES Y = a + b X
EN NUESTRO CASO QUEREMOS HALLAR LA LÍNEA IDEAL Y LA ECUACION DE REGRESIONQUE VIENE DADA POR LA ECUACION Y c = a + b X
Ahora como se calculan los valores de a y b
METODO DE LOS MINIMOS CUADRADOS
_ __ _ b= b= XY - n X Y XY - n X Y 2 _2
X - n X
mientras que _ _ a = Y - b X
Con estas formulaciones podremos hallar la línea ideal y la ecuación de regresión.
Veamos un ejemplo
EN UN EXPERIMENTO QUE RELACIONABA LOS AÑOS DE EXPERIENCIA DE UN FARMACÉUTICO Y LAS UNIDADES DE MEDICAMENTOS VENDIDOS EN LA FARMACIA, DURANTE UN DETERMINADO TIEMPO SE OBTUVIERON LOS DATOS SIGUIENTES.OBTENGA LA ECUACION LINEAL DE REGRESION
FARMACEUTICO
AÑOS DE EXPERIENCIA (X)
UNIDADES VENDIDAS (Y)
XY 2X
2Y
A 6 90 540 36 8100
B 5 60 300 25 8600
C 3 40 120 9 1600
D 1 30 30 1 900
E 4 30 120 16 900
F 3 50 150 9 2500
G 6 80 480 36 6400
H 2 20 40 4 400
FARMACEUTICO
AÑOS DE EXPERIENCIA (X)
UNIDADES VENDIDAS (Y)
XY 2X
2Y
A 6 90 540 36 8100
B 5 60 300 25 8600
C 3 40 120 9 1600
D 1 30 30 1 900
E 4 30 120 16 900
F 3 50 150 9 2500
G 6 80 480 36 6400
H 2 20 40 4 400
TotalesN= 8
30 400 1780 136 24400
Empleando las fórmulas que conocemos calculamos las medias de X e Y
_ _X =3,75 Y= 50PARA CALCULAR b y ab y a _ __ _ b= b= XY - n X Y XY - n X Y = 11.91= 11.91 2 _2
X - n X
_ _ a = Y - b X = 5.34
Como Yc = a + b (X)
Por tanto la ecuación lineal de la recta de regresión será:
Yc= 5.34 + 11.91
De aquí podremos obtener la recta de mejor ajuste De forma que si damos los valores siguientes aX= 1 sustituyendo en la ecuación obtenida esto implica que Y = 17,25
X= 1 SUSTITUYENDO EN LA ECUACIÓN OBTENIDA ESTO IMPLICA QUE
Y = 17,25
POR OTRA PARTE PARA EL PUNTO X= 6 SUSTITUYENDO EN LA ECUACIÓN HALLADA Y= 76,80FINALMENTE PLOTEANDO EN EL GRÁFICO LOS PARES DE VALORES OBTENIDOS:(1, 17.25) Y (6, 76.80) CON UNA PENDIENTE DE 11.91
Años de experiencia
Unidades vendidas
0 1 2 3 4 5 6
(6,76.80)
(3,75; 50)
5,34 a(1,17.25)
Media
50
17.25
76.80
PARA REALIZAR PREDICCIONES SOBRE LA BASE DE LA ECUACION DE REGRESION DETERMINADA DEBE CONSIDERARSE LO SIGUIENTE:
1. LA ECUACIÓN ES VÁLIDA PARA PRONOSTICAR VALORES YC SOBRE LA POBLACIÓN DE DONDE SE ENVÍO LA MUESTRA. NO SERIA CORRECTO PARA PRONOSTICAR DE OTRAS FARMACIAS QUE NO FUERA LAS QUE HEMOS ANALIZADO.2. DEBE PRONOSTICARSE SOBRE LA BASE DE LOS VALORES DE X QUE ESTÉN DENTRO DEL DOMINIO O INTERVALO DE LOS VALORES DE X. SE PUEDE HACER PREDICCIONES CON LAS DEBIDAS PRECAUCIONES Y CON VALORES PRÓXIMOS AL INTERVALO DE DOMINIO DE LA VARIABLE X.
3. LA TEMPORALIDAD O TIEMPO ES UN FACTOR QUE DEBE CONSIDERARSE EN EL ANÁLISIS DE REGRESION . PUES SI LA PRIMERA MUESTRA SE TOMO EN EL 2005 , SUS RESULTDFOS NO PDRIAN SER VALIDOS PARA 1990 O 2010.Cuidado con la Extrapolación
COEFICIENTE DE CORRELACION DE PEARSON
El diagrama de dispersión da una visión aproximada de la fuerza con que se relaciona las variables y cuantitativamente esa fuerza de relación se le mide a través del denominado coeficiente de correlación
El coeficiente de correlación mide que tan cerca están los puntos reales de la línea de regresión o línea ideal YcMide la intensidad de la asociación entre las variablesEs un número abstracto, independiente de la unidad de medida de las variables. Puede adoptar cualquier valor entre –1 y 1.
DICHO DE OTRA Manera r = Î(-1÷1). Suele expresarse con 3 decimales, a no ser que valga –1, 0 ó 1. Aparte de su valor descriptivo sirve para ver la significación estadística de la relación.La correlación entre dos variables. Su coeficiente de correlación se llama de PEARSON, aunque se dice simplemente COEFICIENTE DE CORRELACIÓN
Si r = 1 hay una correlación total (perfecta) positiva.Si r = -1 hay una correlación total (perfecta) negativa.Si r = 0 no hay correlación.Si está entre –1 y 0 , la correlación es parcial y negativa.Si está entre 0 y 1, la correlación es parcial y positiva.Una r de 0, -1 ó 1 apenas se encuentra en la práctica
GRÁFICAMENTE ESTO SE PUEDE REPRESENTAR ASÍ:
CÁLCULO DE COEFICIENTE DE CORRELACIÓNVeremos únicamente el cálculo a partir de los datos originales, aislados.
r = n XY - (∑ X ) ( Y ) 2 2 2 2
[ n( X ) ] - ( X ) ] [ n( Y ) ] - ( Y ) ]
∑_ ∑_
∑_ ∑
∑_ ∑_∑_∑_
Para hacer los cálculos se tendrá en cuenta la tabla que presentamos a continuación
Sean los valores de X = (2 , 1 , 3 , 2 , 5) Y = (3 , 5 , 4 , 2 , 6),
Los cuales representan las dosis de diferentes ( X ) de un medicamentos que ofrecen respuesta positiva ante una patología determinada. Analice la intensidad de asociación entre las variables
EJEMPLO DE CALCULO
X Y 2X
2Y XY
2 3 4 9 6
1 5 1 25 5
3 4 4 16 12
2 2 9 4 4
5 6 25 36 30
13 20 43 90 57
r = 5 x 57 - 13 x 20 2 2 [ 5 x 43 ) - ( 13 ) ] [ 5 x 90) ] - ( 20) ]
r = 25
46 x 50
R= 0.521
Como veremos a continuación la correlación es mínima es decir, es decir que no existe relacion entre la dosis empleada y la mejoría del paciente
FUERZA DE LA RELACION
FUERZA DE LA RELACIÓN
POSITIVA ESTADO DE LA CORRELACION
NEGATIVA
r=1 Correlación perfecta r = -1
0.9 a 0.99 Correlación excelente - 0.9 a - 0.99
0.80 a 0.89 Correlación aceptable - 0.80 a - 0.89
0.60 a 0.79 Correlación regular - 0.60 a -0.79
0.30 a 0.59 Correlación mínima - 0 .30 a - 0.59
0. a 0.29 No hay correlación - 0.a - 0.29
EJERCICIO DE TAREA DE TENDENCIA LINEAL (236)EN UN LABORATORIO SE TIENEN DIFERENTES EQUIPOS PARA DETERMINAR EL EFECTO DIURÉTICOS DE LOS MEDICAMENTOS CON DIFERENTES AÑOS DE USO Y CUYO PRECIO VARIA COMO SE PUEDE APRECIAR DE LA TABLA SOBRE LA BASE DE ESTO1. ELABORAR EL DIAGRAMA DE PUNTOS Y DETERMINAR EL TIPO DE RELACIÓN2. ELABORAR LA TABLA DE RELACION CORRELACION3. CALCULAR LA ECUACION DE REGRESION4. CALCULAR EL COEFICIENTE DE CORRELACION E INDICAR LA FUERZA DE LA RELACION5. ESTIME CUAL SERIA EL PRECIO DEL EQUIPO SI TUVIERA 3 Y 8 AÑOS DE USO.6. GRAFICAR LOS PUNTOS REALES Y LA LINEA IDEAL EN UN SOLO GRAFICO Años de uso Precio (cientos
de dolares)
2 8
5 7
6 5
7 3
10 1
COEFICIENTE DE CORRELACION DE DATOS ORDINALES DE SPERMAN
Introducción:El coeficiente de correlación de Pearson es el mas apropiado cuando los datos son de escala de intervalos o razón pero cuando se trata de datos cualitativos cuyas modalidades se han organizado sobre la base a un orden de rango , es decir los datos han SIDO JERARQUIZADOS DE MENOR A MAYOR O VICEVERSA, EL COEFICIENTE QUE NOS PERMITE MEDIR LA RELACION ENTRE ESTE TIPO DE DATOS ES EL Coeficiente de SpermanEn ocasiones tenemos características como BellezaConductaActividad preferencialCapacidad de liderazgo Sabores entre otrosComo sabemos sus datos pueden ser jerarquizados u organizados ordinalmente
EJEMPLO QUE NOS PERMITE CONOCER EL PROCESO DE LA DETERMINACIÓN DE LOS RANGOS
Medidas Rangos
47 1
39 2
38 3
35 4
31 5
29 6
27 7
Obsérvese que el 27 tiene el rango 7 que es el mas bajo del conjunto de datos mientras que el valor 47 recibe el rango numero 1 por ser el dato con el valor mas alto
EJEMPLO Cuando existen datos con valores similares se les asigna el rango promedio a los mismos.
Medidas Rangos
40 1
39 2.5
39 2.5
37 4
20 5
19 6
18 8
18 8
18 8
12 10
10 11
FORMULA DEL COEFICIENTE DE SPEARMANUNA VEZ EXPUESTO LA MECANICA DE ASIGNACIÓN DE RANGOS LA FORMULA DEL COEFICIENTE DE SPERMAN ES:
R = 1 - 6 D 2 n (n 2 -1)
Al igual que el coeficiente de Pearson el de Spearman puede tomar valores entre -1 y 1.
PARA APLICAR LA FORMULA SE DEBE SEGUIR EL SIGUIENTE PROCEDIMIENTO
Primero: Determinar el rango de las medidasSegundo Obtener la diferencia de los rangosTercero Verificar que las sumas de las diferencias de los rangos sea cero (= 0) Cuarto Elevar al cuadrado las diferencias (D 2)
∑
EJEMPLO DE APLICACIÓN DEL COEFICIENTE DE SPEARMAN (DATOS CUANTITATIVOS)
Se receptan dos pruebas una teórica y otra practica a dos estudiantes de farmacología en un curso de perfeccionamiento. Los resultados de las calificaciones obtenidas son las siguientes:
¿Cuál es la correlación entre las pruebas y las calificaciones fueron aceptable o no?
Estudiantes
Prueba teórica
Prueba practica
rangos Difer0.5encia de 1rangos D 2
X Y X-2 –Y = D
1 65 68 9 6.5 2.5 6.25
2 63 66 11 10.5 0.5 0.25
3 67 68 7.5 6.5 1 1
4 64 65 10 12 -2 4
5 68 69 5.5 4 1.5 2.25
6 62 66 12 10.5 1.5 2.25
7 70 68 3 6.5 -3.5 12.25
8 76 75 1 1 0 0
9 68 71 5.5 2 3.5 12.25
10 67 67 7.5 9 -1.5 2.25
11 69 68 4 6.5 -2.5 6.25
12 71 70 2 3 -1 1
N = 12 ∑ D = 50
Empleando la fórmula )
r = 1 - 6 ∑ D 2 n (n 2 -1)
R= 1 – 6 x 50 12 (12 2 -1)
R = 1 – 0.17
R = 0.83
CORRELACIÓN ACEPTABLE
Ejemplos para datos ordinales
Con el fin de medir la relación que existe entre las preferencias por el sabor de ciertas gaseosas y el diseño de sus envases . De las encuestas realizadas se obtuvieron los siguientes resultados
MARCA DE GASEOSA
RANGO DE PREFERENCIAX
RANGO DE DISEÑOY
DIFERENCIA X - Y = D
D 2 =
COCA COLA 1 2 1- 2 = -1 1
PEPSI 2 5 2 -5 =-3 9
TROPICAL 3 1 3- 1 =2 4
SEVEN 4 3 4- 3 =1 1
FIORA 5 4 5- 4 =1 1
0 16r = 1 - 6 ∑ D 2 n (n 2 -1)
R = 0.20 No hay correlación
Los ejecutivos de venta de 10 distribuidoras de una empresa de productos medicamentosos fueron entrenados para elevar su potencial de ventas.Al cabo del año sus calificaciones por rango en el programa de entrenamiento se ordenaron para medir su correlación con las ventas anualesn, en el cuadro se presentan los resultados diga como fue la correlación que se obtuvo.Ejecutivos Ventas Rango
entrenamiento
X Y
A 319 3
B 150 9
C 175 6
D 460 1
E 398 4
F 300 10
G 280 5
H 200 2
I 190 7
j 300 8
N = 10
DESARROLLO
RANGOS DIFERENCIAS D 2
X
Y X - Y = D
3 3 3 - 3 = 0 0
10 9 10 - 9 = 1 1
9 6 9 - 6 = 3 9
1 1 1 - 1 = 0 0
2 4 2 - 4 = -2 4
4.5 10 4.5 - 10 = -5.5 30.25
6 5 6 - 5 = 1 1
7 2 7 - 2 = 5 25
8 7 8 - 7 = 1 1
4.50 8 4.50 - 8 = -3.5 12.25
TOTAL 0 83.50
EMPLEANDO LA FÓRMULA PROPUESTA TENDREMOS:
R = 1 - 6 ∑ D 2 N (N 2 -1)
R = 0.49CORRELACION MÍNIMA
TAREAUna empresa publicitaria desea determinar si el numero de anuncios comerciales que se realizan mensualmente por televisión (X) se relacionan con el número de ventas de los artículos que se proporcionan
Numero de anuncios publicitarios
Numero de artículos vendidos
X Y
10 30
12 60
15 50
5 12
7 10
5 25
5 10
15 60
8 25
1 10
13 75
15 95
TEMA 9: ELEMENTOS DE PROBABILIDADESINTRODUCCION
Mediante la Estadística descriptiva y a través de lasTablasGráficosMedidasDamos el informe del comportamiento de un fenómeno o sea una descripción de un fenómeno pasadoLa probabilidad es una función Analitica Inferencial que nos permite a través de una muestra tomada de una población EstimarInferir Hacer deducciones sobre el comportamiento de la población de donde fue tomada la muestra.En este caso solo trataremos los elementos de probabilidad pues ella solo abarcaría el curso completo.
El papel de la ´probabilidad en la estadística consiste en que el Probabilista parte de la población deducida de un sinnúmero de ensayos o experimentos para a partir de esta población deducida analizar el compartimiento de la muestra.En cambio el estadista estima infiere la población a partir de una muestra , realizando el proceso inverso de probabilista parte de la población
EL PAPEL DE LA PROBABILIDAD EN LA ESTADÍSTICA Consiste en que el Probabilista parte de la población deducida de un sinnúmero de ensayos o experimentos para a partir de esta población deducida analizar el compartimiento de la muestra.
En cambio el estadista estima infiere la población a partir de una muestra realizando el proceso inverso de probabilista
MODELOS MATEMATICOSDeterministasCuando es posible determinar de antemano los cambios de una variable los modelos se denominan deterministas son modelos que emplean las ciencias química,, físicas, etc..No todas las conductas humanas pueden estar ceñidas a un modelo matemático determinista, donde inexorablemente deben cumplir se ciertas leyes, muy por el contrario hay conductas que se desarrollan en la incertidumbre y para ello se crearon los modelos matemáticos denominadoModelos probabilísticos.Estos modelos no describen exactamente lo que ocurrirá DADA UNA SITUACIÓN SINO QUE ESTIMA LO QUE ES POSIBLE QUE SUCEDA
Mecánica de la probabilidad y conceptos básicos
La mecánica de la Probabilidad es estimar o inferir de que algo ocurrirá:
Cual es la probabilidad de al lanzar una moneda caiga cara o escudo
Cual es la probabilidad de que caiga 3 al lanzar un dadoConceptos básicos de probabilidadQue es probabilidadLa posibilidad de que algo ocurra
Como se mide la probabilidad?
La probabilidad es un numero que se mide entre uno y cero 0 ≤ P ≤ 1
Cuando existe la CERTEZA DE QUE UN EVENTO OCURRALA Probabilidad es :Ej: solCuando existe la certeza de que un evento no puede ocurrir es: Ej : dado número 7
Que mide la probabilidad?Mide la posibilidad de que llegue a ocurrir un evento como resultado de un experimentoEn el ejemplo de la monedaCara = 1/2Cara + escudo
Valor fraccionado Valor decimal Valor porcentual1/2 0.5 50 %
Espacio muestral El conjunto de todos los resultados posibles de un experimentos se denomina espacio muestral (S)
S = cara, escudo
S = 1,2,3,4,5,6
TIPOS DE PROBABILIDAD LA PROBABILIDAD SE CLASIFICA EN:
CLASICADE FRECUENCIA RELATIVA
SUBJETIVAProbabilidad clásica:Podemos describirla de esta manera:
Probabilidad de un evento= número de resultados favorables número de resultados posibles
También puede expresarse de la forma siguiente:
•Experimento en el lanzamiento de una moneda que salga cara
Levantar una carta de un juego de cuatro cartas correspondientes a los cuatro ases de un juego de cartas Sea el as de brillo
P = as de brillo = 1/6 ases : brillo, trébol, corazón rojo, negro
P = f n
Lanzamiento de un dadoQue caiga el número 3
PROBABILIDAD DE FRECUENCIA RELATIVASe determina por la vía experimental.La idea de frecuencia relativa es que la probabilidad se calcula después de una serie de ensayos y experimentos es decir se basa en la experiencia pasada
Número de veces que Probabilidad de que suceda un evento= el evento ocurrió en el pasado
Número total de observaciones
Veamos un Ejemplo :
EN UN LABORATORIO DE PRODUCCION DE MEDICAMENTOS SE TIENE REGISTRADOS LOS SIGUIENTES DATOS SOBRE EL CONTENIDO DE UN DETERMINADO MEDICAMENTO
Evento Contenido Producto
Probabilidad de ocurrencia del evento
A Peso inferior 50 50/1000= 0.05
B Peso correcto
850 850/1000=0.85
C Peso superior
100 100/1000= 0.10
1000 1.00Como puede observarse necesariamente la suma de todos los resultados es igual a la unidad
Nos podemos plantear las siguiente probabilidades
Al tomar al azar un medicamento este tenga el peso inferior , peso correcto o peso superior a lo que establece la norma.
Sea peso inferior
P (A) = 50/1000 = 0.05Respuesta existe un 5 % de probabilidad de que el medicamento tomado sea de peso infeiro al que establece la normaCalcular correcto y el superior
CARACTERISTICAS DE LAS PROBABILIDADES DE FRECUENCIA RELATIVA
1.La probabilidad obtenida no es el valor real sino una aproximada estimación del mismo2.Cuanto mas ensayos o experimentos hagamos previamente los resultados estimados serán mas exactos. Esto equivale a decir que mientras mayor sea el tamaño de la muestra mejor será la estimacion de la probabilidad.3.Para la validez de la estimación de la probabilidad deben darse idénticas condiciones en las que se recopilaron los datos
Regla del complemento
Como ya sabemos la 0 ≤ P ≤ 1
De aquí podemos ratificar:1.Ninguna probabilidad es mayor que 12.Ninguna probabilidad es menos a 0, no pueden existir probabilidades negativas.Si se designa con P(A) la probabilidad de que un evento _ ocurra y con P(A) de que no ocurra, se obtiene las siguientes relaciones conocidas como Regla del complemento1.La probabilidad de que un evento ocurra mas la que no ocurra es igual a 1 _P(A) + P(A)= 12. La probabilidad de que un evento A ocurra es igual a la unidad menos la probabilidad de que no ocurra.3. La probabilidad de que el evento no ocurra es igual a la unidad menos la probabilidad de que ocurra
EjercicioSi designa a la ocurrencia de un evento como P y la probabilidad de que no ocurra como Q y si lanzamos la moneda y designamos con P el evento de que caiga cara y Q de que sea sello, como se representarían estos eventos
EJEMPLOS DEL PROGRAMA RESOLVER
a)p de que al tirar un dado dos veces salgan en ambas un 6.
b) p de que al tirar dos dados salga en ambos un 6 “seis en el primer dado y seis en el segundo”
c) La p de ser rubio es de 0,3 y la de llevar gafas es de 0,2 . Calcular la p de que una persona cualquiera sea rubia y lleve gafas (se asume que son independientes).
d) en una caja hay 3 bolas blancas y 2 negras. Calcular la p de que sacando dos bolas, las dos sean negras.
e) p de que al sacar una carta de una baraja española de 40 cartas sea oros o copas.
f) p de que al sacar una carta de esa baraja sea as o espadas.hay 4 ases , 10 espadas y 1 as de espadas (que cuenta como as y como espada, entre 40, que debe ser compensada)
g) p de acertar 6 en la PrimitivaHay 49 bolas. Como no hay reemplazo, cada vez que sale una bola, queda unamenos en el bombo.
h) p de que tirando un dado 4 veces, la primera vez que salga un 5 sea en la 4ª tirada.
Respuestasa. “seis en la 1ª tirada y 6 en la 2ª”p(2 veces 6) = 1/6 * 1/6 = 1/36 (mejor que 0,0278).
b. es el mismo caso que a).
c.p(rubio y gafas) = 0,3 * 0,2 = 0,06 ( ó 6%).
d. Nos piden la p de que sea negra la primera y negra la segunda.la p de ser negra de la 1ª bola es 2/5 ; una vez sacada quedan 4 bolas (una, negra). la p de ser negra de la 2ª bola es de ¼p( 2 bolas negras) = 2/5 * ¼ = 2/20 = 1/10 (ó 0,1 ó 10%).
e. p(oros o copas) = 10/40 + 10/40 = 20/40 = ½ (ó 0,5 ó 50%).
f. hay 4 ases , 10 espadas y 1 as de espadas (que cuenta como as y como espada, 1 entre 40, que debe ser compensada)p(As o Espada) = 4/40 + 10/40 – 1/40 = 13/40 = 0,325
gHay 49 bolas. Como no hay reemplazo, cada vez que sale una bola, queda una menos en el bombo. Para acertar los 6 resultados hay que acertar el primer número y el segundo y el tercero...y el sexto.p(6 aciertos) = 6/49 * 5/48 * 4/47 * 3/46 * 2/45 *1/44 = 1 /13.983.816
h. p de que tirando un dado 4 veces, la primera vez que salga un 5 sea en la 4ª tirada. p(5 sólo en la 4ª) = p(no 5 en la 1ª)*p(no 5 en la 2ª)*p(no 5 en la 3ª)*p(5 en la4ª) = 5/6 * 5/6 * 5/6 * 1/6 = 125/1296 = 0,096
EVENTOS Y TIPOS1.MUTUAMENTE EXCLUYENTES2.EVENTOS QUE NO SON MUTUAMENTE EXCLUYENTES3.EVENTOS COLECTIVAMENTE EXHAUTIVOS
EVENTOS MUTUAMENTE EXCLUYENTESSe dice que dos eventos son mutuamente excluyentes si Uno solo y solo uno de los eventos de un experimento puede ocurrir a la vez,. En el nacimiento de un bebé se tiene varón o hembra siempre que sea un parto de solo niño.
EVENTOS QUE NO SON MUTUAMENTE EXCLUYENTESSe dice que dos eventos no son mutuamente excluyentes cuando es posible que dos eventos ocurran simultáneamente.Por ejemplo:Escoger a un mujer que sea enfermera para un puesto de trabajo.
EVENTOS QUE COLECTIVAMENTE EXHAUTIVOSCuando una lista de los eventos que puedan resultar de un experimento incluye todos los resultados posibles, se dice que es colectivament3e exhaustivos
Tema 9 . Distribuciones fundamentales de probabilidad Ya hemos visto que los fenómenos naturales siguen el modelo indeterminista, es decir las leyes del azar, entendido como la combinación de múltiples factores, en gran parte desconocidos e incontrolables, que conducen a resultados no previsibles de antemano, aunque sí conocidos, que se caracterizan por su variabilidad en los diferentes individuos. A cada uno de los posibles resul- tados se asocia una probabilidad, que en sucesos sencillos o poco complejos es fácil de calcular por las leyes básicas o fundamentales de la probabilidad, pero al aumentar la complejidad el cál- culo se hace muy difícil o imposible. Entonces hay que recurrir a una serie de modelos teóricos, las llamadas distribuciones o leyes fundamentales de la probabilidad, que nos permiten hacer el cálculo con relativa facilidad. Al aumentar el nº de individuos todas las distribuciones se van aproximando y acaban confluyendo y haciéndose una en el infinito. Clasificacióna) para variables discretas--Distribución. binomial--Distribución de Poisson--Distribución hipergeométrica
b) para variables continuas--Distribucion Normal--Distribucion de la t de Student--Distribucion de la χ2 de Pearson--Distribucion de la F de Snedecor-FisherPara todas valen los principios que ya conocemos:0 ≤ p ≤ 1 p + q = 1
Σ p(x) = 1
DISTRIBUCION BINOMIALConceptoEs el modelo básico de distribución de las variables discretas (o discretizadas), que como ya sabemos pueden ser reducidas en última instancia a dicotómicas. Experimentos binomialesPueden ser elementales y complejosLos elementales tienen dos resultados posibles: Éxito (cuando aparece el resultado que se pre-tende) yFracaso , que puede ser único o múltiple. Sus probabilidades respectivas son p y q
En los complejos el experimento elemental se repite n veces--obteniendo r éxitos ( de 0 a n) : 0 ≤ r ≤ n--cada modalidad de la variable va asociada a una r . Como r empieza en 0 siempre hay n+1 modalidades: la de r=0 y las de r entre uno y n.-- un experimento binomial complejo puede repetirse N veces. Cada moda- lidad aparecerá Nr veces.
NotaciónLa distribución suele designarse como DB, pero cuando se dan los parámetros típicos, la n y la p del suceso elemental, se utiliza sólo B .
Así: B(n , p)
Experimento Éxito p n r notación
elemental: lanzar 1 monedacomplejo: lanzar 4 monedas
salir carasalir cara
0,50,5
14
0 , 10 , 1 , 2 , 3 ,
4
B(1 , 0,5)B(4 , 0,5)
elemental: lanzar un dadocomplejo: lanzar 5 dados
salir 1salir 1
1/61/6
15
0 , 10 , 1 , 2 , 3 ,
4, 5
B(1 , 1/6)B(5 , 1/6)
elemental: familia con 1 hijocomplejo: familia con 4 hijos
ser chicaser chica
0,50,5
11
0 , 10 , 1 , 2 , 3 ,
4
B(1 , 0,5)B(4 , 0,5)
Algunos ejemplos:El lanzamiento de las 4 monedas se puede repetir N veces. O podemos estudiar N familias de 5 hijos.
Cálculo de las p de r
p (r)= n! p r q n − r
r !* (n − r )!
GráficoDiagrama de barras
Otros parámetros _Media o esperanza matemática: X = npla media representa el nº esperado de éxitos en el experimentoVarianza: s2 = npqy por tanto, desviación estándar: s =√npq
n , p , N y NrConviene insistir en estos símbolos que son básicos en la DB.n : veces que se repite el suceso elemental en un experimento binomial. Si n=1 es un experi-mento simple; si >1, es complejop : probabilidad del suceso elementalN : veces que se repite el experimento complejo. Si no se dice nada, N=1
Nr : frecuencia de cada modalidad tras N repeticiones. Σ Nr = N----Si tiramos una moneda 1 vez, es una B(1 , 0,5) . Podemos obtener 0 ó 1 cara (r). N=1
Si este experimento lo repetimos 3000 veces (N) seguirá siendo una B(1, 0,5) pero con N=3000. r sigue valiendo 0 y 1. Nos pueden salir p.e. 1450 caras. Entonces No = 1550 y N1 = 1450
Si tiramos de una vez 3000 monedas pueden salir entre 0 y 3000 caras (r). Es una B(3000 , 0,5) ; n=3000 ; N=1
Si obtenemos 1450 caras (c), habrá habido 1550 cruces (k). Como sólo se hace una vez, se suele asimilar al caso anterior y se dice que No = 1550 ; N1 = 1450, aunque realmente no es correcto. Mejor sería Nc y Nk.
Si tiramos tres monedas 1000 veces y obtenemos 0 caras en 115 ocasiones, una cara en 380, dos caras en 370 y tres caras en 130: es una B(3 ; 0,5) , n=3 , N=1000 , N0=115 , N1=380 , N2=370 y N3=130
Problemas asociados a la Distribución Binomial1) calcular p(r) : nos pueden pedir el cálculo de una r en concreto o de todas ellas. Como ejemplo vemos la p de 2 caras lanzando 3 monedas. Es B(3 , 0,5) 1- Aplicando la fórmulap (r)= n! p r q n − r
r !* (n − r )!
p(r = 2) = 3!........0,5 2!*1!
0, 520, 51 = 0, 3750
2 - Método Intuitivo (“cuenta de la vieja”). Válido para una p elemental de 0,5. Veremos no sólo la p(r=3) sino todas las p(r). Hay que considerar todas las combinaciones posibles de cara (c) y cruz (k).
Si el lanzamiento de las 3 monedas se repite 200 veces, teóricamente se obtendrán lo siguiente:0 caras : N0 = 200 * 1/8 = 251 cara : N1 = 200 * 3/8 = 752 caras : N2 = 200 * 3/8 = 753 caras : N3 = 200 * 3/8 = 25
calcular la media, varianza, desviación estándarx = np ; S2 = npq ; s= √npq
En el ejemplo de las monedas: x = 3 * 0,5 = 1,5
S2 = 3 * 0,5 * 0,5 = 0,75
s = √ 3 * 0 ,5 * 0 ,5 = 0 ,866
r Nr r*Nr
0 4096 0
1 4096 4096
2 1536 3072
3 256 768
4 16 64∑
10000 8000
Ejemplo:Lanzadas 4 monedas 10000 veces se han obtenido los resultados que se muestran en la tabla:0 caras en 4096 ocasiones, 1 cara en 4096, 2 caras en 1536, 3 caras en 256 y 4 caras en 16.
x = 8000 = 0 ' 8 100000'8=4p p=0'2
por tanto es una B (4 , 0'2)
DISTRIBUCION NORMAL
Es la distribución típica de variables aleatorias cuantitativas continuas cuando el tamaño es grande (por consenso, cuando N≥30) . Sus parámetros básicos son la media y la desviación estándar.
La curva normal o de Gauss es un modelo matemático que representa la distribución más frecuente de los errores en las mediciones experimentales. Es una distribución de frecuencia para variables continuas
Su desarrollo se debe fundamentalmente a Laplace y Gauss. Quetelet le dio el nombre de NORMAL O NATURAL porque observó que la gran mayoría de variables fisiológicas seguían este modelo.
Es un nombre consagrado por el uso y no quiere decir que las otras distribuciones sean “anormales”.
Los norteamericanos usan y han exportado la denominación de “distribución gaussiana”.
Siguen la DN todo tipo de variables biológicas ( como frecuencia cardíaca, tensión arterial, componentes químicos de la sangre y orina, medidas corporales...), duración o vida de objetos y seres vivos, etc. _
Notación : N( x , s)
FórmulaLa fórmula para calcular las p asociadas a intervalos de valores ( no se pueden calcular p de valores puntuales, ya que en el contexto de la DN son infinitésimos) es muy compleja y necesita integración. Pero afortunadamente no hay que utilizarla, pues se dispone de una tabla de fácil manejo, que nos da el cálculo ya hecho. Está caracterizada por la media, μ, y la desviación típica, σ.
A título informativo la fórmula es:Su función de densidad es: a≤ p ≤b
Representación gráficaes la curva o campana de Gauss, en “chapeau de gendarme” (gorro de gendarme) de los tiemposnapoleónicos. Es el límite de un histograma cuando la amplitud de las clase se hace infinitesimal y el nº de datos tiende a infinito.
2
2
1
2
1)(
x
exf
Es simétrica alrededor de un eje vertical que pasa por x y asintótica al eje de abscisas (lo corta en el infinito por ambos lados, aunque a partir de x ± 3s ya casi lo toca). La campana engloba todos los valores y por tanto la p de que un valor cualquiera esté en ella es 1 ó 100%. La superficie de campana delimitada por dos valores del eje de abscisas equivale a la probabilidad de que un valor cualquiera se encuentre en ese área. Cada distribución tiene su propia campana, hay infinitas curvas de DN. En estas condiciones su manejo sería muy difícil y complicado, ya que habría que aplicar cada vez la fórmula. Afortunadamente se ha encontrado un modelo único de distribución y por tanto de campana al que pueden ser adaptadas todas las DN.
Es la llamada DN tipificada.
Tipificación _Consiste en transformar cualquier N( x , s) en otra N(0 , 1), es decir, en una DN de media 0 y desviación estándar 1. Para ello hay que transformar los valores originales x en puntuaciones estándar o valores tipificados, que aquí llamaremos c. (Otros nombres: z o SDS).
c = x − x s SEntre dos valores de c quedan delimitadas áreas (=probabilidad) que se pueden obtener a partir de la tabla de la DN tipificada.
Ya se ha dicho al principio que no se pueden calcular p de valores aislados, sólo de intervalos más o menos grandes.
En esta campana están representadas las áreas o probabilidades entre valores de c +1 y –1 , +2 y –2 , +3 y –3 . Pero es preferible expresar la p con números más “redondos” :---Al intervalo entre c = -1,96 y c = 1,96 corresponde un 95% de la superficie de la campana. p(–1,96 ≤ c ≤ 1,96) = 0,95 ó 95%---Al intervalo entre c = -2,58 y c = 2,58 corresponde un 99% de la superficie de la campana. p(–2,58 ≤ c ≤ 2,58) = 0,99 ó 99%---
Dada una variable de media μ y desviación típica σ, se denomina valor tipificado, z, de una observación x, a la distancia (con signo) con respecto a la media, medido en desviaciones típicas.
x
z
-1 o 1 -σ µ σ
La interpretación es clara: Asigna a todo valor de N(μ, σ), un valor de N(0,1) que deja exactamente la misma probabilidad por debajo.
Como ejemplo podemos ver:
Al intervalo entre c = -3,30 y c = 3,30 corresponde un 99,9% de la superficie de la campana. p(–3,30 ≤ c ≤ 3,30) = 0,999 ó 99,9% que son los que utilizaremos aquí.
Es imprescindible dibujar una campana y marcar en ella la media y el valor o valores de x.Una vez tipificada se anotan el los valores de c. A la media le corresponde siempre por definición el valor de 0
Problemas asociados a la DN1---tipificarp.e. x=5 y x=3 de una B(4 , 2)→ c = (5-4)/2 = 0,5 → c = (3-4)/2 = -0,5 2---calcular la probabilidad de un intervalo,p.e. entre c = 0 y c = 0,46 → p(0 ≤ c ≤ 0,46) = 0,1772
Ejemplo:La duración media de un MEDICAL DEVICES ,es de 12 meses, con una varianza de 4. El fabricante garantiza que pudiera durar 8 meses más. Calcular1) la probabilidad de que se inactive en el periodo de garantía2) la probabilidad de que dure al menos 16 meses3) la probabilidad de que dure entre 15 y 18 meses
La variable “Vida de la bombilla” es una N(12, 2)1) p(x ≤ 8) ?se dibuja la campanase tipifica: c = (8-12)/2 = -2p(c ≤ -2) = 0,5 – p(-2 ≤ c ≤ 0) =0,5 – 0,4772 = 0,0228 ó 2,28% 8 12 -2 02) p(x ≥ 16) ? c = (16-12)/2 = 2p(c ≥ 2) = 0,5 – p(0 ≤ c ≤ 2) =0,5 – 0,4772 = 0,0228 ó 2,28%
12 16 0 2
DISTRIBUCIÓN DE LA T DE STUDENT
Es la distribución teórica de las muestras pequeñas de una población que sigue la ley normal con datos cuantitativos continuos.
Gosset (que utilizaba el seudónimo de Student) comprobó que cuando disminuía el tamaño de las muestras, no valían del todo los normas de la DN, tanto más cuanto más pequeña sea la muestra. Hasta N=30 las diferencias son bastante acusadas.
Por eso la mayoría de autores ponen a ese nivel la frontera de uso práctico entre DN y t de Student.
Otros lo ponen en 60 y algunos hasta en 120.
Los programas estadísticos utilizan casi exclusivamente la t de Student para todas las variables continuas, ya que hasta el infinito no se produce una identidad plena entre ambas distribuciones.
La DN está en vías de extinción, al menos en la práctica.
Nosotros seguiremos el criterio de utilizar la t de Student para muestras pequeñas (N<30) y la DN para las grandes.
El valor obtenido de los cálculos anteriores es comparado con los valores en una tabla de distribución de t de student (esta puede encontrarse en cualquier test de estadística
Distribución de frecuencias para variables continuas y muestras pequeñas (n<30)
Tiene un sólo parámetro denominado grados de libertad (n-1).
Cuando aumentan los grados de libertad, más se acerca a N(0,1).
Iguales propiedades que la distribución normal.La notación es t (gl , α). α es el nivel de significación elegido y gl es el grado de libertad.Con este nombre se designa al número de observaciones independientes, que en general son N-1.En esta prueba de t de students se comparan pares de datos continuos , distribuidos al azar y se coparan de la forma siguiente: _ _t = X1 - X_2____ √ N1. N2 . (N1 + N2 -2) √ D12 + D 2 N1 + N2
2 2 2
De donde el valor de ∑ D : N ∑ X - (∑X_)____ N
UN EJEMPLO AYUDARÁ A ENTENDER ESTE CONCEPTO.
Si nos piden 5 valores que sumen 35, sólo podremos elegir libremente 4, pues el 5º es obligado: supongamos que elegimos 8 , 10 , 23 , -15 .
El 5º número tiene que ser por fuerza 9 ; hay 4 grados de libertad. Aquí no hay modelo tipificado y para cada valor de N hay una campana distinta (que no es preciso dibujar..).
La TABLA sigue el modelo de las tablas de doble entrada. En la primera columna está el grado de libertad y en la primera fila hay tres niveles de significación.
t(5 , 0,05) = 2,571 ; t(26, 0,001) = 3,707 ; t (15, 0,01) = 2,947.
UTILIDADESComparar medias. Prueba de hipótesis entre medias.Cálculo de intervalo de confianzaDeterminación del tamaño de muestra
EJEMPLO 2
Suponga que desea comparar dos grupos ( un grupo de ensayo y otro control ) de pesos corporales de perros que han seguido un estudio de inhalación de vapores Se conduce el test como sigue
Perro Peso corporal test
Peso corporal control
X1 en kg X12 X2 en kg X22
1 8,3 68,89 8,4 70,56
2 8,8 77,44 10,2 104,04
3 9,3 86,49 9,6 92,16
4 9,3 86,49 9,4 88,36
Suma 35,7 319,31 37,6 355,12
Medias 8,92 9,4
Aplicando la formula vista anteriormente
_ _t = X1 - X_2____ √ N1. N2 . (N1 + N2 -2) √ D12 + D 2 N1 + N2
2 2 2
De donde el valor de ∑ D= N ∑ X - (∑X_)____ NPor tanto el valor de t será :Diferencia de las medias : N2 –N1 = 9.40 – 8.92 2 2
∑ D 1 = 4 (319.31) – (35.7) __= 2,75/4 = 0,68754
2 2
∑ D 2= 4 (355,12) – (36.6) = 6,72/4 = 1,68 4
De donde: t= 0,48 = √ 4 (4) . ( 4 +4 -2) = 1,08 √ 0,6875 + 1,68 4 + 4
El valor tabular para t con un nivel de significación de 0.05 y 6 grados de libertad es 1.9432 esto implica que 1.08< 1,9432RESPUESTA: LOS PESOS CORPORALES DE LOS PERROS NO DIFIEREN SIGNIFICATIVAMENTE A UN NIVEL DE 0.05
Como buscar la El valor tabular para t con un nivel de significación de 0.05 y 6 grados de libertad
g.ll. 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 0.975 0.99 0.995 1 2 3 4 5 6 7 8 9
10 11 12 13 14 15 16 17 18 19
20 21 22 23 24 25 26 27
0.15838 0.14213 0.1366 0.13383 0.13218 0.13108 0.13029 0.12971 0.12925
0.12889 0.12859 0.12835 0.12814 0.12796 0.12781 0.12767 0.12755 0.12745 0.12735
0.12727 0.12719 0.12712 0.12706 0.127 0.12694 0.12689 0.12685
0.32492 0.28868 0.27667 0.27072 0.26718 0.26483 0.26317 0.26192 0.26096
0.26018 0.25956 0.25903 0.25859 0.25821 0.25789 0.2576 0.25735 0.25712 0.25692
0.25674 0.25658 0.25643 0.2563 0.25617 0.25606 0.25595 0.25586
0.50953 0.44475 0.4242 0.41416 0.40823 0.40431 0.40154 0.39947 0.39787
0.39659 0.39555 0.39469 0.39396 0.39333 0.39279 0.39232 0.3919 0.39153 0.3912
0.39091 0.39064 0.39039 0.39017 0.38997 0.38978 0.38961 0.38945
0.72654 0.61721 0.58439 0.56865 0.55943 0.55338 0.54911 0.54593 0.54348
0.54153 0.53994 0.53862 0.5375 0.53655 0.53573 0.53501 0.53438 0.53382 0.53331
0.53286 0.53246 0.53208 0.53175 0.53144 0.53115 0.53089 0.53065
1. 0.8165 0.76489 0.7407 0.72669 0.71756 0.71114 0.70639 0.70272
0.69981 0.69745 0.69548 0.69383 0.69242 0.6912 0.69013 0.6892 0.68836 0.68762
0.68695 0.68635 0.68581 0.68531 0.68485 0.68443 0.68404 0.68368
1.3764 1.0607 0.97847 0.94096 0.91954 0.9057 0.89603 0.88889 0.8834
0.87906 0.87553 0.87261 0.87015 0.86805 0.86624 0.86467 0.86328 0.86205 0.86095
0.85996 0.85907 0.85827 0.85753 0.85686 0.85624 0.85567 0.85514
1.9626 1.3862 1.2498 1.1896 1.1558 1.1342 1.1192 1.1081 1.0997
1.0931 1.0877 1.0832 1.0795 1.0763 1.0735 1.0711 1.069 1.0672 1.0655
1.064 1.0627 1.0614 1.0603 1.0593 1.0584 1.0575 1.0567
3.0777 1.8856 1.6377 1.5332 1.4759 1.4398 1.4149 1.3968 1.383
1.3722 1.3634 1.3562 1.3502 1.345 1.3406 1.3368 1.3334 1.3304 1.3277
1.3253 1.3232 1.3212 1.3195 1.3178 1.3163 1.315 1.3137
6.3138 2.92 2.3534 2.1318 2.015 1.9432 1.8946 1.8595 1.8331
1.8125 1.7959 1.7823 1.7709 1.7613 1.7531 1.7459 1.7396 1.7341 1.7291
1.7247 1.7207 1.7171 1.7139 1.7109 1.7081 1.7056 1.7033
12.706 4.3027 3.1824 2.7764 2.5706 2.4469 2.3646 2.306 2.2622
2.2281 2.201 2.1788 2.1604 2.1448 2.1314 2.1199 2.1098 2.1009 2.093
2.086 2.0796 2.0739 2.0687 2.0639 2.0595 2.0555 2.0518
31.821 6.9646 4.5407 3.7469 3.3649 3.1427 2.998 2.8965 2.8214
2.7638 2.7181 2.681 2.6503 2.6245 2.6025 2.5835 2.5669 2.5524 2.5395
2.528 2.5176 2.5083 2.4999 2.4922 2.4851 2.4786 2.4727
63.657 9.9248 5.8409 4.6041 4.0321 3.7074 3.4995 3.3554 3.2498
3.1693 3.1058 3.0545 3.0123 2.9768 2.9467 2.9208 2.8982 2.8784 2.8609
2.8453 2.8314 2.8188 2.8073 2.7969 2.7874 2.7787 2.7707
Buscar el valor tabular para t (26, 0,01)
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
0.12727
0.12719
0.12712
0.12706
0.127
0.12694
0.12689
0.12685
0.12681
0.12677
0.12673
0.1267
0.12666
0.12663
0.1266
0.12658
0.12655
0.12653
0.1265
0.12648
0.12646
0.12644
0.12642
0.12641
0.12639
0.12637
0.12636
0.12634
0.12633
0.12631
0.1263
0.25674
0.25658
0.25643
0.2563
0.25617
0.25606
0.25595
0.25586
0.25577
0.25568
0.25561
0.25553
0.25546
0.2554
0.25534
0.25528
0.25523
0.25518
0.25513
0.25508
0.25504
0.255
0.25496
0.25492
0.25488
0.25485
0.25482
0.25479
0.25476
0.25473
0.2547
0.39091
0.39064
0.39039
0.39017
0.38997
0.38978
0.38961
0.38945
0.3893
0.38916
0.38903
0.38891
0.3888
0.38869
0.38859
0.3885
0.38841
0.38833
0.38825
0.38817
0.3881
0.38803
0.38797
0.38791
0.38785
0.38779
0.38774
0.38768
0.38763
0.38759
0.38754
0.53286
0.53246
0.53208
0.53175
0.53144
0.53115
0.53089
0.53065
0.53042
0.53021
0.53002
0.52984
0.52967
0.5295
0.52935
0.52921
0.52908
0.52895
0.52883
0.52871
0.52861
0.5285
0.5284
0.52831
0.52822
0.52814
0.52805
0.52798
0.5279
0.52783
0.52776
0.68695
0.68635
0.68581
0.68531
0.68485
0.68443
0.68404
0.68368
0.68335
0.68304
0.68276
0.68249
0.68223
0.682
0.68177
0.68156
0.68137
0.68118
0.681
0.68083
0.68067
0.68052
0.68038
0.68024
0.68011
0.67998
0.67986
0.67975
0.67964
0.67953
0.67943
0.85996
0.85907
0.85827
0.85753
0.85686
0.85624
0.85567
0.85514
0.85465
0.85419
0.85377
0.85337
0.853
0.85265
0.85232
0.85201
0.85172
0.85144
0.85118
0.85094
0.8507
0.85048
0.85026
0.85006
0.84987
0.84968
0.84951
0.84934
0.84917
0.84902
0.84887
1.064
1.0627
1.0614
1.0603
1.0593
1.0584
1.0575
1.0567
1.056
1.0553
1.0547
1.0541
1.0535
1.053
1.0525
1.052
1.0516
1.0512
1.0508
1.0504
1.05
1.0497
1.0494
1.0491
1.0488
1.0485
1.0483
1.048
1.0478
1.0475
1.0473
1.3253
1.3232
1.3212
1.3195
1.3178
1.3163
1.315
1.3137
1.3125
1.3114
1.3104
1.3095
1.3086
1.3077
1.307
1.3062
1.3055
1.3049
1.3042
1.3036
1.3031
1.3025
1.302
1.3016
1.3011
1.3006
1.3002
1.2998
1.2994
1.2991
1.2987
1.7247
1.7207
1.7171
1.7139
1.7109
1.7081
1.7056
1.7033
1.7011
1.6991
1.6973
1.6955
1.6939
1.6924
1.6909
1.6896
1.6883
1.6871
1.686
1.6849
1.6839
1.6829
1.682
1.6811
1.6802
1.6794
1.6787
1.6779
1.6772
1.6766
1.6759
2.086
2.0796
2.0739
2.0687
2.0639
2.0595
2.0555
2.0518
2.0484
2.0452
2.0423
2.0395
2.0369
2.0345
2.0322
2.0301
2.0281
2.0262
2.0244
2.0227
2.0211
2.0195
2.0181
2.0167
2.0154
2.0141
2.0129
2.0117
2.0106
2.0096
2.0086
2.528
2.5176
2.5083
2.4999
2.4922
2.4851
2.4786
2.4727
2.4671
2.462
2.4573
2.4528
2.4487
2.4448
2.4411
2.4377
2.4345
2.4314
2.4286
2.4258
2.4233
2.4208
2.4185
2.4163
2.4141
2.4121
2.4102
2.4083
2.4066
2.4049
2.4033
2.8453
2.8314
2.8188
2.8073
2.7969
2.7874
2.7787
2.7707
2.7633
2.7564
2.75
2.744
2.7385
2.7333
2.7284
2.7238
2.7195
2.7154
2.7116
2.7079
2.7045
2.7012
2.6981
2.6951
2.6923
2.6896
2.687
2.6846
2.6822
2.68
2.6778
ANALISIS DE VARIANZA (ANOVA)Cuando estamos frente a la t de student tratamos de comparar dos medias para ver si las hipótesis que se realizan son ciertas o no sin embargo existen casos en que tenemos que trabajar con mas de dos grupos en los cuales tendremos por tanto mas de dos medias acá no es posible aplicar la prueba de student por lo que el ANOVA surge como una generalización del contrate para dos medias de Student cuando el número de dos muestras a contrastar es mayor que dos.Es utilizado para comparar 3 ó mas grupos de datos continuos cuando las varianzas son homogeneas y los datos son independientes y normalmente distribuidos.
Por ello nos planteamos dos hipótesisHo: µ1 = µ 2 = µ3H1: µ1 ≠ µ 2 ó µ1 ≠ µ3 ó µ2 ≠ µ3caso en que una de ella fuera igual pero otra
diferente , también se rechaza la hipótesis nula
Una serie de cálculos son requeridos para realizar el ANOVA, comenzando con los valores dentro del cada grupo que debe ser adicionado.( ∑X) y entonces estas sumas deben ser adicionadas (∑ ∑ X) . Cada dato dentro del grupo es elevado al
2cuadrado y entonces los cuadrados son sumados (∑X ). Luego el factor de corrección CF puede ser calculado a partir de la formula siguiente: K N 2 ( ∑ ∑ X) 1 1_____________________
CF = N1 + N2 + N3+…Nk
Donde N es el numero de valores en el grupo y K es el numero de grupos.La suma total de los cuadrados (SS) es entonces determinada como sigue:
K N 2 SS total = ∑ ∑ X - CF
1 1
A su vez la suma de los cuadrados entre grupos (bg) se encuentra de la forma siguiente:
2 2 2
SS bg = ( ∑ X 1) + ( ∑ X 2) +………… ( ∑ X k) - CF N1 N2 Nk
SS wg = SS total - SS bg
AHORA EXISTEN TRES TIPOS DE GRADOS DE LIBERTAD PARA DETERMINAREl primero, total df, es el total de números de datos dentro de todos los grupos bajo análisis menos 1 o sea: (N1 + N2 + N3+…Nk) - 1
El segundo es , df entre los grupos es el numero de grupos menos uno (K-1)
El ultimo dato sería (dentro de los grupos o error de grados de libertad) es la diferencia entre el primero y el segundo.
F = df total – df bg
El próximo conjunto de cálculos sería la determinación de los cuadrados medios , es decir:(MS wg y M S bg) ellas se calculan de la siguiente manera.
MS = (SS/df)
El cálculo final es la relación F o sea
F = M S bg MS wg
Ejemplo para el empleo de las formulaciones para determinación del ANOVA
Suponga que quiere compara 4 grupos de peso de los riñones de perros , expresados como porciento de peso corporal, seguida de una prueba de inhalación , Suponiendo la homogeneidad de la varianza (a partir del test de Barlett) nosotros podemos completar los siguientes cálculos.
400 ppm 200ppm 100 ppm 0 ppm
0,1849 0,2401 0,1156 0,1156
0,2704 0,2304 0,1600 0,1024
0,1849 0,1600 0,1764 0,1089
0,3025 0,1156 0,1600 0,1521
2∑ X = 0,9427 0,7461 0,6120 0,4790
2∑ ∑ X= 0,9427 + 0,7461 + 0,6120 + 0,4720 = 2,7798 2CF = (6,58 ) ___= 2,7060 4+4+4+4
SS total = 2,7798 – 2,7060 = 0,0738
SS bg = (1,93 ) + (1,71) + (1,56 ) + (1,38) - 2,7060 = 0,04075 4 4 4 4
SS wg = 0,07380 -0,04075 = 0,03305
df total = 4 + 4+4 +4 - 1 = 15
df bg= 4 -1 = 3df wg = 15 - 3 = 12
MS bg= 0,04075 = 0,01358 2 de donde F = 0,01358 = 4,94MS wg = 0,03305 = 0,00275 0,00275 12
Buscando en la tabla de F encontramos que para 3 d fbg (mayor cuadrado medio) y 12 d fwg (menor cuadrado medio), para el valor de 0.05 se halla que
F = 3,49
F calculado > F encontrado en la tabla. 04,94 > 3,49
Como el valor que nosotros calculamos es mayor que el encontrado.
Entonces existen diferencias significativas entre grupos.
Por lo que tenemos que determinar cuales son las diferencias, o cuales son los grupos que difieren, para ellos aplicamos un ensayo de post hoc o una prueba para diferenciar las medias.
DATOS A BUSCAR
Df SS MS F
Bg 3 0,04075 0,01358 4,94
Wg 12 0,03305 0,00275
Total 15 0,07380
Los grados de libertad del numerador se encuentran en la primera fila, en tanto que los grados de libertad del denominador se encuentran en la primera columna, cada tabla corresponde a un valor diferente de alfa o "p«0.05
Distribución de F para 0,95 %
1 2 3
1 161.45 199.5 215.71
2 18.513 19 19.164
3 10.128 9.5521 9.2766
4 7.7086 6.9443 6.5914
5 6.6079 5.7861 5.4094
6 5.9874 5.1432 4.7571
7 5.5915 4.7374 4.3468
8 5.3176 4.459 4.0662
9 5.1174 4.2565 3.8625
10 4.9646 4.1028 3.7083
11 4.8443 3.9823 3.5874
12 4.7472 3.8853 3.4903
Al realizar la determinación de un metabolito en tres fermentaciones se obtuvieron los siguientes resultados. Determine mediante ANOVA si existen diferencias entre las fermentaciones. Calcule las medias y varianza.
A 125 124 123 125 124 121 126 123 124 122
B 120 129 131 129 126 127 130 131 129 130
C 135 136 136 137 136 135 137 136 136 135
PRUEBAS PARA DETERMINAR LAS DIFERENCIAS ENTRE LAS MEDIAS, O SEA PRUEBAS POST HOC.
Existe una variedad de pruebas post hoc disponibles para analizar los datos después del ANOVA.Cada uno de ellos tienen sus ventajas y sus desventajas, cuatro de ellos son muy utilizados en bioestadística.1.Prueba de los rangos múltiples de Duncan2.La prueba de Scheffe3.El test de Dunnett
LA PRUEBA DE LOS RANGOS MÚLTIPLES DE DUNCAN.Es utilizada para comprar a grupos que se distribuyen continuos y al azar (tales como el peso corporal y peso de los órganos), este test normalmente involucra 3 ó mas grupos. La comparación se hace entre pares de grupos tomados a la misma vez.Hay que buscar la prueba de F y cuando se obtienen valores mayores que el tabular entonces podemos emplear este ensayo
GRUPOS CON IGUAL NUMERO DE DATOS
Los dos conjuntos de cálculos deben ser llevado aquí:
1.1ero La determinación de las diferencias entre las medias de pares de grupos. 2.La preparación de la tabla de probabilidad contra la cual cada diferencia es medias son comparadas .Las medias son determinadas y ranqueadas en orden decreciente o creciente.Los grupos son tomados en pares y las diferencias entre las medias _ _ (X 1 – X2) , expresadas como un número positivo, son calculadas.Usualmente cada par consisten en el grupo control y el grupo tratado, entonces multiple grupos de ensayos pueden ser inter comparados si se desea.Para establecer la tabla de probabilidad , la SEM puede ser calculada coo se muestra a continuación.
SEM= √ERROR DE LA MEDIA CUADRADA N = √MEDIA CUADRADA DENTRO DEL GRUPO N
Donde N es el numero de animales o replicas por cada nivel de dosis.La media cuadrada dentro del grupo ( MSwg) puede ser calculada a partir de la información dada por el procedimiento de ANOVA La SEM es entonces multiplicada por una serie de valores tabulare, para establecer la tabla de probabilidad.La tabla de valores usado para el calculo son seleccionados de acuerdo a los niveles de( probabilidad ( puede ser 0,05; 0,01 y 0,001)Y el número de medias aparte para el grupo son comparadas y el numero ¨error¨ df .El error df es el numero de df dentro del grupo Este ultimo dato es determinado de los cálculos del ANOVA
Ejemplo:Empleando el peso del riñón como % de peso corporal (4 grupos de perros con 4 perros en cada grupo)
rangos
Concentración media del peso de los riñones
1 2 3 4
Grupos comparados _ _ X 1 - X2
Numero de medias
2 vs 1 ( 100 vs 0 ppm)
0,045 2
3 vs 1 (200 vs 0 ppm) 0,08/3 3
4 vs 1 ( (400 vs 0 ppm)
0,138 4
4 vs 2 (400 vs 100 ppm)
0,093 3El cuadrado medio dentro del grupo del ejemplo del ANOVA fue 0,00275 o sea
MS wg = 0,03305 = 0,00275 12Por tanto el SEM = = √0,00275 = 0,02622.
4El error df (df wg) fue 12 de manera que la siguiente tabla de valores son empleados.
No de media apartadas Nivel de probabilidad
0,05 0,01 0,001
2 3,082 4,320 6,106
3 3,225 4,504 6,34
4 3,313 4,622 6,494
Cuando estos son multiplicados por la SEM se obtienen los siguientes valores de probabilidad en la tabla
No de media apartadas Nivel de probabilidad
0,05 0,01 0,001
2 0,0808 0,1133 0,1601
3 0,0846 0,01181 0,1661
4 0,869 0,1212 0,1703
Grupos con números desiguales de datos ( N1 ≠ N2)
Este procedimiento es muy similar al que se discutió anteriormente.Como antes las medias son ranqueadas y se determinan las diferencias _ _entre las medias ( X 1- X2 )Posteriormente se determinan los valores pesantes ¨a ij ¨ son calculados a partir de los pares de grupos a ser comparados de acuerdo con las siguientes formulaciones: _____________a ij = 2 Ni Nj = 2 N1 N2
√ Ni + Nj √ N1 + N2 _ _
Los valores obtenidos para cada par de grupos se multiplica por (X 1 – X2) Para cada valor para obtener un valor de ¨t ¨, este es el valor que será comparado posteriormente con la tabla de probabilidad.La tabla de probabilidad es establecida como anteriormente excepto que en lugar de multiplicar los valores de la tabla por SEM, SEM 2 Se utiliza
√ MSwg
top related