estadistica basica en uso.ppt [autoguardado]

EstadísticaLIC. GASTÓN GARCÍA SIMÓN,

MSC. TOXICOLOGIA EXPERIMENTAL2013

PROGRAMA DEL CURSO

6. LA FORMA DE DISTRIBUCIÓN• Distribución simétrica• Distribución asimétrica• La Curtosis. Forma de expresarla

7. Regresión y correlación• Introducción• Diagrama de dispersión• Análisis de Regresión• Ajuste de una recta• Aplicación del método de los mínimos cuadrados• Coeficiente de correlación de Pearson• Coeficiente de correlación de Spearman.

8. Elementos de probabilidades.•Introducción•Tipos de probabilidades•Probabilidad de frecuencias relativas•Regla del complemento•Tipos de eventos

9. DISTRIBUCIÓN FUNDAMENTAL DE PROBABILIDADCLASIFICACIÓN

1.Variables discretas: •Distribución Binomial•Distribución de Poisson•Distribución Normal2, Variables continuas--Distribucion Normal--Distribucion de la t de Student--Distribucion de la χ2 de Pearson

10. ANALISIS DE VARIANZA (ANOVA)•Desarrollo del ANOVA•Pruebas para determinar las diferencias entre las medias, o sea pruebas post hoc.1.Prueba de los rangos múltiples de Duncan2.La prueba de Scheffe3.El test de Dunnett

11. LA PRUEBAS NO PARAMETRICaS.1. Introducción 2. Prueba de Wilcoxon para comparar dos grupos3. Desarrollo del ANOVA no paramétrico• La prueba de Kruskal Walis• Pruebas para determinar las diferencias entre las grupos , o sea pruebas post hoc. 1. Comparación múltiple de distribución libre

LA PALABRA ESTADÍSTICA comenzó a usarse en el siglo XVIII, en Alemania, en relación a estudios donde los grandes números, que representaban datos, eran de importancia para el estado. Sin embargo, la estadística moderna se desarrolló

EN EL SIGLO XX A PARTIR DE LOS ESTUDIOS DE KARL PEARSON.

Hoy LA ESTADÍSTICA tiene gran importancia, no sólo por que presenta información, sino que además permite inferir y predecir lo que va a ocurrir, y por lo tanto, es una herramienta fundamental a la hora de tomar decisiones de importancia.

¿PARA QUÉ SIRVE LA ESTADÍSTICA?

La Estadística se utiliza como tecnología al servicio de las ciencias donde la variabilidad y la incertidumbre forman parte de su naturaleza

La Bioestadística enseña y ayuda a investigar en todas las áreas de las Ciencias de la Vida donde la variabilidad no es la excepción sino la regla” Carrasco de la Peña (1982)

La Estadística es la Ciencia de la

•Sistematización, recogida, ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de

•deducir las leyes que rigen esos fenómenos,

•y poder de esa forma hacer previsiones sobre los mismos, tomar:

DECISIONES Y OBTENER CONCLUSIONES.

•Descriptiva

• Inferencia

ESTADÍSTICA DESCRIPTIVA: Describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos.

ESTADÍSTICA INFERENCIAL: Apoyándose en el calculo de probabilidades y a partir de datos muestrales, efectúa estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de datos.

MÉTODO CIENTÍFICO Y ESTADÍSTICA

Plantear hipótesis

Obtenerconclusiones

Recoger datosy analizarlos

Diseñar experimento

Pasos en un estudio estadístico

Plantear hipótesis sobre una población:

Los fumadores tienen “más bajas” laborales que los no fumadores debido a sus posibles patologias pulmonares y otras asociadas¿En qué sentido? ¿Mayor número? ¿Tiempo medio?.

También puede adecuarse a las plantas medicinales, o sea algunas tiene mayor efecto diurético, que otras a pesar de ser de la misma especie, a que puede deberse esto¿Tipo de cultivo? ¿ terreno en que se cultivan?, procedimiento de extracción del principio activo

Decidir qué datos recoger (diseño de experimentos).

• Qué individuos pertenecerán al estudio (muestras)Fumadores y no fumadores en edad laboral. Plantas obtenidas de un determinado herbario en determinada época del año.Criterios de exclusión ¿Cómo se eligen? ¿Descartamos los que padecen enfermedades crónicas? ¿Cuáles plantas se descartan?

• Qué datos recoger de los mismos (variables)Número de bajas, Tiempo de duración de cada baja¿Sexo? ¿Sector laboral? ¿Otros factores?Numero de plantas , forma de selección y quién la selecciona

Recoger los datos (muestreo)¿Estratificado? ¿Sistemáticamente?

PASOS EN UN ESTUDIO ESTADÍSTICO CONTINUACION. Describir (resumir) los datos obtenidos

• tiempo medio de baja en fumadores y no (estadísticos).

• Tipo de plantas cuyo extracto ejerce el efecto deseado

• % de bajas por fumadores y sexo (frecuencias), gráficos.

• % de plantas con actividad y sin ella. Realizar una inferencia sobre la población

• Los fumadores están de baja al menos 10 días/año más de media que los no fumadores.

• Las plantas cuyo efecto se pueda producir en los animales experimentales medible y que estadísticamente tengan diferencias significativas.

Cuantificar la confianza en la inferencia• Nivel de confianza del 95%

PREGUNTAS PARA RECAPITULAR LA CLASE # 1

1.Para que nos sirve la estadística

1.Ponga un ejemplo que nos demuestre qué se conoce como Bioestadística.

2.Ponga un ejemplo que nos indique ¿que es la estadística descriptiva?

3.¿Que se entiende por estadística inferencial).

4.Diseñe un experimento

PARTIENDO DE LA DEFINICIÓN DE ESTADÍSTICA DESCRIPTIVA: que es la que describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos.

Describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos.

Ejemplo:En la tabla podemos ver los datos de un análisis realizado en un hospital sobre un determinado tipo de patología en pacientes por sexo .

Sexo Cantidad de pacientes con el mal de Parkinson

Macho 125

hembra 106

Total 231

Partiendo de la definición deESTADÍSTICA INFERENCIAL: que es la que apoyándose en el cálculo de probabilidades y a partir de datos muestrales, efectúa estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de datos

Cantones Cantidad total de pacientes que

presentan como promedio el mal de Parkinson en el

_ cantón (X )

Machala 125

Guayaquil 87

Santa Rosa 150

Total 362

•OBTENER LAS CONCLUSIONES DE LOS RESULTADOS

DISEÑE UN EXPERIMENTO

Plantear hipótesis sobre una población:

Decidir qué datos recoger (diseño de experimentos).

Recoger los datos (muestreo).

Describir (resumir) los datos obtenidos

Cuantificar la confianza en la inferencia

CLASE NUMERO 2

CONCEPTOS BÁSICOSEn muchas ocasiones, para llevar a cabo una investigación se hacen encuestas, las cuales son dirigidas a una

MUESTRA REPRESENTATIVA DE LA POBLACIÓN.

Para comprender mejor este tipo de estudios es importante que conocer los siguientes términos básicos:

POBLACIÓN:

Es un conjunto de personas, eventos o cosas de las cuales se desea hacer un estudio, y tienen una característica en común. (hacer inferencia).

•Por su tamaño las poblaciones pueden ser finitas o infinitas

• Normalmente es demasiado grande para poder abarcarlo.

En la práctica, y para facilitar los cálculos, una población se considera “infinita” a partir de un tamaño de 10.000 individuos.

• La obtención de datos de una población se llama censo.

• Teóricamente un individuo puede tener infinitas características y por tanto puede formar parte de infinitas poblaciones.

MUESTRA:

Es un subconjunto cualquiera de la población; al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones).

Debería ser “representativo”.

Esta formado por miembros “seleccionados” de la población (individuos, unidades experimentales).

Un conjunto de individuos, según las circunstancias, puede ser población o muestra.

¿Como es esto ejemplifíquelo ?

Por ejemplo:Los alumnos de la Escuela serán “POBLACIÓN” cuando tomemos a unos cuantos de ellos para estimar la talla de todo el alumnado de la misma.

Y serán “MUESTRA” si toda la Escuela ha sido seleccionada para participar en un estudio a nivel nacional.

DE LA EXPERIENCIA DE SU PROPIA ESPECIALIDAD, DESCRIBA UN EJEMPLO DE POBLACIÓN y MUESTRA

ALGUNOS EJEMPLOS

Para determinar si un medicamento hipoglicemiante producido en una Empresa de Medicamentos tiene la calidad adecuada, o sea cumple los parámetros de calidad, se toman 5 frascos de 100 tabletas al azar de la producción de ese lote. ¿Cual es la población y cuál la muestra?

¿Cómo Ud planificaría el experimento?

Un grupo de investigadores desea estudiar el efecto afrodisíaco de las ratas ante un determinado medicamento, como paso de un estudio preclínico. Como se diseña el experimento para realizar los estudios pertinentes.

DESARRROLLO1.¿Como se planifica el diseño del efecto hipoglucemiante, en un ensayo preclínico?•Plantear hipótesis•Diseñar experimento•Recoger datos y analizarlos•Obtener conclusiones

1.¿ Como se planifica el diseño del efecto afrodisiaco?

VARIABLES

Una VARIABLE es una característica observable que varía entre los diferentes individuos de una población.

En los individuos de una población de uno a otro ES VARIABLE:

• El grupo sanguíneo {A, B, AB, O}

• Su nivel de felicidad “declarado” {Deprimido, Regular , Muy Feliz}

• El número de hijos {0,1,2,3,...}

• La altura {1’62 ; 1’74; ...}

PARA ESTUDIAR ALGUNA CARACTERÍSTICA ESPECIFICA DE LA POBLACIÓN SE PUEDEN DEFINIR LOS SIGUIENTES TIPOS DE VARIABLES:

VARIABLES CUALITATIVAS Y VARIABLES CUANTITATIVAS:

Variables cualitativasNo se expresan numéricamente es decir sus valores no se pueden asociar naturalmente a un número (no se pueden hacer operaciones algebraicas con ellos). , esto significa lo relativo a la cualidad; siendo la cualidad cada una de las circunstancias o caracteres, naturales o adquiridos, que distinguen a las personas o cosas.

Ejemplo: relacionadas con características no numéricas de un individuo.

por ejemplo: Atributos de una persona

Estado civil de una persona

colores de la córnea.

La Variables Cualitativas pueden enmarcarse como:

Nominales: Si sus valores no se pueden ordenar por Ej:

Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No).

Ordinales: Si sus valores se pueden ordenar. Es decirSerán datos cualitativos ordinales cuando ellos pueden ser jerarquizados en una relación de orden, por ejemplo la cualidad de educación se puede jerarquizar en educación básica, media, técnica, universitaria Mejoría a un tratamiento, Grado de satisfacción, la educación (poca educación, mucha educación);Intensidad del dolor

VARIABLES CUANTITATIVAS:Se expresan numéricamente es decir relacionadas con las características numéricas del individuo. Es decir significa lo relativo a la cantidad; siendo la cantidad todo lo que es capaz de aumento y disminución y puede, por consiguiente, medirse o numerarse.

De modo que estas mediciones numéricas llevan asociadas unidades físicas (no son números abstractos ¡sin dimensión!).

Estas mediciones se definen mediante una variable, puesto que lo que se va a medir son cantidades que son capaces de aumentar o disminuir, y esta variación lo define de buena manera una variable, ya que una variable es una magnitud que puede tener un valor cualquiera de los comprendidos en un conjunto

LAS VARIABLES CUANTITATIVAS SE DIVIDEN EN

DISCRETAS• (aquellas que no admiten otro valor entre 2 valores distintos y consecutivos) , es decir toman valores enteros.

•De modo que una variable será discreta si los valores que se asumirá pertenecen al conjunto de los números enteros, o en general a cualquier conjunto discreto (finito o infinito)

•Ejemplos

• Cantidad de caballos en una granja.

• Cantidad de ojos pardos

• Número de paciente con HPB y con HIV

• CONTINUAS• Aquellas que pueden tomar una infinidad de valores entre

dos de ellos.

• O sea será continua cuando la cantidad que se quiere medir será cualquier número que se encuentra en un intervalo de la recta real

Ej: Estatura de las personas, determinación de glucosa en sangre, etc

EJEMPLOSLlene con una x los casilleros correspondientes

CARACTERÍSTICA

CUANTITATIVA CUALITATIVA

discreta continua nominal ordinal

Estatura en m

Religión que profesa

Intensidad del dolor de muelas

Color del cabello

Ratas apareadas

Valores de GOT Y GPT en sangre

Respuesta Llene con una x los casilleros correspondientes. Respuestas

CARACTERÍSTICA

Estatura en m x

Religión que profesa

Intensidad del dolor de muelas

Color del cabello

Ratas apareadas

Valores de GOT Y GPT en sangre

EJERCICIO PARA ENTREGAR

En la siguiente tabla diga cuales son variables cualitativas y cuales las cuantitativas y clasifíquelas :

CARACTERÍSTICA CUANTITATIVA CUALITATIVA

Cantidad de hormigas en un hormiguero

El amigo es soltero

Frecuencia cardíaca

Medidas que vienen en una regla

Signos clínicos en un experimento . (Señalarlos)

Conjunto de personas felices

CARACTERÍSTICA

Cantidad de hormigas en un hormiguero

Medidas que viene en una regla

Frecuencia cardíaca

Es amigo es soltero

Signos clínicos en un experimento.Señalarlos

Conjunto de personas felices

RESPUESTAS

EL TRABAJO CON PROGRAMAS ESTADISTICOS:

Cuando se trabaja con programas estadísticos es BUENO codificar las variables como números

Sexo (Cualitativo: Códigos arbitrarios) 1 = Hombre

2 = Mujer.

Raza (Cualitativo : Códigos arbitrarios)1 = Blanca2 = Negra.

Felicidad Ordinal: Respetar un orden al codificar.1 = Muy feliz2 = Bastante feliz3 = No demasiado feliz

Se pueden asignar códigos a respuestas especiales como 0 = No sabe99 = No contesta.

VEAMOS LOS SIGUIENTE EJEMPLO

VARIABLES CUALITATIVAS CODIFICADAS SON ANALIZADAS COMO VARIABLES DISCRETAS.

VARIABLES

Discretas

VARIABLESINDEPENDIENTES O PREDICTORAS: se establecen al inicio del experimento y se controlan por el investigador.Ej: La dosis del medicamento frente a un ensayode hipoglucemiantes, antitusígeno, cardiotónico, Hipotensor, diurético, laxante, antidiarreico.

DEPENDIENTE O VARIABLE CRITERIO: depende de los niveles de la variable independienteEj: Respuesta frente a la dosis, ej: a mayor dosis mayor efecto hipoglucemico en los animales de experimentación después de haberse hecho hiperglucémica a la rata Ejercicio de clases: Ponga ejemplos donde se presenten las variables dependiente e independientes

IDENTIFIQUE LAS VARIABLES

ESTADO NUTRICIONAL

SOBREVIVENCIA

POBRE (N1) BUENO (N2)

SOBREVIVE (S1)

MUERE (S2) 87 32

RESPUESTAVARIABLE INDEPENDIENTE: Estado nutricional (cualitativa ordinal)

VARIABLE DEPENDIENTE: Supervivencia (cualitativa ordinal)

EVALUATIVO:

SEÑALA UN EJEMPLO DE VARIABLES DEPENDIENTES E INDEPENDIENTES

(Empleando variables cuantitativas ó cualitativas)

EJEMPLO 2

SE PRODUCE UN MEDICAMENTO PARA DISMINUIR EL ESTADO FEBRIL DE LOS PACIENTES, EL MISMO SE ENSAYO EN LA FASE PRECLÍNICA EN ANIMALES DE EXPERIMENTACIÓN, PARA ELLO SE LE ADMINISTRA A LOS CONEJOS DETERMINADAS DOSIS DEL ANTIPIRÉTICO Y SE REGISTRA LA TEMPERATURA CORPORAL DE LOS ANIMALES .

¿ CUALES SON LAS VARIABLES: INDEPENDIENTE Y DEPENDIENTE

¿POR QUÉ?

VARIABLE INDEPENDIENTE: VARIABLE DEPENDIENTE:

EJEMPLO 2

SE ESTUDIA UNA POBLACIÓN PARA VER EL DAÑO CAUSADO POR UNA PLAGA EN PLANTAS QUE VAN A SER UTILIZADAS COMO DESINTOXICANTES. COMO DESCRIBIRÍA EL EXPERIMENTO Y COMO HARIA LA TOMA DE MUESTRAS CUAL UD CONSIDERA QUE SERIA LA VARIABLE INDEPENDIENTE Y CUAL LA DEPENDIENTE

Respuesta

Planteo de la hipótesis Diseño del experimento:

Variable independiente: las plantas Variable dependiente: el efecto que producen luego de haber sido infectada por una plaga .

Obtención de las datos.

Procesamiento de los resultados.

Conclusiones.

PRESENTACIÓN ORDENADA DE DATOSPRESENTACIÓN TABULAR: Su utilización resulta imprescindible para describir datos de fenómenos científicos, comerciales, educativos, sociales, ´políticos, etc, que en forma clara y adecuada se presentan en tablas estadísticas de ahí el termino tabular.

PRESENTACIÓN DE GRÁFICAS: Es la presentación de datos mediante gráficas constituyendo el medio más eficaz para que los mismos sean interpretados con claridad y objetividad. Por ello con justicia se dice:

¨Una buena gráfica vale por mil palabras¨

Sexo del encuestado

636 41,9 41,9

881 58,1 58,1

1517 100,0 100,0

Hombre

VálidosFrecuencia Porcentaje

Porcentajeválido

ESTRUCTURA DE LA TABLA ESTADÍSTICA

TITULO: EXPRESA EL CONTENIDO DE LA TABLA EN FORMA RESUMIDA Y CLARA. SE UBICA EN LA PARTE SUPERIOR DE LA MISMA

ENCABEZADO: CONSTITUYE LOS CONCEPTOS O TÍTULOS DEL CONTENIDO DE LAS COLUMNAS CORRESPONDIENTES A LA COLUMNA MATRIZ Y CUERPO DE LA TABLA

COLUMNA MATRIZ: ES LA PRIMERA COLUMNA DE LA TABLA QUE DETALLA LA CLASIFICACION DE LOS DATOS ES DECIR EL TIPO DE SERIE ESTADISTICA.

CUERPO CONSTITUYE LA EXPRESION CUANTITATIVA DEL FENOMENO INVESTIGADO Y QUE SE EXPRESA MEDIAN TE LAS CANTIDADES A PARTIR DE LA SEGUNDA COLUMNA DE LA TABLA

PRESENTACIÓN GRAFICATIVA ES LA PRESENTACION DE LOS DATOS MEDIANTE GRAFICAS CONSTITUYENDO EL MEDIO MAS EFICAZ PARA QUE LOS MISMOS SEAN INTERPRETADOS CON CLARIDAD Y OBJETIVIDAD

ESTRUCTURA DE LA TABLA ESTADISTICA(TITULO).VENTAS ANUALES DE UN MEDICAMENTO, SINTETICO O DE ORIGEN VEGETALEN UNA FARMACIAENCABEZADO: AÑOS,. PRODUCTOS MEDICAMENTOSOS DE ORIGEN SINTETICO O VEGETAL OTROS ARTICULOS QUE PUEDEN EXPENDERSE EN LA MISMA, SUBTOTAL, CREMA DENTAL, LOCIONES,, TOTAL COLUMNA MATRIZ: ES LA PRIMERA COLUMNA DE LA TABLA QUE DETALLA LA CLASIFICACION DE LOS DATOS , EN ESTE CASO LA SERIE ES CRONOLOGICACUERPOCONSTITUYE LA EXPRESION CUANTITATIVA DEL FENOMENO INVESTIGADO (VENTAS).PRESENTACION GRAFICATIVASE UTILIZAN LAS GRAFICAS PARA QUE SEAN MAS COMPRENSIBLES LOS RESULTADOSAÑO

SPRODUCTOS

MEDICAMENTOS

SUBTOTAL

CREMA DENTAL, LOCIONES

2010 80 25 105 15 120

2011 105 35 140 40 180

2012 250 48 300 12 312

435 108 545 65 612

Ordenando la información•Al ordenar datos muy numerosos, es usual agruparlos en :

CLASES O CATEGORÍAS.• Al determinar cuantos pertenecen a cada clase, establecemos

LA FRECUENCIA. •Construimos así una tabla de datos llamada:

TABLA DE FRECUENCIA.

LAS TABLAS DE FRECUENCIAS Y LAS REPRESENTACIONES GRÁFICAS son

DOS MANERAS EQUIVALENTES de presentar la información. LAS DOS EXPONEN ORDENADAMENTE LA INFORMACIÓN RECOGIDA EN UNA MUESTRA

POR EJEMPLO PODEMOS VER:

Género Frec.

Hombre 4

Mujer 60

Hombre Mujer

TABLAS DE FRECUENCIAS Y REPRESENTACIONES GRÁFICAS

Ejemplo:

Los siguientes datos corresponden a las notas obtenidas por un curso de 24 alumnos en un

trabajo de matemática:

4.24.2 5.05.0 5.65.6 5.05.0

3.23.2 4.24.2 5.65.6 6.06.0 2.82.8

3.93.9 4.24.2 4.24.2 5050 5.05.0

3.93.9 3.93.9 3.23.2 3.23.2 4.24.2

5.65.6 6.06.0 6.06.0 3.23.2 6.06.0

DEFINICIONES:1. LA FRECUENCIA ABSOLUTA DE UNA CLASE ES EL NUMERO DE DATOS QUE FORMA DICHA CLASE. O SEA QUE APARECE CADA VALOR DE LA VARIABLE.

2. LA FRECUENCIA RELATIVA CORRESPONDE A LA RAZÓN ENTRE LA FRECUENCIA ABSOLUTA Y EL TOTAL DE DATOS, LA CUAL SE PUEDE EXPRESAR MEDIANTE EL USO DE PORCENTAJES. REPRESENTAN LA RELACIÓN ENTRE LA FRECUENCIA ABSOLUTA Y EL TAMAÑO DE LA MUESTRA. (PORCENTAJES Y PROPORCIONES)

3. 3. FRECUENCIA RELATIVA ACUMULADAFRECUENCIA RELATIVA ACUMULADA: RELACIÓN ENTRE LA FRECUENCIA ABSOLUTA ACUMULADA DIVIDIDO POR EL TAMAÑO DE LA MUESTRA (N).

Ordenando la información

NotaNota Frecuencia Frecuencia Absoluta (f i)Absoluta (f i)

Frecuencia Frecuencia Relativa (h i)Relativa (h i)

Frecuencia Frecuencia relativa relativa

porcentual (%)porcentual (%)2.82.8 11 1/241/24 4.24.2

3.23.2 44 4/244/24 16.716.7

3.93.9 33 3/243/24 12.512.5

4.24.2 55 5/245/24 20.820.8

5.05.0 44 4/244/24 16.716.7

5.65.6 33 3/243/24 12.512.5

6.06.0 44 4/244/24 16.716.7

TOTALTOTAL 2424 -- 100100

ORDENEMOS ESTOS DATOS EN LA SIGUIENTE TABLA:

Indicaremos que es lo que representa cada columna:

TABLA DE FRECUENCIA DE DATOS AGRUPADOS En ocasiones, el agrupar los datos en intervalos, nos puede

ayudar para realizar un mejor análisis de ellos.

Consideremos los siguientes datos, expresados en metros, correspondientes a las estaturas de 80 estudiantes de cuarto año de educación media.

1,671,67 1,721,72 1,811,81 1,721,72 1,741,74 1,831,83 1,841,84 1,881,88 1,921,92 1,751,75

1,841,84 1,861,86 1,731,73 1,841,84 1,871,87 1,831,83 1,811,81 1,771,77 1,731,73 1,751,75

1,781,78 1,771,77 1,671,67 1,831,83 1,831,83 1,721,72 1,711,71 1,851,85 1,841,84 1,931,93

1,821,82 1,691,69 1,701,70 1,811,81 1,661,66 1,761,76 1,751,75 1,801,80 1,791,79 1,841,84

1,861,86 1,801,80 1,771,77 1,801,80 1,761,76 1,881,88 1,751,75 1,791,79 1,871,87 1,791,79

1,771,77 1,671,67 1,741,74 1,751,75 1,781,78 1,771,77 1,741,74 1,731,73 1,831,83 1,761,76

1,831,83 1,771,77 1,751,75 1,771,77 1,771,77 1,841,84 1,831,83 1,791,79 1,821,82 1,761,76

1,761,76 1,761,76 1,791,79 1,881,88 1,661,66 1,801,80 1,721,72 1,751,75 1,791,79 1,771,77

Notamos que la estatura mayor es :1,93 m

La estatura menor es :1,66m;

El rango es : 0,27m = 27 cm.

Formaremos 6 intervalos.

Para calcular el tamaño de cada uno dividimos 27 : 6 = 4,5 lo aproximamos a 5.

Nos queda la siguiente tabla:

¿Cual seria la frecuencia absoluta?

IntervalosIntervalos Frecuencia AbsolutaFrecuencia Absoluta1,65 – 1,691,65 – 1,691,70 – 1,741,70 – 1,741,75 – 1,791,75 – 1,791,80 – 1,841,80 – 1,841,85 – 1,891,85 – 1,891,90 – 1,941,90 – 1,94

Total : Total :

LA FRECUENCIA ABSOLUTA SERIA

IntervalosIntervalos Frecuencia AbsolutaFrecuencia Absoluta1,65 – 1,691,65 – 1,69 661,70 – 1,741,70 – 1,74 12121,75 – 1,791,75 – 1,79 30301,80 – 1,841,80 – 1,84 22221,85 – 1,891,85 – 1,89 881,90 – 1,941,90 – 1,94 22

Total : Total : 8080

PARA CONSTRUIR UNA TABLA DE FRECUENCIAS PARA DATOS AGRUPADOS,

1. Determinamos el tamaño de cada intervalo.

2Dividiendo el valor del rango

3Por la cantidad de intervalos que se desea obtener.

IMPORTANTE RECORDAR:

1.El rango, está dado por la diferencia entre el máximo y el mínimo valor de la variable.

2.El tamaño del intervalo se aproxima al impar más cercano.

3.La Marca de clase es el representante de un intervalo, y corresponde al promedio entre los extremos

EN RESUMEN:Exponen la información recogida en la muestra, de

forma que no se pierda nada de información (o poca).

FRECUENCIAS ABSOLUTAS: Contabilizan el número de individuos de cada modalidad

FRECUENCIAS RELATIVAS (PORCENTAJES): Contabilizan el número de individuos de cada modalidad, pero dividido por el total

fi = ni n

Frecuencias (absolutas o relativas) acumuladas: Sólo tienen sentido para variables ordinales y numéricas

Sexo del encuestado

636 41,9 41,9

881 58,1 58,1

1517 100,0 100,0

Hombre

VálidosFrecuencia Porcentaje

Porcentajeválido

Nivel de felicidad

467 30,8 31,1 31,1

872 57,5 58,0 89,0

165 10,9 11,0 100,0

1504 99,1 100,0

1517 100,0

Muy feliz

Bastante feliz

No demasiado feliz

Válidos

No contestaPerdidos

Frecuencia PorcentajePorcentaje

válidoPorcentajeacumulado

Ejemplos:Número de hijos

419 27,6 27,8 27,8

255 16,8 16,9 44,7

375 24,7 24,9 69,5

215 14,2 14,2 83,8

127 8,4 8,4 92,2

54 3,6 3,6 95,8

24 1,6 1,6 97,3

23 1,5 1,5 98,9

17 1,1 1,1 100,0

1509 99,5 100,0

1517 100,0

Ocho o más

Válidos

No contestaPerdidos

Frecuencia PorcentajePorcentaje

válidoPorcentajeacumulado

GRÁFICOS PARA VARIABLES CUALITATIVASPictogramas: Son gráficas elaboradas con símbolos, figuras o

signos y totalmente libres cuya presentación es eminentemente estética y representa la imagen del fenómeno que se grafica

Fáciles de entender. El área de cada modalidad debe ser proporcional a la

frecuencia. Ejemplo Botellas de cerveza recogidas el fin de semana.

SÁBADO DOMINGO

GRAFICAS LINEAL SIMPLEPara elaborar esta gráfica se emplea como base un eje de coordenadas positivas y se utiliza preferentemente para graficar el comportamiento de tendencia de series cronológicas.

Nos permite observar el desarrollo o tendencia que tiene el fenómeno en su comportamiento durante un lapso de tiempo determinado.

Ventas (millones Dls)

años1 2 3 4 5 6 7 8

GRÁFICOS DIFERENCIALES PARA VARIABLES NUMÉRICAS

DIAGRAMAS BARRAS PARA VARIABLES DISCRETASSe deja un hueco entre barras para indicar los valores que no son posibles

0 1 2 3 4 5 6 7 Ocho o más

Número de hijos

24 23 17

DIAGRAMAS INTEGRALES

REPRESENTACIÓN ESTADÍSTICA

GRÁFICOS PARA VARIABLES CUALITATIVAS

Diagramas de barras (múltiples)

Alturas proporcionales a las frecuencias (absoluta o relativa.)Se pueden aplicar también a variables discretas

Diagramas de sectores (tortas, polares)

No usarlo con variables ordinales.El área de cada sector es proporcional a su frecuencia (absoluta o relativa.)

EJEMPLO

CON LOS DATOS QUE SE MUESTRAN CONFECCIONE UN GRAFICO DE BARRA EXPLIQUE QUE HA SUCEDIDO CON LA PRODUCCION DE BANANO DURANTE ESTOS AÑOS.

AÑO PRODUCCION DE BANANO (TON)

2009 15000

2010 12000

2011 18000

2012 11000

Diagramas integrales

PARÁMETROS Y ESTADÍSTICO

Parámetro: Es una cantidad numérica calculada sobre una población

La altura media de los individuos de un país

La idea es resumir toda la información que hay en la población en unos pocos números (parámetros).

Estadístico: Es una cantidad numérica calculada sobre una muestra

la altura media de los que están en un teatro en un momento dado.

Son una muestra (¿representativa?) de la población.

Si un estadístico se usa para aproximar un parámetro también se le suele llamar ESTIMADOR.

MEDIDAS DESCRIPTIVAS

POSICIÓNDividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos.

Cuantiles, percentiles, cuartiles, deciles,...CENTRALIZACIÓN

Indican valores con respecto a los que los datos parecen agruparse.

Media, mediana y modaDISPERSIÓN

Indican la mayor o menor concentración de los datos con respecto a las medidas de centralización.

Desviación típica, coeficiente de variación, rango, varianzaFORMA

AsimetríaApuntamiento o curtosis

MEDIDAS DESCRIPTIVAS

Medidas de tendencia central

Refiere a los valores de las variables que suelen estar en el centro de la distribución.

Posición donde se centra una distribución en una escala de valores

MEDIANA

La MEDIA ARITMÉTICA O PROMEDIO es una medida estadística de tendencia central. De una cantidad finita de números, es igual a la suma de todos ellos dividida entre el número de sumandos.

También la media aritmética puede ser denominada como centro de gravedad de una distribución.

Medidas de tendencia centralMedidas de tendencia central

Inconvenientes de la media:

EJEMPLOS DE CALCULOS DE LA MEDIA ARITMETICA

SE HA INVESTIGADO EL PRECIO DE UN ARTICULO EN CUATRO ESTABLECIMIENTOS COMERCIALES DIFERENTES. ¿CUAL ES EL PRECIO PROMEDIO DEL ARTICULO INVESTIGADO?

PRECIO (Xi)

RESPUESTA:

PRECIO (Xi)

LA MEDIA SERIA 27.75 ARTICULOS

EJEMPLOS DE CALCULOS DE LA MEDIA ARITMETICASe ha hecho una encuesta sobre el número de veces que semanalmente concurren los clientes a un comisariato a realizar compras . ¿Cuántas veces a la semana concurren como promedio los clientes al comisariato?

Concurrencia semanal

Clientes

Xi Fi Xi.fi

RESPUESTA:

Concurrencia semanal

Clientes

Xi Fi Xi.fi

1 32 32

2 11 22

3 15 45

4 7 28

6 5 30

LOS CLIENTES CONCURREN COMO PROMEDIO 31,4 VECES

VALOR DEL PRODUCTO 10

0 32 37 42 47 52 57 62 67 añosMedia = 49,5

APROXIMACION GRAFICA DE LA MEDIA ARITMETICACon el fin de ratificar que la media aritmética es un promedio de tendencia central podemos mediante un polígono de frecuencia podemos señalar el valor aproximado de la media en el eje horizontal, y con ello comprobar el promedio aritmético se ubica por el centro de la distribución.

OTRAS MEDIAS:MEDIA GEOMETRICA:Es de gran utilidad para calcular tasas, porcentajes y números índices y permite medir el comportamiento de las series cronológicas a través del promedio del crecimiento y decrecimiento de una variable en el tiempoSe define a la media geométrica como la raíz enésima de los valores que adopta la variablees decir que la fórmula seria n..

G = √X1 . X2………..Xn, Esta fórmula tiene un inconveniente que si un valor fuera cero entonces no podría calcularse la media geométrica.Para salvar este inconveniente entonces se utiliza la fórmula basada en los logaritmos

MEDIA GEOMETRICAEJEMPLO DE CALCULO :CALCULE LA MEDIA GEOMÉTRICA DE LOS SIGUIENTES DATOS QUE SE REFIEREN AL PRECIO DEL BANANO.

PRECIO (X i) Log Xi

G = ANTILOG DE n G = √n1.n2.n3.n4

RESPUESTA:

PRECIO (X i) Log Xi

20 1,3010

25 1,3979

30 1,4771

36 1,5563

TOTAL 5,7323

G = ANTILOG DE 5,7323 G= 27,11 4 4 4 G = √20.25.30.36 G = √540,000 4 G =27,11

UNA PROPIEDAD IMPORTANTE DE LA MEDIA ES QUE LA SUMA DE LAS DESVIACIONES (∑X) DE CADA VALOR INDIVIDUAL DE LA VARIABLE CON RELACION A LA MEDIA ARITMETICA ES IGUAL A 0

Estadísticos de CentralizaciónMediana Es un valor que divide a las observaciones en dos grupos con el mismo número de individuos .Es decir es aquel valor de la variable que supera y es superado por no más de la mitad de los datos.La mediana se calcula en primer lugar ordenando los datos y luego:

Si el número de datos es par, se elige la media de los dos datos centrales

Mediana de 1,2,4,5,6,6,8 es 5

Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5

Es conveniente cuando los datos son asimétricos.

Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7!

Propiedades de la mediana

20 150 250 300 400 500 600 700 800 100040 150 250 300 400 500 600 700 850 100072 150 280 300 400 500 600 750 900 100090 160 280 320 450 510 600 760 900 1100100 160 300 330 450 540 600 800 900 1150120 200 300 350 480 550 640 800 960 1200120 200 300 360 480 550 650 800 960 1200120 200 300 380 500 550 650 800 980 1500150 220 300 400 500 570 680 800 1000 1800150 250 300 400 500 580 700 800 1000 2440

EJEMPLOS DE CALCULOSEN EL EJEMPLO QUE SE EXPONE A CONTINUACION BUSCAR LA MEDIANA DE LOS DATOS QUE SE PRESENTAN

MEDIANA

RESPUESTA:MEDIANA

20 150 250 300 400 500 600 700 800 100040 150 250 300 400 500 600 700 850 100072 150 280 300 400 500 600 750 900 100090 160 280 320 450 510 600 760 900 1100100 160 300 330 450 540 600 800 900 1150120 200 300 350 480 550 640 800 960 1200120 200 300 360 480 550 650 800 960 1200120 200 300 380 500 550 650 800 980 1500150 220 300 400 500 570 680 800 1000 1800150 250 300 400 500 580 700 800 1000 2440

MEDIANA

Frecuencia Porcentaje Porcentaje

válido Porcentaje acumulado

15 439878 7,1 7,1 7,1 16 427380 6,9 6,9 14,0 17 412200 6,7 6,7 20,6 18 419529 6,8 6,8 27,4 19 415349 6,7 6,7 34,1

20 399023 6,4 6,4 40,6 21 428206 6,9 6,9 47,5 22 378808 6,1 6,1 53,6 23 461983 7,5 7,5 61,0 24 408871 6,6 6,6 67,6

25 415516 6,7 6,7 74,3 26 430316 6,9 6,9 81,3 27 407540 6,6 6,6 87,9 28 385408 6,2 6,2 94,1 29 367549 5,9 5,9 100,0

Válidos

Total 6197556 100,0 100,0

Estadísticos edad

Válidos 6197556 N

Perdidos 0 Media 21,89 Mediana 22,00

Moda 23

Estadísticos edad

Válidos 6197556 N

Perdidos 0 Media 21,89 Mediana 22,00

Moda 23

EJEMPLOS DE CALCULOS Se aprecian la media , la mediana y la moda del ejemplo anterior

ModaEs un promedio posicional que puede definirse como: Aquel valor de la variable o aquella categoría o modalidad del atributo que mayormente se repite en la distribución.Dicho de otra manera la Moda es aquél valor o modalidad de mayor frecuencia en la distribución

Cuando en la serie se presenta un Si hubiesen dos valores o mismo valor o una misma modalidad modalidades con la misma o categoría con mayor frecuencia mayor frecuencia

Unimodal Bimodal

EJEMPLOS DE CALCULOS PARA LA MODAEN LA TABLA SE PRESENTA EL SALARIO DE DIVERSAS PERSONAS QUE EJERCEN COMO OFICINISTA DIGA CUAL ES LA MODA EN ESTE EJEMPLO

Sueldos Oficinistas

400 25

EJEMPLOS DE CALCULOS PARA LA MODAEn la tabla se presenta el salario de diversas personas que ejercen como oficinista diga cual es la moda en este ejemplo.

La s unidades de vehículos vendidas tienen diferentes colores diga cual es el color Modal que se presenta en este ejemplo

Color del vehículo Unidades vendidas

Azul 3

Blanco 15

Rosado 2

Negro 5

Carmelita 2

N = 27

COMPARACIÓN ENTRE LA MODA, LA MEDIANA Y LA MEDIA.

•En el caso que los datos sean cualitativos ( ejemplo: el tipo de reacción), no hay otra manera que usar la•MODA, ya que estos eventos pueden ser solo contados.

•Si los datos pueden ser ordenados de alguna forma, entonces puede usarse •LA MODA Y LA MEDIANA

•Por ultimo si los datos son medibles de forma cuantitativas, es posible usar también •LA MEDIA.

Como se ha señalado la media es la medida de tendencia central mas utilizada debido a sus propiedades , sin embargo es necesario señalar que la misma puede alterarse como hemos visto considerablemente en algunos casos, en presencia de valores extremos considerables (muy grandes o muy pequeños

ESTADIGRAFOS DE DISPERSIONINTRODUCCIÓN

LOS MEDIDAS DE TENDENCIA CENTRAL COMO LA MEDIA, NOS SEÑALAN HACIA DONDE TIENDE A CONCENTRARSE LOS VALORES DE LA DISTRIBUCIÓN, PERO NINGUNO DE LOS PROMEDIOS SEAN MATEMÁTICOS O POSICIONALES NO NOS INDICAN

COMO O CUANTO SE DISPERSAN LOS VALORES DE LA VARIABLE EN TORNO A UN PROMEDIO.

DE TAL MANERA QUE ADEMÁS DE UNA MEDIDA DE TENDENCIA CENTRAL NECESITAMOS UNA MEDIDA DE DISPERSIÓN QUE NOS PERMITA CERTIFICAR LA REPRESENTATIVIDAD QUE SOBRE EL COLECTIVO TIENE UN VALOR PROMEDIAL..VEAMOS UN EJEMPLO DE LO DICHO HASTA AHORA.

EL SUELDO PROMEDIO DE A ES MAS REPRESENTATIVO , A PESAR DE SER EL PROMEDIO DE LOS TRES IGUALES, ESTO SE EXPRESA EN LA DISPERSION MEDIDA A TRAVÉS DE LA DESVIACIÓN ESTÁNDAR PUES ES IGUAL A CERO EN LA EMPRESA A

DE FORMA QUE LAS MEDIDAS DE DISPERSION O VARIABILIDAD NOS PERMITEN CUANTIFICAR COMO ESTÁN CONCENTRADOS O DISPERSOS LOS VALORES DE LA VARIABLE EN TORNO A UN PROMEDIO QUE GENERALMENTE ES LA MEDIA ARITMÉTICA O MEDIANA.

Empresas Salario en USD MEDIA ARITMETICA

DESVIOACION ESTANDAR

A 400-400-400 400 0

B 200-400-600 400 163,3

C 300-400-500 400 81,65

MEDIDAS DE DISPERSIÓNMEDIDAS DE DISPERSIÓNDE MANERA QUE :DE MANERA QUE : Los datos también se deben caracterizar en términos de su dispersión o

variabilidad.

Las medidas de variabilidad cuantifican la extensión de la dispersión

La variabilidad tiene que ver con qué tan alejados están los datos de la media.

Miden el grado de cercanía o lejanía de las puntuaciones respecto a la media

Permiten describir el grado de homogeneidad / heterogeneidad de la distribución de una variable

LOS ESTADÍSTICOS DE DISPERSIÓN SE PUEDEN CLASIFICAR DE LA FORMA

Amplitud Intercuartílica

Varianza

Desvío típico

Coeficiente de variabilidad

Mínimo Máximo rango o recorrido y amplitud intercuartílicaMínimo Máximo rango o recorrido y amplitud intercuartílica

20 150 250 300 400 500 600 700 800 100040 150 250 300 400 500 600 700 850 100072 150 280 300 400 500 600 750 900 100090 160 280 320 450 510 600 760 900 1100100 160 300 330 450 540 600 800 900 1150120 200 300 350 480 550 640 800 960 1200120 200 300 360 480 550 650 800 960 1200120 200 300 380 500 550 650 800 980 1500150 220 300 400 500 570 680 800 1000 1800150 250 300 400 500 580 700 800 1000 2440

MínimoMínimo

MáximoMáximoRANGO O RECORRIDORANGO O RECORRIDO

Distancia entre el máximo valor y el mínimo valor que puede asumir la variable.

Es la medida de dispersión mas simple, mide el campo de variación de la variable a través de la diferencia entre le máximo y el mínimo

R = XM - Xm

Máximo - Mínimo

2240- 20 = 22202220

LA UTILIDAD DEL RANGO

RESIDE EN QUE NOS PERMITE DIVIDIR LA DISTRIBUCIÓN EN INTERVALOS INFORMÁNDONOS DE LOS VALORES EXTREMOS. COMO MEDIDA DE DISPERSION ES ONOS DE LOS VALORES EXTREMOS. COMO MEDIDA DE DISPERSION ES LIMITADA SU FUNCION PUES TOMA EN CONSIDERACIÓN SOLAMENTE LOS LIMITADA SU FUNCION PUES TOMA EN CONSIDERACIÓN SOLAMENTE LOS VALORES EXTREMOS.VALORES EXTREMOS.

DESVIACIÓN ESTÁNDAR (O DESVIACIÓN TÍPICA) Y LA VARIANZA

La desviación estándar (o desviación típica) y la varianza son medidas de dispersión para variables de razón y de intervalo.

Son medidas que informan acerca del promedio de distancias que tienen los datos respecto de su media aritmética, expresada en las mismas unidades de medida que la variable de origen. n

Varianza S2: Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media.

Ambas medidas están estrechamente relacionadas ya que se define una a partir de la otra.

DESVÍ TÍPICODESVÍ TÍPICO

S 22 )(1

DESVIACIÓN ESTÁNDAR Denominada también como desviación típica: Es la raíz cuadrada de la varianza

El significado de la desviación estándar Cuando una distribución la representamos gráficamente mediante un polígono de frecuencia La desviación estándar representa la VARIABILIDAD PROMEDIO que nos permite medir la distancia entre los valores de la variable y la media aritmética en unidades de desviaciones estándares denominadas unidades sigma

µ -2s µ-s µ µ+ s µ +s

Curva simétrica que muestra las relaciones entre las desviaciones estándar y la media

EJEMPLOEn un experimento con ratas en el cual se quería saber si la planta estudiada tenia efecto hipoglucemiante Se obtuvieron los siguiente valores al determinar la glucosa en un experimento (en mmol/L). Calcule la media, la desviación estándar y la desviación típica.

Valores deGlucosa

Media Diferencia

Diferencia al cuadrado

Solución del EJEMPLOValores deGlucosa

Media Diferencia

Diferencia al cuadrado

20 27,50 -7,75 60,0625

25 27,75 -2,75 7.5625

30 27,75 2,25 5,0625

36 27,75 8,25 68,0625

total 140,75

Aplicando las formulaciones tendremos:

Media: 27,50La varianza es 35,18La desviación estándar es: 5,93

Respuesta : los valores medios de la glucosa en ratas son 27,50, mientras que la la varianza es 35,18 y La desviación estándar es: 5,93

S 22 )(1

EJEMPLO 2En tres empresas se pagan diferentes salarios, como puede observarse en la tabla , diga cuales son las correspondientes medias y calcule la desviación estándar y la varianza. Si tuviese alguna oportunidad de trabajo cual de ellos escogeria

Empresas Salario en USD

MEDIA ARITMETICA

DESVIACION ESTANDAR

varianza

A 400-400-400

B 200-400-600

C 300-400-500

Empresas Salario en USD MEDIA ARITMETICA

DESVIACION ESTANDAR

varianza

A 400-400-400 400 0 0

B 200-400-600 400 163,3 26666,89

C 300-400-500 400 81,65 6666,7225

Solución del EJEMPLO

Respuesta:

Medidas de dispersión / desviación Medidas de dispersión / desviación respecto a la mediarespecto a la mediaCoeficiente de variación: Es la razón entre la desviación típica y la media. Mide la desviación típica en forma de “qué tamaño tiene con respecto a la media”. También se la denomina variabilidad relativa. se calcula dividiendo la desviación estándar por la media

Si se multiplica por 100 se obtiene el grado de variabilidad respecto de Si se multiplica por 100 se obtiene el grado de variabilidad respecto de la mediala media

Es de particular utilidad comparar la variabilidad de 2 o mas conjuntos de datos con medias diferentes.

El coeficiente de variabilidad es una medida relativa que se expresa en porcentaje en vez de en términos de las unidades de los datos.

Es una forma de estandarizar el desvío

Indica la relación entre el desvío y la media

EJEMPLO CUANDO LAS VARIABLES DE LAS DISTRIBUCIONES A COMPARAR SEAN DE IGUAL NATURALEZA.

ESTADÍGRAFO SUELDOS

Empresa pequeña Empresa grande

Media aritmética 100000 2000000

Desviación estándar

10 200000

Diga en que empresa ha habido mayor variación

Resolución del ejemploESTADÍGRAFO SUELDOS

Empresa pequeña Empresa grande

Media aritmética 100000 2000000

10.000 200000

Cv = 10000 .100 100,000CV = 10% CV = 10%

Cv = 200000 .100 2,000.000

A simple vista podíamos haber estimado que la Empresa Grande habrían existido mayor variación dad su media y su desviación estándar, sin embargo mediante el coeficiente de variación podemos comprobar que tiene la misma variación

EJEMPLO CUANDO LAS VARIABLES DE LAS DISTRIBUCIONES A COMPARAR SEAN DE DISTINTA NATURALEZA.

ESTADÍGRAFO VARIABLES

MINUTOS DE ATRASOS

PRODUCTOS VENDIDOS

Media aritmética 49,27 30,80

8,97 9,83

Diga EN QUE VARIABLE OCURRE MAYOR VARIACION

SOLUCION DEL EJEMPLO ANTERIOR

ESTADÍGRAFO VARIABLES

MINUTOS DE ATRASOS

PRODUCTOS VENDIDOS

Media aritmética 49,27 30,80

8,97 9,83

CV = 8,97 (100) CV = 9,83 (100) 49,27 30,80 V = 18% V= 32%

RESPUESTA: Con los resultados del coeficiente de variación determinamos que la distribución de productos vendidos (32%), tiene mayor variación que la serie de minutos de atrasos (18%).

AMPLITUD O RANGO: La diferencia entre las observaciones extremas.

2, 1, 4, 3, 8, 4.

EL RANGO ES : 8-1=7

LA FORMA DE LA LA FORMA DE LA DISTRIBUCIÓNDISTRIBUCIÓN

Una característica de un conjunto de datos es la forma, es decir, la manera en que están distribuidas las observaciones.

La distribución de los datos puede ser o no SIMÉTRICA. Si la distribución de los datos no es simétrica, se llama ASIMÉTRICA O SESGADA.

Para describir la forma se puede comparar LA MEDIA Y LA MEDIANA.

También puede observarse a través del coeficiente de asimetría Mide el grado de Simetría / Asimetría de la distribución

EJEMPLO DE UNA DISTRIBUCION SIMETRICA

ASIMETRÍA O SESGO Una distribución es simétrica si la mitad

izquierda de su distribución es la imagen especular de su mitad derecha.

En las distribuciones simétricas, media y mediana coinciden. Si sólo hay una moda también coincide

La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución.

La media tiende a desplazarse hacia las valores extremos (colas).

Mdn = MediaMdn = Media

EN LA DISTRIBUCIÓN NORMAL ES SIMÉTRICA SI

MEDIA = MEDIANA: SIMÉTRICOS O CON SESGAMIENTO CERO.

Si es + indicará muchos casos en los valores más bajos y pocos en los más altos positivamente asimétrica .

Media > Mediana: Positivos o con sesgamiento a la derecha

MdnMdnMediaMedia

Si es - indicará muchos casos en los valores más altos y pocos en los más bajos negativamente asimétrica.

Media < Mediana: Negativos o con sesgaminto a la izquierda.

LA CURTOSIS NOS INDICA EL GRADO DE APUNTAMIENTO (APLASTAMIENTO) DE UNA DISTRIBUCIÓN CON RESPECTO A LA DISTRIBUCIÓN NORMAL O GAUSSIANA. ES ADIMENSIONAL

LA CURTOSISLA CURTOSIS

Otra manera de apreciar la forma de una distribución es observar el nivel de apilamiento o llanura de la curva

LA FORMA DE LA DISTRIBUCIÓNLA FORMA DE LA DISTRIBUCIÓN

leptocúrtica (menor dispersión)LEPTO= ESBELTO

Platicúrtica (mayor dispersión)

PLATO= ANCHO O PLANO

MesocúrticaMESO= MITAD

Leptocúrtica: curtosis > 0

Mesocúrtica: curtosis = 0

Platicúrtica: curtosis < 0

4 4 K>0 (LEPTOCURTICA K>0 (LEPTOCURTICA

f(X – media) K < 0 (PLATICURTICA).

K = nn - 3 K = 0 (MESOCURTICA) 4

Calcule el coeficiente de curtosis y diga como es la curva atendiendo Calcule el coeficiente de curtosis y diga como es la curva atendiendo al mismoal mismo

L i Ls Xi fi Xi.fi X-Xm=x

fi . x

fi. X .

0 2 1 20 20 1-10= -9

6561 131220

3 5 4 30 120 4-10=-6

1296 38880 480

6 8 7 80 560 7-10=-3

81 6480 3920

9 11 10 129 1290 10-10=0

0 0 12900

12 14 13 80 1040 13-10=3

81 6480 13520

15 17 16 30 480 16-10=6

1296 38880 7680

18 20 19 20 380 19-10=9

6561 131220

Total 389 3980 353160

353,16K = K = 389_ - 3 K = 907,87 - 3 (4,19) 4 308,22

K = 2,95- 3= -0,05Por su cercanía al cero se le puede considerar simétrica

MESOCURTICA

GRÁFICOS PARA VARIABLES CONTINUAS

Histogramas para variables continuas

El área que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo.

20 40 60 80

Edad del encuestado

¿Qué hemos visto?Introduccion

HISTORIA DE LA ESTADISTICA.

Utilidad de la estadística.

Pasos en un estudio estadístico.

Definiciones básicas en estadística

Población y Muestra

Variables

Cualitativas

Numéricas

Presentación ordenada de datos.

Estructura de las tablas estadisticas

Tablas de frecuencias y Representaciones gráficas

Medidas descriptivas

Medidas de centralización: Media, mediana y moda

Medidas de dispersión (varianza, desviación estandar, CV, rango

Asimetría y Medidas de apuntamiento (curtosis)

Regresión y correlaciónRegresión y correlaciónAsociación entre variables

Hemos visto las distribuciones Unidimensionales , esto es analizamos una sola variable Hemos visto las distribuciones Unidimensionales , esto es analizamos una sola variable (peso, contenido de glucosa, sueldos, edad, etc.) y se describió su comportamiento a través (peso, contenido de glucosa, sueldos, edad, etc.) y se describió su comportamiento a través de tablas y gráficos y medidas tanto de tendencia central como de dispersión, (media y de tablas y gráficos y medidas tanto de tendencia central como de dispersión, (media y desviación estándar).desviación estándar). Correlación significa relación mutua y expresa el grado de asociación existente entre las variables,Cuando estudiamos dos variables en su posible relación, influencia o dependencia se busca Cuando estudiamos dos variables en su posible relación, influencia o dependencia se busca como objetivos Establecer la naturaleza de la relación digamos tambiéncomo objetivos Establecer la naturaleza de la relación digamos tambiénPREDECIRPREDECIREl comportamiento de dichas variables . Así por ejemplo un medicamento determinado El comportamiento de dichas variables . Así por ejemplo un medicamento determinado conlleva a una mejoría durante un tiempo dado, , pero podemos preguntarnos ¿ si se conlleva a una mejoría durante un tiempo dado, , pero podemos preguntarnos ¿ si se continua con el mismo podríamos tener iguales resultadoscontinua con el mismo podríamos tener iguales resultados ? ? Su parámetro es el coeficiente de correlación. Su símbolo es r, que puede acompañarse, si la claridad lo exige, de un subíndice con la notación de las variables (p.e. rxy)

La precisión de nuestra predicción depende de l a :La precisión de nuestra predicción depende de l a :

FUERZA DE LA RELACION QUE TIENE LAS VARIABLES MEDICAMENTO Y MEJORÍAFUERZA DE LA RELACION QUE TIENE LAS VARIABLES MEDICAMENTO Y MEJORÍA..

Este análisis de relación entre dos variables nos lleva al estudio de laEste análisis de relación entre dos variables nos lleva al estudio de la

REGRESION Y CORRELACIONREGRESION Y CORRELACION

Regresión Estimamos la relación de una variable con otra en términos de una función lineal (o más compleja ) de la otra. Nos permite además hacer predicciones . Hoy en día el sentido de regresión es el de predicción de una medida basándonos en el conocimiento de otra. (Variables cuantitativas continuas ).La regresión es la forma, el COMO de esa asociación. Expresa la relación entre las dos variables, X e Y, mediante la ecuación de regresión y su representación gráfica la línea de regresión.Mediante ella conocida una variable es posible predecir la otra. Por consenso X es la variable Independiente e Y la dependiente. De esta forma Y = f(X).Coeficiente de Correlación Estimamos el grado en que 2 o más variables cambian simultáneamente. (Variables cuantitativas continuas ). Se plantea que LA CORRELACIÓN MIDE LA FUERZA DE UNA RELACIÓN ENTRE VARIABLES LA REGRESIÓN DA LUGAR A UNA ECUACIÓN QUE DESCRIBE DICHA RELACIÓN EN TÉRMINOS MATEMÁTICOS

En nuestro trabajo podemos señalar los siguientes ejemplos de Relaciones bidimensionales :Edad y pesoContenido de glucosa y diabetesEnfermedad y tipo de medicamento o clase.

DIAGRAMA DE DISPERSIÓNRegresión El análisis de regresión sirve para predecir una medida en función de otra medida (o varias).

Una función es una relación matemática que nos permite predecir que valores de una variable Y corresponden a determinados valores de una variable X. tal relación generalmente se escribe como: Y = F(X) Y - variable dependiente (predicha o explicada) X - variable independiente (predictiva o explicativa)

El diagrama de dispersión es una gráfica de puntos en la que cada punto del plano representa un par de valores correspondientes de la variable X e Y

y = a + b x Ecuación de regresión b es la pendiente y el coeficiente de regresión y a el intercepto

Ejemplos de varios tipos de relaciones

y = a + b x LINEALy = a + b x + c x 2 Cuadráticay =ab n Exponencialy = log a + x log b Logaritmica

El objetivo de la Regresión lineal es encontrar la línea que mejor predice la Y a partir de la X. Es + cuando al aumentar el valor de X también aumenta el de Y o viceversa. Cuando disminuye la X también disminuyen los valores de Y.Es - cuando al aumentar el valor de X disminuyen los valores de Y o Cuando disminuye la X aumentan los valores de Y

Relación directa

años1 2 3 4 5 6 7 8

ANALISIS DE REGRESIONCOMO VIMOS EL OBJETIVO FUNDAMENTAL DE UN ANÁLISIS DE REGRESIÓN ES PREDECIR EL VALOR DE LA VARIABLE DEPENDIENTE (Y) CONOCIENDO EL VALOR DE LA OTRA.EN UN SENTIDO AMPLIO LA REGRESIÓN BUSCA COMO OBJETIVO UNA LÍNEA O UNA FUNCIÓN MATEMÁTICA QUE EXPRESE SIN IRREGULARIDADES LA RELACIÓN ENTRE DOS VARIABLES.Ejemplo de confección de curva dosis /efectoEn un experimento con ratones se suministraron varias dosis de una planta medicinal determinada y se encontró que los pesos corporal aumentaban como se observa en la tabla. Confeccione la curva correspondiente como es la pendiente de la curva con relación al signo.

y = a + b x

De no darse esta relación perfecta y de hecho en la práctica no es así o sea no se disponen los pares ordenados en una ¨línea ideal.

La regresión tiene como objetivo determinar la Relación Funcional de las dos variables a través de una ecuación y una línea que describa la forma de relación existente , es decir determinar un modelo matemático que exprese la supuesta relación funcional entre X e Y.

AJUSTE DE UNA RECTA.Entonces lo que buscamos es la llamada línea de Regresión a través de una ecuación matemática denominada

ECUACION DE LA RECTA.

Ejemplos: EN UN ENSAYO DE PESO DE ORGANOS EN RATAS MACHOS SE ENCONTRARON LOS SIGUIENTES RESULTADOS . Ver tabla en la pagina siguientePREGUNTAS: Diga cuales son los pares ordenados. • Porque se dicen que forman u par•Plotee los resultados obtenidos de los pares ordenados • Que conclusiones puede obtener• Cual es la ecuación que representan estos resultados

DATOS DEL PROBLEMA ANTERIOR

100 40

200 45

300 50

400 65

500 70

600 70

700 80

DATOS DEL PROBLEMA ANTERIOR

0 100 200 300 400 500 600 700

EL MEJOR METODO MATEMATICO UTILIZADO EN ESTADISTICA PARA OBTENER UNA ECUACION DE REGRESION Y AJUSTAR LA RECTA ES EL DENOMINADO

METODO DE LOS MINIMOS CUADRADOS

CUANDO UNA LINEA RECTA NO PUEDE AJUSTARSE PERFECTAMENTE A LOS PUNTOS DEL PLANO , LAS DESVIACIONES ENTRE LOS VALORES INDIVIDUALES REALES (Y) Y LA RECTA IDEAL (YC) SE LE MINIMIZA A TRAVÉS DEL METODO DE LOS MINIMOS CUADRADOS QUE PROPORCIONA LA RECTA DE MEJOR AJUSTE PUES MINIMIZA LA SUMA DE LOS CUADRADOS DE LAS DESVIACIONES CON RESPECTO A LA RECTA.

METODO DE LOS MINIMOS CUADRADOSES EL METODO MATEMATICO UTILIZADO PARA DETERMINAR LA ECUACION DE REGRESION QUE MINIMIZA LA SUMA DE LOS CUADRADOS DE LAS DISTANCIAS ENTRE LOS VALORES REALES Y LOS PRONOSTICADO O ESTIMADOS (YC).PARA COMPRENDER ESTE TERMINO PONDREMOS UN EJEMPLO MATEMATICOLA ECUACIÓN LINEAL ES Y = a + b X

EN NUESTRO CASO QUEREMOS HALLAR LA LÍNEA IDEAL Y LA ECUACION DE REGRESIONQUE VIENE DADA POR LA ECUACION Y c = a + b X

Ahora como se calculan los valores de a y b

METODO DE LOS MINIMOS CUADRADOS

_ __ _ b= b= XY - n X Y XY - n X Y 2 _2

X - n X

mientras que _ _ a = Y - b X

Con estas formulaciones podremos hallar la línea ideal y la ecuación de regresión.

Veamos un ejemplo

EN UN EXPERIMENTO QUE RELACIONABA LOS AÑOS DE EXPERIENCIA DE UN FARMACÉUTICO Y LAS UNIDADES DE MEDICAMENTOS VENDIDOS EN LA FARMACIA, DURANTE UN DETERMINADO TIEMPO SE OBTUVIERON LOS DATOS SIGUIENTES.OBTENGA LA ECUACION LINEAL DE REGRESION

FARMACEUTICO

AÑOS DE EXPERIENCIA (X)

UNIDADES VENDIDAS (Y)

A 6 90 540 36 8100

B 5 60 300 25 8600

C 3 40 120 9 1600

D 1 30 30 1 900

E 4 30 120 16 900

F 3 50 150 9 2500

G 6 80 480 36 6400

H 2 20 40 4 400

FARMACEUTICO

AÑOS DE EXPERIENCIA (X)

UNIDADES VENDIDAS (Y)

A 6 90 540 36 8100

B 5 60 300 25 8600

C 3 40 120 9 1600

D 1 30 30 1 900

E 4 30 120 16 900

F 3 50 150 9 2500

G 6 80 480 36 6400

H 2 20 40 4 400

TotalesN= 8

30 400 1780 136 24400

Empleando las fórmulas que conocemos calculamos las medias de X e Y

_ _X =3,75 Y= 50PARA CALCULAR b y ab y a _ __ _ b= b= XY - n X Y XY - n X Y = 11.91= 11.91 2 _2

X - n X

_ _ a = Y - b X = 5.34

Como Yc = a + b (X)

Por tanto la ecuación lineal de la recta de regresión será:

Yc= 5.34 + 11.91

De aquí podremos obtener la recta de mejor ajuste De forma que si damos los valores siguientes aX= 1 sustituyendo en la ecuación obtenida esto implica que Y = 17,25

X= 1 SUSTITUYENDO EN LA ECUACIÓN OBTENIDA ESTO IMPLICA QUE

Y = 17,25

POR OTRA PARTE PARA EL PUNTO X= 6 SUSTITUYENDO EN LA ECUACIÓN HALLADA Y= 76,80FINALMENTE PLOTEANDO EN EL GRÁFICO LOS PARES DE VALORES OBTENIDOS:(1, 17.25) Y (6, 76.80) CON UNA PENDIENTE DE 11.91

Años de experiencia

Unidades vendidas

0 1 2 3 4 5 6

(6,76.80)

(3,75; 50)

5,34 a(1,17.25)

PARA REALIZAR PREDICCIONES SOBRE LA BASE DE LA ECUACION DE REGRESION DETERMINADA DEBE CONSIDERARSE LO SIGUIENTE:

1. LA ECUACIÓN ES VÁLIDA PARA PRONOSTICAR VALORES YC SOBRE LA POBLACIÓN DE DONDE SE ENVÍO LA MUESTRA. NO SERIA CORRECTO PARA PRONOSTICAR DE OTRAS FARMACIAS QUE NO FUERA LAS QUE HEMOS ANALIZADO.2. DEBE PRONOSTICARSE SOBRE LA BASE DE LOS VALORES DE X QUE ESTÉN DENTRO DEL DOMINIO O INTERVALO DE LOS VALORES DE X. SE PUEDE HACER PREDICCIONES CON LAS DEBIDAS PRECAUCIONES Y CON VALORES PRÓXIMOS AL INTERVALO DE DOMINIO DE LA VARIABLE X.

3. LA TEMPORALIDAD O TIEMPO ES UN FACTOR QUE DEBE CONSIDERARSE EN EL ANÁLISIS DE REGRESION . PUES SI LA PRIMERA MUESTRA SE TOMO EN EL 2005 , SUS RESULTDFOS NO PDRIAN SER VALIDOS PARA 1990 O 2010.Cuidado con la Extrapolación

COEFICIENTE DE CORRELACION DE PEARSON

El diagrama de dispersión da una visión aproximada de la fuerza con que se relaciona las variables y cuantitativamente esa fuerza de relación se le mide a través del denominado coeficiente de correlación

El coeficiente de correlación mide que tan cerca están los puntos reales de la línea de regresión o línea ideal YcMide la intensidad de la asociación entre las variablesEs un número abstracto, independiente de la unidad de medida de las variables. Puede adoptar cualquier valor entre –1 y 1.

DICHO DE OTRA Manera r = Î(-1÷1). Suele expresarse con 3 decimales, a no ser que valga –1, 0 ó 1. Aparte de su valor descriptivo sirve para ver la significación estadística de la relación.La correlación entre dos variables. Su coeficiente de correlación se llama de PEARSON, aunque se dice simplemente COEFICIENTE DE CORRELACIÓN

Si r = 1 hay una correlación total (perfecta) positiva.Si r = -1 hay una correlación total (perfecta) negativa.Si r = 0 no hay correlación.Si está entre –1 y 0 , la correlación es parcial y negativa.Si está entre 0 y 1, la correlación es parcial y positiva.Una r de 0, -1 ó 1 apenas se encuentra en la práctica

GRÁFICAMENTE ESTO SE PUEDE REPRESENTAR ASÍ:

CÁLCULO DE COEFICIENTE DE CORRELACIÓNVeremos únicamente el cálculo a partir de los datos originales, aislados.

r = n XY - (∑ X ) ( Y ) 2 2 2 2

[ n( X ) ] - ( X ) ] [ n( Y ) ] - ( Y ) ]

∑_ ∑_

∑_ ∑

∑_ ∑_∑_∑_

Para hacer los cálculos se tendrá en cuenta la tabla que presentamos a continuación

Sean los valores de X = (2 , 1 , 3 , 2 , 5) Y = (3 , 5 , 4 , 2 , 6),

Los cuales representan las dosis de diferentes ( X ) de un medicamentos que ofrecen respuesta positiva ante una patología determinada. Analice la intensidad de asociación entre las variables

EJEMPLO DE CALCULO

X Y 2X

2 3 4 9 6

1 5 1 25 5

3 4 4 16 12

2 2 9 4 4

5 6 25 36 30

13 20 43 90 57

r = 5 x 57 - 13 x 20 2 2 [ 5 x 43 ) - ( 13 ) ] [ 5 x 90) ] - ( 20) ]

r = 25

46 x 50

R= 0.521

Como veremos a continuación la correlación es mínima es decir, es decir que no existe relacion entre la dosis empleada y la mejoría del paciente

FUERZA DE LA RELACION

FUERZA DE LA RELACIÓN

POSITIVA ESTADO DE LA CORRELACION

NEGATIVA

r=1 Correlación perfecta r = -1

0.9 a 0.99 Correlación excelente - 0.9 a - 0.99

0.80 a 0.89 Correlación aceptable - 0.80 a - 0.89

0.60 a 0.79 Correlación regular - 0.60 a -0.79

0.30 a 0.59 Correlación mínima - 0 .30 a - 0.59

0. a 0.29 No hay correlación - 0.a - 0.29

EJERCICIO DE TAREA DE TENDENCIA LINEAL (236)EN UN LABORATORIO SE TIENEN DIFERENTES EQUIPOS PARA DETERMINAR EL EFECTO DIURÉTICOS DE LOS MEDICAMENTOS CON DIFERENTES AÑOS DE USO Y CUYO PRECIO VARIA COMO SE PUEDE APRECIAR DE LA TABLA SOBRE LA BASE DE ESTO1. ELABORAR EL DIAGRAMA DE PUNTOS Y DETERMINAR EL TIPO DE RELACIÓN2. ELABORAR LA TABLA DE RELACION CORRELACION3. CALCULAR LA ECUACION DE REGRESION4. CALCULAR EL COEFICIENTE DE CORRELACION E INDICAR LA FUERZA DE LA RELACION5. ESTIME CUAL SERIA EL PRECIO DEL EQUIPO SI TUVIERA 3 Y 8 AÑOS DE USO.6. GRAFICAR LOS PUNTOS REALES Y LA LINEA IDEAL EN UN SOLO GRAFICO Años de uso Precio (cientos

de dolares)

COEFICIENTE DE CORRELACION DE DATOS ORDINALES DE SPERMAN

Introducción:El coeficiente de correlación de Pearson es el mas apropiado cuando los datos son de escala de intervalos o razón pero cuando se trata de datos cualitativos cuyas modalidades se han organizado sobre la base a un orden de rango , es decir los datos han SIDO JERARQUIZADOS DE MENOR A MAYOR O VICEVERSA, EL COEFICIENTE QUE NOS PERMITE MEDIR LA RELACION ENTRE ESTE TIPO DE DATOS ES EL Coeficiente de SpermanEn ocasiones tenemos características como BellezaConductaActividad preferencialCapacidad de liderazgo Sabores entre otrosComo sabemos sus datos pueden ser jerarquizados u organizados ordinalmente

EJEMPLO QUE NOS PERMITE CONOCER EL PROCESO DE LA DETERMINACIÓN DE LOS RANGOS

Medidas Rangos

Obsérvese que el 27 tiene el rango 7 que es el mas bajo del conjunto de datos mientras que el valor 47 recibe el rango numero 1 por ser el dato con el valor mas alto

EJEMPLO Cuando existen datos con valores similares se les asigna el rango promedio a los mismos.

Medidas Rangos

39 2.5

FORMULA DEL COEFICIENTE DE SPEARMANUNA VEZ EXPUESTO LA MECANICA DE ASIGNACIÓN DE RANGOS LA FORMULA DEL COEFICIENTE DE SPERMAN ES:

R = 1 - 6 D 2 n (n 2 -1)

Al igual que el coeficiente de Pearson el de Spearman puede tomar valores entre -1 y 1.

PARA APLICAR LA FORMULA SE DEBE SEGUIR EL SIGUIENTE PROCEDIMIENTO

Primero: Determinar el rango de las medidasSegundo Obtener la diferencia de los rangosTercero Verificar que las sumas de las diferencias de los rangos sea cero (= 0) Cuarto Elevar al cuadrado las diferencias (D 2)

EJEMPLO DE APLICACIÓN DEL COEFICIENTE DE SPEARMAN (DATOS CUANTITATIVOS)

Se receptan dos pruebas una teórica y otra practica a dos estudiantes de farmacología en un curso de perfeccionamiento. Los resultados de las calificaciones obtenidas son las siguientes:

¿Cuál es la correlación entre las pruebas y las calificaciones fueron aceptable o no?

Estudiantes

Prueba teórica

Prueba practica

rangos Difer0.5encia de 1rangos D 2

X Y X-2 –Y = D

1 65 68 9 6.5 2.5 6.25

2 63 66 11 10.5 0.5 0.25

3 67 68 7.5 6.5 1 1

4 64 65 10 12 -2 4

5 68 69 5.5 4 1.5 2.25

6 62 66 12 10.5 1.5 2.25

7 70 68 3 6.5 -3.5 12.25

8 76 75 1 1 0 0

9 68 71 5.5 2 3.5 12.25

10 67 67 7.5 9 -1.5 2.25

11 69 68 4 6.5 -2.5 6.25

12 71 70 2 3 -1 1

N = 12 ∑ D = 50

Empleando la fórmula )

r = 1 - 6 ∑ D 2 n (n 2 -1)

R= 1 – 6 x 50 12 (12 2 -1)

R = 1 – 0.17

R = 0.83

CORRELACIÓN ACEPTABLE

Ejemplos para datos ordinales

Con el fin de medir la relación que existe entre las preferencias por el sabor de ciertas gaseosas y el diseño de sus envases . De las encuestas realizadas se obtuvieron los siguientes resultados

MARCA DE GASEOSA

RANGO DE PREFERENCIAX

RANGO DE DISEÑOY

DIFERENCIA X - Y = D

COCA COLA 1 2 1- 2 = -1 1

PEPSI 2 5 2 -5 =-3 9

TROPICAL 3 1 3- 1 =2 4

SEVEN 4 3 4- 3 =1 1

FIORA 5 4 5- 4 =1 1

0 16r = 1 - 6 ∑ D 2 n (n 2 -1)

R = 0.20 No hay correlación

Los ejecutivos de venta de 10 distribuidoras de una empresa de productos medicamentosos fueron entrenados para elevar su potencial de ventas.Al cabo del año sus calificaciones por rango en el programa de entrenamiento se ordenaron para medir su correlación con las ventas anualesn, en el cuadro se presentan los resultados diga como fue la correlación que se obtuvo.Ejecutivos Ventas Rango

entrenamiento

A 319 3

B 150 9

C 175 6

D 460 1

E 398 4

F 300 10

G 280 5

H 200 2

I 190 7

j 300 8

N = 10

DESARROLLO

RANGOS DIFERENCIAS D 2

Y X - Y = D

3 3 3 - 3 = 0 0

10 9 10 - 9 = 1 1

9 6 9 - 6 = 3 9

1 1 1 - 1 = 0 0

2 4 2 - 4 = -2 4

4.5 10 4.5 - 10 = -5.5 30.25

6 5 6 - 5 = 1 1

7 2 7 - 2 = 5 25

8 7 8 - 7 = 1 1

4.50 8 4.50 - 8 = -3.5 12.25

TOTAL 0 83.50

EMPLEANDO LA FÓRMULA PROPUESTA TENDREMOS:

R = 1 - 6 ∑ D 2 N (N 2 -1)

R = 0.49CORRELACION MÍNIMA

TAREAUna empresa publicitaria desea determinar si el numero de anuncios comerciales que se realizan mensualmente por televisión (X) se relacionan con el número de ventas de los artículos que se proporcionan

Numero de anuncios publicitarios

Numero de artículos vendidos

TEMA 9: ELEMENTOS DE PROBABILIDADESINTRODUCCION

Mediante la Estadística descriptiva y a través de lasTablasGráficosMedidasDamos el informe del comportamiento de un fenómeno o sea una descripción de un fenómeno pasadoLa probabilidad es una función Analitica Inferencial que nos permite a través de una muestra tomada de una población EstimarInferir Hacer deducciones sobre el comportamiento de la población de donde fue tomada la muestra.En este caso solo trataremos los elementos de probabilidad pues ella solo abarcaría el curso completo.

El papel de la ´probabilidad en la estadística consiste en que el Probabilista parte de la población deducida de un sinnúmero de ensayos o experimentos para a partir de esta población deducida analizar el compartimiento de la muestra.En cambio el estadista estima infiere la población a partir de una muestra , realizando el proceso inverso de probabilista parte de la población

EL PAPEL DE LA PROBABILIDAD EN LA ESTADÍSTICA Consiste en que el Probabilista parte de la población deducida de un sinnúmero de ensayos o experimentos para a partir de esta población deducida analizar el compartimiento de la muestra.

En cambio el estadista estima infiere la población a partir de una muestra realizando el proceso inverso de probabilista

MODELOS MATEMATICOSDeterministasCuando es posible determinar de antemano los cambios de una variable los modelos se denominan deterministas son modelos que emplean las ciencias química,, físicas, etc..No todas las conductas humanas pueden estar ceñidas a un modelo matemático determinista, donde inexorablemente deben cumplir se ciertas leyes, muy por el contrario hay conductas que se desarrollan en la incertidumbre y para ello se crearon los modelos matemáticos denominadoModelos probabilísticos.Estos modelos no describen exactamente lo que ocurrirá DADA UNA SITUACIÓN SINO QUE ESTIMA LO QUE ES POSIBLE QUE SUCEDA

Mecánica de la probabilidad y conceptos básicos

La mecánica de la Probabilidad es estimar o inferir de que algo ocurrirá:

Cual es la probabilidad de al lanzar una moneda caiga cara o escudo

Cual es la probabilidad de que caiga 3 al lanzar un dadoConceptos básicos de probabilidadQue es probabilidadLa posibilidad de que algo ocurra

Como se mide la probabilidad?

La probabilidad es un numero que se mide entre uno y cero 0 ≤ P ≤ 1

Cuando existe la CERTEZA DE QUE UN EVENTO OCURRALA Probabilidad es :Ej: solCuando existe la certeza de que un evento no puede ocurrir es: Ej : dado número 7

Que mide la probabilidad?Mide la posibilidad de que llegue a ocurrir un evento como resultado de un experimentoEn el ejemplo de la monedaCara = 1/2Cara + escudo

Valor fraccionado Valor decimal Valor porcentual1/2 0.5 50 %

Espacio muestral El conjunto de todos los resultados posibles de un experimentos se denomina espacio muestral (S)

S = cara, escudo

S = 1,2,3,4,5,6

TIPOS DE PROBABILIDAD LA PROBABILIDAD SE CLASIFICA EN:

CLASICADE FRECUENCIA RELATIVA

SUBJETIVAProbabilidad clásica:Podemos describirla de esta manera:

Probabilidad de un evento= número de resultados favorables número de resultados posibles

También puede expresarse de la forma siguiente:

•Experimento en el lanzamiento de una moneda que salga cara

Levantar una carta de un juego de cuatro cartas correspondientes a los cuatro ases de un juego de cartas Sea el as de brillo

P = as de brillo = 1/6 ases : brillo, trébol, corazón rojo, negro

P = f n

Lanzamiento de un dadoQue caiga el número 3

PROBABILIDAD DE FRECUENCIA RELATIVASe determina por la vía experimental.La idea de frecuencia relativa es que la probabilidad se calcula después de una serie de ensayos y experimentos es decir se basa en la experiencia pasada

Número de veces que Probabilidad de que suceda un evento= el evento ocurrió en el pasado

Número total de observaciones

Veamos un Ejemplo :

EN UN LABORATORIO DE PRODUCCION DE MEDICAMENTOS SE TIENE REGISTRADOS LOS SIGUIENTES DATOS SOBRE EL CONTENIDO DE UN DETERMINADO MEDICAMENTO

Evento Contenido Producto

Probabilidad de ocurrencia del evento

A Peso inferior 50 50/1000= 0.05

B Peso correcto

850 850/1000=0.85

C Peso superior

100 100/1000= 0.10

1000 1.00Como puede observarse necesariamente la suma de todos los resultados es igual a la unidad

Nos podemos plantear las siguiente probabilidades

Al tomar al azar un medicamento este tenga el peso inferior , peso correcto o peso superior a lo que establece la norma.

Sea peso inferior

P (A) = 50/1000 = 0.05Respuesta existe un 5 % de probabilidad de que el medicamento tomado sea de peso infeiro al que establece la normaCalcular correcto y el superior

CARACTERISTICAS DE LAS PROBABILIDADES DE FRECUENCIA RELATIVA

1.La probabilidad obtenida no es el valor real sino una aproximada estimación del mismo2.Cuanto mas ensayos o experimentos hagamos previamente los resultados estimados serán mas exactos. Esto equivale a decir que mientras mayor sea el tamaño de la muestra mejor será la estimacion de la probabilidad.3.Para la validez de la estimación de la probabilidad deben darse idénticas condiciones en las que se recopilaron los datos

Regla del complemento

Como ya sabemos la 0 ≤ P ≤ 1

De aquí podemos ratificar:1.Ninguna probabilidad es mayor que 12.Ninguna probabilidad es menos a 0, no pueden existir probabilidades negativas.Si se designa con P(A) la probabilidad de que un evento _ ocurra y con P(A) de que no ocurra, se obtiene las siguientes relaciones conocidas como Regla del complemento1.La probabilidad de que un evento ocurra mas la que no ocurra es igual a 1 _P(A) + P(A)= 12. La probabilidad de que un evento A ocurra es igual a la unidad menos la probabilidad de que no ocurra.3. La probabilidad de que el evento no ocurra es igual a la unidad menos la probabilidad de que ocurra

EjercicioSi designa a la ocurrencia de un evento como P y la probabilidad de que no ocurra como Q y si lanzamos la moneda y designamos con P el evento de que caiga cara y Q de que sea sello, como se representarían estos eventos

EJEMPLOS DEL PROGRAMA RESOLVER

a)p de que al tirar un dado dos veces salgan en ambas un 6.

b) p de que al tirar dos dados salga en ambos un 6 “seis en el primer dado y seis en el segundo”

c) La p de ser rubio es de 0,3 y la de llevar gafas es de 0,2 . Calcular la p de que una persona cualquiera sea rubia y lleve gafas (se asume que son independientes).

d) en una caja hay 3 bolas blancas y 2 negras. Calcular la p de que sacando dos bolas, las dos sean negras.

e) p de que al sacar una carta de una baraja española de 40 cartas sea oros o copas.

f) p de que al sacar una carta de esa baraja sea as o espadas.hay 4 ases , 10 espadas y 1 as de espadas (que cuenta como as y como espada, entre 40, que debe ser compensada)

g) p de acertar 6 en la PrimitivaHay 49 bolas. Como no hay reemplazo, cada vez que sale una bola, queda unamenos en el bombo.

h) p de que tirando un dado 4 veces, la primera vez que salga un 5 sea en la 4ª tirada.

Respuestasa. “seis en la 1ª tirada y 6 en la 2ª”p(2 veces 6) = 1/6 * 1/6 = 1/36 (mejor que 0,0278).

b. es el mismo caso que a).

c.p(rubio y gafas) = 0,3 * 0,2 = 0,06 ( ó 6%).

d. Nos piden la p de que sea negra la primera y negra la segunda.la p de ser negra de la 1ª bola es 2/5 ; una vez sacada quedan 4 bolas (una, negra). la p de ser negra de la 2ª bola es de ¼p( 2 bolas negras) = 2/5 * ¼ = 2/20 = 1/10 (ó 0,1 ó 10%).

e. p(oros o copas) = 10/40 + 10/40 = 20/40 = ½ (ó 0,5 ó 50%).

f. hay 4 ases , 10 espadas y 1 as de espadas (que cuenta como as y como espada, 1 entre 40, que debe ser compensada)p(As o Espada) = 4/40 + 10/40 – 1/40 = 13/40 = 0,325

gHay 49 bolas. Como no hay reemplazo, cada vez que sale una bola, queda una menos en el bombo. Para acertar los 6 resultados hay que acertar el primer número y el segundo y el tercero...y el sexto.p(6 aciertos) = 6/49 * 5/48 * 4/47 * 3/46 * 2/45 *1/44 = 1 /13.983.816

h. p de que tirando un dado 4 veces, la primera vez que salga un 5 sea en la 4ª tirada. p(5 sólo en la 4ª) = p(no 5 en la 1ª)*p(no 5 en la 2ª)*p(no 5 en la 3ª)*p(5 en la4ª) = 5/6 * 5/6 * 5/6 * 1/6 = 125/1296 = 0,096

EVENTOS Y TIPOS1.MUTUAMENTE EXCLUYENTES2.EVENTOS QUE NO SON MUTUAMENTE EXCLUYENTES3.EVENTOS COLECTIVAMENTE EXHAUTIVOS

EVENTOS MUTUAMENTE EXCLUYENTESSe dice que dos eventos son mutuamente excluyentes si Uno solo y solo uno de los eventos de un experimento puede ocurrir a la vez,. En el nacimiento de un bebé se tiene varón o hembra siempre que sea un parto de solo niño.

EVENTOS QUE NO SON MUTUAMENTE EXCLUYENTESSe dice que dos eventos no son mutuamente excluyentes cuando es posible que dos eventos ocurran simultáneamente.Por ejemplo:Escoger a un mujer que sea enfermera para un puesto de trabajo.

EVENTOS QUE COLECTIVAMENTE EXHAUTIVOSCuando una lista de los eventos que puedan resultar de un experimento incluye todos los resultados posibles, se dice que es colectivament3e exhaustivos

Tema 9 . Distribuciones fundamentales de probabilidad Ya hemos visto que los fenómenos naturales siguen el modelo indeterminista, es decir las leyes del azar, entendido como la combinación de múltiples factores, en gran parte desconocidos e incontrolables, que conducen a resultados no previsibles de antemano, aunque sí conocidos, que se caracterizan por su variabilidad en los diferentes individuos. A cada uno de los posibles resultados se asocia una probabilidad, que en sucesos sencillos o poco complejos es fácil de calcular por las leyes básicas o fundamentales de la probabilidad, pero al aumentar la complejidad el cál- culo se hace muy difícil o imposible. Entonces hay que recurrir a una serie de modelos teóricos, las llamadas distribuciones o leyes fundamentales de la probabilidad, que nos permiten hacer el cálculo con relativa facilidad. Al aumentar el nº de individuos todas las distribuciones se van aproximando y acaban confluyendo y haciéndose una en el infinito. Clasificacióna) para variables discretas--Distribución. binomial--Distribución de Poisson--Distribución hipergeométrica

b) para variables continuas--Distribucion Normal--Distribucion de la t de Student--Distribucion de la χ2 de Pearson--Distribucion de la F de Snedecor-FisherPara todas valen los principios que ya conocemos:0 ≤ p ≤ 1 p + q = 1

Σ p(x) = 1

DISTRIBUCION BINOMIALConceptoEs el modelo básico de distribución de las variables discretas (o discretizadas), que como ya sabemos pueden ser reducidas en última instancia a dicotómicas. Experimentos binomialesPueden ser elementales y complejosLos elementales tienen dos resultados posibles: Éxito (cuando aparece el resultado que se pre-tende) yFracaso , que puede ser único o múltiple. Sus probabilidades respectivas son p y q

En los complejos el experimento elemental se repite n veces--obteniendo r éxitos ( de 0 a n) : 0 ≤ r ≤ n--cada modalidad de la variable va asociada a una r . Como r empieza en 0 siempre hay n+1 modalidades: la de r=0 y las de r entre uno y n.-- un experimento binomial complejo puede repetirse N veces. Cada modalidad aparecerá Nr veces.

NotaciónLa distribución suele designarse como DB, pero cuando se dan los parámetros típicos, la n y la p del suceso elemental, se utiliza sólo B .

Así: B(n , p)

Experimento Éxito p n r notación

elemental: lanzar 1 monedacomplejo: lanzar 4 monedas

salir carasalir cara

0,50,5

0 , 10 , 1 , 2 , 3 ,

B(1 , 0,5)B(4 , 0,5)

elemental: lanzar un dadocomplejo: lanzar 5 dados

salir 1salir 1

1/61/6

0 , 10 , 1 , 2 , 3 ,

B(1 , 1/6)B(5 , 1/6)

elemental: familia con 1 hijocomplejo: familia con 4 hijos

ser chicaser chica

0,50,5

0 , 10 , 1 , 2 , 3 ,

B(1 , 0,5)B(4 , 0,5)

Algunos ejemplos:El lanzamiento de las 4 monedas se puede repetir N veces. O podemos estudiar N familias de 5 hijos.

Cálculo de las p de r

p (r)= n! p r q n − r

r !* (n − r )!

GráficoDiagrama de barras

Otros parámetros _Media o esperanza matemática: X = npla media representa el nº esperado de éxitos en el experimentoVarianza: s2 = npqy por tanto, desviación estándar: s =√npq

n , p , N y NrConviene insistir en estos símbolos que son básicos en la DB.n : veces que se repite el suceso elemental en un experimento binomial. Si n=1 es un experi-mento simple; si >1, es complejop : probabilidad del suceso elementalN : veces que se repite el experimento complejo. Si no se dice nada, N=1

Nr : frecuencia de cada modalidad tras N repeticiones. Σ Nr = N----Si tiramos una moneda 1 vez, es una B(1 , 0,5) . Podemos obtener 0 ó 1 cara (r). N=1

Si este experimento lo repetimos 3000 veces (N) seguirá siendo una B(1, 0,5) pero con N=3000. r sigue valiendo 0 y 1. Nos pueden salir p.e. 1450 caras. Entonces No = 1550 y N1 = 1450

Si tiramos de una vez 3000 monedas pueden salir entre 0 y 3000 caras (r). Es una B(3000 , 0,5) ; n=3000 ; N=1

Si obtenemos 1450 caras (c), habrá habido 1550 cruces (k). Como sólo se hace una vez, se suele asimilar al caso anterior y se dice que No = 1550 ; N1 = 1450, aunque realmente no es correcto. Mejor sería Nc y Nk.

Si tiramos tres monedas 1000 veces y obtenemos 0 caras en 115 ocasiones, una cara en 380, dos caras en 370 y tres caras en 130: es una B(3 ; 0,5) , n=3 , N=1000 , N0=115 , N1=380 , N2=370 y N3=130

Problemas asociados a la Distribución Binomial1) calcular p(r) : nos pueden pedir el cálculo de una r en concreto o de todas ellas. Como ejemplo vemos la p de 2 caras lanzando 3 monedas. Es B(3 , 0,5) 1- Aplicando la fórmulap (r)= n! p r q n − r

r !* (n − r )!

p(r = 2) = 3!........0,5 2!*1!

0, 520, 51 = 0, 3750

2 - Método Intuitivo (“cuenta de la vieja”). Válido para una p elemental de 0,5. Veremos no sólo la p(r=3) sino todas las p(r). Hay que considerar todas las combinaciones posibles de cara (c) y cruz (k).

Si el lanzamiento de las 3 monedas se repite 200 veces, teóricamente se obtendrán lo siguiente:0 caras : N0 = 200 * 1/8 = 251 cara : N1 = 200 * 3/8 = 752 caras : N2 = 200 * 3/8 = 753 caras : N3 = 200 * 3/8 = 25

calcular la media, varianza, desviación estándarx = np ; S2 = npq ; s= √npq

En el ejemplo de las monedas: x = 3 * 0,5 = 1,5

S2 = 3 * 0,5 * 0,5 = 0,75

s = √ 3 * 0 ,5 * 0 ,5 = 0 ,866

r Nr r*Nr

0 4096 0

1 4096 4096

2 1536 3072

3 256 768

4 16 64∑

10000 8000

Ejemplo:Lanzadas 4 monedas 10000 veces se han obtenido los resultados que se muestran en la tabla:0 caras en 4096 ocasiones, 1 cara en 4096, 2 caras en 1536, 3 caras en 256 y 4 caras en 16.

x = 8000 = 0 ' 8 100000'8=4p p=0'2

por tanto es una B (4 , 0'2)

DISTRIBUCION NORMAL

Es la distribución típica de variables aleatorias cuantitativas continuas cuando el tamaño es grande (por consenso, cuando N≥30) . Sus parámetros básicos son la media y la desviación estándar.

La curva normal o de Gauss es un modelo matemático que representa la distribución más frecuente de los errores en las mediciones experimentales. Es una distribución de frecuencia para variables continuas

Su desarrollo se debe fundamentalmente a Laplace y Gauss. Quetelet le dio el nombre de NORMAL O NATURAL porque observó que la gran mayoría de variables fisiológicas seguían este modelo.

Es un nombre consagrado por el uso y no quiere decir que las otras distribuciones sean “anormales”.

Los norteamericanos usan y han exportado la denominación de “distribución gaussiana”.

Siguen la DN todo tipo de variables biológicas ( como frecuencia cardíaca, tensión arterial, componentes químicos de la sangre y orina, medidas corporales...), duración o vida de objetos y seres vivos, etc. _

Notación : N( x , s)

FórmulaLa fórmula para calcular las p asociadas a intervalos de valores ( no se pueden calcular p de valores puntuales, ya que en el contexto de la DN son infinitésimos) es muy compleja y necesita integración. Pero afortunadamente no hay que utilizarla, pues se dispone de una tabla de fácil manejo, que nos da el cálculo ya hecho. Está caracterizada por la media, μ, y la desviación típica, σ.

A título informativo la fórmula es:Su función de densidad es: a≤ p ≤b

Representación gráficaes la curva o campana de Gauss, en “chapeau de gendarme” (gorro de gendarme) de los tiemposnapoleónicos. Es el límite de un histograma cuando la amplitud de las clase se hace infinitesimal y el nº de datos tiende a infinito.

Es simétrica alrededor de un eje vertical que pasa por x y asintótica al eje de abscisas (lo corta en el infinito por ambos lados, aunque a partir de x ± 3s ya casi lo toca). La campana engloba todos los valores y por tanto la p de que un valor cualquiera esté en ella es 1 ó 100%. La superficie de campana delimitada por dos valores del eje de abscisas equivale a la probabilidad de que un valor cualquiera se encuentre en ese área. Cada distribución tiene su propia campana, hay infinitas curvas de DN. En estas condiciones su manejo sería muy difícil y complicado, ya que habría que aplicar cada vez la fórmula. Afortunadamente se ha encontrado un modelo único de distribución y por tanto de campana al que pueden ser adaptadas todas las DN.

Es la llamada DN tipificada.

Tipificación _Consiste en transformar cualquier N( x , s) en otra N(0 , 1), es decir, en una DN de media 0 y desviación estándar 1. Para ello hay que transformar los valores originales x en puntuaciones estándar o valores tipificados, que aquí llamaremos c. (Otros nombres: z o SDS).

c = x − x s SEntre dos valores de c quedan delimitadas áreas (=probabilidad) que se pueden obtener a partir de la tabla de la DN tipificada.

Ya se ha dicho al principio que no se pueden calcular p de valores aislados, sólo de intervalos más o menos grandes.

En esta campana están representadas las áreas o probabilidades entre valores de c +1 y –1 , +2 y –2 , +3 y –3 . Pero es preferible expresar la p con números más “redondos” :---Al intervalo entre c = -1,96 y c = 1,96 corresponde un 95% de la superficie de la campana. p(–1,96 ≤ c ≤ 1,96) = 0,95 ó 95%---Al intervalo entre c = -2,58 y c = 2,58 corresponde un 99% de la superficie de la campana. p(–2,58 ≤ c ≤ 2,58) = 0,99 ó 99%---

Dada una variable de media μ y desviación típica σ, se denomina valor tipificado, z, de una observación x, a la distancia (con signo) con respecto a la media, medido en desviaciones típicas.

-1 o 1 -σ µ σ

La interpretación es clara: Asigna a todo valor de N(μ, σ), un valor de N(0,1) que deja exactamente la misma probabilidad por debajo.

Como ejemplo podemos ver:

Al intervalo entre c = -3,30 y c = 3,30 corresponde un 99,9% de la superficie de la campana. p(–3,30 ≤ c ≤ 3,30) = 0,999 ó 99,9% que son los que utilizaremos aquí.

Es imprescindible dibujar una campana y marcar en ella la media y el valor o valores de x.Una vez tipificada se anotan el los valores de c. A la media le corresponde siempre por definición el valor de 0

Problemas asociados a la DN1---tipificarp.e. x=5 y x=3 de una B(4 , 2)→ c = (5-4)/2 = 0,5 → c = (3-4)/2 = -0,5 2---calcular la probabilidad de un intervalo,p.e. entre c = 0 y c = 0,46 → p(0 ≤ c ≤ 0,46) = 0,1772

Ejemplo:La duración media de un MEDICAL DEVICES ,es de 12 meses, con una varianza de 4. El fabricante garantiza que pudiera durar 8 meses más. Calcular1) la probabilidad de que se inactive en el periodo de garantía2) la probabilidad de que dure al menos 16 meses3) la probabilidad de que dure entre 15 y 18 meses

La variable “Vida de la bombilla” es una N(12, 2)1) p(x ≤ 8) ?se dibuja la campanase tipifica: c = (8-12)/2 = -2p(c ≤ -2) = 0,5 – p(-2 ≤ c ≤ 0) =0,5 – 0,4772 = 0,0228 ó 2,28% 8 12 -2 02) p(x ≥ 16) ? c = (16-12)/2 = 2p(c ≥ 2) = 0,5 – p(0 ≤ c ≤ 2) =0,5 – 0,4772 = 0,0228 ó 2,28%

12 16 0 2

DISTRIBUCIÓN DE LA T DE STUDENT

Es la distribución teórica de las muestras pequeñas de una población que sigue la ley normal con datos cuantitativos continuos.

Gosset (que utilizaba el seudónimo de Student) comprobó que cuando disminuía el tamaño de las muestras, no valían del todo los normas de la DN, tanto más cuanto más pequeña sea la muestra. Hasta N=30 las diferencias son bastante acusadas.

Por eso la mayoría de autores ponen a ese nivel la frontera de uso práctico entre DN y t de Student.

Otros lo ponen en 60 y algunos hasta en 120.

Los programas estadísticos utilizan casi exclusivamente la t de Student para todas las variables continuas, ya que hasta el infinito no se produce una identidad plena entre ambas distribuciones.

La DN está en vías de extinción, al menos en la práctica.

Nosotros seguiremos el criterio de utilizar la t de Student para muestras pequeñas (N<30) y la DN para las grandes.

El valor obtenido de los cálculos anteriores es comparado con los valores en una tabla de distribución de t de student (esta puede encontrarse en cualquier test de estadística

Distribución de frecuencias para variables continuas y muestras pequeñas (n<30)

Tiene un sólo parámetro denominado grados de libertad (n-1).

Cuando aumentan los grados de libertad, más se acerca a N(0,1).

Iguales propiedades que la distribución normal.La notación es t (gl , α). α es el nivel de significación elegido y gl es el grado de libertad.Con este nombre se designa al número de observaciones independientes, que en general son N-1.En esta prueba de t de students se comparan pares de datos continuos , distribuidos al azar y se coparan de la forma siguiente: _ _t = X1 - X_2____ √ N1. N2 . (N1 + N2 -2) √ D12 + D 2 N1 + N2

De donde el valor de ∑ D : N ∑ X - (∑X_)____ N

UN EJEMPLO AYUDARÁ A ENTENDER ESTE CONCEPTO.

Si nos piden 5 valores que sumen 35, sólo podremos elegir libremente 4, pues el 5º es obligado: supongamos que elegimos 8 , 10 , 23 , -15 .

El 5º número tiene que ser por fuerza 9 ; hay 4 grados de libertad. Aquí no hay modelo tipificado y para cada valor de N hay una campana distinta (que no es preciso dibujar..).

La TABLA sigue el modelo de las tablas de doble entrada. En la primera columna está el grado de libertad y en la primera fila hay tres niveles de significación.

t(5 , 0,05) = 2,571 ; t(26, 0,001) = 3,707 ; t (15, 0,01) = 2,947.

UTILIDADESComparar medias. Prueba de hipótesis entre medias.Cálculo de intervalo de confianzaDeterminación del tamaño de muestra

EJEMPLO 2

Suponga que desea comparar dos grupos ( un grupo de ensayo y otro control ) de pesos corporales de perros que han seguido un estudio de inhalación de vapores Se conduce el test como sigue

Perro Peso corporal test

Peso corporal control

X1 en kg X12 X2 en kg X22

1 8,3 68,89 8,4 70,56

2 8,8 77,44 10,2 104,04

3 9,3 86,49 9,6 92,16

4 9,3 86,49 9,4 88,36

Suma 35,7 319,31 37,6 355,12

Medias 8,92 9,4

Aplicando la formula vista anteriormente

_ _t = X1 - X_2____ √ N1. N2 . (N1 + N2 -2) √ D12 + D 2 N1 + N2

De donde el valor de ∑ D= N ∑ X - (∑X_)____ NPor tanto el valor de t será :Diferencia de las medias : N2 –N1 = 9.40 – 8.92 2 2

∑ D 1 = 4 (319.31) – (35.7) __= 2,75/4 = 0,68754

∑ D 2= 4 (355,12) – (36.6) = 6,72/4 = 1,68 4

De donde: t= 0,48 = √ 4 (4) . ( 4 +4 -2) = 1,08 √ 0,6875 + 1,68 4 + 4

El valor tabular para t con un nivel de significación de 0.05 y 6 grados de libertad es 1.9432 esto implica que 1.08< 1,9432RESPUESTA: LOS PESOS CORPORALES DE LOS PERROS NO DIFIEREN SIGNIFICATIVAMENTE A UN NIVEL DE 0.05

Como buscar la El valor tabular para t con un nivel de significación de 0.05 y 6 grados de libertad

g.ll. 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 0.975 0.99 0.995 1 2 3 4 5 6 7 8 9

10 11 12 13 14 15 16 17 18 19

20 21 22 23 24 25 26 27

0.15838 0.14213 0.1366 0.13383 0.13218 0.13108 0.13029 0.12971 0.12925

0.12889 0.12859 0.12835 0.12814 0.12796 0.12781 0.12767 0.12755 0.12745 0.12735

0.12727 0.12719 0.12712 0.12706 0.127 0.12694 0.12689 0.12685

0.32492 0.28868 0.27667 0.27072 0.26718 0.26483 0.26317 0.26192 0.26096

0.26018 0.25956 0.25903 0.25859 0.25821 0.25789 0.2576 0.25735 0.25712 0.25692

0.25674 0.25658 0.25643 0.2563 0.25617 0.25606 0.25595 0.25586

0.50953 0.44475 0.4242 0.41416 0.40823 0.40431 0.40154 0.39947 0.39787

0.39659 0.39555 0.39469 0.39396 0.39333 0.39279 0.39232 0.3919 0.39153 0.3912

0.39091 0.39064 0.39039 0.39017 0.38997 0.38978 0.38961 0.38945

0.72654 0.61721 0.58439 0.56865 0.55943 0.55338 0.54911 0.54593 0.54348

0.54153 0.53994 0.53862 0.5375 0.53655 0.53573 0.53501 0.53438 0.53382 0.53331

0.53286 0.53246 0.53208 0.53175 0.53144 0.53115 0.53089 0.53065

1. 0.8165 0.76489 0.7407 0.72669 0.71756 0.71114 0.70639 0.70272

0.69981 0.69745 0.69548 0.69383 0.69242 0.6912 0.69013 0.6892 0.68836 0.68762

0.68695 0.68635 0.68581 0.68531 0.68485 0.68443 0.68404 0.68368

1.3764 1.0607 0.97847 0.94096 0.91954 0.9057 0.89603 0.88889 0.8834

0.87906 0.87553 0.87261 0.87015 0.86805 0.86624 0.86467 0.86328 0.86205 0.86095

0.85996 0.85907 0.85827 0.85753 0.85686 0.85624 0.85567 0.85514

1.9626 1.3862 1.2498 1.1896 1.1558 1.1342 1.1192 1.1081 1.0997

1.0931 1.0877 1.0832 1.0795 1.0763 1.0735 1.0711 1.069 1.0672 1.0655

1.064 1.0627 1.0614 1.0603 1.0593 1.0584 1.0575 1.0567

3.0777 1.8856 1.6377 1.5332 1.4759 1.4398 1.4149 1.3968 1.383

1.3722 1.3634 1.3562 1.3502 1.345 1.3406 1.3368 1.3334 1.3304 1.3277

1.3253 1.3232 1.3212 1.3195 1.3178 1.3163 1.315 1.3137

6.3138 2.92 2.3534 2.1318 2.015 1.9432 1.8946 1.8595 1.8331

1.8125 1.7959 1.7823 1.7709 1.7613 1.7531 1.7459 1.7396 1.7341 1.7291

1.7247 1.7207 1.7171 1.7139 1.7109 1.7081 1.7056 1.7033

12.706 4.3027 3.1824 2.7764 2.5706 2.4469 2.3646 2.306 2.2622

2.2281 2.201 2.1788 2.1604 2.1448 2.1314 2.1199 2.1098 2.1009 2.093

2.086 2.0796 2.0739 2.0687 2.0639 2.0595 2.0555 2.0518

31.821 6.9646 4.5407 3.7469 3.3649 3.1427 2.998 2.8965 2.8214

2.7638 2.7181 2.681 2.6503 2.6245 2.6025 2.5835 2.5669 2.5524 2.5395

2.528 2.5176 2.5083 2.4999 2.4922 2.4851 2.4786 2.4727

63.657 9.9248 5.8409 4.6041 4.0321 3.7074 3.4995 3.3554 3.2498

3.1693 3.1058 3.0545 3.0123 2.9768 2.9467 2.9208 2.8982 2.8784 2.8609

2.8453 2.8314 2.8188 2.8073 2.7969 2.7874 2.7787 2.7707

Buscar el valor tabular para t (26, 0,01)

0.12727

0.12719

0.12712

0.12706

0.12694

0.12689

0.12685

0.12681

0.12677

0.12673

0.1267

0.12666

0.12663

0.1266

0.12658

0.12655

0.12653

0.1265

0.12648

0.12646

0.12644

0.12642

0.12641

0.12639

0.12637

0.12636

0.12634

0.12633

0.12631

0.1263

0.25674

0.25658

0.25643

0.2563

0.25617

0.25606

0.25595

0.25586

0.25577

0.25568

0.25561

0.25553

0.25546

0.2554

0.25534

0.25528

0.25523

0.25518

0.25513

0.25508

0.25504

0.25496

0.25492

0.25488

0.25485

0.25482

0.25479

0.25476

0.25473

0.2547

0.39091

0.39064

0.39039

0.39017

0.38997

0.38978

0.38961

0.38945

0.3893

0.38916

0.38903

0.38891

0.3888

0.38869

0.38859

0.3885

0.38841

0.38833

0.38825

0.38817

0.3881

0.38803

0.38797

0.38791

0.38785

0.38779

0.38774

0.38768

0.38763

0.38759

0.38754

0.53286

0.53246

0.53208

0.53175

0.53144

0.53115

0.53089

0.53065

0.53042

0.53021

0.53002

0.52984

0.52967

0.5295

0.52935

0.52921

0.52908

0.52895

0.52883

0.52871

0.52861

0.5285

0.5284

0.52831

0.52822

0.52814

0.52805

0.52798

0.5279

0.52783

0.52776

0.68695

0.68635

0.68581

0.68531

0.68485

0.68443

0.68404

0.68368

0.68335

0.68304

0.68276

0.68249

0.68223

0.68177

0.68156

0.68137

0.68118

0.68083

0.68067

0.68052

0.68038

0.68024

0.68011

0.67998

0.67986

0.67975

0.67964

0.67953

0.67943

0.85996

0.85907

0.85827

0.85753

0.85686

0.85624

0.85567

0.85514

0.85465

0.85419

0.85377

0.85337

0.85265

0.85232

0.85201

0.85172

0.85144

0.85118

0.85094

0.8507

0.85048

0.85026

0.85006

0.84987

0.84968

0.84951

0.84934

0.84917

0.84902

0.84887

1.0627

1.0614

1.0603

1.0593

1.0584

1.0575

1.0567

1.0553

1.0547

1.0541

1.0535

1.0525

1.0516

1.0512

1.0508

1.0504

1.0497

1.0494

1.0491

1.0488

1.0485

1.0483

1.0478

1.0475

1.0473

1.3253

1.3232

1.3212

1.3195

1.3178

1.3163

1.3137

1.3125

1.3114

1.3104

1.3095

1.3086

1.3077

1.3062

1.3055

1.3049

1.3042

1.3036

1.3031

1.3025

1.3016

1.3011

1.3006

1.3002

1.2998

1.2994

1.2991

1.2987

1.7247

1.7207

1.7171

1.7139

1.7109

1.7081

1.7056

1.7033

1.7011

1.6991

1.6973

1.6955

1.6939

1.6924

1.6909

1.6896

1.6883

1.6871

1.6849

1.6839

1.6829

1.6811

1.6802

1.6794

1.6787

1.6779

1.6772

1.6766

1.6759

2.0796

2.0739

2.0687

2.0639

2.0595

2.0555

2.0518

2.0484

2.0452

2.0423

2.0395

2.0369

2.0345

2.0322

2.0301

2.0281

2.0262

2.0244

2.0227

2.0211

2.0195

2.0181

2.0167

2.0154

2.0141

2.0129

2.0117

2.0106

2.0096

2.0086

2.5176

2.5083

2.4999

2.4922

2.4851

2.4786

2.4727

2.4671

2.4573

2.4528

2.4487

2.4448

2.4411

2.4377

2.4345

2.4314

2.4286

2.4258

2.4233

2.4208

2.4185

2.4163

2.4141

2.4121

2.4102

2.4083

2.4066

2.4049

2.4033

2.8453

2.8314

2.8188

2.8073

2.7969

2.7874

2.7787

2.7707

2.7633

2.7564

2.7385

2.7333

2.7284

2.7238

2.7195

2.7154

2.7116

2.7079

2.7045

2.7012

2.6981

2.6951

2.6923

2.6896

2.6846

2.6822

2.6778

ANALISIS DE VARIANZA (ANOVA)Cuando estamos frente a la t de student tratamos de comparar dos medias para ver si las hipótesis que se realizan son ciertas o no sin embargo existen casos en que tenemos que trabajar con mas de dos grupos en los cuales tendremos por tanto mas de dos medias acá no es posible aplicar la prueba de student por lo que el ANOVA surge como una generalización del contrate para dos medias de Student cuando el número de dos muestras a contrastar es mayor que dos.Es utilizado para comparar 3 ó mas grupos de datos continuos cuando las varianzas son homogeneas y los datos son independientes y normalmente distribuidos.

Por ello nos planteamos dos hipótesisHo: µ1 = µ 2 = µ3H1: µ1 ≠ µ 2 ó µ1 ≠ µ3 ó µ2 ≠ µ3caso en que una de ella fuera igual pero otra

diferente , también se rechaza la hipótesis nula

Una serie de cálculos son requeridos para realizar el ANOVA, comenzando con los valores dentro del cada grupo que debe ser adicionado.( ∑X) y entonces estas sumas deben ser adicionadas (∑ ∑ X) . Cada dato dentro del grupo es elevado al

2cuadrado y entonces los cuadrados son sumados (∑X ). Luego el factor de corrección CF puede ser calculado a partir de la formula siguiente: K N 2 ( ∑ ∑ X) 1 1_____________________

CF = N1 + N2 + N3+…Nk

Donde N es el numero de valores en el grupo y K es el numero de grupos.La suma total de los cuadrados (SS) es entonces determinada como sigue:

K N 2 SS total = ∑ ∑ X - CF

A su vez la suma de los cuadrados entre grupos (bg) se encuentra de la forma siguiente:

SS bg = ( ∑ X 1) + ( ∑ X 2) +………… ( ∑ X k) - CF N1 N2 Nk

SS wg = SS total - SS bg

AHORA EXISTEN TRES TIPOS DE GRADOS DE LIBERTAD PARA DETERMINAREl primero, total df, es el total de números de datos dentro de todos los grupos bajo análisis menos 1 o sea: (N1 + N2 + N3+…Nk) - 1

El segundo es , df entre los grupos es el numero de grupos menos uno (K-1)

El ultimo dato sería (dentro de los grupos o error de grados de libertad) es la diferencia entre el primero y el segundo.

F = df total – df bg

El próximo conjunto de cálculos sería la determinación de los cuadrados medios , es decir:(MS wg y M S bg) ellas se calculan de la siguiente manera.

MS = (SS/df)

El cálculo final es la relación F o sea

F = M S bg MS wg

Ejemplo para el empleo de las formulaciones para determinación del ANOVA

Suponga que quiere compara 4 grupos de peso de los riñones de perros , expresados como porciento de peso corporal, seguida de una prueba de inhalación , Suponiendo la homogeneidad de la varianza (a partir del test de Barlett) nosotros podemos completar los siguientes cálculos.

400 ppm 200ppm 100 ppm 0 ppm

0,1849 0,2401 0,1156 0,1156

0,2704 0,2304 0,1600 0,1024

0,1849 0,1600 0,1764 0,1089

0,3025 0,1156 0,1600 0,1521

2∑ X = 0,9427 0,7461 0,6120 0,4790

2∑ ∑ X= 0,9427 + 0,7461 + 0,6120 + 0,4720 = 2,7798 2CF = (6,58 ) ___= 2,7060 4+4+4+4

SS total = 2,7798 – 2,7060 = 0,0738

SS bg = (1,93 ) + (1,71) + (1,56 ) + (1,38) - 2,7060 = 0,04075 4 4 4 4

SS wg = 0,07380 -0,04075 = 0,03305

df total = 4 + 4+4 +4 - 1 = 15

df bg= 4 -1 = 3df wg = 15 - 3 = 12

MS bg= 0,04075 = 0,01358 2 de donde F = 0,01358 = 4,94MS wg = 0,03305 = 0,00275 0,00275 12

Buscando en la tabla de F encontramos que para 3 d fbg (mayor cuadrado medio) y 12 d fwg (menor cuadrado medio), para el valor de 0.05 se halla que

F = 3,49

F calculado > F encontrado en la tabla. 04,94 > 3,49

Como el valor que nosotros calculamos es mayor que el encontrado.

Entonces existen diferencias significativas entre grupos.

Por lo que tenemos que determinar cuales son las diferencias, o cuales son los grupos que difieren, para ellos aplicamos un ensayo de post hoc o una prueba para diferenciar las medias.

DATOS A BUSCAR

Df SS MS F

Bg 3 0,04075 0,01358 4,94

Wg 12 0,03305 0,00275

Total 15 0,07380

Los grados de libertad del numerador se encuentran en la primera fila, en tanto que los grados de libertad del denominador se encuentran en la primera columna, cada tabla corresponde a un valor diferente de alfa o "p«0.05

Distribución de F para 0,95 %

1 161.45 199.5 215.71

2 18.513 19 19.164

3 10.128 9.5521 9.2766

4 7.7086 6.9443 6.5914

5 6.6079 5.7861 5.4094

6 5.9874 5.1432 4.7571

7 5.5915 4.7374 4.3468

8 5.3176 4.459 4.0662

9 5.1174 4.2565 3.8625

10 4.9646 4.1028 3.7083

11 4.8443 3.9823 3.5874

12 4.7472 3.8853 3.4903

Al realizar la determinación de un metabolito en tres fermentaciones se obtuvieron los siguientes resultados. Determine mediante ANOVA si existen diferencias entre las fermentaciones. Calcule las medias y varianza.

A 125 124 123 125 124 121 126 123 124 122

B 120 129 131 129 126 127 130 131 129 130

C 135 136 136 137 136 135 137 136 136 135

PRUEBAS PARA DETERMINAR LAS DIFERENCIAS ENTRE LAS MEDIAS, O SEA PRUEBAS POST HOC.

Existe una variedad de pruebas post hoc disponibles para analizar los datos después del ANOVA.Cada uno de ellos tienen sus ventajas y sus desventajas, cuatro de ellos son muy utilizados en bioestadística.1.Prueba de los rangos múltiples de Duncan2.La prueba de Scheffe3.El test de Dunnett

LA PRUEBA DE LOS RANGOS MÚLTIPLES DE DUNCAN.Es utilizada para comprar a grupos que se distribuyen continuos y al azar (tales como el peso corporal y peso de los órganos), este test normalmente involucra 3 ó mas grupos. La comparación se hace entre pares de grupos tomados a la misma vez.Hay que buscar la prueba de F y cuando se obtienen valores mayores que el tabular entonces podemos emplear este ensayo

GRUPOS CON IGUAL NUMERO DE DATOS

Los dos conjuntos de cálculos deben ser llevado aquí:

1.1ero La determinación de las diferencias entre las medias de pares de grupos. 2.La preparación de la tabla de probabilidad contra la cual cada diferencia es medias son comparadas .Las medias son determinadas y ranqueadas en orden decreciente o creciente.Los grupos son tomados en pares y las diferencias entre las medias _ _ (X 1 – X2) , expresadas como un número positivo, son calculadas.Usualmente cada par consisten en el grupo control y el grupo tratado, entonces multiple grupos de ensayos pueden ser inter comparados si se desea.Para establecer la tabla de probabilidad , la SEM puede ser calculada coo se muestra a continuación.

SEM= √ERROR DE LA MEDIA CUADRADA N = √MEDIA CUADRADA DENTRO DEL GRUPO N

Donde N es el numero de animales o replicas por cada nivel de dosis.La media cuadrada dentro del grupo ( MSwg) puede ser calculada a partir de la información dada por el procedimiento de ANOVA La SEM es entonces multiplicada por una serie de valores tabulare, para establecer la tabla de probabilidad.La tabla de valores usado para el calculo son seleccionados de acuerdo a los niveles de( probabilidad ( puede ser 0,05; 0,01 y 0,001)Y el número de medias aparte para el grupo son comparadas y el numero ¨error¨ df .El error df es el numero de df dentro del grupo Este ultimo dato es determinado de los cálculos del ANOVA

Ejemplo:Empleando el peso del riñón como % de peso corporal (4 grupos de perros con 4 perros en cada grupo)

rangos

Concentración media del peso de los riñones

1 2 3 4

Grupos comparados _ _ X 1 - X2

Numero de medias

2 vs 1 ( 100 vs 0 ppm)

0,045 2

3 vs 1 (200 vs 0 ppm) 0,08/3 3

4 vs 1 ( (400 vs 0 ppm)

0,138 4

4 vs 2 (400 vs 100 ppm)

0,093 3El cuadrado medio dentro del grupo del ejemplo del ANOVA fue 0,00275 o sea

MS wg = 0,03305 = 0,00275 12Por tanto el SEM = = √0,00275 = 0,02622.

4El error df (df wg) fue 12 de manera que la siguiente tabla de valores son empleados.

No de media apartadas Nivel de probabilidad

0,05 0,01 0,001

2 3,082 4,320 6,106

3 3,225 4,504 6,34

4 3,313 4,622 6,494

Cuando estos son multiplicados por la SEM se obtienen los siguientes valores de probabilidad en la tabla

No de media apartadas Nivel de probabilidad

0,05 0,01 0,001

2 0,0808 0,1133 0,1601

3 0,0846 0,01181 0,1661

4 0,869 0,1212 0,1703

Grupos con números desiguales de datos ( N1 ≠ N2)

Este procedimiento es muy similar al que se discutió anteriormente.Como antes las medias son ranqueadas y se determinan las diferencias _ _entre las medias ( X 1- X2 )Posteriormente se determinan los valores pesantes ¨a ij ¨ son calculados a partir de los pares de grupos a ser comparados de acuerdo con las siguientes formulaciones: _____________a ij = 2 Ni Nj = 2 N1 N2

√ Ni + Nj √ N1 + N2 _ _

Los valores obtenidos para cada par de grupos se multiplica por (X 1 – X2) Para cada valor para obtener un valor de ¨t ¨, este es el valor que será comparado posteriormente con la tabla de probabilidad.La tabla de probabilidad es establecida como anteriormente excepto que en lugar de multiplicar los valores de la tabla por SEM, SEM 2 Se utiliza

√ MSwg

estadistica basica en uso.ppt [autoguardado]

Documents

estadistica basica, guía

trabajo estadistica autoguardado 140518005813 phpapp01

40210564 trabajo-estadistica-autoguardado

estadistica basica para planificaciÓn

estadistica basica actividad 3

estadistica basica u3

estadistica basica sesion 3

estadistica basica enfermera.docx

estadistica basica para planificacion o

estadistica basica

conceptos estadistica basica

estadistica basica con excel

estadistica basica guanajuato

estadistica basica 2009-2010

apuntes de estadistica basica

trabajo estadistica (autoguardado)

problemas u1 estadistica basica

libro estadistica basica

estadistica basica ensayo

estadistica basica uach 2013