memoria del curso

40
UNIDAD I ESTADISTICA DESCRIPTIVA ALGUNAS DEFINICIONES DE ESTADISTICA 1. ESTUDIA LOS METODOS CIENTIFICOS PARA RECOGER, ORGANIZAR, RESUMIR Y ANALIZAR DATOS, ASI COMO PARA SACAR CONCLUSIONES VALIDAS Y TOMAR DECIONES RAZONZABLES BASADAS EN EL ANALISIS. 2. CIENCIA DERIVADA DE LAS MATEMATICAS QUE ESTUDIA LOS METODOS CIENTIFICOS PARA RECOGER, RESUMIR Y ANALIZAR DATOS, ASI COMO PARA SACAR CONCLUSIONES VALIDAS Y TOMAR DECIONES RAZONABLES BASADAS EN EL ANALISIS 3. CIENCIA CUYO OBJETO ES RECOLECTAR, CLASIFICAR, DESCRIBIR E INTERPRETAR DATOS NUMERICOS, YA QUE LOS ORGANIZA Y RESUME PRESENTANDOLOS EN FORMA GRAFICA Y/0 NUMERICA 4. CIENCIA QUE TIENE POR OBJETO AGRUPAR Y ESTUDIAR METODICAMENTE DATOS Y HECHOS QUE SE PRESTAN A UNA EVALUACION NUMERICA 5. CIENCIA QUE ESTUDIA CONJUNTO DE DATOS CUANTITATIVOS Y SU INTERPRETACION EN TERMINOS MATEMATICOS, ESTABLECIENDO METODOS PARA LA OBTENCION DE LAS MEDIDAS QUE LOS DESCRIBEN, ASI COMO PARA EL ANALISI DE LAS CONCLUSIONES, CON ESPECIAL REFERENCIA A LA TEORIA DE LA PROBABILIDAD 6. CIENCIA QUE TRATA DE REUNIR INFORMACION CUANTITATIVA CONCERNIENTE A INDIVIDUSOS, GRUPOS, SERIE DE HECHOS, ETC., Y DEDUCIR DE ELLAS, GRACIAS AL ANALISIS DE LOS DATOS, UNOS SIGNIFICADOS PRECISOS O UNAS PREVISIONES PARA EL FUTURO

Upload: jesus-g-centeno

Post on 25-Dec-2015

225 views

Category:

Documents


1 download

DESCRIPTION

conceptos de estadistica

TRANSCRIPT

Page 1: Memoria Del Curso

UNIDAD I ESTADISTICA DESCRIPTIVA

ALGUNAS DEFINICIONES DE ESTADISTICA

1. ESTUDIA LOS METODOS CIENTIFICOS PARA RECOGER, ORGANIZAR, RESUMIR Y ANALIZAR DATOS, ASI COMO PARA SACAR CONCLUSIONES VALIDAS Y TOMAR DECIONES RAZONZABLES BASADAS EN EL ANALISIS.

2. CIENCIA DERIVADA DE LAS MATEMATICAS QUE ESTUDIA LOS METODOS CIENTIFICOS PARA RECOGER, RESUMIR Y ANALIZAR DATOS, ASI COMO PARA SACAR CONCLUSIONES VALIDAS Y TOMAR DECIONES RAZONABLES BASADAS EN EL ANALISIS

3. CIENCIA CUYO OBJETO ES RECOLECTAR, CLASIFICAR, DESCRIBIR E INTERPRETAR DATOS NUMERICOS, YA QUE LOS ORGANIZA Y RESUME PRESENTANDOLOS EN FORMA GRAFICA Y/0 NUMERICA

4. CIENCIA QUE TIENE POR OBJETO AGRUPAR Y ESTUDIAR METODICAMENTE DATOS Y HECHOS QUE SE PRESTAN A UNA EVALUACION NUMERICA

5. CIENCIA QUE ESTUDIA CONJUNTO DE DATOS CUANTITATIVOS Y SU INTERPRETACION EN TERMINOS MATEMATICOS, ESTABLECIENDO METODOS PARA LA OBTENCION DE LAS MEDIDAS QUE LOS DESCRIBEN, ASI COMO PARA EL ANALISI DE LAS CONCLUSIONES, CON ESPECIAL REFERENCIA A LA TEORIA DE LA PROBABILIDAD

6. CIENCIA QUE TRATA DE REUNIR INFORMACION CUANTITATIVA CONCERNIENTE A INDIVIDUSOS, GRUPOS, SERIE DE HECHOS, ETC., Y DEDUCIR DE ELLAS, GRACIAS AL ANALISIS DE LOS DATOS, UNOS SIGNIFICADOS PRECISOS O UNAS PREVISIONES PARA EL FUTURO

7. RAMA DE LAS MATEMATICAS QUE SE OCUPA DE REUNIR, ORGANIZAR Y ANALIZAR DATOS NUMERICOS Y QUE AYUDA A RESOLVER PROBLEMAS COMO EL DISEÑO DE EXPERIMENTOS Y LA TOMA DE DESICIONES

Page 2: Memoria Del Curso

DIVISION DE LA ESTADISTICA PARA SU ESTUDIO

ESTADÍSTICA DESCRIPTIVA

Tienen por objeto fundamental describir y analizar las características de un conjunto de datos, obteniéndose de esa manera conclusiones sobre las características de dicho conjunto y sobre las

La estadística es la rama de las matemáticas cuyo objetivo es la obtención, clasificación y análisis de la información relativa a eventos o acontecimientos, a partir de la cual se puede emitir conclusiones y con esto tomar decisiones que puedan resolver o entender dichos eventos

INFERENCIAL

ESTADISTICA

DESCRIPTIVA

ANALISIS BAYESIANO DE DESICIONES

ESTADISTICA CLASICA

Page 3: Memoria Del Curso

relaciones existentes con otras poblaciones, a fin de compararlas. No obstante puede no solo referirse a la observación de todos los elementos de una población (observación exhaustiva) sino también a la descripción de los elementos de una muestra (observación parcial).

En relación a la estadística descriptiva, Ernesto Rivas Gonzáles dice; “Para el estudio de estas muestras, la estadística descriptiva nos provee de todos sus medidas; medidas que cuando quieran ser aplicadas al universo total, no tendrán la misma exactitud que tienen para la muestra, es decir al estimarse para el universo vendrá dada con cierto margen de error; esto significa que el valor de la medida calculada para la muestra, en el oscilará dentro de cierto límite de confianza, que casi siempre es de un 95 a 99% de los casos

La estadística descriptiva nos indica cual tal es una situación, describe e informa lo que hay de tal modo que permite describir y resumir las observaciones que se hagan sobre unasunto, fenómeno o problema de investigación. Se calcula a partir de los datos de unamuestra o de una población.

EJEMPLOS:

La clase de Métodos Estadísticos se reúne cinco veces por semana de 20 a 21 horas en el salón Q3

El Promedio de aprovechamiento obtenidos por los alumnos del segundo semestre del ITC en el periodo A-D 08 resultó ser de 81.25

Durante la última semana la policía de tránsito informó que han ocurrido un total de 10 accidentes en esta Ciudad de cancún

La encuestadora denominada “si tu pagas tu ganas“ informa al candidato del partido SPSS que aventaja con 20 puntos a su perseguidor más cercano

Como puede observarse en cada uno de estos ejemplos, los datos estadísticosUtilizados solamente describen e indican lo que hay, informando donde, cuando y cuanto de los hechos u observaciones indicadas. Lo mismo sucede cuando se realiza una encuestapolítica donde se nos informa que entrevistaron a 1100 electores y que el candidato delPartido Republicano obtuvo la preferencia de un 44% de los encuestados, que un 45% optópor el candidato del Partido Demócrata y que aún se mantiene un 11% indecisos. Todosestos datos numéricos describen y nos señalan cuál es el parecer u opinión de los electoresencuestados y por tanto estos datos estadísticos se le clasifica como estadística descriptivade una muestra de electores.

ESTADÍSTICA INFERENCIAL

La estadística inferencial es cuando de los datos estadísticos obtenidos de unamuestra se infiere o se deduce una observación la cuál se generaliza sobre la población en

Page 4: Memoria Del Curso

total. Para determinar la confiabilidad de la inferencia de los datos estadísticos de unamuestra, se hace necesario comprobar la misma para poder asegurar que lo que seobserva en una muestra se observará también en la población. Por lo tanto, esto requiereutilizar técnicas, cómputo y análisis estadísticos más avanzados con los datosestadísticos obtenidos de la muestra para así confirmar la veracidad de las inferenciasque se haga sobre la respectiva población a que corresponde la muestra. Generalmente elanálisis estadístico inferencial se lleva cabo para mostrar relaciones de causa y efecto, asícomo para probar hipótesis y teorías científicas.

La estadística inferencial está fundamentada en los resultados obtenidos del análisis de una muestra de población, con el fin de inducir o inferir el comportamiento o característica de la población, de donde procede, por lo que recibe también el nombre de Inferencia estadística.

Según Berenson y Levine; Estadística Inferencial son procedimientos estadísticos que sirven para deducir o inferir algo acerca de un conjunto de datos numéricos (población), seleccionando un grupo menor de ellos (muestra).

El objetivo de la inferencia en investigación científica y tecnológica radica en conocer clases numerosas de objetos, personas o eventos a partir de otras relativamente pequeñas compuestas por los mismos elementos.

En relación a la estadística descriptiva y la inferencial, Levin & Rubin (1996) citan los siguientes ejemplos para ayudar a entender la diferencia entre las dos.

Supóngase que un profesor calcula la calificación promedio de un grupo de historia. Como la estadística describe el desempeño del grupo pero no hace ninguna generalización acerca de los diferentes grupos, podemos decir que el profesor está utilizando estadística descriptiva. Graficas, tablas y diagramas que muestran los datos de manera que sea más fácil su entendimiento son ejemplos de estadística descriptiva.

Supóngase ahora que el profesor de historia decide utilizar el promedio de calificaciones obtenidos por uno de sus grupos para estimar la calificación promedio de las diez unidades del mismo curso de historia. El proceso de estimación de tal promedio sería un problema concerniente a la estadística inferencial.

Los estadísticos se refieren a esta rama como inferencia estadística, esta implica generalizaciones y afirmaciones con respecto a la probabilidad de su validez.

MAS EJEMPLOS DE ESTADÍSTICA INFERENCIAL:

Los estudiantes que obtuvieron un IQ de inteligencia sobre 120, probablementeobtendrán sobre 700 puntos en cada área de la prueba para ingreso a la universidad.

Page 5: Memoria Del Curso

Si aún hay un 11% de los electores indecisos y si la población electoral es decerca de 88 millones electores, quiere decir que aún hay cerca de 10 millones deelectores quienes realmente decidirán cuál va a ser el candidato ganador.

En estos dos ejemplos se lleva a cabo una deducción lógica basada en unos datosestadísticos de una muestra, pero la inferencia o deducción que se utiliza para generalizar una observación sobre la población requiere de unos cómputos y análisis estadísticos que van más allá de los números obtenidos de la muestra. La deducción o inferencia debe ser comprobada para aceptarse como confiable y válida, por lo tanto, esto requiere un procedimiento estadístico mucho más complejo el cuál compete a la estadística inferencial.

VARIABLES : NUMERICAS (DISCRETAS Y CONTINUAS) Y CATEGORICAS ( ATRIBUTOS)

Las variables usadas en estadística son de tipo numéricas y categóricas, las primeras pueden ser medidas en las escalas convencionales asignándole un número real, en tanto que las segundas solo pueden ser descritas mediante atributos o categorías (p.e. muy bien, bien, regular; mucho poco, nada; de acuerdo, parcialmente de acuerdo, en desacuerdo). En este último caso hay la necesidad de convertir una variable categórica en numérica asignándole para ello una escala de medida previamente establecida ( p.e. muy bien = 5, bien = 4, regular = 2)

Una variable aleatoria discreta (VAD) solo puede tomar valores en puntos aislados a lo largo de una escala de medida, por ejemplo el número de alumnos matriculados en el ITC, el número de integrantes en una familia, las acciones que cierta empres tiene cotizando en la bolsa de valores.

Una variable aleatoria continua (VAC) puede suponer un valor en cualquier en un punto de la escala de medida, por ejemplo el promedio de calificaciones al finalizar un semestre, el ingreso percapita, el tiempo que tarda una lámpara en fundirse

OBTENCION DE DATOS A TRAVES DE EXPERIMENTOS Y ENCUESTAS

Una manera de obtener datos es a través de de la observación directa. Un experimento estadístico es una forma de observación directa en la que se controlan algunos o todos los factores que pueden influir sobre la variable que se estudia, ejemplo pueden compararse dos métodos de ensamblar un componente, haciendo que un grupo de empleados utilice uno de ellos y que un segundo grupo utilice el otro método. Se compara cuidadosamente a ambos grupos en términos de edad y experiencia.

En algunas situaciones, no es posible obtener la información de manera directa, en estos casos la información se tiene mediante respuestas individuales empleando para tal fin las entrevistas o cuestionarios. Una encuesta estadística es el proceso de recopilar datos pidiendo a las personas que proporcionen información. Los datos pueden obtenerse con métodos como la entrevista personal, telefónica o a través de cuestionarios. Por ejemplo: dada la crisis mundial, la secretaría del trabajo está muy al tanto de los niveles de empleo y desempleo del país, para conocer estos índices lo más apropiado sería efectuar una encuesta entre las empresas del estado

Algo importante que hay que tomar en cuenta en un estudio estadístico, es que no siempre se trabaja con todos los datos. Esto por diversas razones, que pueden ser desde prácticas hasta por economía. Por esta razón se considera un subconjunto del total de los casos, sujetos u objetos que se estudian y que se les obtienen los datos.

Page 6: Memoria Del Curso

La población, entonces, es el total hipotético de los datos que se estudian o recopilan. Ante la imposibilidad ocasional de conseguir a la población, entonces se recurre a la muestra, que viene siendo un subconjunto de los datos de la población, pero tal subconjunto tiene que contener datos que pueden servir para posteriores generalizaciones de las conclusiones.

Formas de Observar la Población:

Atendiendo a la fuente se clasifican en directa o indirecta.

Observación directa: es aquella donde se tienen un contacto directo con los elementos o caracteres en los cuales se presenta el fenómeno que se pretende investigar, y los resultados obtenidos se consideran datos estadísticos originales. Para Ernesto Rivas González (1997) “Investigación directa, es aquella en que el investigador observa directamente los casos o individuos en los cuales se produce el fenómeno, entrando en contacto con ellos; sus resultados se consideran datos estadísticos originales, por esto se llama también a esta investigación primaria”.

Ejemplo; el seguimiento de la población agrícola por año, llevado en una determinada granja.

Observación Indirecta: es aquella donde la persona que investiga hace uso de datos estadísticos ya conocidos en una investigación anterior, o de datos observados por un tercero (persona o entidad). Con el fin de deducir otros hechos o fenómenos.

Ejemplo; si un investigador pretende estudiar la producción por años de una granja avícola, en sus últimos cinco años de producción, tendría que hacer un seguimiento, a tal fin recurriría a las observaciones que posee la oficina administrativa de la granja durante estos cinco años, o dirigirse a la oficina de estadística, llevada en el ministerio de producción y comercio (M.P.C) de la localidad donde está registrada dicha granja. Es de notar que el investigador se vale de observaciones realizadas por terceros.

Atendiendo a la periodicidad, puede ser continua, periódica o circunstancial.Una observación continua; como su nombre lo indica es aquella que se lleva acabo de un modo permanente.

Ejemplo: la contabilidad comercial, llevada en cuanto a compras, ventas y otras operaciones que se van registrando a medida que van produciéndose.

Una observación periódica; es aquélla que se lleva a cabo a través de períodos de tiempo constantes. Estos períodos de tiempos pueden ser semanas, trimestres, semestres, años, etc. Lo que debemos destacar es que los períodos de tiempo tomados como unidad deben tomarse constantes en los posible.

Ejemplo; el registro llevado por la Oficinas de Control de Estudios de la UNESR, en cuanto a la inscripción de los estudiantes por semestre.

La observación circunstancial, es aquella que se efectúa en forma ocasional o esporádica, esta observación hecha más por una necesidad momentánea, que de carácter regular o permanente.

Ejemplo; la obtención de números de aulas utilizadas y no utilizadas en los colegios pertenecientes al municipio San Carlos del Estado Cojedes.

Page 7: Memoria Del Curso

Atendiendo a la cobertura; pueden ser exhaustiva, parcial o mixtaObservación Exhaustiva. Cuando la observación es efectuada sobre la totalidad de los elementos de la población se habla de una observación exhaustiva.

Observación Parcial. Dado que las poblaciones en general son grandes, la observación de todos sus elementos se ve imposibilitada. La solución para superar este inconveniente es observar una parte de esta población.

Observación Mixta. En este tipo de observación se combinan adecuadamente la observación exhaustiva con la observación parcial. Por lo general, este tipo de observaciones se lleva a cabo de tal manera que los caracteres que se consideran básicos se observan exhaustivamente y los otros mediante una muestra; o bien cuando la población es muy grande, parte de ella se observa parcialmente.

METODOS DE MUESTREO

Muestreo: es el proceso por medio del cual se seleccionan los individuos de una población para formar una muestra

Las técnicas de muestreo que se implementan para recabar datos de una población, dependen fundamentalmente: del tiempo disponible para el levantamiento de datos, la habilidad para muestrear, y la naturaleza de la población.

Existen dos métodos para seleccionar muestras de poblaciones; el muestreo no aleatorio o de juicio y el muestreo aleatorio o probabilístico. Una muestra se dice que es extraída al azar cuando la manera de selección es tal, que cada elemento de la población tiene igual oportunidad de ser elegido. Una muestra aleatoria es también llamada muestra probabilística y son generalmente preferidas por los

Page 8: Memoria Del Curso

estadísticos porque la selección de las muestras es objetiva y el error muestral puede ser medido en términos de probabilidad bajo la curva normal, a las muestras aleatorias se les denomina muestra probabilísticas o científicas.Una muestra seleccionada por muestreo de juicio se basa en la experiencia ( juicio de experto) de alguien con la población. Algunas veces una muestra de juicio se usa como guía o muestra tentativa para decidir como tomar una muestra aleatoria más adelante. Las muestras de juicio evitan el análisis estadístico necesario para hacer muestras de probabilidad.

Son cuatro los principales métodos de muestreo aleatorio: Aleatorio simple, sistemático, estratificado y por conglomerados.

MUESTREO ALEATORIO SIMPLE

Una muestra aleatoria simple es seleccionada de tal manera que cada elemento de la población que la conforma, tiene la misma probabilidad de ser elegido.Este tipo de muestreo toma solamente una muestra de la población para el propósito de inferencia estadística. Puesto que solamente una muestra es tomada, el tamaño de muestra debe ser los suficientemente grande para extraer una conclusión. Una muestra grande muchas veces cuesta demasiado dinero y tiempo.

MUESTREO SISTEMATICO

Page 9: Memoria Del Curso

Se utiliza cuando el universo o población es de gran tamaño, o ha de extenderse en el tiempo. Primero hay que identificar las unidades y relacionarlas con el calendario (cuando proceda). Luego hay que calcular una constante, que se denomina coeficiente de elevación K= N/n; donde N es el tamaño del universo y n el tamaño de la muestra. Determinar en qué fecha se producirá la primera extracción, para ello hay que elegir al azar un número entre 1 y K; de ahí en adelante tomar uno de cada K a intervalos regulares. Esto quiere decir que si tenemos un determinado número de personas que es la población y queremos escoger de esa población un número más pequeño el cual es la muestra, dividimos el número de la población por el número de la muestra que queremos tomar y el resultado de esta operación será el intervalo, entonces escogemos un número al azar desde uno hasta el número del intervalo, y a partir de este número escogemos los demás siguiendo el orden del intervalo. Ocasionalmente, es conveniente tener en cuenta la periodicidad del fenómeno.

MUESTREO ESTRATIFICADO

Page 10: Memoria Del Curso

Consiste en la división previa de la población de estudio en grupos o clases que se suponen homogéneos respecto de la característica a estudiar. En cada uno de estos estratos se le asignara una cuota que determinará el número de miembros del mismo que compondrán la muestra. Dentro de cada estrato la selección se realiza mediante el muestreo aleatorio simple, o bien otra técnica que resulte apropiada para elegir la proporción de la muestra en cada estrato

Existen dos técnicas del muestro estratificado

Asignación proporcional: el tamaño de la muestra dentro de cada estrato es proporcional al tamaño del estrato dentro de la población.

Asignación óptima: la muestra recogerá más individuos de aquellos estratos que tengan más variabilidad. Para ello es necesario un conocimiento previo de la población.

Por ejemplo, para un estudio de opinión, puede resultar interesante estudiar por separado las opiniones de hombres y mujeres pues se estima que, dentro de cada uno de estos grupos, puede haber cierta homogeneidad. Así, si la población está compuesta de un 55% de mujeres y un 45% de hombres, se tomaría una muestra que contenga también esos mismos porcentajes de hombres y mujeres, es decir, suponiendo que el tamaño de la muestra sea de 100 individuos, entonces el número de mujeres seleccionadas es de 55 (0.55 X 100 = 55) y 45 hombres (0.45 X 100). La muestra incluye 55 mujeres y 45 hombres, a esto se le denominan asignación proporcional:

MUESTREO POR CONGLOMERADOS

Se utiliza cuando la población se encuentra dividida de manera natural, en grupos que se supone que contienen toda la

Page 11: Memoria Del Curso

variabilidad de la población, es decir, la representan fielmente respecto a la característica a elegir, pueden seleccionarse sólo algunos de estos grupos o conglomerados para la realización del estudio.

Dentro de los grupos seleccionados se ubicarán las unidades elementales, por ejemplo, las personas a encuestar, y podría aplicársele el instrumento de medición a todas las unidades, es decir, los miembros del grupo, o sólo se le podría aplicar a algunos de ellos, seleccionados al azar. Este método tiene la ventaja de simplificar la recogida de información muestral.

Cuando, dentro de cada conglomerado seleccionado, se extraen algunos individuos para integrar la muestra, el diseño se llama muestreo bietápico.

Las ideas de estratos y conglomerados son, en cierto sentido, opuestas. El primer método funciona mejor cuanto más homogénea es la población respecto del estrato, aunque más diferentes son éstos entre sí. En el segundo, ocurre lo contrario. Los conglomerados deben presentar toda la variabilidad, aunque deben ser muy parecidos entre sí.

Es sumamente importante considerar que en todos los casos, el objetivo fundamental de la técnica de muestreo empleada permita extraer una muestra representativa de la población, es decir, que tenga iguales características y composición que la población documental de la que procede.

Ventajas e inconvenientes de los distintos tipos de muestreo probabilístico

Page 12: Memoria Del Curso

CARACTERISTICAS VENTAJAS INCONVENIENTES

Aleatorio simple Se selecciona una muestra de tamaño n de una población de N unidades, cada elemento tiene una probabilidad de inclusión igual y conocida de n/N.

Sencillo y de fácil comprensión.

Cálculo rápido de medias y varianzas.

Se basa en la teoría estadística, y por tanto existen paquetes informáticos para analizar los datos

Requiere que se posea de antemano un listado completo de toda la población.Cuando se trabaja con muestras pequeñas es posible que no represente a la población adecuadamente.

Sistemático Conseguir un listado de los N elementos de la poblaciónDeterminar tamaño muestral n.

Definir un intervalo k=N/n.

Elegir un número aleatorio, r, entre 1 y k (r=arranque aleatorio).Seleccionar los elementos de la lista.

Fácil de aplicar.

No siempre es necesario tener un listado de toda la población.Cuando la población está ordenada siguiendo una tendencia conocida, asegura una cobertura de unidades de todos los tipos.

Si la constante de muestreo está asociada con el fenómeno de interés, las estimaciones obtenidas a partir de la muestra pueden contener sesgo de selección

Estratificado En ciertas ocasiones resultará conveniente estratificar la muestra según ciertas variables de interés. Para ello debemos conocer la composición estratificada de la población objetivo a muestrear. Una vez calculado el tamaño muestral apropiado, este se reparte de manera proporcional entre los distintos estratos definidos en la población usando una simple regla de tres.

Tiende a asegurar que la muestra represente adecuadamente a la población en función de unas variables seleccionadas.Se obtienen estimaciones más precisa

Su objetivo es conseguir una muestra lo mas semejante posible a la población en lo que a la o las variables estratificadoras se refiere.

Se ha de conocer la distribución en la población de las variables utilizadas para la estratificación.

Conglomerados Se realizan varias fases de muestreo sucesivas (polietápico)La necesidad de listados de las unidades de una etapa se limita a aquellas unidades de muestreo seleccionadas en la etapa anterior.

Es muy eficiente cuando la población es muy grande y dispersa.No es preciso tener un listado de toda la población, sólo de las unidades primarias de muestreo.

El error estándar es mayor que en el muestreo aleatorio simple o estratificado.El cálculo del error estándar es complejo.

El muestro, implica algo de incertidumbre que debe ser aceptada para poder realizar el trabajo, pues aparte de que estudiar una población resulta ser un trabajo en ocasiones demasiado grande, existen otras razones extras:

Recursos limitados. Es decir, no existen los recursos humanos, materiales o económicos para realizar el estudio sobre el total de la población. Es como cuando se compra un aparato, un automóvil usado (por ejemplo), que se prueba unos minutos (el encendido, una carrerita, etc.) para ver si funciona correctamente y luego se adquiere, pero no se espera a probarlo

Page 13: Memoria Del Curso

toda la vida (encendiéndolo y apagándolo o, simplemente, dejándolo encendida) antes de realizar la adquisición.

Escasez. Es el caso en que se dispone de una sola muestra. Por ejemplo, para el estudio paleontológico de los dinosaurios (el T. Rex por ejemplo) sería muy bueno contar con, al menos, muchos restos fósiles y así realizar tales investigaciones; sin embargo, se cuenta sólo con una docena de esqueletos fosilizados (casi todos incompletos) de esas criaturas en todo el mundo.

Pruebas destructivas. Es el caso en el que realizar el estudio sobre toda la población llevaría a la destrucción misma de la población. Por ejemplo, si se quisiese saber el conteo exacto de hemoglobina de una persona habría que extraerle toda la sangre.

El muestreo puede ser más exacto. Esto es en el caso en el que el estudio sobre la población total puede causar errores por su tamaño o, en el caso de los censos, que sea necesario utilizar personal no lo suficientemente capacitado; mientras que, por otro lado, el estudio sobre una muestra podría ser realizada con menos personal pero más capacitado.

El tamaño de la muestra depende de la precisión con que el investigador desea llevar acabo su estudio, pero por regla general se debe usar una muestra tan grande como sea posible de acuerdo a los recursos que haya disponibles. Entre más grande la muestra mayor posibilidad de ser más representativa de la población. (Véase la tabla adjunta sobre las recomendaciones para el tamaño de la muestra.) En la investigación experimental, por su naturaleza y por la necesidad de tener control sobre las variables, se recomienda muestras pequeñas que suelen ser de por lo menos 30 sujetos. En la investigación descriptiva se emplean muestras grandes y algunas veces se recomienda seleccionar de un 10 a un 20 por ciento de la población accesible.

INFORMACIÓN PARA DETERMINAR EL TAMAÑO DE LA MUESTRACORRESPONDIENTE A UNA POBLACIÓN ESPECÍFICA:

N: Tamaño de la población, M: Tamaño de la muestra

N M N M N M10 10 220 140 1200 29115 14 250 144 1300 29720 19 240 148 1400 29725 24 250 152 1500 30630 28 260 155 1600 31035 32 270 159 1700 31340 36 280 162 1800 31745 40 290 165 1900 32050 44 300 169 2000 32255 48 320 175 2200 32760 52 340 181 2400 38165 56 360 186 2600 35570 59 380 191 2800 33875 63 400 196 3000 34180 86 420 201 3500 34685 70 440 205 4000 35190 73 460 210 4500 35495 76 480 214 5000 357

Page 14: Memoria Del Curso

100 80 500 217 6000 361110 86 550 226 7000 364120 92 600 234 8000 367130 97 650 242 9000 368140 103 700 248 10000 370150 108 750 254 15000 375160 113 800 260 20000 377170 118 850 265 30000 379180 123 900 269 40000 380190 127 950 274 50000 381200 132 1000 278 75000 382210 136 1100 285 1000000 384Fuente: Cornett, J.D. y Beckner, W., Introductory Statistics for the Behavioral Sciences,

PRESENTACIONES ESTADISTICAS (TABLAS Y GRAFICAS)

C L A S E SLímites

nominalesLímites reales Marca de clase

MCFrecuencia

fFrecuencia relativa fr

Frec rel acumfra

Cuando se trabaja con distribuciones de frecuencias uno de los problemas es la determinación del número apropiado de clases. Aunque no existe una regla precisa para el número de clases, generalmente tratamos de no tener ni muchas ni muy pocas en la distribución de frecuencias. El uso deDemasiadas clases tiende a producir irregularidades en las frecuencias de las clases y obscurece la concentración de valores. Por el contrario, si usamos un numero excesivamente pequeño de clases, estas tienden a resumir y cierta información valiosa se pierde en el

En general, se desea que el número de clases (k) este comprendido entre 5-20. Algunas reglas que ayudan a conocer el valor de k más apropiado son las siguientes:

Regla de Sturges:

K = 1 + 3,3 log nK= número de clases,n= número total de observaciones de la muestra,log= logaritmo común base 10.

En aquellos casos donde n <100, entonces K = k=√n

PROCEDIMIENTO PARA CONSTRUIR UNA TABLA DE DISTRIBUCION DE FRECUENCIAS

1. Calcular el rango R = Vmayor - Vmenor

2. Calcular el número de clases K

3. Determinar la amplitud del intervalo de clase IC = Rk

Page 15: Memoria Del Curso

4. Construir la tabla

EJEMPLO

En la tabla de abajo se resume el tiempo en minutos que requieren 40 empleados para terminar una labor típica de ensamblaje y que han solicitado una transferencia promocional a otro puesto que requiere ensamblaje de precisión. A partir de estos datos construya una tabla de distribución de frecuencias donde se pueda analizar este evento.

10 14 15 13 17

16 12 14 11 13

15 18 9 14 14

9 15 11 13 11

12 10 17 16 12

10 18 12 16 17

11 16 12 14 15

13 12 15 14 17

SOLUCIÓN

REPRESENTACIONES GRAFICAS

Page 16: Memoria Del Curso

EJEMPLO 2

Los datos que se describen en la tabla de abajo, indican la vida útil de 40 baterías para automóvil expresada su duración en años. Con esta información construir una tabla de distribución de frecuencias y posteriormente explique mediante un resumen la interpretación que usted hace de la tabla elaborada

DESCRIPCION DE DATOS: MEDIDAS DE POSICION Y MEDIDADES DE VARIABILIDAD

MEDIDADES DE POSICION EN CONJUNTO DE DATOS NO AGRUPADOS

Una medida de posición es un valor que se calcula para un grupo de datos y que se utilizan para describirlos de alguna manera. Normalmente se desea que el valor sea representativo de todos los valores incluidos en el grupo y, por ello, se desea alguna clase de promedio. En sentido estadístico, un “promedio” es una medida de tendencia central para un conjunto de valores

LA MEDIA ARITMÉTICA

La medida aritmética, o promedio aritmético, se define como la división de la suma de todos los valores entre el número de valores.

X=∑ X

n

LA MEDIA PONDERADA

La medida ponderada o promedio ponderado es una medida aritmética, en la cual se considera a cada uno de los valores de acuerdo con su importancia en el grupo. Las formulas para la media ponderada maestral y poblacional son idénticas

Page 17: Memoria Del Curso

μpo X p=∑ (pX )

∑ p

En términos de operaciones, cada uno de los valores del grupo (X) se multiplica por el factor de ponderación apropiado (p) y después se suma estos productos y la suma se divide entre los pesos (o ponderaciones)

LA MEDIANA

La mediana de un grupo de datos es el valor del dato que ocupa un lugar cuando se les agrupa a todos en un orden ascendente o descendente. Para un grupo con un número par de elementos, se supone que la mediana se encuentra a la mitad entre los dos valores adyacentes al centro. Cuando el conjunto de datos contiene un número grande de valores, resulta útil la siguiente fórmula para determinar la posición de la mediana en el conjunto ordenado

Med=X [ (n/2)+(1/2) ]

LA MODA

La moda es el valor que se presenta con mayor frecuencia en un conjunto de datos. A una distribución que tiene una sola moda se le denomina unimodal. Para un conjunto de datos pocos numerosos, en los que no se repite ningún valor, no existe moda. Cuando dos valores no adyacentes tiene frecuencias máximas similares, se dice que la distribución es bimodal. A las distribuciones de mediciones que tienen varias modas se les denomina multimodales.

CUARTILES DECILES Y PERCENTILLES

Los cuartiles, deciles y percentiles son muy parecidos a la mediana porque también subdividen una distribución de mediciones de acuerdo con la proporción de frecuencias observadas. Mientras que la mediana divide a la distribución en dos mitades, los cuartiles la dividen en cuartos, los deciles en diez décimos y los puntos percentiles la dividen en cien partes. La fórmula de la mediana, modificada de acuerdo con el punto fraccionario de interés es, por ejemplo.

Q2(segundocuartil)=X[ 2n4

+ 12 ]

D3(tercer decil)=X [ 3n10

+12 ]

P4 (cuarto percentil )=X [ 4 n100

+ 12 ]

Page 18: Memoria Del Curso

MEDIDADES DE VARIABILIDAD PARA CONJUNTO DE DATOS NO AGRUPADOS

Las medidas de tendencia central descritas anteriormente, son útiles para identificar el valor típico en un conjunto de datos. En contraste las medidas de variabilidad se ocupan de describir la variabilidad entre los valores. Existen diversas técnicas para medir la magnitud de la variabilidad en conjunto de datos: Rango, rango modificado, desviación media, varianza, desviación estándar y coeficiente de variación.

EL RANGO

El rango representado por R es la diferencia entre los valores mayor y menor del conjunto de datos

R=V y−V n

RANGOS MODIFICADOS

Un rango modificado es aquel para el cual se elimina cierto porcentaje de los valores en cada uno de los extremos de la distribución. Algunos rangos modificados típicos son: 50% central, 80% central y 90% central. El procedimiento mediante el cual se determina un rango modificado consiste, primero, en ubicar los dos puntos percentiles adecuados, para después, calcular la diferencia entre los valores que se encuentran en esos puntos. Por ejemplo, para el rango del 80% central, los puntos percentiles apropiados son el décimo y el nonagésimo percentil, porque el 80% central de esos valores se ubica entre esos dos puntos.

R50 %central=P75−P25

R80 % central=P90−P10

R90 % central=P95−P5

DESVIACION MEDIA

La desviación media se basa en las diferencias entre el valor absoluto de cada uno de los elementos del conjunto de datos y la media del grupo. Después se calcula la media de esas desviaciones. Si esta media se calculara por la suma de las diferencias positivas y negativas entre cada valor y la media aritmética, la

Page 19: Memoria Del Curso

respuesta sería, siempre igual a cero. Por esta razón son los valores absolutos de las diferencias los que se suman.

DM=∑i=1

n

|X i−X|n

DM=83.8540

=2.09

No. X X -X |X−X|1 9 -4.575 4.5752 9 -4.575 4.5753 10 -3.575 3.5754 10 -3.575 3.5755 10 -3.575 3.5756 11 -2.575 2.5757 11 -2.575 2.5758 11 -2.575 2.5759 11 -2.575 2.575

10 12 -1.575 1.57511 12 -1.575 1.57512 12 -1.575 1.57513 12 -1.575 1.57514 12 -1.575 1.57515 12 -1.575 1.57516 13 -0.575 0.57517 13 -0.575 0.57518 13 -0.575 0.57519 13 -0.575 0.57520 14 0.425 0.42521 14 0.425 0.42522 14 0.425 0.42523 14 0.425 0.42524 14 0.425 0.42525 14 0.425 0.42526 15 1.425 1.42527 15 1.425 1.42528 15 1.425 1.42529 15 1.425 1.42530 15 1.425 1.42531 16 2.425 2.42532 16 2.425 2.42533 16 2.425 2.42534 16 2.425 2.42535 17 3.425 3.42536 17 3.425 3.42537 17 3.425 3.42538 17 3.425 3.42539 18 4.425 4.42540 18 4.425 4.425

83.85

Page 20: Memoria Del Curso

VARIANZA Y DESVIACION ESTANDAR

La varianza es similar a la desviación media porque se basa en las diferencias entre cada uno de los valores del conjunto de datos y la media del grupo. La diferencia consiste en que, antes de sumarlas, se eleva al cuadrado cada una de las diferencias.

A diferencia de otras estadísticas muestrales que se han utilizado, la varianza de una muestra no es, en términos de cálculo, completamente equivalente a la varianza de la población. Para este caso, el denominador de la fórmula de la varianza muestral es ligeramente diferente. En esencia, lo que se incluye en la fórmula es un factor de corrección, para que la varianza muestral sea un estimador insesgado para la varianza de la población. Su fórmula es:

S2=∑i=1

n

(X ¿¿ i−X )2

n−1¿

Page 21: Memoria Del Curso

TIEMPO DEENSAMBLAJE DEPRESICION X=13.575

No. X X -X (X−X )2

1 9 -4.575 20.9306252 9 -4.575 20.9306253 10 -3.575 12.7806254 10 -3.575 12.7806255 10 -3.575 12.7806256 11 -2.575 6.6306257 11 -2.575 6.6306258 11 -2.575 6.6306259 11 -2.575 6.630625

10 12 -1.575 2.48062511 12 -1.575 2.48062512 12 -1.575 2.48062513 12 -1.575 2.48062514 12 -1.575 2.48062515 12 -1.575 2.48062516 13 -0.575 0.33062517 13 -0.575 0.33062518 13 -0.575 0.33062519 13 -0.575 0.33062520 14 0.425 0.18062521 14 0.425 0.18062522 14 0.425 0.18062523 14 0.425 0.18062524 14 0.425 0.18062525 14 0.425 0.18062526 15 1.425 2.03062527 15 1.425 2.03062528 15 1.425 2.03062529 15 1.425 2.03062530 15 1.425 2.03062531 16 2.425 5.88062532 16 2.425 5.88062533 16 2.425 5.88062534 16 2.425 5.88062535 17 3.425 11.73062536 17 3.425 11.73062537 17 3.425 11.73062538 17 3.425 11.73062539 18 4.425 19.58062540 18 4.425 19.580625

243.775

Page 22: Memoria Del Curso

S2=243.77540−1

=243.77539

=6.25 t 2

Por lo general resulta complicado, interpretar el significado de la varianza porque las unidades en las que se expresa son cuadráticas. Por esta razón se emplea la raíz cuadrada de la varianza, a este nuevo valor se le denomina desviación estándar. Esta dada por

S=√∑i=1

n

(X ¿¿ i−X )2

n−1¿

S=√ 243.77540−1

=¿√ 243.77539

=¿√6.25=2.5¿¿

CÁLCULOS ABREVIADOS DE LA VARIANZA Y LA DESVIACION ESTÁNDAR

La fórmula para calcular S requiere que en cada caso, se determinen las desviaciones de los valores individuales con respecto a la media grupal. Existen formas alternativas que son matemáticamente

Page 23: Memoria Del Curso

equivalentes, pero que no requieren del cálculo de cada una de las desviaciones. Debido a que por lo general, es más fácil utilizar estas fórmulas para realizar cálculos, se les denomina fórmulas abreviadas.

Varianza S2=

∑i=1

n

X 2−n X2

n−1

Desviación estándar S=√∑i=1

n

X 2−n X2

n−1

No. X X2

1 9 812 9 813 10 1004 10 1005 10 1006 11 1217 11 1218 11 1219 11 121

10 12 14411 12 14412 12 14413 12 14414 12 14415 12 14416 13 16917 13 16918 13 16919 13 16920 14 19621 14 196

La media aritmética del conjunto de datos es X=

∑i=1

n

X i

n

X=54340

=13.57

Y n X2 = 40(13.75)2 = 40(184.28) = 7321.20

Varianza S2=7615−7321.2040−1

S2=243.8039

=6.25 t 2

Desviación estándar

S=√ 7615−7321.2040−1

S=√6.25 t 2=2.5

Page 24: Memoria Del Curso

22 14 19623 14 19624 14 19625 14 19626 15 22527 15 22528 15 22529 15 22530 15 22531 16 25632 16 25633 16 25634 16 25635 17 28936 17 28937 17 28938 17 28939 18 32440 18 324

543 7615

MEDIDADES DE POSICION EN CONJUNTO DE DATOS AGRUPADOS

LA MEDIA ARÍTMETICA

Cuando se agrupan datos en una distribución de frecuencias, se utiliza el punto medio de cada clase como aproximación de todos los valores contenidos en ella y se determina mediante la siguiente expresión

x=∑i=1

n

f x i

∑i=1

n

f

LA MEDIANA

Para datos agrupados, en primer lugar es necesario determinar la clase que contiene el valor de la mediana, para después determinar la posición de la mediana dentro de la clase mediante interpolación. La clase que contiene la mediana es la primera cuya frecuencia cumulada iguala o excede la mitad del total de las observaciones. Una vez que se identifica esta clase, se determina el valor especifico de la mediana mediante la siguiente formula.

Med=LI+[ n2−faA

f c ] i

Desviación estándar

S=√ 7615−7321.2040−1

S=√6.25 t 2=2.5

Page 25: Memoria Del Curso

Donde:

LI= Limite exacto inferior de la clase que contiene a la mediana

n = Número total de observaciones

faA = Frecuencia acumulada de la clase que precede a la clase que contiene a la mediana

fc = Frecuencia de la clase que contiene a la mediana

i = tamaño del intervalo de clase

LA MODA

Para datos agrupados, primero se identifica la clase que contiene la moda determinando cuál de ellas tiene el mayor número de observaciones. Posteriormente se interpola dentro de la clase modal de acuerdo con la siguiente fórmula

Moda=LI+( d1

d1+d2)i

Donde:

d1 = Diferencia entre la frecuencia de clase modal y la frecuencia de la clase precedente

d1 = Diferencia entre la frecuencia de clase modal y la frecuencia de la clase siguiente

CUARTILES, DECILES Y PERCENTILES

Para datos agrupados, la fórmula de la mediana se modifica de acuerdo con el punto fraccionario de interés. Al utilizar esta fórmula modificada, en primer lugar se determina la clase que contiene el punto de interés, de acuerdo con la frecuencia cumulada, y después se lleva a cabo la interpolación.

Q1=L I+[ n4−faA

f c ] i

D3=L I+[ 3n10

−faA

f c ]i

Page 26: Memoria Del Curso

P70=L I+[ 70n100

−faA

f c ] i

LA VARIANZA Y LA DESVIACIÓN ESTÁNDAR PARA DATOS AGRUPADOS

Para datos agrupados en una distribución de frecuencias, se asume que el punto medio de cada clase representa a todas las mediciones incluidas en esa clase. Este es el mismo enfoque que se utilizo al calcular la desviación media en la sección 4.11. por ello, las fortunas para datos de muestras y de poblaciones agrupados, son:

Varianza muestral: s2=∑ ¿¿¿

Desviación estándar muestral: s=√∑ ¿¿¿¿

RELACION ENTRE LA MEDIA, MEDIANA Y MODA

Las diferencias entre los valores de la media, la mediana y la moda permiten saber la forma de la curva de frecuencias en términos de asimetría. Para una distribución unimodal asimétrica, el valor de la media, la mediana y la moda son iguales. Para una distribución asimétrica positiva, la media es el mayor valor de los tres y la mediana es mayor que la moda pero menor que la media. Para una distribución asimétrica negativa, la media es el menor valor de los tres y la mediana es inferior a la moda pero mayor que la media. El coeficiente de asimetría de Pearson, es una medida conocida de asimetría que utiliza la diferencia observada entre la media y la mediana de un grupo de valores.

MEDIA, MEDIANA Y MODA MEDIANAMEDIANA

Page 27: Memoria Del Curso

COMENTARIO: a media aritmética es la medida de tendencia central más común y tiene la ventaja que se entiende y se calcula con mucha facilidad a partir de datos agrupados y datos no agrupados y se presta para manipulaciones e interpretaciones algebraicas posteriores. Desafortunadamente, la media aritmética está afectada por los valores extremos o atípicos y a diferencia de la mediana, puede experimentar desviaciones drásticas a causa de las observaciones muy por encima o por debajo de ella.

Por ejemplo la media aritmética y la mediana de los datos 30, 40, 50, 60 y 70, es 50 y representa una medida excelente del punto central de los datos. Si el ultimo dato envés e 70 fuera 700, la media aritmética se convertiría en 180, mientras tanto la mediana seguiría siendo 50. Como la mediana no es afectada por este valor extremo, refleja con mayor credibilidad el centro verdadero del conjunto de datos.

Al igual que la mediana la moda es menos afectada por unas cuantas observaciones atípicas. Si tuviéramos 30, 40, 50, 50 y70, la moda seguiría siendo 50 aunque el último valor fuera 700. Pero si no hay moda o si el conjunto de datos es multimodal, su utilización puede causar confusión. Es de vital importancia utilizar adecuadamente las medidas de tendencia central en la toma de decisiones.

COEFICIENTE DE ASIMETRÍA DE PEARSON

El coeficiente de asimetría de Pearson mide la desviación de la simetría, expresando la diferencia entre la media y la mediana con respecto a la desviación estándar del grupo de mediciones. Las formulas son:

asimetria poblacional=3 (μ−Med )

σ

asimetria de lamuestra=3 (X−Med )

s

Para una distribución simétrica, el valor del coeficiente de asimetría es siempre 0, porque la media y la mediana son iguales. Para una distribución con asimetría positiva, la media es siempre mayor que la mediana y, por ello, el valor del coeficiente es positivo. Para una distribución con asimetría negativa, la media es siempre menor que la mediana y, por ello, el valor del coeficiente es negativo.

USO DE LA DESVIACION ESTÁNDAR

MEDIAMODA MEDIA MODA

Page 28: Memoria Del Curso

La desviación estándar es la medida de dispersión más importante, ya que se le utiliza junto con varios de los métodos de inferencia estadística para el análisis de datos. El concepto de desviación estándar implica que la dispersión de un conjunto de datos es pequeña si los valores se acumulan estrechamente alrededor de su media y es amplia si los valores se acumulan en forma esparcida de su media. De modo correspondiente se puede argumentar que si la S de un conjunto de datos es pequeña, entonces los valores se concentran cerca de la media y si S es amplia, los valores se acumulan en forma esparcida alrededor de la media. Esta idea se expresa más formalmente por medio del teorema de de Chebyshev por el matemático ruso P.L Chebyshev (1821 – 1894)

Para cualquier conjunto de datos (de una población o muestra) y cualquier constante k mayor que 1, el porcentaje de datos que debe caer dentro de k desviaciones estándar de cualquier lado de la media es de

por lo menos 1−1

k2

Así, podemos estar seguros de que, como mínimo, 1−1

22=3

4, o 75% de los valores de cualquier conjunto

de datos deben caer dentro de las dos desviaciones estándar de cualquier lado de la media; por lo menos

1− 1

32=8

9,o 88.9% debe caer dentro de las tres desviaciones estándar de cualquier lado de la media; y

que como mínimo 1−1

52=24

25, o 96% debe caer dentro de las cinco desviaciones estándar de cualquier

lado de la medida. Aquí, arbitrariamente establecemos que k=2 ,3 y 5

Figura ilustrativa

Page 29: Memoria Del Curso

Ejemplo: si todas las latas de una libra de café llenadas por un procesador de alimentos tienen un peso medio de 16.00 onzas con una desviación estándar de 0.02 onzas, ¿qué porcentaje de las latas, como mínimo, deben contener entre 15.80 y 16.20 onzas de café?

Solución: ya que k desviaciones estándar o k (0.02) equivale a

16.20 – 16 = 16.00 – 15.80 = 0.20

Tenemos que k (0.02 )=0.20 y k=0.200.02

=10.De acuerdo con el teorema de Chebyshev, se deriva que por

lo menos 1−1

102=0.99 , o99 % de las latasdebecontener entre 15.80 y16.20onzas decafe

El teorema de Chebyshev se aplica a cualquier tipo de datos, pero solo nos indica “por lo menos que porcentaje” debe caer entre ciertos límites. Para casi todos los datos, el porcentaje real de los datos que cae entre los limites es bastante mayor que el que esperamos del teorema de Chebyshev

Para las distribuciones que tienen la forma general de la sección de corte de una campana (véase la figura 4.1), podemos hacer la siguiente aseveración que es que mucho más que un firme:

(1) Alrededor del 68% de los valores caerán dentro de una desviación estándar de la media, esto es, x−s y x+s;

(2) Aproximadamente 95% de los valores caerán dentro de dos desviaciones estándar de la media, es decir que x−2 s y x+2 s;

(3) Alrededor del 99.7% de los valores caerán dentro de tres desviaciones estándar de la media, esto es, entre x−3 s y x+3 s.

En ocasiones, nos referimos a este resultado como la regla empírica, supuestamente porque esos porcentajes se observan en la práctica. En realidad, se trata de un resultado teórico basado en la distribución normal, la cual estudiaremos en el capítulo 9 (en particular, véase el ejercicio 9.12 de la pagina 224)

68%

UNA DESVIACION ESTANDAR DE LA MEDIA

Page 30: Memoria Del Curso

Ejemplo: use los valores de x y s que se dan en la impresión por computadora de la figura 3.4 para determinar que porcentaje de los datos de la emisión de oxidos de azufre de la pagina 22 en realidad cae dentro de una desviación estándar de la media, dentro de dos desviaciones estándar de la media y dentro de tres desviaciones estándar de la media

Solución: puesto que x=18.896 y s=5.6565 , primero tendremos que determinar el porcentaje de los datos que cae entre

X

X

95%

X

99.7%

TRES DESVIACIONES ESTANDAR DE LA MEDIA

UNA DESVIACION ESTANDAR DE LA MEDIA

Page 31: Memoria Del Curso

18.896 – 5.6565 = 13.2395 y 18.896 + 5.6565 = 24.5525

Contamos 14 valores menores que 13.2395 y 14 valores mayores que 24.5525, encontramos que

80 – 28 = 52 valores y por tanto, 5280

. 100% = 65% de los datos cae entre los dos limites. De modo

similar, encontramos que 7880

.100%=97.5 % de los datos cae dentro de dos desviaciones

estándar de la media y que 8080

.100%=100 % de los datos cae dentro de tres desviaciones

estándar de la media.

COEFICIENTE DE VARIACION

El coeficiente de variación, CV, indica la magnitud relativa de la deviastación estándar con respecto a la media de la distribución, así, las formulas son:

Así

Población: CV=σμ

Muestra: CV= sX

El coeficiente de variación es útil cuando se desea comparar la variabilidad de 2 conjuntos de datos con respecto al nivel general de los valores de cada conjunto (y, por ello, respecto a la media)

Un problema que plantea, tanto la varianza como la desviación estándar, especialmente a efectos de comparaciones entre distribuciones, es el de la dependencia respecto a las unidades de medida de la variable. Cuando se quiere comparar el grado de dispersión de dos distribuciones que no vienen dadas en las mismas unidades o que las medias no son iguales se utiliza el llamado "Coeficiente de Variación de Pearson", del que se demuestra que nos da un número independiente de las unidades de medidas empleadas, por lo que entre dos distribuciones dadas diremos que posee menor dispersión aquella cuyo coeficiente de variación sea menor

C.V. representa el número de veces que la desviación estándar contiene a la media aritmética y por lo tanto cuanto mayor es CV mayor es la dispersión y menor la representatividad de la media.

EJEMPLO 8. Para 2 acciones comunes de empresas de la industria electrónica, el precio promedio de cierre en el mercado de valores durante un mes fue, para la acción A, de $1500, con desviación estándar de $500. Para la acción B, el precio promedio fue de $5000, con desviación estándar de $300. Haciendo una comparación absoluta,

Page 32: Memoria Del Curso

resulto ser superior la variabilidad en el precio de la acción A debido a que muestra una mayor desviación estándar. Pero, con respecto al nivel de precios, deben compararse los respectivos coeficientes de variación:

CV (A )=σμ= 500

1500=0.033 y CV (B )= 300

5000=0.060

Por ello, puede concluirse que el precio de la acción B ha sido casi 2 veces más variable de la acción A (con respecto al precio promedio para cada una de las dos)

Se desea comparar el peso y talla de de un grupo de personas para determinar en donde existe mayor variabilidad: el peso medio del grupo es de 70 kg. con una S de 10.5 kg.; la talla media es de 166.5 cm con una S de 15 cm.

CV(peso) = 10.5/70 = 0.15, es decir el peso presenta un 15% de variabilidad o dispersión

CV(Talla) = 15/166.5 = 0.09, es decir la talla presenta un 9% de variabilidad o dispersión

Conclusión: la talla respecto del peso es más estable, no tan cambiante, o sea, tiene menor variabilidad .