estadistica i

241
ESTADÍSTICA I CLAVE MC 03

Upload: enrique-calderon-victoria

Post on 07-Aug-2015

238 views

Category:

Documents


0 download

DESCRIPTION

ESTADISTICA I

TRANSCRIPT

Page 1: ESTADISTICA I

ESTADÍSTICA I

CLAVE MC 03

Page 2: ESTADISTICA I

ÍNDICE

PROPÓSITO GENERAL 7

PRESENTACIÓN 8

MAPA CONCEPTUAL 9

OBJETIVO GENERAL DEL CURSO 10

UNIDAD 1 INTRODUCCIÓN 11 MAPA CONCEPTUAL 12 INTRODUCCIÓN 13 1.1 COVERTIR TANTO PORCIENTO A DECIMALES Y VICEVERSA 14 ACTIVIDADES DE APRENDIZAJE 15 1.2 NOTACIÓN CIENTÍFICA 15 ACTIVIDADES DE APRENDIZAJE 18 AUTOEVALUACIÓN 20

UNIDAD 2 FUNDAMENTOS DE ESTADÍSTICA 21 MAPA CONCEPTUAL 22 INTRODUCCIÓN 23 2.1 DEFINICIÓN Y OBJETO DE LA ESTADÍSTICA 24 ACTIVIDADES DE APRENDIZAJE 28 2.2 ESTADÍSTICA DESCRIPTIVA Y ESTADÍSTICA INFERENCIAL 28 ACTIVIDADES DE APRENDIZAJE 29 2.3 VARIABLES DISCRETAS Y CONTINUAS 29 ACTIVIDADES DE APRENDIZAJE 32 2.4 FUENTE DE DATOS 32 ACTIVIDADES DE APRENDIZAJE 33 2.5 LA ESTADÍSTICA EN LA INVESTIGACIÓN 33 ACTIVIDADES DE APRENDIZAJE 34 AUTOEVALUACIÓN 35

Page 3: ESTADISTICA I

UNIDAD 3 RECOPILACIÓN DE LA INFORMACIÓN: TEORÍA DEL MUESTREO

37

MAPA CONCEPTUAL 38 INTRODUCCIÓN 39 3.1 POBLACIÓN Y MUESTRA 40 ACTIVIDADES DE APRENDIZAJE 42 3.2 ESTIMADORES Y PARÁMETROS 42 ACTIVIDADES DE APRENDIZAJE 43 3.3 MUESTREO PROBABILÍSTICO Y NO PROBABILÍSTICO 44 ACTIVIDADES DE APRENDIZAJE 46 3.4 MUESTREO ALEATORIO SIMPLE 46 ACTIVIDADES DE APRENDIZAJE 51 3.5 MUESTREO ESTRATIFICADO 51 ACTIVIDADES DE APRENDIZAJE 52 3.6 MUESTREO POR CONGLOMERADOS 52 ACTIVIDADES DE APRENDIZAJE 54 3.7 OTROS DISEÑOS Y PROCEDIMIENTOS DE MUESTREO, JUICIO Y CONVENIENCIA

54

ACTIVIDADES DE APRENDIZAJE 55 3.8 ERROR DE MUESTREO Y DE LA MUESTRA 55 ACTIVIDADES DE APRENDIZAJE 56 AUTOEVALUACIÓN 57

UNIDAD 4 ORGANIZACIÓN DE DATOS 59 MAPA CONCEPTUAL 60 INTRODUCCIÓN 61 4.1 ANÁLISIS EXPLORATORIO DE DATOS: DIAGRAMA DE TALLOS Y HOJAS

62

ACTIVIDADES DE APRENDIZAJE 64 4.2 ESCALAS DE MEDICIÓN,: NOMINAL, ORDINAL, DE INTERVALO Y DE RAZÓN

64

ACTIVIDADES DE APRENDIZAJE 67 4.3 TABLAS DE FRECUENCIA PARA VARIABLES DISCRETAS Y CONTINUAS

68

ACTIVIDADES DE APRENDIZAJE 73 4.4 INTERVALO DE CLASE Y LÍMITES DE CLASE 73 ACTIVIDADES DE APRENDIZAJE 75 4.5 ANCHURA DE INTERVALO DE CLASE 76 ACTIVIDADES DE APRENDIZAJE 79 4.6 MARCA DE CLASE 79 ACTIVIDADES DE APRENDIZAJE 80 4.7 DISTRIBUCIÓN DE FRECUENCIA RELATIVA Y ACUMULADA PARA VARIABLES DISCRETAS Y CONTINUAS

81

ACTIVIDADES DE APRENDIZAJE 85 AUTOEVALUACIÓN 86

Page 4: ESTADISTICA I

UNIDAD 5 PRESENTACIÓN DE DATOS: GRÁFICAS Y CURVAS 87 MAPA CONCEPTUAL 88 INTRODUCCIÓN 89 5.1 GRÁFICA PARA DATOS CUALITATVOS: GRÁFICA DE BARRAS Y DE PASTEL

90

ACTIVIDADES DE APRENDIZAJE 94 5.2 GRÁFICA PARA DATOS CUANTITATIVOS: HISTOGRAMAS, POLÍGONOS DE FRECUENCIA Y OJIVAS

94

ACTIVIDADES DE APRENDIZAJE 100 5.3 GRÁFICAS DE LINES DE SERIES DE TIEMPO 101 ACTIVIDADES DE APRENDIZAJE 102 5.4 DIAGRAMAS DE CAJA 103 ACTIVIDADES DE APRENDIZAJE 105 AUTOEVALUACIÓN 106

UNIDAD 6 MEDIDAS DE POSICIÓN DE TENDENCIA CENTRAL 109 MAPA CONCEPTUAL 110 INTRODUCCIÓN 111 6.1 MEDIA ARITMÉTICA O PROMEDIO PARA DATOS AGRUPADOS Y NO AGRUPADOS

112

ACTIVIDADES DE APRENDIZAJE 118 6.2 MEDIANA PARA DATOS AGRUPADOS Y NO AGRUPADOS 118 ACTIVIDADES DE APRENDIZAJE 122 6.3 LA MODA 122 ACTIVIDADES DE APRENDIZAJE 124 6.4 LA MEDIA GEOMÉTRICA 124 ACTIVIDADES DE APRENDIZAJE 126 6.5 PROMEDIO MÓVIL 126 ACTIVIDADES DE APRENDIZAJE 132 6.6 MEDIA ARMÓNICA 132 ACTIVIDADES DE APRENDIZAJE 132 6.7 DECILES, CUARTILES Y PERCENTILES 133 ACTIVIDADES DE APRENDIZAJE 141 AUTOEVALUACIÓN 142

UNIDAD 7 MEDIDAS DE VARIABILIDAD DE DISPERSIÓN 144 MAPA CONCEPTUAL 145 INTRODUCCIÓN 146 7.1 RANGO 147 ACTIVIDADES DE APRENDIZAJE 147 7.2 DESVIACIÓN MEDIA ABSOLUTA 148 ACTIVIDADES DE APRENDIZAJE 150 7.3 VARIANZA PARA DATOS AGRUPADOS Y NO AGRUPADOS 150

Page 5: ESTADISTICA I

ACTIVIDADES DE APRENDIZAJE 152 7.4 DESVIACIÓN ESTÁNDAR 152 ACTIVIDADES DE APRENDIZAJE 154 7.5 COEFICIENTE DE VARIACIÓN 154 ACTIVIDADES DE APRENDIZAJE 155 7.6 MEDIDAS DE FORMA: ASIMETRÍA Y CURTOSIS 155 ACTIVIDADES DE APRENDIZAJE 159 AUTOEVALUACIÓN 160

UNIDAD 8 PROBABILIDAD 162 MAPA CONCEPTUAL 163 INTRODUCCIÓN 164 8.1 PROBABILIDAD CLÁSICA, FRECUENCIAL Y SUBJETIVA 165 ACTIVIDADES DE APRENDIZAJE 166 8.2 EXPERIMENTOS, EVENTOS Y ESPACIOS MUESTRALES 166 ACTIVIDADES DE APRENDIZAJE 171 8.3 REGLAS DE CONTEO: COMBINACIONES Y PERMUTACIONES 171 ACTIVIDADES DE APRENDIZAJE 174 8.4 REGLAS DE LA PROBABILIDAD 175 ACTIVIDADES DE APRENDIZAJE 179 8.5 EVENTOS DEPENDIENTES, INDEPENDIENTES Y CONDICIONALES

179

ACTIVIDADES DE APRENDIZAJE 181 8.6 TEOREMA DE BAYES 182 ACTIVIDADES DE APRENDIZAJE 184 8.7 DIAGRAMA DE ÁRBOL 184 ACTIVIDADES DE APRENDIZAJE 185 8.8 ESPERANZA MATEMÁTICA 185 ACTIVIDADES DE APRENDIZAJE 187 AUTOEVALUACIÓN 188

UNIDAD 9 VARIABLES ALEATORIAS DISCRETAS Y SU DISTRIBUCIÓN DE PROBABILIDAD

191

MAPA CONCEPTUAL 192 INTRODUCCIÓN 193 9.1 PROBABILIDAD CLÁSICA, FRECUNCIAL Y SUBJETIVA 194 ACTIVIDADES DE APRENDIZAJE 197 9.2 DISTRIBUCIÓN DE PROBABILIDAD DE UNA VARIABLE ALEATORIA DISCRETA

198

ACTIVIDADES DE APRENDIZAJE 200 9.3 DISTRIBUCIÓN BERNOULLI 200 ACTIVIDADES DE APRENDIZAJE 201 9.4 DISTRIBUCIÓN BINOMINAL Y MULTINOMINAL 201 ACTIVIDADES DE APRENDIZAJE 204 9.5 DISTRIBUCIÓN DE POSSION 204

Page 6: ESTADISTICA I

ACTIVIDADES DE APRENDIZAJE 205 9.6 DISTRIBUCIÓN GEOMÉTRICA 206 ACTIVIDADES DE APRENDIZAJE 209 9.7 DISTRIBUCIÓN HIPERGEOMÉTRICA 209 ACTIVIDADES DE APRENDIZAJE 211 AUTOEVALUACIÓN 212

GLOSARIO 214

ANEXO 234

BIBLIOGRAFÍA 240

Page 7: ESTADISTICA I

7

PROPÓSITO GENERAL Fungir como una guía teórica y didáctica para el estudiante orientándolo en las bases y conceptos generales de la estadística, así como brindar un contenido que le ayude mediante claros ejemplos a reforzar los conocimientos básicos y a desarrollar su capacidad de análisis matemático.

Page 8: ESTADISTICA I

8

PRESENTACIÓN

La aplicación de las matemáticas es constante, es universal; no es posible llevar a cabo un desarrollo social en ausencia de ésta ciencia. El uso y manejo correcto de los números, son en la actualidad responsabilidad y obligación social, su uso es global; sin embargo, muchas ramas se has desprendido de las matemáticas permitiendo el perfeccionamiento de ciertas áreas y una mejor calidad en procesos de diferentes clases. Tal es el caso de la estadística, definida como una rama de las matemáticas, que se refiere a la recolección, estudio e interpretación de los datos obtenidos en un estudio. Es aplicable a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales ciencias de la salud como la Psicología y la Medicina, y usada de manera muy importante en la toma de decisiones en áreas de negocios e instituciones gubernamentales. Aún cuando el perfil profesional del estudiante puede o no ser completamente afín al empleo de la estadística como herramienta profesional; sin embargo, debido a la complejidad de la vida socialmente hablando, es de gran utilidad llevar a cabo por lo menos un estudio básico de estadística, pues ésta siempre será de gran ayuda para la correcta toma de decisiones.

Page 9: ESTADISTICA I

9

MAPA CONCEPTUAL ESTADÍSTICA I

ESTADISTICA I

1. SDGSDFGASDA DFSDGFSDFGDF

2. FUNDAMENTOS DE ESTADÍSTICA

3. RECOPILACION DE INFORMACIÓN:

TEORÍA DEL MUESTREO

4. PRESENTACIÓN DE DATOS,

GRAFICAS Y CURVAS

5. MEDIDAS DE POSICIÓN DE TENDENCIA CENTRAL

6. MEDIDAS DE VARIABILIDAD O DE DISPERSIÓN

8. VARIABLES ALEATORIAS

DISCRETAS Y SU DISTRIBUCIÓN DE

PROBABILIDAD

7. PROBABILIDAD

Page 10: ESTADISTICA I

10

GENERAL DEL CURSO

El estudiante explicará los fundamentos de la estadística y sus aplicaciones en la investigación; aplicará las técnicas de muestreo de manera pertinente a la situación que le requiera realizarlo; aplicará funciones de la estadística para la organización y presentación de datos cuantitativos; aplicará las medidas de tendencia central y variabilidad en problemas específicos de su profesión; estudiante comprenderá las reglas básicas de la probabilidad.

Page 11: ESTADISTICA I

11

UNIDAD 1 INTRODUCCIÓN

El estudiante reafirmará conceptos básicos de matemáticas. Temario: 1. INTRODUCCIÓN

1.1 CONVERTIR TANTO PORCIENTO A DECIMALES Y VICEVERSA 1.2 NOTACIÓN CIENTÍFICA

Page 12: ESTADISTICA I

12

MAPA CONCEPTUAL INTRODUCCIÓN

1. INTRODUCCIÓN

1.1CONVERTIR TANTO PORCIENTO A

DECIMALES Y VICEVERSA

1.2 NOTACION CIENTIFICA

Page 13: ESTADISTICA I

13

INTRODUCCIÓN En esta unidad se repasarán las matemáticas básicas, con la finalidad de no generar problemas una vez iniciado el curso. Se trabajará en el tanto por ciento y la notación científica.

Page 14: ESTADISTICA I

14

1. INTRODUCCIÓN

1.1 CONVERTIR TANTO POR CIENTO A DECIMALES Y VICEVERSA

El estudiante aplicará de forma adecuada el tanto por ciento. Se debe recordar siempre que un por ciento significa un centésimo. Lo dice la palabra misma: por ciento es por cien, se está comparando con cien: si 15% de la populación son ancianos, significa que 15 personas de cada cien son ancianos.

1% es un centésimo o 0.01 4% es cuatro centésimos o 0.04 12% es doce centésimos o 0.12 89% es 89 centésimos o 0.89 100% es cien centésimos o 1 145% es 145 centésimos o 1.45

Convertir un número decimal en tanto por ciento

Y viceversa, si tiene un número decimal, sólo observa cuántos centésimos tiene. Por eso se debe entender que la primera cifra decimal después del punto significa los décimos, y la segunda cifra después del punto significa las centésimos.

0.08 tiene 8 centésimos o 8% 0.2 no tiene dos cifras decimales; entonces pongamos un cero al lugar de la segunda cifra decimal: 0.2 es igual a 0.20. entonces tiene 20 centésimos o 20%. 1.1 - también pongamos un cero y es 1.10. Es más de uno; tiene más de 100 centésimos; 1.10 tiene 110 centésimos; y es 110%. 0.495 tiene tres cifras decimales. Cuando se convierte a tanto por ciento, el porcentaje tendrá un punto decimal. 0.495 tiene 49 centésimos; y un medio centésimo además. Por eso 0.495 es 49 1/2 % o normalmente escribimos 49.5% 0.3829 es 38.29% 1.078 es 107.8%

Page 15: ESTADISTICA I

15

ACTIVIDAD DE APRENDIZAJE

El estudiante realizará los siguientes ejercicios.

Instrucciones: Convertir los decimales en tanto por ciento y viceversa, como se indica

1a.

= 0.8779

1b.

= 0.1058

1c.

= 0.7605

2a. 77.40% =

2b. 65.34% =

2c. 67.71% =

3a.

= 0.765

3b.

= 0.9492

3c. 7.99% =

4a. 63.31% =

4b. 50.74% =

4c. 54.29% =

5a. 54.98% =

5b. 47.45% =

5c. 65% =

6a. 40.56% =

6b.

= 0.3129

6c.

= 0.0601

1.2 NOTACIÓN CIENTÍFICA

El estudiante comprenderá la notación científica.

La notación científica (o notación índice estándar) es un modo conciso de representar un número utilizando potencias de base diez. Los números se escriben como un producto: a · 10k, (siendo a un número mayor o igual que 1 y menor que 10, y k un número entero). Esta notación se utiliza para poder expresar fácilmente números muy grandes. La notación científica utiliza un sistema llamado coma flotante, o de punto flotante en países de habla inglesa y en algunos hispanohablantes.

Page 16: ESTADISTICA I

16

Escritura

100 = 1 101 = 10 102 = 100 103 = 1 000 104 = 10 000 105 = 100 000 106 = 1 000 000 109 = 1 000 000 000 1010 = 10 000 000 000 1020 = 100 000 000 000 000 000 000 1030 = 1 000 000 000 000 000 000 000 000 000 000

10 elevado a una potencia entera negativa –n es igual a 1/10n o, equivalentemente 0, (n–1 ceros) 1:

10–1 = 1/10 = 0,1 10–3 = 1/1000 = 0,001 10–9 = 1/1 000 000 000 = 0,000 000 001

Por tanto, un número como: 156 234 000 000 000 000 000 000 000 000 puede ser escrito como 1,56234·1029, y un número pequeño como 0,000 000 000 023 4 puede ser escrito como 2,34·10–11. Usos

Por ejemplo, la distancia a los confines observables del universo es ~4,6·1026m y la masa de un protón es ~1,67·10-27 kilogramos. La mayoría de las calculadoras y muchos programas de computadora presentan resultados muy grandes y muy pequeños en notación científica; los números 10 generalmente se omiten y se utiliza la letra E para el exponente; por ejemplo: 1,56234 E29. Nótese que esto no está relacionado con la base del logaritmo natural también denotado comúnmente con la letra e. La notación científica es altamente útil para anotar cantidades físicas, pues pueden ser medidas solamente dentro de ciertos límites de error y al anotar sólo los dígitos significativos se da toda la información requerida sin malgastar espacio. Para expresar un número en notación científica debe expresarse en forma tal que contenga un dígito (el más significativo) en el lugar de las unidades, todos los demás dígitos irán entonces después del separador decimal multiplicado por el exponente de 10 respectivo.

Ej. 238294360000 = 2,3829436E11 y 0,000312459 = 3,12459E-4.

Page 17: ESTADISTICA I

17

Operaciones matemáticas con notación científica

Suma y resta

Siempre que las potencias de 10 sean las mismas, se debe sumar las mantisas, dejando la potencia de 10 con el mismo grado (en caso de que no tengan el mismo exponente, debe convertirse la mantisa multiplicándola o dividiéndola por 10 tantas veces como sea necesario para obtener el mismo exponente): Ejemplo: 2 · 104 + 3 ·104 = 5 · 104

Para sumar y restar dos números (o más) debemos tener el mismo exponente en las potencias de base diez. Tomamos como factor común el mayor y movemos la coma flotante, en los menores, tantos espacios como sea necesario, elevando los correspondientes exponentes hasta que todos sean iguales. Ejemplo:

2 · 104 + 3 ·105 - 6 ·103 (tomamos el exponente 5 como referencia) 0,2 · 105 + 3 · 105 - 0,06 ·105 3,14 ·105

Multiplicación Se multiplican los coeficientes y se suman a la vez los exponentes: Ejemplo: (4·105)·(2·107) = 8·1012 División Se dividen las mantisas y se restan los exponentes (numerador_denominador): Ejemplo: (4·1012)/(2·105) =2·107 Además se pueden pasar los dos números al mismo exponente y luego nada más multiplicar Potenciación Se potencia la mantisa y se multiplican los exponentes: Ejemplo: (3·106)2 = 9·1012

Radicación Se debe extraer la raíz de la mantisa y dividir el exponente por el índice de la raíz: Ejemplos:

Page 18: ESTADISTICA I

18

ACTIVIDADES DE APRENDIZAJE

El estudiante realizará los siguientes ejercicios:

1. Sitúa en la escala de potencias de 10: a) 7,2.105 b) 3,67.104 c) 0,23.102 d) 8,92.10-3 e) 3,34.10-1 2. Expresa en notación científica e indica el orden de magnitud de las siguientes

cantidades: *Nota: El orden de magnitud se calcula a partir del valor absoluto del número a) 300 000 000 b) 0,000 000 1 c) 0,000 000 62

d) -18 400 000 000 e) -7894,34 f) 456,987

g) 0, 000 000 000 93 h) -5,5

3. Expresa en notación decimal a) 4. 103 b) -6,3456. 10-6 c) 5,112. 10-3 d) 1,43. 10-5

4. Realiza la operación: (0. 00000000000000000000000663 . 30,000,000,000) :

0.00000009116 *Nota: Es incomodo trabajar con esas cantidades, pasa primero a

notación científica 5. Efectúa los productos y cocientes siguientes usando las propiedades de las

potencias:

a.

8

-4-3

1,5.10

5.109.10 b.

6-

5-2

4.10

5.101,6.10 c.

1-6-

-6

3.101,2.10

7,2.10

6. Efectúa las siguientes operaciones con cantidades expresadas en notación

científica. Expresa el resultado también en notación científica: a) 3,74.10-10 . 1,8.1018 b) 5,4.108.6,8.1012

c) 1,2.102 +1,8.103 d) 2,5.10-3-7,3.10-5

Page 19: ESTADISTICA I

19

e) 5,6.10-2(4,2.102 + 3,3.103) f) 9,8.10-3 + 3,2.102

7. Efectúa las siguientes operaciones con cantidades expresadas en notación científica. Expresa el resultado también en notación científica:

a) 3.10-1 – 5.10-2 + 3.10-3 b) )510.6)(1410.2(

7,0.710.2,3

8. Efectúa las siguientes operaciones con cantidades expresadas en notación

científica. Expresa el resultado también en notación científica:

a) (3.105)(8.10-4) b) 310.2

10.310.53

75

c) 6,12.10-5 + 7,29.10-10

Page 20: ESTADISTICA I

20

INSTRUCCIONES: Lea detenidamente y anote dentro del paréntesis “v” si el enunciado es verdadero y “f” si es falso. (Recuerde que la forma de evaluar esta sección es aciertos menos errores).

1. Se debe recordar siempre que un por ciento significa una décima parte

( )

2. 3 · 105 + 6 ·105 = 9 · 105

( )

3. 0.0320 = 32%

( )

4. La notación científica (o notación índice estándar) es un modo conciso de representar un número utilizando potencias de base diez. Los números se escriben como un producto: a · 10k.

( )

5. En las operaciones de multiplicación con notación científica, se multiplican los coeficientes y se restan a la vez los exponentes

( )

Page 21: ESTADISTICA I

21

UNIDAD 2 FUNDAMENTOS DE ESTADÍSTICA

El estudiante se introducirá en los aspectos fundamentales, tanto de conceptos básicos y de operatividad de la estadística, así como su aplicación y relación con su formación profesional. Temario: 1. FUNDAMENTOS DE ESTADÍSTICA

2.1 DEFINICIÓN Y OBJETO DE LA ESTADÍSTICA 2.2 ESTADÍSTICA DESCRIPTIVA Y ESTADÍSTICA INFERENCIAL 2.3 VARIABLES DISCRETAS Y CONTINUAS 2.4 FUENTE DE DATOS 2.5 LA ESTADÍSTICA EN LA INVESTIGACIÓN

Page 22: ESTADISTICA I

22

MAPA CONCEPTUAL FUNDAMENTOS DE ESTADISTICA

2. FUNDAMENTOS DE ESTADISTICA

2.1 DEFINICIÓN Y OBJETO DE LA ESTADÍSTICA

2.2 ESTADÍSTICA DESCRIPTIVA Y ESTADÍSTICA INFERENCIAL

2.3 VARIABLES DISCRETAS

Y CONTINUAS

2.4 FUENTE DE DATOS

2.5 LA ESTADÍSTICA EN LA INVESTIGACIÓN

Page 23: ESTADISTICA I

23

INTRODUCCIÓN En esta unidad se verán métodos para recopilar información, los tipos de parámetros, tipos de muestreo y como calcular el tamaño de la muestra así como el error de muestreo.

Page 24: ESTADISTICA I

24

2. FUNDAMENTOS DE LA ESTADÍSTICA

2.1 DEFINICIÓN Y OBJETO DE LA ESTADÍSTICA

El estudiante reconocerá el concepto y el objeto de la estadística. Historia de la Estadística Los comienzos de la estadística pueden ser hallados en el antiguo Egipto, cuyos faraones lograron recopilar, hacia el año 3050 antes de Cristo, prolijos datos relativos a la población y la riqueza del país. De acuerdo al historiador griego Heródoto, dicho registro de riqueza y población se hizo con el objetivo de preparar la construcción de las pirámides. En el mismo Egipto, Ramsés II hizo un censo de las tierras con el objeto de verificar un nuevo reparto. En el antiguo Israel la Biblia da referencias, en el libro de los Números, de los datos

estadísticos obtenidos en dos recuentos de la población hebrea. El rey David por otra

parte, ordenó a Joab, general del ejército hacer un censo de Israel con la finalidad de

conocer el número de la población. También los chinos efectuaron censos hace más de cuarenta siglos. Los griegos

efectuaron censos periódicamente con fines tributarios, sociales (división de tierras) y

militares (cálculo de recursos y hombres disponibles). La investigación histórica revela

que se realizaron 69 censos para calcular los impuestos, determinar los derechos de voto y ponderar la potencia guerrera. Pero fueron los romanos, maestros de la organización política, quienes mejor supieron

emplear los recursos de la estadística. Cada cinco años realizaban un censo de la

población y sus funcionarios públicos tenían la obligación de anotar nacimientos, defunciones y matrimonios, sin olvidar los recuentos periódicos del ganado y de las

riquezas contenidas en las tierras conquistadas. Para el nacimiento de Cristo sucedía uno de estos empadronamientos de la población bajo la autoridad del imperio. Durante los mil años siguientes a la caída del imperio Romano se realizaron muy pocas

operaciones Estadísticas, con la notable excepción de las relaciones de tierras

pertenecientes a la Iglesia, compiladas por Pipino el Breve en el 758 y por Carlomagno

en el 762 DC. Durante el siglo IX se realizaron en Francia algunos censos parciales de

siervos. En Inglaterra, Guillermo el Conquistador recopiló el Domesday Book o libro del Gran Catastro para el año 1086, un documento de la propiedad, extensión y valor de las tierras de Inglaterra. Esa obra fue el primer compendio estadístico de Inglaterra.

Page 25: ESTADISTICA I

25

Aunque Carlomagno, en Francia; y Guillermo el Conquistador, en Inglaterra, trataron de revivir la técnica romana, los métodos estadísticos permanecieron casi olvidados durante la Edad Media. Durante los siglos XV, XVI, y XVII, hombres como Leonardo de Vinci, Nicolás Copérnico, Galileo, Neper, William Harvey, Sir Francis Bacon y René Descartes, hicieron grandes operaciones al método científico, de tal forma que cuando se crearon los Estados Nacionales y surgió como fuerza el comercio internacional existía ya un método capaz de aplicarse a los datos económicos. Para el año 1532 empezaron a registrarse en Inglaterra las defunciones debido al temor que Enrique VII tenía por la peste. Más o menos por la misma época, en Francia la ley exigió a los clérigos registrar los bautismos, fallecimientos y matrimonios. Durante un brote de peste que apareció a fines de la década de 1500, el gobierno inglés

comenzó a publicar estadísticas semanales de los decesos. Esa costumbre continuó

muchos años, y en 1632 estos Bills of Mortality (Cuentas de Mortalidad) contenían los

nacimientos y fallecimientos por sexo. En 1662, el capitán John Graunt usó documentos que abarcaban treinta años y efectuó predicciones sobre el número de personas que morirían de varias enfermedades y sobre las proporciones de nacimientos de varones y mujeres que cabría esperar. El trabajo de Graunt, condensado en su obra Natural and Political Observations...Made upon the Bills of Mortality (Observaciones Políticas y Naturales ... Hechas a partir de las Cuentas de Mortalidad), fue un esfuerzo innovador en el análisis estadístico. Por el año 1540 el alemán Sebastián Muster realizó una compilación estadística de los

recursos nacionales, comprensiva de datos sobre organización política, instrucciones

sociales, comercio y poderío militar. Durante el siglo XVII aportó indicaciones más

concretas de métodos de observación y análisis cuantitativo y amplió los campos de la

inferencia y la teoría Estadística. Los eruditos del siglo XVII demostraron especial interés por la Estadística Demográfica

como resultado de la especulación sobre si la población aumentaba, decrecía o

permanecía estática. En los tiempos modernos tales métodos fueron resucitados por algunos reyes que

necesitaban conocer las riquezas monetarias y el potencial humano de sus respectivos

países. El primer empleo de los datos estadísticos para fines ajenos a la política tuvo

lugar en 1691 y estuvo a cargo de Gaspar Neumann, un profesor alemán que vivía en

Breslau. Este investigador se propuso destruir la antigua creencia popular de que en los años terminados en siete moría más gente que en los restantes, y para lograrlo hurgó pacientemente en los archivos parroquiales de la ciudad. Después de revisar miles de partidas de defunción pudo demostrar que en tales años no fallecían más personas que en los demás. Los procedimientos de Neumann fueron conocidos por el astrónomo inglés Halley, descubridor del cometa que lleva su nombre, quien los aplicó al estudio de la vida humana. Sus cálculos sirvieron de base para las tablas de mortalidad que hoy utilizan todas las compañías de seguros.

Page 26: ESTADISTICA I

26

Durante el siglo XVII y principios del XVIII, matemáticos como Bernoulli, Francis

Maseres, Lagrange y Laplace desarrollaron la teoría de probabilidades. No obstante

durante cierto tiempo, la teoría de las probabilidades limitó su aplicación a los juegos de azar y hasta el siglo XVIII no comenzó a aplicarse a los grandes problemas científicos. Godofredo Achenwall, profesor de la Universidad de Gotinga, acuñó en 1760 la palabra estadística, que extrajo del término italiano statista (estadista). Creía, y con sobrada razón, que los datos de la nueva ciencia serían el aliado más eficaz del gobernante consciente. La raíz remota de la palabra se halla, por otra parte, en el término latino status, que significa estado o situación; Esta etimología aumenta el valor intrínseco de la palabra, por cuanto la estadística revela el sentido cuantitativo de las más variadas situaciones. Jacques Quételect es quien aplica las Estadísticas a las ciencias sociales. Este interpretó la teoría de la probabilidad para su uso en las ciencias sociales y resolver la aplicación del principio de promedios y de la variabilidad a los fenómenos sociales. Quételect fue el primero en realizar la aplicación práctica de todo el método Estadístico, entonces conocido, a las diversas ramas de la ciencia. Entretanto, en el período del 1800 al 1820 se desarrollaron dos conceptos matemáticos

fundamentales para la teoría Estadística; la teoría de los errores de observación, aportada por Laplace y Gauss; y la teoría de los mínimos cuadrados desarrollada por Laplace, Gauss y Legendre. A finales del siglo XIX, Sir Francis Gaston ideó el método

conocido por Correlación, que tenía por objeto medir la influencia relativa de los factores sobre las variables. De aquí partió el desarrollo del coeficiente de correlación creado por Karl Pearson y otros cultivadores de la ciencia biométrica como J. Pease Norton, R. H. Hooker y G. Udny Yule, que efectuaron amplios estudios sobre la medida de las relaciones. Los progresos más recientes en el campo de la Estadística se refieren al ulterior desarrollo del cálculo de probabilidades, particularmente en la rama denominada

indeterminismo o relatividad, se ha demostrado que el determinismo fue reconocido en

la Física como resultado de las investigaciones atómicas y que este principio se juzga

aplicable tanto a las ciencias sociales como a las físicas. Etapas de Desarrollo de la Estadística La historia de la estadística está resumida en tres grandes etapas o fases. 1.- Primera Fase: Los Censos. Desde el momento en que se constituye una autoridad política, la idea de inventariar de una forma más o menos regular la población y las riquezas existentes en el territorio está ligada a la conciencia de soberanía y a los primeros esfuerzos administrativos. Manual 2.- Segunda Fase: De la Descripción de los Conjuntos a la Aritmética Política. Las ideas mercantilistas extrañan una intensificación de este tipo de investigación. Colbert multiplica las encuestas sobre artículos manufacturados, el comercio y la población: los

Page 27: ESTADISTICA I

27

intendentes del Reino envían a París sus memorias. Vauban, más conocido por sus fortificaciones o su Dime Royale, que es la primera propuesta de un impuesto sobre los ingresos, se señala como el verdadero precursor de los sondeos. Más tarde, Bufón se preocupa de esos problemas antes de dedicarse a la historia natural. La escuela inglesa proporciona un nuevo progreso al superar la fase puramente descriptiva. Sus tres principales representantes son Graunt, Petty y Halley. El penúltimo es autor de la famosa Aritmética Política. Chaptal, ministro del interior francés, publica en 1801 el primer censo general de población, desarrolla los estudios industriales, de las producciones y los cambios, haciéndose sistemáticos durante las dos terceras partes del siglo XIX. 3.- Tercera Fase: Estadística y Cálculo de Probabilidades. El cálculo de probabilidades se incorpora rápidamente como un instrumento de análisis extremadamente poderoso para el estudio de los fenómenos económicos y sociales y en general para el estudio de fenómenos “cuyas causas son demasiados complejas para conocerlos totalmente y hacer posible su análisis”. Definición de Estadística

La Estadística es la ciencia cuyo objetivo es reunir una información cuantitativa

concerniente a individuos, grupos, series de hechos, etc. y deducir de ello gracias al análisis de estos datos unos significados precisos o unas previsiones para el futuro. La estadística, en general, es la ciencia que trata de la recopilación, organización

presentación, análisis e interpretación de datos numéricos con el fin de realizar una toma de decisión más efectiva. Otros autores tienen definiciones de la Estadística semejantes a las anteriores, y algunos otros no tan semejantes. Para Chacón esta se define como “la ciencia que tiene por objeto el estudio cuantitativo de los colectivos”; otros la definen como la expresión cuantitativa del conocimiento dispuesta en forma adecuada para el escrutinio y análisis.

La más aceptada, sin embargo, es la de Minguez, que define la Estadística como “La

ciencia que tiene por objeto aplicar las leyes de la cantidad a los hechos sociales para

medir su intensidad, deducir las leyes que los rigen y hacer su predicción próxima”. Los estudiantes confunden comúnmente los demás términos asociados con las

Estadísticas, una confusión que es conveniente aclarar debido a que esta palabra tiene

tres significados: la palabra estadística, en primer término se usa para referirse a la

información estadística; también se utiliza para referirse al conjunto de técnicas y

métodos que se utilizan para analizar la información estadística; y el término estadístico, en singular y en masculino, se refiere a una medida derivada de una muestra.

Page 28: ESTADISTICA I

28

Utilidad e Importancia Los métodos estadísticos tradicionalmente se utilizan para propósitos descriptivos, para organizar y resumir datos numéricos. La estadística descriptiva, por ejemplo trata de la tabulación de datos, su presentación en forma gráfica o ilustrativa y el cálculo de

medidas descriptivas.

Ahora bien, las técnicas estadísticas se aplican de manera amplia en mercadotecnia, contabilidad, control de calidad y en otras actividades; estudios de consumidores; análisis de resultados en deportes; administradores de instituciones; en la educación; organismos políticos; médicos; y por otras personas que intervienen en la toma de

decisiones.

ACTIVIDAD DE APRENDIZAJE

El estudiante investigará de acuerdo a la bibliografía sugerida, porqué es importante la estadística dentro de su carrera y elaborará un mapa conceptual con la información obtenida. Se entregará de manera impresa la siguiente sesión.

2.2 ESTADÍSTICA DESCRIPTIVA Y ESTADÍSTICA INFERENCIAL

El estudiante reconocerá y diferenciará la estadística descriptiva y la estadística inferencial La Estadística para su mejor estudio se ha dividido en dos grandes ramas: la Estadística Descriptiva y la Inferencial.

Estadística Descriptiva: consiste sobre todo en la presentación de datos en forma de tablas y gráficas. Esta comprende cualquier actividad relacionada con los datos y está diseñada para resumir o describir los mismos sin factores pertinentes adicionales; esto es, sin intentar inferir nada que vaya más allá de los datos, como tales.

Estadística Inferencial: se deriva de muestras, de observaciones hechas sólo acerca de una parte de un conjunto numeroso de elementos y esto implica que su análisis requiere de generalizaciones que van más allá de los datos. Como consecuencia, la característica más importante del reciente crecimiento de la

Page 29: ESTADISTICA I

29

estadística ha sido un cambio en el énfasis de los métodos que describen a métodos que sirven para hacer generalizaciones. La Estadística Inferencial investiga o analiza una población partiendo de una muestra tomada.

ACTIVIDAD DE APRENDIZAJE El estudiante realizará un análisis de mínimo una cuartilla, mencionando ejemplos de estadística descriptiva y estadística inferencial. Se entregará impreso la siguiente sesión.

2.3 VARIABLES DISCRETAS Y CONTINUAS

El estudiante comprenderá y explicará las variables discretas y continuas.

En líneas anteriores se ha señalado que el objeto de estudio de la Estadística son las

poblaciones y que estas están formadas por entes o elementos. El número total de los

mismos determina el tamaño de la población. Para estudiar una población, lo primero

que debe hacerse es observarla de alguna de las formas que ya se ha señalado en las

líneas anteriores. Pero observar una población es equivalente a observar sus

elementos. Ahora bien, esos elementos poseen una serie de características que son

las que realmente se observan. Por ejemplo, el conjunto de todas las empresas

industriales radicadas en España constituyen una población. Los elementos de esa

población son las empresas. Pero una empresa no se observa en abstracto. Lo que

realmente tiene interés son las distintas características de esas empresas, como, por ejemplo, el número de empleados, el volumen de ventas, los costes salariales, los

gastos en publicidad, los beneficios de las mismas, la naturaleza de los productos que

fabrican, etc.

A todas estas características de los elementos de una población se les conoce de

forma genérica como caracteres. Estos últimos, según su naturaleza, pueden ser de

tipo cuantitativo o cualitativo. Para el ejemplo anterior, serían caracteres cuantitativos

“el número de empleados”, “el volumen de ventas”, “los costes salariales”, “los gastos

en publicidad”, “los beneficios de las mismas”, etc., mientras que sería cualitativo “la

naturaleza de los productos que fabrican”. Hay que señalar que, en general, cualquier carácter de tipo cuantitativo se puede ofrecer en términos cualitativos. Así, si el número de empleados lo agrupamos en intervalos se podría hablar de empresas pequeñas, medinas y grandes, siendo ahora el carácter “tamaño de la empresa” de naturaleza cualitativa. De manera similar se podría proceder con los demás. Pero en estadística es más habitual hablar de variables que de caracteres cuantitativos y de atributos en lugar de caracteres cualitativos. Las variables son susceptibles de medirse en términos

Page 30: ESTADISTICA I

30

cuantitativos y a cada una de esas posibles mediciones o realizaciones se les conoce como valores, datos u observaciones. A su vez, en función del número posible de valores que tome una variable, a las mismas se las puede clasificar en discretas y continuas. Serán discretas cuando el número de valores sea finito o infinito numerable, mientras que una variable será continua cuando el número de sus valores sea infinito no numerable. En los casos en los que las variables toman infinitos valores, la práctica habitual es agruparlos en intervalos, como se muestra en las Tabla 1, para variable continua, y en la Tabla 2 para discreta. Variable discreta, aquella que entre dos valores próximos puede tomar a lo sumo un número finito de valores. Ejemplos: el número de miembros de una familia, el de obreros de una fábrica, el de alumnos de la universidad, etc. Variable continúa la que puede tomar los infinitos valores de un intervalo. En muchas ocasiones la diferencia es más teórica que práctica, ya que los aparatos de medida dificultan que puedan existir todos los valores del intervalo. Ejemplos, peso, estatura, distancias, etc. La variable se denota por las mayúsculas de letras finales del alfabeto castellano. A su vez cada una de estas variables puede tomar distintos valores, colocando un subíndice, que indica orden.

X = (X1, X2, ...... Xn)

Page 31: ESTADISTICA I

31

Los atributos no pueden medirse como ocurre con las variables. Lo único que puede hacerse con ellos es describirlos mediante palabras y clasificarlos en categorías no numéricas que sean mutuamente excluyentes. A cada una de estas categorías se le denomina modalidades. Un ejemplo es el que se recoge en la Tabla 3.

Page 32: ESTADISTICA I

32

En algunos casos, las modalidades de un atributo pueden ser objeto de ordenación, como se recoge en la tabla 4.

ACTIVIDADES DE APRENDIZAJE

El estudiante realizará un análisis de mínimo una cuartilla, mencionando ejemplos de variables discretas, y variables continuas. Se entregará impreso la siguiente sesión.

2.4 FUENTE DE DATOS

El estudiante identificará las fuentes de datos en la estadística.

En los apartados anteriores se ha señalado que el objetivo de la Estadística es el estudio de los fenómenos de masas. Pero ello requiere el manejo de una información numérica amplia. La cuestión inmediata que surge es saber a dónde se puede recurrir para encontrar esa información necesaria y sin la cual el análisis estadístico no se puede realizar. En definitiva, se trata es de conocer las fuentes que suministran información de carácter estadístico. Estas fuentes son susceptibles de clasificarse según distintos criterios. Atendiendo al agente que elabore esa información, la misma puede agruparse en endógena y exógena. La primera sería la que elabora el propio investigador. En este caso, la operación estadística conducente a recabar los datos necesarios para la realización del análisis estadístico se supone que la lleva a cabo el propio investigador. Será él quien se encargue de observar los distintos caracteres, cuantitativos o cualitativos, relevantes de los elementos de una población. El resultado

Page 33: ESTADISTICA I

33

será una base de datos, obtenida mediante una muestra, o cualquiera de los otros procedimientos indicados con anterioridad, que permitirá el correspondiente análisis estadístico. Esta situación se da cuando no existe fuente alternativa exógena capaz de facilitar esa información. Pero ¿qué se entiende por fuente exógena? En general, la podemos definir como aquella cuyo objeto principal es la obtención de información estadística pero que no actúa como usuaria. Las fuentes exógenas son múltiples y a su vez se las puede clasificar en dos categorías distintas. Por un lado están las fuentes oficiales o públicas y, por otro, las privadas. De todas ellas las que generan mayor volumen de información son las primeras, es decir, las oficiales o públicas. Estas últimas se pueden clasificar, a su vez, según el ámbito espacial en que desarrollan sus competencias en materia estadística.

ACTIVIDAD DE APRENDIZAJE

Basándose en la bibliografía sugerida, realizar un cuadro sinóptico en el que se expongan las diferentes fuentes de datos. Se entregará de manera impresa la siguiente sesión.

2.5 LA ESTADÍSTICA EN LA INVESTIGACIÓN

El estudiante conocerá y ejemplificará la estadística en la investigación. Método Estadístico

El conjunto de los métodos que se utilizan para medir las características de la información, para resumir los valores individuales, y para analizar los datos a fin de extraerles el máximo de información, es lo que se llama métodos estadísticos. Los métodos de análisis para la información cuantitativa se pueden dividir en los siguientes seis pasos: 1. Definición del problema. 2. Recopilación de la información existente. 3. Obtención de información original. 4. Clasificación. 5. Presentación.

Page 34: ESTADISTICA I

34

6. Análisis. Errores Estadísticos Comunes Al momento de recopilar los datos que serán procesados se es susceptible de cometer errores así como durante los cómputos de los mismos. No obstante, hay otros errores que no tienen nada que ver con la digitación y que no son tan fácilmente identificables. Algunos de estos errores son: Sesgo: Es imposible ser completamente objetivo o no tener ideas preconcebidas antes de comenzar a estudiar un problema, y existen muchas maneras en que una perspectiva o estado mental pueda influir en la recopilación y en el análisis de la información. En estos casos se dice que hay un sesgo cuando el individuo da mayor peso a los datos que apoyan su opinión que a aquellos que la contradicen. Un caso extremo de sesgo sería la situación donde primero se toma una decisión y después se utiliza el análisis estadístico para justificar la decisión ya tomada. Datos no comparables: el establecer comparaciones es una de las partes más importantes del análisis estadístico, pero es extremadamente importante que tales comparaciones se hagan entre datos que sean comparables. Proyección descuidada de tendencias: la proyección simplista de tendencias pasadas hacia el futuro es uno de los errores que más ha desacreditado el uso del análisis estadístico. Muestreo Incorrecto: en la mayoría de los estudios sucede que el volumen de información disponible es tan inmenso que se hace necesario estudiar muestras, para derivar conclusiones acerca de la población a que pertenece la muestra. Si la muestra se selecciona correctamente, tendrá básicamente las mismas propiedades que la población de la cual fue extraída; pero si el muestreo se realiza incorrectamente, entonces puede suceder que los resultados no signifiquen nada.

ACTIVIDADES DE APRENDIZAJE

Basándose en la bibliografía sugerida, realizar un resumen con un contenido mínimo de dos cuartillas en el que explique la importancia de la estadística en la labor de investigación. Se entregará de manera impresa la siguiente sesión.

Page 35: ESTADISTICA I

35

1. INSTRUCCIONES: LEA DETENIDAMENTE Y ANOTE DENTRO DEL

PARÉNTESIS “V” SI EL ENUNCIADO ES VERDADERO Y “F” SI EN FALSO. (RECUERDE QUE LA FORMA DE EVALUAR ESTA SECCIÓN ES ACIERTOS MENOS ERRORES).

1. Una fuente exógena es aquella cuyo objeto principal es la obtención de información estadística pero que no actúa como usuaria.

( )

2. La Estadística descriptiva se deriva de muestras, de observaciones hechas sólo acerca de una parte de un conjunto numeroso de elementos y esto implica que su análisis requiere

de generalizaciones que van más allá de los datos; investiga o analiza una población partiendo de una muestra tomada.

( )

3. Las variables serán discretas cuando el número de valores sea finito o infinito numerable, mientras que una variable será continua cuando el número de sus valores sea infinito no numerable.

( )

2. INSTRUCCIONES: LEA DETENIDAMENTE Y CONTESTE EN LOS ESPACIOS

EN BLANCO LA RESPUESTA CORRECTA.

1. Las _____________________________________ se aplican de manera amplia en mercadotecnia, contabilidad, control de calidad y en otras actividades; estudios de consumidores; análisis de resultados en deportes; administradores de instituciones; en la educación; organismos políticos; médicos; y por otras personas que intervienen en la toma de decisiones.

2. El conjunto de los métodos que se utilizan para medir las características de

la información, para resumir los valores individuales, y para analizar los datos a fin de extraerles el máximo de información, es lo que se llama _______________________________.

3. La estadística ____________________________ comprende cualquier

actividad relacionada con los datos y está diseñada para resumir o describir los mismos sin factores pertinentes adicionales; esto es, sin intentar inferir nada que vaya más allá de los datos, como tales.

Page 36: ESTADISTICA I

36

4. En estos casos se dice que hay un ___________ cuando el individuo da mayor peso a los datos que apoyan su opinión que a aquellos que la contradicen. Un caso extremo de _____________ sería la situación donde primero se toma una decisión y después se utiliza el análisis estadístico para justificar la decisión ya tomada.

5. La ____________________________ en general, es la ciencia que trata de

la recopilación, organización presentación, análisis e interpretación de datos numéricos con el fin de realizar una toma de decisión más efectiva.

Page 37: ESTADISTICA I

37

UNIDAD 3 RECOPILACIÓN DE INFORMACIÓN: TEORÍA DEL MUESTREO

El estudiante distinguirá y ejecutará el tipo y procedimiento para la selección de su muestra de tal forma que resulte ser significativa y representativa de toda su población.

Temario:

3. RECOPILACIÓN DE INFORMACIÓN: TEORÍA DEL MUESTREO 3.1 POBLACIÓN Y MUESTRA 3.2 ESTIMADORES Y PARÁMETROS 3.3 MUESTREO PROBABILÍSTICO Y NO PROBABILÍSTICO 3.4 MUESTREO ALEATORIO SIMPLE 3.5 MUESTREO ESTRATIFICADO 3.6 MUESTREO POR CONGLOMERADOS 3.7 OTROS DISEÑOS Y PROCEDIMIENTOS DE MUESTREO. JUICIO Y

CONVENIENCIA 3.8 ERROR DE MUESTREO Y DE LA MUESTRA

Page 38: ESTADISTICA I

38

MAPA CONCEPTUAL RECOPILACIÓN DE INFORMACIÓN: TEORÍA DEL MUESTREO

3.4 MUESTREO ALEATORIO SIMPLE

3. RECOPILACIÓN DE INFORMACIÓN: TEORÍA

DEL MUESTREO

3.1 POBLACIÓN Y MUESTRA

3.2 ESTIMADORES Y PARÁMETROS

3.3 MUESTREO PROBABILÍSTICO Y

NO PROBABILÍSTICO

3.5 MUESTREO ESTRATIFICADO

3.6 MUESTREO POR CONGLOMERADOS

3.7 OTROS DISEÑOS Y

PROCEDIMIENTOS DE MUESTREO.

JUICIO Y CONVENIENCIA

3.8 ERROR DE MUESTREO Y DE LA

MUESTRA

Page 39: ESTADISTICA I

39

INTRODUCCIÓN En esta unidad se verán métodos para recopilar información, los tipos de parámetros, tipos de muestreo y como calcular el tamaño de la muestra así como el error de muestreo.

Page 40: ESTADISTICA I

40

3. RECOPILACIÓN DE INFORMACIÓN Y TEORÍA DEL MUESTREO

3.1 POBLACIÓN Y MUESTRA

El estudiante reconocerá y explicará los conceptos de población y muestra. Población: El concepto de población en estadística va más allá de lo que comúnmente se conoce como tal. Una población se precisa como un conjunto finito o infinito de personas u objetos que presentan características comunes. "Una población es un conjunto de todos los elementos que estamos estudiando, acerca de los cuales intentamos sacar conclusiones". Levin & Rubin (1996). "Una población es un conjunto de elementos que presentan una característica común". Cadenas (1974). Una población en estadística es el conjunto de todas las observaciones en las que estamos interesados. Se llama tamaño de la población al número de individuos que la componen, siendo cada posible observación un individuo; así pues, las poblaciones pueden ser finitas e infinitas. Cada observación en una población es un valor de una variable aleatoria X con una función de probabilidad o densidad determinada f(x) Normalmente, se denomina a las poblaciones con el nombre de la distribución de la variable; es decir, hablaremos de poblaciones normales, binomiales, etc. Para estudiar una población existen dos posibilidades. Una de ellas consiste en estudiar todos sus elementos y sacar conclusiones; la otra consiste en estudiar sólo una parte de ellos, una muestra, elegidos de tal forma que nos digan algo sobre la totalidad de las observaciones de la población. El mejor método ser el primero, cuando es posible, lo cual sólo ocurre en las poblaciones finitas y razonablemente pequeñas; en el caso de poblaciones muy grandes o infinitas será muy difícil o imposible realizar un estudio total. En este caso necesitaremos tomar una muestra y nos surgirá el problema de cómo hacer para que la muestra nos diga algo sobre el conjunto de la población. Es a menudo imposible o poco práctico observar la totalidad de los individuos, sobre todos si estos son muchos. En lugar de examinar el grupo entero llamado población o universo, se examina una pequeña parte del grupo llamada muestra.

Page 41: ESTADISTICA I

41

Muestra: "Se llama muestra a una parte de la población a estudiar que sirve para representarla". Murria R. Spiegel (1991). "Una muestra es una colección de algunos elementos de la población, pero no de todos". Levin & Rubin (1996). "Una muestra debe ser definida en base de la población determinada, y las conclusiones que se obtengan de dicha muestra solo podrán referirse a la población en referencia", Cadenas (1974). La condición más obvia que se le puede pedir a una muestra es que sea representativa de la población. Está claro que si no conocemos la población no podemos saber si la muestra es representativa o no. La única forma de tener cierta garantía de que esto ocurra es tomar nuestra muestra de forma que cada individuo de la población y cada subgrupo posible de la población tengan igual probabilidad de ser elegidos. A este tipo de muestras se les llama muestras aleatorias o muestras al azar. Una muestra aleatoria de tamaño n es un conjunto de n individuos tomado de tal manera que cada subconjunto de tamaño n de la población tenga la misma probabilidad de ser elegido como muestra; es decir, si la población tiene tamaño N, cada una de las combinaciones posibles de n elementos debe ser equiprobable. El estudio de muestras es más sencillo que el estudio de la población completa; cuesta menos y lleva menos tiempo. Por último se aprobado que el examen de una población entera todavía permite la aceptación de elementos defectuosos, por tanto, en algunos casos, el muestreo puede elevar el nivel de calidad. Una muestra representativa contiene las características relevantes de la población en las mismas proporciones que están incluidas en tal población. Los expertos en estadística recogen datos de una muestra. Utilizan esta información para hacer referencias sobre la población que está representada por la muestra. En consecuencia muestra y población son conceptos relativos. Una población es un todo y una muestra es una fracción o segmento de ese todo.

Page 42: ESTADISTICA I

42

Los sistemas de muestreo se basan normalmente en la asignación de un número a cada uno de los individuos de la población y la posterior obtención de una muestra de n números aleatorios que se obtendrá por sorteo utilizando bolas numeradas, ordenadores, etc.

ACTIVIDADES DE APRENDIZAJE

Basándose en la bibliografía sugerida, realizar un análisis en una cuartilla, en el que se explique la diferencia entre la muestra, y la población. Se entregará impreso la siguiente sesión.

3.2 ESTIMADORES Y PARÁMETROS

El estudiante comprenderá y distinguirá los estimadores y lo parámetros.

Los dos problemas fundamentales que estudia la inferencia estadística son el “Problema de la estimación” y el “Problema del contraste de hipótesis”. Cuando se conoce la forma funcional de la función de distribución que sigue la variable aleatoria objeto de estudio y sólo tenemos que estimar los parámetros que la determinan, estamos en un problema de inferencia estadística paramétrica; por el contrario, cuando

Page 43: ESTADISTICA I

43

no se conoce la forma funcional de la distribución que sigue la variable aleatoria objeto de estudio, estamos ante un problema de inferencia estadística no paramétrica. Nosotros nos vamos a limitar a problemas de inferencia estadística paramétrica, donde la variable aleatoria objeto de estudio sigue una distribución normal, y sólo se estimarán los parámetros que la determinan, la media y la desviación típica. Estadístico: Son los datos o medidas que se obtienen sobre una muestra y por lo tanto una estimación de los parámetros. Parámetro: Son las medidas o datos que se obtienen de la población. Se llama parámetros poblacionales a cantidades que se obtienen a partir de las observaciones de la variable y sus probabilidades y que determinan perfectamente la distribución de esta, así como las características de la población, por ejemplo: La media, μ, la varianza σ2, la proporción de determinados sucesos, P. Los Parámetros poblacionales son números reales, constantes y únicos. Parámetros muestrales Los Parámetros muestrales son resúmenes de la información de la muestra que nos "determinan" la estructura de la muestra. Los Parámetros muestrales no son constantes sino variables aleatorias pues sus valores dependen de la estructura de la muestra que no es siempre la misma como consecuencia del muestreo aleatorio. A estas variables se les suele llamar estadísticos. Los estadísticos se transforman en dos tipos: estadísticos de centralidad y estadísticos de dispersión.

ACTIVIDADES DE APRENDIZAJE

Basándose en la bibliografía sugerida, realizar un mapa conceptual en el que se explique la diferencia entre los estimadores y los parámetros. Se entregará impreso la siguiente sesión.

Page 44: ESTADISTICA I

44

3.3 MUESTREO PROBABILÍSTICO Y NO PROBABILÍSTICO

El estudiante reconocerá y distinguirá los conceptos de muestreo probabilístico y no probabilístico MUESTREO En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos los elementos de una población), se selecciona una muestra, entendiendo por tal una parte representativa de la población. El muestreo es por lo tanto una herramienta de la investigación científica, cuya función básica es determinar que parte de una población debe examinarse, con la finalidad de hacer inferencias sobre dicha población. La muestra debe lograr una representación adecuada de la población, en la que se reproduzca de la mejor manera los rasgos esenciales de dicha población que son importantes para la investigación. Para que una muestra sea representativa, y por lo tanto útil, debe de reflejar las similitudes y diferencias encontradas en la población, es decir ejemplificar las características de ésta. Los errores más comunes que se pueden cometer son: 1.- Hacer conclusiones muy generales a partir de la observación de sólo una parte de la Población, se denomina error de muestreo. 2.- Hacer conclusiones hacia una Población mucho más grandes de la que originalmente se tomo la muestra. Error de Inferencia. En la estadística se usa la palabra población para referirse no sólo a personas si no a todos los elementos que han sido escogidos para su estudio y el término muestra se usa para describir una porción escogida de la población.

Page 45: ESTADISTICA I

45

TIPOS DE MUESTREO Existen diferentes criterios de clasificación de los diferentes tipos de muestreo, aunque en general pueden dividirse en dos grandes grupos: métodos de muestreo probabilísticos y métodos de muestreo no probabilísticos. I. Muestreo probabilístico Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamaño n tienen la misma probabilidad de ser seleccionadas. Sólo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son, por tanto, los más recomendables. II. Métodos de muestreo no probabilísticos A veces, para estudios exploratorios, el muestreo probabilístico resulta excesivamente costoso y se acude a métodos no probabilísticos, aun siendo conscientes de que no sirven para realizar generalizaciones (estimaciones inferenciales sobre la población), pues no se tiene certeza de que la muestra extraída sea representativa, ya que no todos los sujetos de la población tienen la misma probabilidad de ser elegidos. En general se seleccionan a los sujetos siguiendo determinados criterios procurando, en la medida de lo posible, que la muestra sea representativa. En algunas circunstancias los métodos estadísticos y epidemiológicos permiten resolver los problemas de representatividad aun en situaciones de muestreo no probabilístico, por ejemplo los estudios de caso-control, donde los casos no son seleccionados aleatoriamente de la población.

Entre los métodos de muestreo no probabilísticos más utilizados en investigación encontramos: 1.- Muestreo por cuotas: También denominado en ocasiones "accidental". Se asienta generalmente sobre la base de un buen conocimiento de los estratos de la población y/o de los individuos más "representativos" o "adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél. En este tipo de muestreo se fijan unas "cuotas" que consisten en un número de individuos que reúnen unas determinadas condiciones, por ejemplo: 20 individuos de 25 a 40 años, de sexo femenino y residentes en Gijón. Una vez determinada la cuota se eligen los primeros que se encuentren que cumplan esas características. Este método se utiliza mucho en las encuestas de opinión.

Page 46: ESTADISTICA I

46

2.- Muestreo intencional o de conveniencia: Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras "representativas" mediante la inclusión en la muestra de grupos supuestamente típicos. Es muy frecuente su utilización en sondeos preelectorales de zonas que en anteriores votaciones han marcado tendencias de voto. También puede ser que el investigador seleccione directa e intencionadamente los individuos de la población. El caso más frecuente de este procedimiento el utilizar como muestra los individuos a los que se tiene fácil acceso (los profesores de universidad emplean con mucha frecuencia a sus propios alumnos). 3.- Bola de nieve: Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen estudios con poblaciones "marginales", delincuentes, sectas, determinados tipos de enfermos, etc. 4.- Muestreo Discrecional · A criterio del investigador los elementos son elegidos sobre lo que él cree que pueden aportar al estudio.

ACTIVIDADES DE APRENDIZAJE

Basándose en la bibliografía sugerida, realizar un análisis en una cuartilla en el que se explique la diferencia entre el muestreo probabilístico y el no probabilístico. Se entregará de manera impresa la siguiente sesión.

3.4 MUESTREO ALEATORIO SIMPLE

El estudiante reconocerá y utilizará el muestreo aleatorio simple. Todos los individuos tienen la misma probabilidad de ser seleccionados. La selección de la muestra puede realizarse a través de cualquier mecanismo probabilístico en el que todos los elementos tengan las mismas opciones de salir. Por ejemplo uno de estos mecanismos es utilizar una tabla de números aleatorios, o también con un ordenador generar números aleatorios, comprendidos entre cero y uno, y multiplicarlos por el tamaño de la población, este es el que vamos a utilizar.

Page 47: ESTADISTICA I

47

El procedimiento empleado es el siguiente: 1) se asigna un número a cada individuo de la población y 2) a través de algún medio mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido. Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población que estamos manejando es muy grande. Muestreo aleatorio sistemático: Este procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un número elegido al azar, y los elementos que integran la muestra son los que ocupa los lugares i, i+k, i+2k, i+3k,..., i+(n-1) k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la población entre el tamaño de la muestra: k= N/n. El número i que empleamos como punto de partida será un número al azar entre 1 y k. El riesgo este tipo de muestreo está en los casos en que se dan periodicidades en la población ya que al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una homogeneidad que no se da en la población. Imaginemos que estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son varones y los 5 últimos mujeres, si empleamos un muestreo aleatorio sistemático con k=10 siempre seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una representación de los dos sexos. TAMAÑO DE MUESTRA A la hora de determinar el tamaño que debe alcanzar una muestra, hay que tomar en cuenta varios factores: el tipo de muestreo, el parámetro a estimar, el error muestral admisible, la varianza poblacional y el nivel de confianza. Por ello, antes de presentar algunos casos sencillos de cálculo de tamaño de muestra delimitaremos estos factores. Para calcular el tamaño de una muestra se necesitan los siguientes factores:

1. El porcentaje de confianza con el cual se quiere generalizar los datos de

muestra hacia la población total.

2. El porcentaje de error que se pretende aceptar al momento de hacer la

generalización.

Page 48: ESTADISTICA I

48

3. El nivel de variabilidad que se calcula para comprobar la hipótesis.

La confianza o el porcentaje de confianza es el porcentaje de seguridad que existe para generalizar los resultados obtenidos. Esto quiere decir que un porcentaje del 100% equivale a decir que no existe ninguna duda para generalizar tales resultados, pero también implica estudiar a la totalidad de los casos de la población. Para evitar un costo muy alto, para el estudio, o debido a que en ocasiones llega a ser prácticamente imposible el estudio de todos los casos, entonces se busca un porcentaje de confianza menor. Comúnmente en las investigaciones sociales se busca un 95%. El error o porcentaje de error equivale a elegir una probabilidad de aceptar una hipótesis que sea falsa como si fuera verdadera, o a la inversa: rechazar la hipótesis verdadera por considerarla falsa. Al igual que en el caso de confianza, si se quiere eliminar el riesgo de error y considerando como 0% entonces, la muestra es del mimo tamaño que la población, por lo que conviene correr con cierto riesgo de equivocarse. Comúnmente se acepta entre 4% y 6% como error, tomando en cuenta de que no son complementarios la confianza y el error. NOTA. Para verificar los niveles de confianza será necesario utilizar la siguiente tabla: NIVEL DE CONFIANZA

99.7 %

99%

98%

96%

95.45%

95%

90% 80%

68.27%

50%

Z 3.00

2.58

2.33

2.05

2.00 1.96

1.645

1.28

1.00 0.6745

Para estimar el tamaño de muestra necesario para realizar una investigación se debe de aplicar la siguiente fórmula:

Donde: n= Tamaño de la muestra, z= Nivel de confianza, 2,58 para el 99% p= Variabilidad positiva q= 1- p Variabilidad negativa B o e = Precisión o error admitido .

Page 49: ESTADISTICA I

49

Ejemplo: Supóngase que por estudios anteriores, se tiene conocimiento de que la proporción de deportistas entre los estudiantes de una universidad es del 0.65. Se pregunta ¿Qué tamaño deberá tomarse la muestra si se quiere que el error no exceda un 15% y un grado de confianza del 99%? SOLUCIÓN: Tomemos en cuenta que se sabe que la proporciones de estudiantes que practica un deporte en esa universidad es del 0.65, se puede utilizar este valor como una estimación de la proporción verdadera, en cuyo caso nos valdremos de la fórmula anterior para calcular el tamaño de la muestra. n= Tamaño de la muestra, z= 99% = 2.58 p= 0.65 q= 1- 0.65= 0.35 B o e = 0.15

sustituyendo, tendremos: n = (2.58)2 (0.65) (0.35) = (6.6564)(0.2275) = 1.14331 = 67.3036 Esto quiere decir que la muestra será de 67.

(0.15)2 0.0225 0.0225 En el caso de que sí se conozca el tamaño de la población, cuando la variable crítica es dicotómica o binomial, para la estimación de proporciones poblacionales o universos considerados finitos, entonces el tamaño de la muestra se determinará con la siguiente fórmula: n = ( z )2 N ( p ) ( q ) . ésta fórmula se usa para N > 30 ( e )2 N + [ ( z )2 ( p ) ( q ) ] n = ( z )2 N ( p ) ( q ) . ésta fórmula se usa para N < 30 ( e )2 ( N – 1 ) + [ ( z )2 ( p ) ( q ) ]

Page 50: ESTADISTICA I

50

Donde: n= Tamaño de la muestra, z= Nivel de confianza, 2,58 para el 99% p= Variabilidad positiva q= 1- p Variabilidad negativa B o e = Precisión o error admitido N 0 Tamaño de la población Ejemplo: Supóngase que por estudios anteriores, se tiene conocimiento de que la proporción de deportistas entre los estudiantes de una universidad es del 0.65. Se pregunta ¿Qué tamaño deberá tomarse la muestra si se quiere que el error no exceda un 15% y un grado de confianza del 99%? Se sabe que la población estudiantil es de 8,000. SOLUCIÓN: Tomemos en cuenta que se sabe que la proporciones de estudiantes que practica un deporte en esa universidad es del 0.65, se puede utilizar este valor como una estimación de la proporción verdadera, en cuyo caso nos valdremos de la fórmula anterior para calcular el tamaño de la muestra. Recordemos que nuestra población es de 8,000 estudiantes, por lo tanto utilizaremos nuestra segunda fórmula: n= Tamaño de la muestra, z= 99% = 2.58 p= 0.65 q= 1- 0.65= 0.35 B o e = 0.15 N= 8,000 n = ( z )2 N ( p ) ( q ) . ésta fórmula se usa para N > 30 Sustituyendo: ( e )2 N + [ ( z )2 ( p ) ( q ) ] n = ( z )2 N ( p ) ( q ) = (2.58)2 (8000 ) (0.65) (0.35) = 1 2 , 1 1 4 . 6 4 8= 66.7421 ( e )2 N + [ ( z )2 ( p ) ( q ) ] (0.15)2 (8,000) + [ ( 2.58 )2 (0.65 ) (0.35 ) ] 180+1.514331 Esto quiere decir que nuestra muestra sería de 67 estudiantes.

Page 51: ESTADISTICA I

51

ACTIVIDADES DE APRENDIZAJE

Resolver los siguientes ejercicios (¿¿¿???), para determinar el tamaño de la muestra. La resolución de los ejercicios será entregada de manera impresa la siguiente sesión.

3.5 MUESTREO ESTRATIFICADO

El estudiante reconocerá y ejemplificará el muestreo estratificado.

Muestreo aleatorio estratificado: Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen reducir el error muestral para un tamaño dado de la muestra. Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad respecto a alguna característica (se puede estratificar, por ejemplo, según la profesión, el municipio de residencia, el sexo, el estado civil, etc.). Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarán parte de la muestra. En ocasiones las dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la población. (Tamaño geográfico, sexos, edades,...). La distribución de la muestra en función de los diferentes estratos se denomina afijación, y puede ser de diferentes tipos: Afijación Simple: A cada estrato le corresponde igual número de elementos muéstrales. Afijación Proporcional: La distribución se hace de acuerdo con el peso (tamaño) de la población en cada estrato. Afijación Óptima: Se tiene en cuenta la previsible dispersión de los resultados, de modo que se considera la proporción y la desviación típica. Tiene poca aplicación ya que no se suele conocer la desviación.

Page 52: ESTADISTICA I

52

ACTIVIDADES DE APRENDIZAJE

Basándose en la bibliografía sugerida, realizar un análisis en una cuartilla en el que por medio de ejemplos se explique qué es el muestreo estratificado. Se entregará de manera impresa la siguiente sesión.

3.6 MUESTREO POR CONGLOMERADOS

El estudiante conocerá y ejemplificará el muestreo por conglomerados. Muestreo aleatorio por conglomerados: Los métodos presentados hasta ahora están pensados para seleccionar directamente los elementos de la población, es decir, que las unidades muéstrales son los elementos de la población. En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la población que forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias, los departamentos universitarios, una caja de determinado producto, etc., son conglomerados naturales. En otras ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo, las urnas electorales. Cuando los conglomerados son áreas geográficas suele hablarse de "muestreo por áreas". El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto número de conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en investigar después todos los elementos pertenecientes a los conglomerados elegidos.

Page 53: ESTADISTICA I

53

Page 54: ESTADISTICA I

54

ACTIVIDADES DE APRENDIZAJE

Basándose en el estudio de la bibliografía sugerida, realizar un análisis en una cuartilla en el que se explique por medio de ejemplos en qué consiste el muestreo por conglomerados.

3.7 OTROS DISEÑOS Y PROCEDIMIENTOS DE MUESTREO. JUICIO Y

CONVENIENCIA

El estudiante describirá el muestreo de juicio y conveniencia. Muestreo de juicio

Una muestra es llamada muestra de juicio cuando sus elementos son seleccionados mediante juicio personal. La persona que selecciona los elementos de la muestra, usualmente es un experto en la medida dada. Una muestra de juicio es llamada una muestra probabilística, puesto que este método está basado en los puntos de vista subjetivos de una persona y la teoría de la probabilidad no puede ser empleada para medir el error de muestreo, Las principales ventajas de una muestra de juicio son la facilidad de obtenerla y que el costo usualmente es bajo. Muestreo por conveniencia

Una muestra aleatoria simple es seleccionada de tal manera que cada muestra posible del mismo tamaño tiene igual probabilidad de ser seleccionada de la población. Para obtener una muestra aleatoria simple, cada elemento en la población tenga la misma probabilidad de ser seleccionado, el plan de muestreo puede no conducir a una muestra aleatoria simple. Por conveniencia, este método pude ser reemplazado por una tabla de números aleatorios. Cuando una población es infinita, es obvio que la tarea de numerar cada elemento de la población es infinita, es obvio que la tarea de numerar cada elemento de la población es imposible. Por lo tanto, ciertas modificaciones del muestreo aleatorio simple son necesarias. Los tipos más comunes de muestreo aleatorio modificado son sistemáticos, estratificados y de conglomerados.

Page 55: ESTADISTICA I

55

ACTIVIDADES DE APRENDIZAJE

Basándose en el estudio de la bibliografía sugerida, realizar un análisis en el que se explique por medio de ejemplos en qué consiste el muestreo por juicio y conveniencia.

3.8 ERROR DE MUESTREO Y DE LA MUESTRA

El estudiante describirá el error de muestreo y de la muestra. Al momento de recopilar los datos que serán procesados se es susceptible de cometer errores así como durante los cómputos de los mismos. No obstante, hay otros errores que no tienen nada que ver con la digitación y que no son tan fácilmente identificables. Algunos de estos errores son: Sesgo: Es imposible ser completamente objetivo o no tener ideas

preconcebidas antes de comenzar a estudiar un problema, y existen muchas maneras en que una perspectiva o estado mental pueda influir en la recopilación y en el análisis de la información. En estos casos se dice que hay un sesgo cuando el individuo da mayor peso a los datos que apoyan su opinión que a aquellos que la contradicen. Un caso extremo de sesgo sería la situación donde primero se toma una decisión y después se utiliza el análisis estadístico para justificar la decisión ya tomada.

Datos no comparables: el establecer comparaciones es una de las partes más importantes del análisis estadístico, pero es extremadamente importante que tales comparaciones se hagan entre datos que sean comparables.

Proyección descuidada de tendencias: la proyección simplista de tendencias pasadas hacia el futuro es uno de los errores que más ha desacreditado el uso del análisis estadístico.

Muestreo Incorrecto: en la mayoría de los estudios sucede que el volumen de

información disponible es tan inmenso que se hace necesario estudiar muestras, para derivar conclusiones acerca de la población a que pertenece la muestra. Si la muestra se selecciona correctamente, tendrá básicamente las

Page 56: ESTADISTICA I

56

mismas propiedades que la población de la cual fue extraída; pero si el muestreo se realiza incorrectamente, entonces puede suceder que los resultados no signifiquen nada

ACTIVIDADES DE APRENDIZAJE

Basándose en el estudio de la bibliografía sugerida, realizar un análisis por medio de ejemplos en el que se exponga qué son los errores de muestreo y de la muestra. Se entregará de manera impresa la siguiente sesión.

Page 57: ESTADISTICA I

57

INSTRUCCIONES: Lea detenidamente los siguientes conceptos y subraye la respuesta a la que corresponda dicho concepto

1) Total de observaciones, concebibles en un fenómeno determinado.

A) Muestreo

B) Población

C) Muestreo aleatorio simple

D) Muestreo aleatorio estratificado

2) Ciencia cuyo objetivo es reunir información cuantitativa concerniente a individuos o grupos, series de hechos, etc. Y deducir de ello gracias al análisis de estos datos unos significados.

A) Estadística

B) Estadística Inferencial

C) Estadística Descriptiva

D) Método estadístico

INSTRUCCIONES: Lea detenidamente y conteste en los espacios en blanco la respuesta. 1. El _________________________________ tiene los siguientes pasos: definición

de problema, recopilación de la información, obtención de la información, clasificación, presentación y análisis de información.

2. Se dice que hay un ______________ cuando el individuo da mayor peso a los datos que apoyan su opinión que a aquellos que la contradicen.

3. Los _____________________________________ son resúmenes de la información de la muestra que nos "determinan" la estructura de la muestra.

Page 58: ESTADISTICA I

58

INSTRUCCIONES: Lea detenidamente y anote dentro del paréntesis “v” si el enunciado es verdadero y “f” si en falso. (recuerde que la forma de evaluar esta sección es aciertos menos errores).

1. La estadística se divide en estadística descriptiva e inferencial.

( )

2. La estadística es la ciencia que tiene por objeto aplicar las leyes de la cantidad a los hechos sociales para medir su intensidad, deducir las leyes que los rigen y hacer su predicción próxima, apoyándose en el uso de gráficos.

( )

3. Es la fórmula para calcular el tamaño de la muestra cuando se conoce la población

( )

4. La muestra es una parte o proporción del total de las observaciones.

( )

5. La estadística inferencial comprende cualquier actividad relacionada con los datos y está diseñada para resumir los mismos sin factores pertinentes adicionales.

( )

6. Una muestra es llamada muestra de juicio cuando sus elementos son seleccionados mediante juicio personal.

( )

Page 59: ESTADISTICA I

59

UNIDAD 4 ORGANIZACIÓN DE DATOS

El estudiante comprenderá analizará y ejecutará el tipo de procedimientos para la organización y distribución de datos. Temario:

4. ORGANIZACIÓN DE DATOS

4.1 ANÁLISIS EXPLORATORIO DE DATOS: DIAGRAMA DE TALLOS Y HOJAS

4.2 ESCALAS DE MEDICIÓN: NOMINAL, ORDINAL, DE INTERVALO Y DE RAZÓN

4.3 TABLAS DE FRECUENCIA PARA VARIABLES DISCRETAS Y CONTINUAS

4.4 INTERVALO DE CLASE Y LÍMITES DE CLASE 4.5 ANCHURA DE INTERVALO DE CLASE 4.6 MARCA DE CLASE 4.7 DISTRIBUCIÓN DE FRECUENCIA RELATIVA Y ACUMULADA PARA

VARIABLES DISTRETAS Y CONTINUAS

Page 60: ESTADISTICA I

60

MAPA CONCEPTUAL ORGANIZACIÓN DE DATOS

4. ORGANIZACIÓN DE DATOS

4.1 ANÁLISIS EXPLORATORIO DE DATOS: DIAGRAMA

DE TALLOS Y HOJAS

4.2 ESCALAS DE MEDICIÓN: NOMINAL,

ORDINAL, DE INTERVALO Y DE

RAZÓN

4.4 INTERVALO DE CLASE Y LÍMITES DE

CLASE

4.3 TABLAS DE FRECUENCIA PARA

VARIABLES DISCRETAS Y CONTINUAS

4.5 ANCHURA DE INTERVALO DE

CLASE

4.6 MARCA DE CLASE

4.7 DISTRIBUCIÓN DE FRECUENCIA RELATIVA Y

ACUMULADA PARA VARIABLES DISTRETAS Y

CONTINUAS

Page 61: ESTADISTICA I

61

INTRODUCCIÓN En esta cuarta etapa, se pretende mostrar la forma adecuada de organizar los datos que ha arrojado una investigación, para ello será necesario diseñar diagramas de tallo y hoja, conocer las diferentes escalas de medición, realizar tablas de distribución de frecuencia y elaborar gráficos.

Page 62: ESTADISTICA I

62

4. ORGANIZACIÓN DE DATOS

4.1 ANÁLISIS EXPLORATORIO DE DATOS: DIAGRAMA DE TALLOS Y HOJAS

El estudiante conocerá el diagrama de tallo y hojas, y lo usará para ordenar los datos de una investigación.

Una técnica de recuento y ordenación de datos la constituye los diagramas de Tallos y Hojas. Un diagrama donde cada valor de datos es dividido en una "hoja" (normalmente el último dígito) y un "tallo" (los otros dígitos). Por ejemplo "31" sería dividido en "3" (tallo/ decena) y "1" (hoja/ unidad). Los valores del "tallo" se escriben hacia abajo (vertical) y los valores "hoja" van a la derecha (horizontal) del los valores tallo. El "tallo" es usado para agrupar los puntajes y cada "hoja" indica los puntajes individuales dentro de cada grupo. EJEMPLO: Supongamos la siguiente distribución de frecuencias 36 25 37 24 39 20 36 45 31 31 39 24 29 23 41 40 33 24 34 40 que representan la edad de un colectivo de N = 20 personas y que vamos a representar mediante un diagrama de Tallos y Hojas. Comenzamos seleccionando los tallos que en nuestro caso son las cifras de decenas, es decir 3, 2, 4, que reordenadas son 2, 3 y 4. A continuación efectuamos un recuento y vamos «añadiendo» cada hoja a su tallo

Por último reordenamos las hojas y hemos terminado el diagrama

Page 63: ESTADISTICA I

63

Los expertos dirán que dicha representación es un histograma y, en efecto, así es. Los diagramas de Tallos y Hojas además de ser fáciles de elaborar, presentan más información que los histogramas, como veremos más adelante. Existe también el diagrama de doble tallo o tronco y hojas. En esta gráfica duplicamos el número de posiciones del tronco dividiendo por la mitad el intervalo que cubre a cada decena. Con los mismos datos estableceremos el diagrama doble tallo y hoja: Tallo Hojas

2 0 3 4 4 4 2 5 9 3 1 1 3 4 3 6 6 7 9 9 4 0 0 1 4 5 Podemos comparar, mediante estos diagramas, dos distribuciones. Supongamos una segunda distribución 35 38 32 28 30 29 27 19 48 40 39 24 24 34 26 41 29 48 28 22 De ella podemos elaborar sus diagramas de Tallos y Hojas y compararla con la anterior.

Page 64: ESTADISTICA I

64

ACTIVIDADES DE APRENDIZAJE

El estudiante elaborará diversos ejercicios (semejantes al que se presenta) de diagrama de tallo y hoja, en base a la bibliografía sugerida.

La siguiente base de datos representa el tiempo (en minutos) que tarda la realización de un determinado examen clínico. Construya un diagrama de tallo y hojas.

1 43 16 28 27 25 26 25 22 26

47 40 14 36 23 32 15 31 19 25

21 7 28 49 31 22 24 26 41 45

38 48 36 22 29 12 32 11 34 42

55 27 6 23 42 21 58 23 35 13

4.2 ESCALAS DE MEDICIÓN: NOMINAL, ORDINAL, DE INTERVALO Y DE RAZÓN

El estudiante reconocerá y distinguirá las escalas de medición. Para realizar un correcto análisis de los datos es fundamental conocer de antemano el tipo de medida de la variable, ya que para cada una de ellas se utiliza diferentes estadísticos. La clasificación más convencional de las escalas de medida las divide en cuatro grupos denominados Nominal, Ordinal, Intervalo y Razón.

1. NOMINAL Son variables numéricas cuyos valores representan una categoría o identifican un grupo de pertenencia. Este tipo de variables sólo nos permite establecer relaciones de igualdad/desigualdad entre los elementos de la variable. La asignación de los valores se realiza en forma aleatoria por lo que NO cuenta con un orden lógico. Un ejemplo de este tipo de variables es el Género ya que nosotros podemos asignarle un valor a los (A) hombres y otro diferente a las mujeres (B) y por más machistas o feministas que seamos no podríamos establecer que uno es mayor que el otro. O Bien se clasificará a una muestra de personas de acuerdo a la religión que profesan: (1) Cristianos, (2) Judíos, (3) Musulmanes, (4) Otros y (5) Sin creencia alguna.

Page 65: ESTADISTICA I

65

A B

2. ORDINAL Son variables numéricas cuyos valores representan una categoría o identifican un grupo de pertenencia contando con un orden lógico. Este tipo de variables nos permite establecer relaciones de igualdad/desigualdad y a su vez, podemos identificar si una categoría es mayor o menor que otra. Un ejemplo de variable ordinal es el nivel de educación, ya que se puede establecer que una persona con título de Postgrado tiene un nivel de educación superior al de una persona con título de bachiller. En las variables ordinales no se puede determinar la distancia entre sus categorías, ya que no es cuantificable o medible.

3. INTERVALO Son variables numéricas cuyos valores representan magnitudes y la distancia entre los números de su escala es igual. Con este tipo de variables podemos realizar comparaciones de igualdad/desigualdad, establecer un orden dentro de sus valores y medir la distancia existente entre cada valor de la escala. Las variables de intervalo carecen de un cero absoluto, por lo que operaciones como la multiplicación y la división no son realizables. Un ejemplo de este tipo de variables es la temperatura, ya que podemos decir que la distancia entre 10 y 12 grados es la misma que la existente entre 15 y 17 grados. Lo que no podemos establecer es que una temperatura de 10 grados equivale a la mitad de una temperatura de 20 grados.

Page 66: ESTADISTICA I

66

4. RAZÓN Las variables de razón poseen las mismas características de las variables de intervalo, con la diferencia que cuentan con un cero absoluto; es decir, el valor cero (0) representa la ausencia total de medida, por lo que se puede realizar cualquier operación Aritmética (Suma, Resta, Multiplicación y División) y Lógica (Comparación y ordenamiento). Este tipo de variables permiten el nivel más alto de medición. Las variables altura, peso, distancia o el salario, son algunos ejemplos de este tipo de escala de medida. Debido a la similitud existente entre las escalas de intervalo y de razón, SPSS las ha reunido en un nuevo tipo de medida exclusivo del programa, al cual denomina Escala. Las variables de escala son para SPSS todas aquellas variables cuyos valores representan magnitudes, ya sea que cuenten con un cero (0) absoluto o no. Teniendo esto en cuenta discutiremos a continuación los diferentes procedimientos estadísticos que se pueden utilizar de acuerdo al tipo de medida de cada variable.

No todos los procedimientos estadísticos son realmente útiles para la totalidad de los niveles de medida. Cada uno de los tipos de medida posee ciertas características, las cuales debemos tener en cuenta en el momento de realizar un análisis descriptivo. En la tabla encontrarás algunos de los procedimientos que resultan ventajosos en los análisis descriptivos de los diferentes niveles de medida. Es necesario aclarar que esta tabla es sólo una muestra de las medidas que se pueden emplear; en algunos textos de estadística aparecen tablas más amplias y detalladas de los procedimientos.

Page 67: ESTADISTICA I

67

TABLAS DE FRECUENCIA PARA VARIABLES DISCRETAS Y CONTINUAS

ACTIVIDADES DE APRENDIZAJE.

Reúnase en un equipo de 3 – 4 estudiantes y realicen lo siguiente:

De manera individual mencione para cada uno de los siguientes casos, que tipos de variables se están usando:

Page 68: ESTADISTICA I

68

a) Número de músculos de los animales vertebrados. b) Intención de voto.

c) Velocidad que, en un instante dado, llevan las motocicletas que circulan por las carreteras y calles de una gran ciudad española.

d) Talla de pantalones de los alumnos de tu centro. e) Tipos de zumos que prefieren los adolescentes. f) Temperatura mínima en tu ciudad cada día del año. g) Las marcas de los coches que circulan en España. h) Deporte practicado por los chicos y chicas de tu centro.

i) La duración de cada pila eléctrica producida por una empresa durante un semestre.

4.3 TABLAS DE FRECUENCIA PARA VARIABLES DISCRETAS Y CONTINUAS

El estudiante conocerá y usará las tablas de frecuencia para variables discretas y continuas. El principal objetivo de la estadística descriptiva es sintetizar conjuntos de datos mediante tablas o gráficos resumen, con el fin de poder identificar el comportamiento característico de un fenómeno y facilitar su análisis exhaustivo. Frecuencia Es el número de veces que se repite, es decir que aparece, el mismo dato estadístico en un conjunto de observaciones de una investigación determinada; la frecuencia se designa como: fi Distribución de frecuencia: Es una disposición tabular de datos estadísticos ordenados ascendente o descendentemente con la frecuencia (fi) de cada dato. Ejemplo: Los datos representan los años de servicio de 60 empleados de la empresa Mcperro. 10 9 3 5 4 5 6 7 8 9 10 8 4 8 6 3 8 10 7 10 8 3 5 7 8 6 10 9 7 8 5 3 8 7 8 10 8 10 8 7 7 9 8 7 6 5 7 8 8 9 8 10 7 6 7 8 6 7 6 10

Page 69: ESTADISTICA I

69

Procedimiento: Ordenar los datos de menor a mayor, elaborar cuadro de distribución de frecuencia. Ordena de mayor a menor, usaremos diagrama de tallo y hoja. DIAGRAMA TALLO Y HOJA 3 4 0 3333 4 2 0 44 5 5 0 55555 6 7 0 6666666 7 12 0 777777777777 8 16 0 8888888888888888 9 5 0 99999 10 9 1 0000000010 Años de Serv. Frecuencia Cualquier investigación que se emprenda puede conducir a la acumulación de valores cuantitativos y cuasi-cualitativos correspondientes a las diversas medidas efectuadas. Esta posibilidad, convierte a la estadística en una herramienta vital para el tratamiento de volúmenes de datos mediante tablas resúmenes conocidas como "Tablas de Frecuencia". Cuando los datos son agrupados, la interpretación resulta ser más sencilla. Tablas de Frecuencia: Tablas estadísticas que agrupan diversos valores de una variable, simplificando los datos. Anteriormente hemos señalado que la estadística, no se encarga del estudio de un hecho aislado, sino que tienen por objeto de los colectivos. Pues bien cuando se realiza una investigación se obtiene una masa de datos que deben ser organizados para disponerlos en un orden, arreglo o secuencia lógica, con el fin de facilitar el análisis de los mismos esta colección de datos numéricos obtenidos de la observación, que se clasifican y ordenan según un determinado criterio, se denominan "series estadísticas", también conocidas como "distribución estadística". Clasificación de las series estadísticas:

1. Series temporales o cronológicas; estas se definen como una masa o conjunto de datos producto de la observación de un fenómeno individual o colectivo, cuantificable en sucesivos instantes o periodos de tiempo. Ejemplo:

Page 70: ESTADISTICA I

70

Producción nacional de madera en Rola en m³ Rollizos (periodo 1993 – 1998)

Años Producción (m³ rollizos)

1993 1.161.061,454

1994 981.668,626

1995 1.087.926,142

1996 1.440.306,250

1997 1.618.075,000

1998 1.027.177,876

Fuente: MARN – D.G.S Recurso Forestal. 1999 CVG – PROFORCA

Es importante resaltar que cuando se trata de series temporales o cronológicas, se debe especificar el instante o el periodo de tiempo a los que se refiere los caracteres en estudio. Cuando nos referimos a instantes de tiempo, por el hecho de que la observación se hace en un momento específico de tiempo. Ejemplo: Plantaciones forestales ejecutadas a nivel nacional, al 31 de diciembre de cada año entre 1997 – 2001.

2. Series atemporales; cuando las observaciones de un fenómeno se hacen referidas al mismo instante o intervalo de tiempo, nos encontramos ente una serie atemporal. Aquí el tiempo no va incluido a cada observación, puesto que es el mismo tiempo para todas ellas. Este tipo de observación proporciona una "visión instantánea" de los fenómenos o caracteres de los componentes del colectivo en estudio.

Ejemplo: Las notas de las participantes en la materia de estadística I en el periodo académico que terminó en septiembre del 2001.

3. Series de frecuencia; cuando realizamos un estudio de cada uno de los elementos que componen la población o muestra bajo análisis, observamos que en general, hay un número de veces en que aparece repetido un mismo valor de una variable, o bien repeticiones de la misma modalidad de un atributo. Este número de repeticiones de un resultado, recibe el nombre de frecuencia absoluta o simplemente frecuencia.

Page 71: ESTADISTICA I

71

El procedimiento mediante el cual se realiza el conteo, para así determinar el número de veces que cada dato se repite, recibe el nombre de tabulación. Ejemplo: Consideremos las edades de 20 niños, pertenecientes al Preescolar Blanca de Pérez, ubicado en la urbanización Monseñor Padilla

5 6 5 4 3

6 3 4 5 4

3 4 6 5 3

4 3 6 4 6

Tabulando los datos tenemos Niños distribuidos por edades:

Edad (variable) Nº de niños (Frecuencia)

3 5

4 6

5 4

6 5

Total = 20

Al agrupar los resultados de las observaciones en término de las veces que éstos se repiten, da lugar a las llamadas "series de frecuencias" o distribuciones de frecuencias; las cuales se dividen a su vez en series de frecuencia cualitativas y cuantitativas, según que los caracteres de estudio se refieran a atributos o variables respectivamente.

4. Series de frecuencia acumulativa: son comúnmente llamadas series de frecuencia de atributos o caracteres cualitativos y las formas de representar un atributo recibe el nombre de modalidades. Cuando se observan y se obtienen los elementos que deseamos estudiar con respecto a un carácter de tipo cualitativo y se procede a agruparlos según las distintas modalidades que toma el atributo, "frecuencia cualitativa".

Page 72: ESTADISTICA I

72

Ejemplo: Agrupamos los resultados obtenidos al observar los 35 estudiantes de la materia estadística I, respecto a su estado civil.

Estudiantes de la materia Estadísticas I, clasificados por su estado civil.

Estado civil Nº de Estudiantes (frecuencia)

Solteros 18

Casados 12

Viudos 1

Divorciados 4

5. Series de frecuencias cualitativas: es el resultado del agrupamiento de los valores que se repiten (frecuencia) al ser observada una variable. Ejemplo: Tomamos nuevamente los 35 estudiantes de la materia estadística I, respecto a su edad.

Edad (en años) Nº de estudiantes (frecuencia)

19 12

20 2

25 8

28 6

32 4

42 3

Total = 35

6. Series especiales o geográficas: es aquella que está formada por los valores que toman una variable en función del espacio geográfico.

Los cuadros estadísticos están compuestos por las siguientes partes:

1. Título

2. Encabezado

3. Concepto o columnas

4. Cuerpo

Page 73: ESTADISTICA I

73

5. Nota de encabezado

6. Nota de pie

7. Fuente de datos

ACTIVIDADES DE APRENDIZAJE

El estudiante realizará ejercicios para distinguir las variables discretas y continuas de la bibliografía recomendada.

El gobierno desea averiguar si el número medio de hijos por familia ha descendido respecto de la década anterior. Para ello ha encuestado a 50 familias respecto al número de hijos, y ha obtenido los siguientes datos:

2 4 2 3 1 2 4 2 3 0 2 2 2 3 2 6 2 3 2 2 3 2 3 3 4

3 3 4 5 2 0 3 2 1 2 3 2 2 3 1 4 2 3 2 4 3 3 2 2 1

Se pide:

a) ¿Cuál es la población objeto de estudio?

b) ¿Qué variable estamos estudiando?

c) ¿Qué tipo de variable es?

d) Construir la tabla de frecuencias

e) ¿Cuál es el número de familias que tiene como máximo 2 hijos?

4.4 INTERVALO DE CLASE Y LÍMITES DE CLASE

El estudiante conocerá y aplicará el rango de clase y límites de clase. RANGO El rango de clase, conocido también como amplitud de clase o recorrido de clase, es el límite dentro de los cuales están comprendidos los valores de la serie de datos, en

Page 74: ESTADISTICA I

74

otras palabras, es el número de diferentes valores que toma la variable en un estudio de investigación dada. Es la diferencia entre el valor máximo de una variable y el valor mínimo que ésta toma en una investigación cualquiera. El rango de una distribución de frecuencia se designa con la letra R. UM normalmente es igual a 1, y se obtiene al obtener la diferencia entre 2 o más datos consecutivos de la serie de valores, sin embargo puede ser menor a la unidad.

EJEMPLO A B C

OBSERVACIONES 6, 9 , 11, 12, 19, 20, 26, 27, 32,

33, 39

0.5, 0.6, 0.10, 0.11, 0.19, 0.21,

0.22

6, 9, 21, 33, 39, 48

UNIDAD DE MEDIDA

1 0.1 3

Para calcular el rango se utiliza la siguiente fórmula:

R= XM - Xm + UM Dónde: R= Rango XM =Dato mayor Xm = Dato menor UM= Unidad de Medida, que por lo general es la unidad. Con los siguientes datos, que corresponden a los años de servicio de 60 empleados de la empresa “X”, calcule el rango de la distribución de la frecuencia:

3 5 4 5 6 7 8 9 10 8

4 8 6 3 8 10 7 10 9 10

8 3 5 7 8 6 10 9 7 8

5 3 8 7 8 10 8 10 8 7

7 9 8 7 6 5 7 8 8 9

8 10 7 6 7 8 6 7 6 10

R= XM - Xm + UM SUSTITUYENDO R= 10 – 3 + 1 = 8, ENTONCES EL RANGO ES IGUAL A 8.

ANCHURA O INTERVALO DE CLASE Son las divisiones o categorías en las cuales se agrupa un conjunto de datos ordenados con características comunes. En otras palabras, son fraccionamientos del rango o recorrido de la serie de valores para reunir los datos que presentan valores

Page 75: ESTADISTICA I

75

comprendidos entre los dos límites (límite Superior de la Clase y Límite Inferior de la Clase). LÍMITE O FORNTERA DE CLASE Las clases de una distribución de frecuencia indican las cotas o fronteras de cada clase en la distribución, las clases están formadas por dos números denominados límites aparentes (LA), ejemplo 32 – 37 ; el primero de estos dos (32) se llama límite inferior aparente (LIA) y el segundo (37) se le denomina límite superior aparente (LSA). LÍMITES REALES Los límites reales o verdaderos de una clase son aquéllos que se obtienen restándole media unidad de medida al límite aparente inferior de una clase y sumándole media unidad de medida al límite superior aparente de las diferentes clases, es decir, son valores no observables de la variable en estudio, puesto que no lo registra la unidad utilizada. Y se denominarán límite inferior real (LIR) y límite superior real (LSR). En el ejemplo anterior, los límites reales aparentes quedarían:

CLASE LIA LSA LIR LSR

32-37 32 37 31.5 37.5

ACTIVIDADES DE APRENDIZAJE

El estudiante realizará ejercicios para calcular el rango, identificar los limites aparentes superior e inferior, así como calcular los límites superior real y límite inferior real de la bibliografía recomendada

Calcule con los siguientes datos el rango y los limites de clase real y aparente.

CLASE fi LIA LSA LIR LSR

5 – 7 5

8 – 10 10

11 – 13 15

14 – 16 18

17 – 19 11

20 – 22 5

Page 76: ESTADISTICA I

76

4.5 ANCHURA DE INTERVALO DE CLASE

El estudiante conocerá y calculará la anchura de intervalo de clase. TIPOS DE INTERVALOS DE CLASE CLASE DE IGUAL TAMAÑO Este tipo de clase es el más utilizado en los cálculos estadísticos; cuando todas las clases son del mismo tamaño, los cálculos relacionados con la distribución de frecuencia son simplificados grandemente. En términos generales, este tipo de distribución es el que se utiliza comúnmente en casi todas las investigaciones. Ejemplo:

CLASE fi

5 – 7 5

8 – 10 10

11 – 13 15

14 – 16 18

17 – 19 11

20 – 22 5

Totales 64

CLASE DESIGUAL DE TAMAÑO Los intervalos de clase son desiguales no son frecuentes en el análisis estadístico, la utilización de los mismos se debe evitar; sin embargo, en algunas investigaciones es indispensable su utilización; tal es el caso de las investigaciones que tienen como propósito particular analizar valores que varían en un amplio recorrido de la variable. Cuando se utiliza este tipo de clase de los intervalos de clase deberían ser incrementados de una forma ordenada, de ser posible. Este tipo de clases se utiliza algunas veces para reportar datos relacionados con valuaciones de activos o ingresos personales. Ejemplo:

CLASE AMPLITUD

100 – 499 399

500 – 999 499

1000 – 4999 3999

5000 – 9999 4999

10000 – 24999 14999

25000 - 50000 25000

Page 77: ESTADISTICA I

77

CLASE ABIERTA Son aquellas en la que uno de sus dos los límites de clase no está definido numéricamente. Este tipo de clase se utiliza cuando las distribuciones poseen algunos datos u observaciones que son mucho mayores o mucho más pequeños que los demás y se quiere condensar en uno solo. En lo posible se debe tratar de evitar este tipo de clase ya que en estas condiciones no es posible definir el punto medio de la distribución, por lo cual se hace difícil la representación gráfica y en realizar otros cálculos con los datos que se presentan en los cuadros estadísticos. Sin embargo, existen investigaciones en donde la aplicación de las clases abiertas es conveniente, por cuanto, la existencia de valores de la serie de datos son mucho menores o mucho mayores que el resto de la serie. Ejemplo:

CLASE fi

Menos de 150,000 67 ?

150,000 – 239,000 36 194,500

340,000 – 429,000 10 384,500

430,000 – 519,000 8 474,500

520,000 – 609,000 7 564,500

610,000 – 699,000 8 654,500

700,000 – 789,000 7 744,500

790,000 – y más 7 ?

TOTALES 135

LA AMPLITUD DE CLASE, LONGITUD O ANCHO DE UNA CLASE Es el número de valores o variables que concurren a una clase determinada. La amplitud de clase se designa con las letras Ic. Existen diversos criterios para determinar la amplitud de clases, ante esa diversidad de criterios, se ha considerado que lo más importante es dar un ancho de longitud de clase a todos los intervalos de tal manera que respondan a la naturaleza de los datos y al objetivo que se persigue y esto se logra con la práctica. Existe una fórmula para determinar Ic y se expresa así:

Ic = R _

NC

Donde: Ic = Amplitud de clase R= Rango NC = Número de clases

Page 78: ESTADISTICA I

78

Con la fórmula anterior se puede determinar Ic, conociendo el rango y el número de clases. Cuando se tenga duda en determinar la amplitud de clase de una serie de valores, es de gran utilidad utilizar el método sugerido por Hebert, A. Sturges el cual establece que:

Ic = ____R_____________ 1 + 3.322 (log N)

Donde: Ic = Amplitud de clase R= Rango N = Número total de datos Nota: Normalmente el resultado final es un número fraccionario, el cual no es adecuado para la práctica, sin embargo, se puede aplicar la técnica de redondeo para convertirlo en un número entero. Nosotros utilizaremos el método de Sturges para determinar el Ic de una distribución de frecuencia de clase siempre y cuando el mismo sea aplicable. Ejemplo:

Sean los siguientes datos horas extras laboradas por obreros en un mes. Calcule el rango y el intervalo de clase 22 39 37 28 23 39 24 38 31 35 36 28 23 27 38 40 22 23 36 27 32 33 26 60 39 33 40 27 34 22 30 31 37 33 41 39 58 59 56 41 54 56 57 58 39 40 34 45 53 52 52 28 36 37 40 26 34 25 23 32 56 33 58 40 36 25 42 33 45 55 29 52 38 28 38 38 32 42 53 58 45 43 40 28 60 41 37 42 31 45 30 28 40 37 28 44 40 39 57 60 =100 DATOS R = XM – Xm + UM Ic = R . 1 + 3.322 (log n) R = 60 – 22 + 1 Ic = 39 . 1+3.322 (log 100) R = 38+1 Ic = 39 . 1+3.322(2) R = 39 Ic = 39 . 1+6.644 Ic = 39 . 7.644 Ic = 5.102040816 Por lo tanto, el ancho de la clase será de 5.

Page 79: ESTADISTICA I

79

ACTIVIDADES DE APRENDIZAJE

El estudiante realizará ejercicios para calcular el intervalo de clase de la bibliografía recomendada

Calcule con los siguientes datos el rango y el intervalo de clase.

1 43 16 28 27 25 26 25 22 26

47 40 14 36 23 32 15 31 19 25

21 7 28 49 31 22 24 26 41 45

38 48 36 22 29 12 32 11 34 42

55 27 6 23 42 21 58 23 35 13

4.6 MARCA DE CLASE

El estudiante conocerá y calculará la marca de clase de una serie de datos. Marca de clase: Es el punto medio de una clase y se obtiene sumando los límites inferiores (LIA) y superiores de una clase (LSA) y dividiendo el resultado entre dos. La marca de clase la denotaremos como MC MC = LIA + LSA 2 Donde: M C – Marca de clase LIA – Límite inferior aparente LSA – Límite superior aparente

Page 80: ESTADISTICA I

80

Ejemplo: De la siguientes tabla de obtenga la marca de clase

ACTIVIDADES DE APRENDIZAJE

El estudiante realizará ejercicios para calcular la marca de clase de la bibliografía recomendada

Calcule con los siguientes datos la marca de clase.

CLASE fi MC

5 – 7 5

8 – 10 10

11 – 13 15

14 – 16 18

17 – 19 11

20 – 22 5

CLASE fi (LIA + LSA )/2

MC

5 – 7 5 (5 + 7 )/2 6

8 – 10 10 (8 + 10 )/2

9

11 – 13 15 (11 + 13 )/2

12

14 – 16 18 (14 + 16 )/2

13

17 – 19 11 (17 + 19 )/2

18

20 – 22 5 (20 + 22 )/2

21

Totales 64

Page 81: ESTADISTICA I

81

4.7 DISTRIBUCIÓN DE FRECUENCIA RELATIVA Y ACUMULADA PARA VARIABLES DISTRETAS Y CONTINUAS

El estudiante conocerá y aplicará la frecuencia relativa y acumulada para variables discretas y continuas. Como vimos anteriormente, la frecuencia es el número de veces que se presenta cada valor de la variable. Frecuencia absoluta (fa o fi): Llamaremos así al número de repeticiones que presenta una observación. Se representa por ni.

F1 + F2 + F3 + …………….……FK = N

Frecuencia relativa (fr): Es la frecuencia absoluta dividida por el número total de datos, se suele expresar en tanto por uno, siendo su valor -iésimo

n

nf ii

La suma de todas las frecuencias relativas, siempre debe ser igual a la unida o 100%.

Frecuencia absoluta acumulada (faa): es la suma de los distintos valores de la frecuencia absoluta tomando como referencia un individuo dado. La última frecuencia absoluta acumulada es igual al nº de casos:

N1 = n1 N2 = n1+ n2

Nn = n1 + n2 + . . . . . . + nn-1 + nn=n

Frecuencia relativa acumulada (far), es el resultado de la suma de los distintos valores de la frecuencia relativa, el total de estos valores nos dará como resultado la unidad o el 100%

H1 = F1/n H2 = F2/n ----------------------------- Hk = Fk/n

Page 82: ESTADISTICA I

82

DISTRIBUCIÓN DE FRECUENCIAS PARA VALORES NO AGRUPADOS

Ejemplo: En la tabla adjunta se da la distribución de los 500 hogares de un barrio según el número de sus miembros.

Page 83: ESTADISTICA I

83

DISTRIBUCIÓN DE FRECUENCIAS PARA VALORES NO AGRUPADOS

Ejemplo 2. La distribución del presupuesto semanal en alimentación de un conjunto de 265 familias expresado en euros es el que figura en la tabla siguiente:

Page 84: ESTADISTICA I

84

En este caso se trata de una variable continua con sus valores agrupados en intervalos cuya amplitud es variable. Este tipo de intervalos permite tratar de forma distinta a los valores de la variable, según donde se localice la mayor parte de las observaciones. En este sentido la amplitud de los intervalos es inversa a la frecuencia de los mismos. Esta forma de proceder evita que la mayor parte de las observaciones se concentre en un solo intervalo o en unos pocos. Frecuencia acumulada menor que (faa < que). Son aquellas frecuencias acumuladas que se forman con el fa o fi de los valores más pequeños de las variables de cada clase hacia los valores mayores de la misma. Para graficar los polígonos de frecuencias acumuladas (ojiva) fa <que, se utilizan como variables independientes los límites superiores de cada clase y como ordenada los diferentes valores de la fa <que. Frecuencia acumulada mayor que (faa > que). Son aquellas frecuencias acumuladas que se forman con el fa o fi de los valores mayores de las variables de cada clase hacia los valores menores de la misma. Para graficar los polígonos de frecuencias acumuladas (ojiva) fa >que, se utilizan como variables independientes los límites inferiores de cada clase y como ordenada los diferentes valores de la fa >que en el plano cartesiano. Ejemplo:

CLASE fi (faa < que)

(faa > que)

5 – 7 5 5 64

8 – 10 10 15 59

11 – 13 15 30 49

14 – 16 18 48 34

17 – 19 11 59 16

20 – 22 5 64 5

Totales 64

Page 85: ESTADISTICA I

85

Existe una variación de la Frecuencia acumulada mayor y menor que y puede utilizarse la frecuencia relativa. Ejemplo:

CLASE fi fr far (faa <

que)

(faa >

que)

(far < que)

(far > que)

5 – 7 5 7.81% 7.81% 5 64 7.81% 100%

8 – 10 10 15.63% 23.44% 15 59 23.44% 92.19%

11 – 13 15 23.44% 46.88% 30 49 46.88% 76.56%

14 – 16 18 28.13% 75.01% 48 34 75.01% 53.12%

17 – 19 11 17.18% 92.19% 59 16 92.19% 24.99%

20 – 22 5 7.81% 100% 64 5 100% 7.81%

Totales 64 100%

ACTIVIDADES DE APRENDIZAJE

El estudiante realizará ejercicios para calcular la frecuencia acumulada, frecuencia relativa, frecuencia acumulada relativa, frecuencia acumulada < que, frecuencia acumulada > que, frecuencia acumulada relativa < que y frecuencia acumulada relativa > que de la bibliografía propuesta.

Calcule con los siguientes datos las frecuencias vistas en este capítulo:

En una investigación fueron consultados 350 matrimonios relativamente jóvenes sobre la edad de la esposa, se confecciona la siguiente tabla

CLASE fi fr far (faa < que)

(faa > que) (far < que)

(far > que)

15 – 19

23

20 – 24

28

25 – 29

76

30 – 34

54

35 – 39

60

40 - 44

42

45 – 49

67

Page 86: ESTADISTICA I

86

1. INSTRUCCIONES: Lea detenidamente y anote dentro del paréntesis “v” si el

enunciado es verdadero y “f” si en falso. (recuerde que la forma de evaluar esta sección es aciertos menos errores).

1. El rango es la diferencia entre el valor máximo de una

variable y el valor mínimo que esta toma en una investigación cualquiera.

( )

2. La frecuencia relativa es la suma sucesiva de cada una de las clases de fr.

( )

3. El límite de clase es la división o categoría en la cual se agrupa un conjunto de datos ordenados con características comunes.

( )

2. INSTRUCCIONES: Lea detenidamente los siguientes conceptos y subraye la

respuesta a la que corresponda dicho concepto

1) Número de veces que se repite el mismo dato estadístico en un conjunto de observaciones de una investigación determinada.

A) Frecuencia

B) Frecuencia Relativa

C) Frecuencia Absoluta

D) Frecuencia Acumulada

3. INSTRUCCIONES: Lea detenidamente y conteste en los espacios en blanco la

respuesta correcta.

1. La ______________________________es el punto medio de una clase y se determina LIA + LSA / 2.

2. La __________________________________ se obtiene de las sumas sucesivas de la frecuencia de cada una de las clases.

3. Para obtener el __________________________ real se le suma 0.5 al ____________________________ aparente de la clase.

Page 87: ESTADISTICA I

87

UNIDAD 5 PRESENTACIÓN DE DATOS: GRÁFICAS Y CURVAS

El estudiante determinará la gráfica que mejor represente sus datos organizados. Temario: 5. PRESENTACIÓN DE DATOS: GRÁFICAS Y CURVAS

5.1 GRÁFICA PARA DATOS CUALITATIVOS: GRÁFICA DE BARRAS Y DE PASTEL

5.2 GRÁFICA PARA DATOS CUANTITATIVOS: HISTOGRAMAS, POLÍGONOS DE FRECUENCIA Y OJIVAS

5.3 GRÁFICAS DE LÍNEAS DE SERIES DE TIEMPO 5.4 DIAGRAMAS DE CAJA

Page 88: ESTADISTICA I

88

MAPA CONCEPTUAL PRESENTACIÓN DE DATOS: GRÁFICAS Y CURVAS

5. PRESENTACIÓN DE DATOS: GRÁFICAS Y

CURVAS

5.1 GRÁFICA PARA DATOS

CUALITATIVOS: GRÁFICA DE

BARRAS Y DE PASTEL

5.2 GRÁFICA PARA DATOS

CUANTITATIVOS: HISTOGRAMAS, POLÍGONOS DE FRECUENCIA Y

OJIVAS

5.3 GRÁFICAS DE LÍNEAS DE SERIES

DE TIEMPO

5.4 DIAGRAMAS DE CAJA

Page 89: ESTADISTICA I

89

INTRODUCCIÓN En esta unidad podremos apreciar los principales medios a través de los cuales podremos llevar una dirección efectiva dentro de una organización

Page 90: ESTADISTICA I

90

5. PRESENTACIÓN DE DATOS: GRÁFICAS Y CURVAS

5.1 GRÁFICA PARA DATOS CUALITATIVOS: GRÁFICA DE BARRAS Y DE PASTEL

El estudiante diferenciará y aplicará las gráficas para datos cualitativos (barras y pastel) GRAFICA DE BARRAS El tipo de representación gráfica depende en gran medida de la naturaleza del carácter de los elementos de la población con el que se esté trabajando. Así, si se trata de una variable se recurrirá al diagrama de barras en el caso de que sea discreta y sus valores no estén agrupados. Este diagrama se realiza haciendo uso de un sistema cartesiano en el que sobre el eje de abscisas se ponen los valores de la variable y sobre el de ordenadas las frecuencias, tanto absolutas (ni) como relativas (fi). Un ejemplo de este tipo de gráfico es el que se da en la Figura 1, donde se han representado los datos. Ejemplo 1. Hay que señalar que la anchura de las barras será, en cualquier caso, una cuestión de estética, pues la misma no hace alusión, en ningún caso, ni al valor de la variable ni la frecuencia del mismo. Dicho de otra forma, la superficie de la misma es independiente de la magnitud que se representa. En este sentido tan válido es el diagrama dado en la Figura 1 como el de la Figura 2. Tanto en la Figura 1 como en la Figura 2 se ha representado las frecuencias absolutas. Pero estas figuras no habrían cambiado para nada si en su lugar si se hubiera trabajado con las frecuencias relativas. La única diferencia es que el eje de ordenadas tomaría como valor máximo la unidad, pero la proporción entre las barras no cambia de un gráfico a otro.

Page 91: ESTADISTICA I

91

Page 92: ESTADISTICA I

92

Otro ejemplo de su representación, en forma horizontal:

GRAFICA CIRCULAR O DE PASTEL, TARTA O PAY La gráfica de pastel (también llamado gráfico de sectores es una gráfica que consiste en representar por medio de una circunferencia los datos de una investigación. Por lo que se dividen los sectores en variables de estudio. Esta gráfica se dividirá en tantos sectores como variables tenga la investigación en estudio; la magnitud de cada sector se encontrará en relación directa con la magnitud de la variable a representar con 360°. En general los datos que se representan por medio de esta diagrama son parte componentes de un total. Para su elaboración se procede de la siguiente forma: se considera la circunferencia como representación total de la investigación de estudio, por tal motivo, se dividirá la superficie en las secciones que tenga la investigación, las superficies serán proporcionales a la magnitud que corresponda a cada una de ellas.

Page 93: ESTADISTICA I

93

EJEMPLO: En general, son muy variados los estilos para las gráficas circulas, de pay, de pastel o de tarta. EJEMPLOS:

Page 94: ESTADISTICA I

94

ACTIVIDADES DE APRENDIZAJE

El estudiante realizará ejercicios para elaborara gráficas de pastel y de barras, de la bibliografía recomendada.

Elabore una gráfica de pay y una de barras con los siguientes datos obtenidos en una investigación fueron consultados 350 matrimonios acerca de los lugares que prefieren visitar con sus hijos en verano y, se confeccionó la siguiente tabla:

5.2 GRÁFICA PARA DATOS CUANTITATIVOS: HISTOGRAMAS, POLÍGONOS DE FRECUENCIA Y OJIVAS

El estudiante reconocerá y representará gráficamente los datos cuantitativos en histogramas, polígonos de frecuencia y ojivas.

Cuando la naturaleza de la variable sea continua, entonces la representación gráfica más adecuada es el histograma o también conocido como histograma de frecuencias. Este tipo de gráficos podría utilizarse también en los casos de variables discretas con valores agrupados, aunque no resulta aconsejable hacer uso de los histogramas para variables discretas por los problemas que conlleva asimilar una variable discreta a otra de tipo continuo. Un histograma se realiza también haciendo uso de un sistema cartesiano, donde sobre el eje de abscisas se llevan los valores de la variable. Pero ahora ya no se trata de

Clase Fi Far °

Museos 8

Parque de diversiones

45

Parque acuático 50

Playa 63

Zoológico 47

Teatro 12

Acuario 18

Cine 33

Otros 24

TOTALES 350 360°

Page 95: ESTADISTICA I

95

valores puntuales, sino de intervalos, y sobre éstos se levantan rectángulos, que tienen por base la amplitud del intervalo y por altura su frecuencia. El área de esos rectángulos deberá ser siempre proporcional a la frecuencia, de manera que cuando la amplitud de los intervalos no sea constante, entonces la altura de los rectángulos no será la frecuencia sino lo que se conoce como densidad de frecuencia. Ejemplo:

POLIGONO DE FRECUENCIA Es un diagrama de líneas que representa los puntos medios y las respectivas frecuencias de clase. En una representación gráfica cerrada de una distribución de frecuencia. Es otra forma de graficar valores de una distribución de frecuencia de clase. No existe ninguna razón estadística para seleccionar los polígonos de frecuencia en vez de los histogramas, o viceversa, los histogramas, simplemente representan una manera de graficar y los polígonos de frecuencia otra; la diferencia radica en que una barra vertical rectangular representa una clase y su frecuencia en el histograma y un punto cumple la misma función en el polígono de frecuencia.

Clase Fi Fa

20 – 24 8 8

25 – 29 15 23

30 – 34 16 39

35 – 39 21 60

40 – 44 16 76

45 – 49 4 80

50 – 54 6 86

55 – 59 11 97

60 – 64 3 100

Page 96: ESTADISTICA I

96

Características de los polígonos de frecuencias

No muestran frecuencias acumuladas.

Se prefiere para el tratamiento de datos cuantitativos.

El punto con mayor altura representa la mayor frecuencia.

Suelen utilizarse para representar tablas tipo B.

El área bajo la curva representa el 100% de los datos. El polígono de frecuencia está diseñado para mantener la misma área de las columnas. Analicemos una porción de nuestro gráfico para probar esta afirmación:

Observe que cada línea corta una porción de la columna, pero a su vez, agrega una porción adicional. Ambas porciones son iguales (triangulo rectángulos iguales), manteniendo el área global en el gráfico. Ejemplo: Las temperaturas en un día de otoño de una c iudad han suf r ido las s iguientes var iac iones:

OJIVA La ojiva es una gráfica asociada a la distribución de frecuencias, es decir que en ella se permite ver cuántas observaciones se encuentran por encima o debajo de ciertos valores, en lugar de solo exhibir los números asignados a cada intervalo. La ojiva apropiada para información que presente frecuencias mayores que el dato que se está comparando tendrá una pendiente negativa (hacia abajo y a la derecha) y en cambio la que se asigna a valores menores, tendrá una pendiente positiva. Una gráfica

Hora Tempera tura

6 7 º

9 12 °

12 14 °

15 11 °

18 12 °

21 10 °

24 8 °

Page 97: ESTADISTICA I

97

similar al polígono de frecuencias es la ojiva, pero ésta se obtiene de aplicar parcialmente la misma técnica a una distribución acumulativa y de igual manera que éstas, existen las ojivas mayor que y las ojivas menor que. Existen dos diferencias fundamentales entre las ojivas y los polígonos de frecuencias (y por esto la aplicación de la técnica es parcial): Un extremo de la ojiva no se “amarra” al eje horizontal, para la ojiva mayor que sucede con el extremo izquierdo; para la ojiva menor que, con el derecho. En el eje horizontal en lugar de colocar las marcas de clase se colocan las fronteras de clase. Para el caso de la ojiva mayor que es la frontera menor; para la ojiva menor que, la mayor. Las siguientes son ejemplos de ojivas, a la izquierda la mayor que, a la derecha la menor que, utilizando los datos que se usaron para ejemplificar el histograma: La ojiva mayor que (izquierda) se le denomina de esta manera porque viendo el punto que está sobre la frontera de clase “4:00″ se ven las visitas que se realizaron en una hora mayor que las 4:00 horas (en cuestiones temporales se diría: después de las 4:00 horas). De forma análoga, en la ojiva menor que la frecuencia que se representa en cada frontera de clase son el número de observaciones menores que la frontera señalada (en caso de tiempos sería el número de observaciones antes de la hora que señala la frontera). Si se utiliza una distribución porcentual acumulativa entonces se obtiene una ojiva (mayor que o menor que según sea el caso) cuyo eje vertical tiene una escala que va del 0% al 100%. El siguiente ejemplo es la misma ojiva menor que, que se acaba de usar, pero con una distribución porcentual: Las siguientes son ejemplos de ojivas, a la izquierda la mayor que, a la derecha la menor que, utilizando los datos que se usaron para ejemplificar el histograma:

La ojiva mayor que (izquierda) se le denomina de esta manera porque viendo el punto que está sobre la frontera de clase "4:00" se ven las visitas que se realizaron en una hora mayor que las 4:00 horas (en cuestiones temporales se diría: después de las 4:00

Page 98: ESTADISTICA I

98

horas). De forma análoga, en la ojiva menor que la frecuencia que se representa en cada frontera de clase son el número de observaciones menores que la frontera señalada (en caso de tiempos sería el número de observaciones antes de la hora que señala la frontera). Si se utiliza una distribución porcentual acumulativa entonces se obtiene una ojiva (mayor que o menor que según sea el caso) cuyo eje vertical tiene una escala que va del 0% al 100%. El siguiente ejemplo es la misma ojiva menor que, que se acaba de usar, pero con una distribución porcentual:

OTROS GRÁFICOS Pictograma: Se suele utilizar para expresar un atributo. Se suelen utilizar iconos que se identifiquen con la variable (ejemplo los habitantes de una ciudad) y su tamaño suele guardar relación con la frecuencia

Page 99: ESTADISTICA I

99

Cartograma se representa mediante un diagrama convencional insertado en un mapa geográfico de una zona. Por ejemplo en un mapa de la Sudamérica representando el analfabetismo.

Page 100: ESTADISTICA I

100

ACTIVIDADES DE APRENDIZAJE

El estudiante realizará ejercicios para elaborara gráficas de frecuencia, histogramas y ojivas, de la bibliografía recomendada.

En una investigación fueron consultados 350 matrimonios relativamente jóvenes sobre la edad de la esposa, se confecciona la siguiente tabla, elabore la gráfica polígono de frecuencia, histogramas, pictogramas y ojivas.

CLASE fi fr far (faa < que)

(faa > que) (far < que)

(far > que)

15 – 19

23

20 - 24 28

25 - 29 76

30 - 34 54

35 - 39 60

40 - 44

42

45 - 49 67

Page 101: ESTADISTICA I

101

5.3 GRÁFICAS DE LÍNEAS DE SERIES DE TIEMPO

El estudiante reconocerá y representará gráficamente las líneas de series de tiempo. Toda institución, ya sea la familia, la empresa o el gobierno, necesita realizar planes para el futuro si desea sobrevivir o progresar. La planificación racional exige prever los sucesos del futuro que probablemente vayan a ocurrir. La previsión se suele basar en lo ocurrido en el pasado. La técnica estadística utilizada para hacer inferencias sobre el futuro teniendo en cuenta lo ocurrido en el pasado es el ANÁLISIS DE SERIES TEMPORALES. SERIES TEMPORALES: Tratamos de hacer predicciones sobre esa magnitud, teniendo en cuenta sus características históricas o del pasado. Se define una serie temporal (también denominada histórica, cronológica o de tiempo) como un conjunto de datos, correspondientes a un fenómeno económico, ordenados en el tiempo. Ejemplos: • Nº de accidentes laborales graves en las empresas de más de 500 empleados de Sevilla, durante los últimos 5 años. • Ventas de nuestra empresa en los últimos 10 años. • Cantidad de lluvia caída al día durante el último trimestre. Los datos siguientes corresponden al número de contratos nuevos realizados por las empresas de menos de 10 empleados, durante el período 1996-2000.

Page 102: ESTADISTICA I

102

ACTIVIDADES DE APRENDIZAJE

El estudiante realizará ejercicios para elaborara gráficas de series de tiempo, de la bibliografía sugerida.

Elabore el siguiente ejercicio:

Supongamos que tenemos el número de kg de carne de vaca consumidos por trimestre durante los últimos años en unos grandes almacenes.

Elabore la gráfica de series de tiempo.

Page 103: ESTADISTICA I

103

5.4 DIAGRAMAS DE CAJA

El estudiante reconocerá y utilizará los diagramas de caja.

Utilizando un diagrama de tallo y hojas, podemos comparar, mediante estos diagramas, dos distribuciones. Supongamos una segunda distribución

35 38 32 28 30 29 27 19 48 40

39 24 24 34 26 41 29 48 28 22

De ella podemos elaborar sus diagramas de Tallos y Hojas y compararla con la anterior.

Teniendo en cuenta que con las representaciones anteriores los datos están ordenados, podemos aprovechar estas disposiciones para representar los diagramas de Cajas y Bigotes (boxplots o box and whiskers). Estos diagramas se basan en los siguientes parámetros de la distribución: valor mínimo, los cuartiles Q 1, Q 2 y Q 3 y el valor máximo. Para la primera distribución

Su diagrama de Cajas y Bigotes es

El bigote de la izquierda representa al colectivo de edades

Cuartiles Cuartil Primero (Q1). Es el valor mayor que el 25% de los valores de la distribución. Para la misma, como N = 20 resulta que N/4 = 5; la media aritmética de dicho valor y el siguientes es (24 + 25) / 2 = 24,5 que es el primer cuartil. Análogamente se calculan los restantes cuartiles. El Segundo Cuartil Q2 es, evidentemente, la mediana de la distribución

Page 104: ESTADISTICA I

104

(Xmín, Q1); la primera parte de la caja a (Q1, Q2), la segunda (Q2, Q3) y el bigote de la derecha viene dado por (Q3, Xmáx).

El Tercer Cuartil es el valor que sobrepasa al 75% de los valores de la distribución. En nuestro caso, como 3N / 4 = 15, resulta (39 + 39) / 2 = 39

Podemos obtener abundante información de una distribución a partir de dichas representaciones. Veamos alguna. La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las edades comprendidas entre el 25% y el 50% de la población están más dispersas que entre el 50% y el 75%. El bigote de la izquierda (Xmím, Q1) es más corto que el de la derecha; por ello el 25% de los más jóvenes están más concentrados que el 25% de los mayores. El rango intercuartílico = Q3 - Q1 = 14,5; es decir, el 50% de la población está comprendido en 14,5 años. Seguro que tú podrás obtener más información (¡Utiliza la mediana!). Por último, comparamos, mediante los diagramas de Cajas y Bigotes, las dos distribuciones tratadas.

Page 105: ESTADISTICA I

105

A partir de dicha comparación puede obtenerse bastante información de ambas distribuciones

ACTIVIDADES DE APRENDIZAJE

El estudiante realizará ejercicios para elaborara diagramas de caja, de la bibliografía sugerida.

Page 106: ESTADISTICA I

106

1. INSTRUCCIONES: Lea detenidamente y anote dentro del paréntesis “v” si el

enunciado es verdadero y “f” si en falso. (recuerde que la forma de evaluar esta sección es aciertos menos errores).

1. El diagrama de cajas y bigotes se basa en los siguientes parámetros de la distribución: valor mínimo, los cuartiles Q 1, Q 2 y Q 3 y el valor máximo.

( )

2. El polígono de frecuencia es un diagrama de líneas que representa los puntos medios y las respectivas frecuencias de clase. En una representación gráfica cerrada de una distribución de frecuencia.

( )

3. Cuando la naturaleza de la variable sea discreta, entonces la representación gráfica más adecuada es el histograma o también conocido como histograma de frecuencias.

( )

4. La ojiva es una gráfica asociada a la distribución de frecuencias, es decir que en ella se permite ver cuántas observaciones se encuentran por encima o debajo de ciertos valores, en lugar de solo exhibir los números asignados a cada intervalo.

( )

2. INSTRUCCIONES: Lea detenidamente los siguientes conceptos y subraye la respuesta a la que corresponda dicho concepto

1. Diagrama en forma de columna, conjunto de rectángulos paralelos en el que la

base representa la clase de la distribución y en su altura la magnitud que alcanza la frecuencia correspondiente.

A) Gráfica de barras

B) Polígono de frecuencia

C) Histograma

D) Ojiva

Page 107: ESTADISTICA I

107

3. INSTRUCCIONES: Lea detenidamente y conteste en los espacios en blanco la respuesta correcta.

1. La gráfica de ____________________________ consiste en representar por medio de una circunferencia o círculo las magnitudes que expresan los datos de un estudio determinado.

2. El _________________________es un diagrama de líneas que representa los puntos medios y las respectivas frecuencias de una distribución de frecuencia de clase.

3. La gráfica ___________________ se elabora con los valores de las

frecuencias acumuladas (menor que y mayor que) y los límites de las clases de una distribución de frecuencia. La línea puede ser ascendente o descendente.

4. Se define una ________________________________________ como un conjunto de datos, correspondientes a un fenómeno económico, ordenados en el tiempo.

INSTRUCCIONES: Observe detenidamente los siguientes gráficos y escriba el tipo de gráfico que corresponda, según sea el caso.

Page 108: ESTADISTICA I

108

Page 109: ESTADISTICA I

109

UNIDAD 6 MEDIDAS DE POSICIÓN DE TENDENCIA CENTRAL

El estudiante distinguirá y ejecutará el tipo de procedimiento de análisis que mejor se adecue para la interpretación de sus datos. Temario: 6. MEDIDAS DE POSICIÓN DE TENDENCIA CENTRAL

6.1 MEDIA ARITMÉTICA O PROMEDIO PARA DATOS AGRUPADOS Y NO AGRUPADOS

6.2 MEDIANA PARA DATOS AGRUPADOS Y NO AGRUPADOS 6.3 LA MODA 6.4 LA MEDIA GEOMÉTRICA 6.5 PROMEDIO MÓVIL 6.6 MEDIA ARMÓNICA 6.7 DECILES, CUARTILES Y PERCENTILES

Page 110: ESTADISTICA I

110

MAPA CONCEPTUAL MEDIDAS DE POSICIÓN DE TENDENCIA CENTRAL

6. MEDIDAS DE POSICIÓN DE

TENDENCIA CENTRAL

6.1 MEDIA ARITMÉTICA O PROMEDIO PARA DATOS AGRUPADOS

Y NO AGRUPADOS

6.2 MEDIANA PARA

DATOS AGRUPADOS

Y NO AGRUPADOS

6.3 LA MODA

6.4 LA MEDIA GEOMÉTRICA

6.5 PROMEDIO

MÓVIL

6.6 MEDIA ARMÓNICA

6.7 DECILES, CUARTILES Y PERCENTILES

Page 111: ESTADISTICA I

111

INTRODUCCIÓN En esta unidad se describirán las medidas de tendencia central o los valores típicos de un conjunto de observaciones presentadas.

Page 112: ESTADISTICA I

112

6. MEDIDAS DE POSICIÓN DE TENDENCIA CENTRAL

6.1 MEDIA ARITMÉTICA O PROMEDIO PARA DATOS AGRUPADOS Y NO AGRUPADOS

El estudiante aplicará la media aritmética o ponderada para datos agrupados y no agrupados.

Al describir grupos de observaciones, con frecuencia se desea describir el grupo con un solo número. Para tal fin, desde luego, no se usará el valor más elevado ni el valor más pequeño como único representante, ya que solo representan los extremos más bien que valores típicos. Entonces sería más adecuado buscar un valor central. Las medidas que describen un valor típico en un grupo de observaciones suelen llamarse medidas de tendencia central. Es importante tener en cuenta que estas medidas se aplican a grupos más bien que a individuos. Un promedio es una característica de grupo, no individual. Las medidas de tendencia central corresponden a valores que generalmente se ubican en la parte central de un conjunto de datos. Entre las medidas de tendencia central tenemos:

Media Mediana Moda Cuartiles Deciles Percentiles

La medida de tendencia central más ampliamente usada es la media aritmética, usualmente abreviada como media. La media aritmética de un conjunto de n valores es el resultado de la suma de todos ellos dividido entre n. La media para datos no agrupados Para datos crudos, es decir datos no agrupados, la media es la suma de todos los valores dividida entre el número total de valores. Para encontrar la media de una muestra se usa la siguiente fórmula:

Page 113: ESTADISTICA I

113

Ejemplo: El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la línea de producción es en ml: 85.4, 85.3, 84.9, 85.4, y 84.0. ¿Cuál es la media aritmética de estas observaciones?

=

85.4 + 85.3 + 84.9 + 85.4 + 84.0

= 85.0

5

La media para datos agrupados Frecuentemente los datos estás agrupados y presentados en forma de distribución de frecuencias. Si esto sucede es normalmente imposible recuperar los datos crudos originales. Por consiguiente si queremos calcular la media u otro estadístico es necesario estimarlo en base a la distribución de frecuencias. La media aritmética de una muestra de datos organizados en una distribución de frecuencias se calcula de la siguiente manera:

Donde:

= simboliza la media de la muestra

Xi = es la marca de clase

ni = es la frecuencia de clase

= es la suma de los productos de f por X

n es la suma de las frecuencias de clase

Donde:

= es la media de la muestra

= es la suma de todos los valores de la muestra

N = es el número de elementos de la muestra

Page 114: ESTADISTICA I

114

Ejemplo: Calcular la media aritmética de la siguiente distribución de frecuencia del número de meses de duración de una muestra de 40 baterías para coche. Como vemos es la distribución de frecuencia que elaboramos en la sección anterior.

CLASE duración de las baterías (meses)

Frecuencia Número de baterías

15 – 19 2

20 – 24 1

25 – 29 4

30 – 34 15

35 – 39 10

40 – 44 5

45 – 49 3

Damos como un hecho que ya sabemos elaborar una distribución de frecuencias, si se quiere ver como se elaboró vaya a la sección de ese tema en este mismo sitio. Primeramente, de la distribución de frecuencias que ya tenemos, utilizaremos la marca de clase y la frecuencia de clase, para después calcular el producto fX y proceder finalmente a calcular la sumatoria fX y aplicar la fórmula.

LI LS X o MC fi o ni (x.fi)

15 19 17 2 34

20 24 22 1 22

25 29 27 4 108

30 34 32 15 480

35 39 37 10 370

40 44 42 5 210

45 49 47 3 141

n =40 = 1365

=

1365 = 34.12

40

Page 115: ESTADISTICA I

115

Page 116: ESTADISTICA I

116

Page 117: ESTADISTICA I

117

Page 118: ESTADISTICA I

118

ACTIVIDADES DE APRENDIZAJE

El estudiante realizará ejercicios para calcular la media para datos agrupados y no agrupados, de la bibliografía sugerida.

Elabore los siguiente ejercicio: a) Con los siguientes datos, calcule la media para datos agrupados.

Clase Fi 10-20 15

20-40 30

40-50 45

50-70 60

70-80 75

80-100 90

b) Con los siguientes datos calcule la media para datos no agrupados.

1 43 16 28 27 25 26 25 22 26 47 40 14 36 23 32 15 31 19 25

6.2 MEDIANA PARA DATOS AGRUPADOS Y NO AGRUPADOS

El estudiante resolverá problemas respecto a la media para datos agrupados y no agrupados. La mediana datos no agrupados Cuando una serie de datos contiene uno o dos valores muy grandes o muy pequeños, la media aritmética no es representativa. El valor central en tales problemas puede ser mejor descrito usando una medida de tendencia central llamada mediana. La mediana (Me) es el punto medio de los valores de una serie de datos después de haber sido ordenados de acuerdo a su magnitud. Hay tantos valores antes que la mediana como posteriores en el arreglo de datos.

Page 119: ESTADISTICA I

119

Ejemplo: El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la línea de producción son (en ml): 85.4, 85.3, 84.9, 85.4, y 84.0. ¿Cuál es la mediana de las observaciones muestreadas?

85.4

85.4

85.3 Me

84.9

84.0

Ejemplo: Una muestra de los honorarios de paramédicos cargados por la clínica Baltimore reveló estas cantidades: $35, $29, $30, $25, $32, $35. ¿Cuál es la mediana?

25

Me

29

30

32

35

35

Cuando los datos se encuentran ya acoplados en una tabla de frecuencia, se podrá realizar el procedimiento anterior, o bien el siguiente:

Tabla de frecuencia

Page 120: ESTADISTICA I

120

Donde: Me = Mediana ni = Son las frecuencias de los datos Sustituyendo: Me = 3+4+9+10+7+2 = 35 = 17.5 2 2 La mediana para datos agrupados Cuando los datos se encuentran agrupados en una distribución de frecuencia no conocemos los datos originales, por lo tanto es necesario estimar la mediana mediante los siguientes pasos:

1. Calcular el valor n / 2

2. Localizar el intervalo de clase donde se encuentra la mediana (intervalo mediano). Esto se hace encontrando el primer intervalo de clase donde la frecuencia acumulada es igual o mayor que n / 2.

3. Aplicando la siguiente fórmula con los valores del intervalo mediano:

Donde: Me = Mediana L i - 1 = Límite inferior de la clase de la mediana ni = Frecuencia de la clase de la mediana N = Total de datos o frecuencias N i - 1 = Frecuencia acumulada anterior a la mediana

a = Intervalo de clase de la clase de la mediana

Page 121: ESTADISTICA I

121

PROPIEDADES DE LA MEDIANA

Page 122: ESTADISTICA I

122

ACTIVIDADES DE APRENDIZAJE

El estudiante realizará ejercicios para calcular la mediana para datos agrupados y no agrupados, de la bibliografía sugerida.

Elabore los siguientes ejercicios:

a) Con los siguientes datos, calcule la mediana para datos agrupados.

Clase fi 1 – 12 5

13 – 24 14

25 – 36 19

37 – 48 9

49 - 60 3

b) Con los siguientes datos calcule la mediana para datos no agrupados.

1 43 16 28 27 25 26 25 22 26

47 40 14 36 23 32 15 31 19 25

6.3 LA MODA

El estudiante solucionará problemas de moda para datos agrupados y no agrupados. La moda para datos no agrupados La moda (Mo) es la medida de tendencia central especialmente útil para describir mediciones de tipo ordinal y nominal. La moda. Es el valor de la observación que aparece más frecuentemente. Ejemplo: El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la línea de producción son (en ml): 85.4, 85.3, 84.9, 85.4, y 84.0. ¿Cuál es la moda de las observaciones muestreadas?

Mo = 85.4 La moda para datos agrupados

Page 123: ESTADISTICA I

123

Para datos agrupados en una distribución de frecuencia, la moda puede ser estimada por la marca de clase del intervalo que contenga la frecuencia de clase más grande. Si hay dos intervalos contiguos con frecuencia máxima la moda será la media aritmética de las dos marcas de clase. Si hay dos o más intervalos no contiguos con frecuencia de clase máxima habrá dos o más modas que serás las marcas de clase de dichos intervalos.

Page 124: ESTADISTICA I

124

ACTIVIDADES DE APRENDIZAJE

El estudiante realizará ejercicios para calcular la moda para datos agrupados y no agrupados, de la bibliografía sugerida.

Elabore los siguientes ejercicios:

c) Con los siguientes datos, calcule la moda para datos agrupados.

Clase fi 1 – 12 5

13 – 24 14

25 – 36 19

37 – 48 9

49 - 60 3

d) Con los siguientes datos calcule la moda para datos no agrupados.

1 43 16 28 27 25 26 25 22 26 48 40 14 36 23 32 15 31 19 25

6.4 LA MEDIA GEOMÉTRICA

El estudiante aplicará la media geométrica en los casos presentados. Sea una distribución de frecuencias (x i , n i ). La media geométrica, que denotaremos

por G. se define como la raíz N-ésima del producto de los N valores de la distribución.

Si los datos están agrupados en intervalos, la expresión de la media geométrica, es la

misma, pero utilizando la marca de clase (Xi). El empleo más frecuente de la media geométrica es el de promediar variables tales como porcentajes, tasas, números índices. etc., es decir, en los casos en los que se supone que la variable presenta variaciones acumulativas.

Page 125: ESTADISTICA I

125

Ventajas e inconvenientes:

En su cálculo intervienen todos los valores de la distribución.

Los valores extremos tienen menor influencia que en la media aritmética.

Es única.

Su cálculo es más complicado que el de la media aritmética.

Además, cuando la variable toma al menos un xi = 0 entonces G se anula, y si la

variable toma valores negativos se pueden presentar una gama de casos particulares en los que tampoco queda determinada debido al problema de las raíces de índice par de números negativos. Ejemplo Las tasas de crecimiento de la economía de un país durante diez años son las que aparecen en la tabla siguiente:

Se trata de un promedio que, para su cálculo, al igual que la media aritmética, hace uso de toda la información de la variable. Sin embargo es menos sensible a los valores extremos de lo que lo es la media aritmética. Frente a estas ventajas o virtudes, este nuevo promedio tiene algunas limitaciones. Entre ellas destacaremos: a) es menos intuitivo que la media aritmética;

b) su cálculo no es tan inmediato;

Page 126: ESTADISTICA I

126

c) en ocasiones no queda determinada.

Si algún valor de la variable es nulo, entonces G se anula. Si la variable toma valores negativos este promedio da problemas. La media geométrica se utiliza especialmente para promediar porcentajes, tasas, números índices, etc., y siempre que la variable presente variaciones acumulativas.

ACTIVIDADES DE APRENDIZAJE

El estudiante realizará ejercicios para calcular la media geométrica, de la bibliografía sugerida.

6.5 PROMEDIO MÓVIL

El estudiante aplicará el promedio móvil. Consiste en obtener un valor futuro de la variable de estudio a partir de una serie histórica de los valores de la variable. El procedimiento consiste en obtener una media aritmética eligiendo de antemano el tamaño de la muestra e incorporando al promedio obtenido el valor de la variable siguiente hasta completar toda la serie histórica. Para pronostica el valor futuro se procede a obtener el error cuadrático medio y éste valor obtenido se le incorpora al último promedio obtenido y así sucesivamente. Con este método lo que se hace es “suavizar” la serie promediando los valores de la misma para periodos de tiempo fijos pero que se desplazan a lo largo de todo el horizonte de la serie. El resultado de este proceso mecánico es la eliminación de los movimientos a corto y medio plazo así como las irregularidades debidas a factores no controlables ni predecibles. Es decir, a la serie se le quitan tres de sus componentes y se le deja solo la cuarta, la tendencia. La idea que subyace detrás de este método es que la media de cualquier conjunto de valores sirve para eliminar la dispersión o variabilidad de la serie motivada por factores coyunturales o esporádicos. Este método de suavizado consiste, como se ha indicado, en promediar la serie. Estos promedios serán las medias aritméticas de un conjunto k de valores consecutivos, con el requisito de que k sea inferior al total de observaciones. El procedimiento específico sería el siguiente. Supóngase que k es un entero impar. Entonces las sucesivas medias se obtendrían de forma siguiente:

Page 127: ESTADISTICA I

127

A la media * t y se le llama centrada porque al ser impar el número de sumandos con el que se ha obtenido, la media resultante se le hace corresponder con la observación del momento t, que es el valor central de la suma. Según esta expresión de cálculo, la primera media que se puede calcular es la correspondiente al grupo de valores cuya observación central se corresponde al instante:

Siendo en este caso la primera observación y0, Una vez obtenida esa media, la siguiente se calcula para los k valores que tienen por observación central la del periodo t+1, y así sucesivamente. Esta forma de obtener medias eliminando la primera observación del grupo y añadiendo la siguiente es lo que le da el adjetivo de “móvil” a las mismas. Par fijar un poco las ideas supongamos que k=5. En tal caso, las sucesivas medias móviles vendrían dadas por:

Ahora bien, si k fuera par, entonces la media de esos k valores no se correspondería con ninguno de los observados de la serie original, sino con el punto medio de los dos centrales. Pero ese instante no es observable (t= (k- 1 )/2), no sería un entero), por lo que las medias calculadas de esta forma habría que promediarlas de dos en dos y de

Page 128: ESTADISTICA I

128

forma sucesiva para que el resultado si fuera una serie de valores (medias) centrados, es decir, que se correspondan con valores para periodos o instantes de tiempo observados. Esta serie no centrada se obtendría mediante la expresión:

Otra cuestión importante a la hora de calcular las medias móviles es determinar cuántas observaciones deben tomarse en cada caso. Si k es muy grande entonces el proceso de suavizado puede llegar a ser tan fuerte que se pierda más información de la deseada. Piense en la situación extrema de que k fuera igual al total de observaciones. En ese caso solo habría una media, por lo que el suavizamiento de la serie sería máximo, tanto que no habría ni tendencia ni componente alguna. Por esta razón k no debe ser demasiado grande, pues se podría incurrir en un suavizado excesivo. En general, cuanto mayor es k, menor será el número de términos de la serie suavizada resultante (se pierden observaciones al principio y al final de la serie). En conclusión, si se toma un grupo de observaciones muy alto se incurre en el peligro de perder información por dos vías: a) la serie se suaviza más de lo necesario, ocultando ciertos movimientos tendenciales; b) el número de términos de la nueva serie se reduce considerablemente, y perder datos nunca es bueno. Por el contrario, si k es muy pequeño entonces no se conseguirán eliminar todas las perturbaciones ajenas a la tendencia. De forma similar a como se razonó antes, si k=1, entonces la serie original y la suavizada coinciden, con lo cual no se ha conseguido nada. En algunos casos, ese valor de k es fácil de determinar. Así ocurre cuando la serie muestra un patrón de comportamiento que se repite de manera sistemática cada k periodos de tiempo. Tal sería el caso de la estacionalidad. Si se trabaja con datos mensuales y la serie está sometida a un esquema de estacionalidad que se repite todos los años, entonces la forma de suavizar esa serie y eliminar la componente estacional sería tomar una media móvil de doce meses (k = 12). A la serie resultante se le habrían eliminado dos componentes: la estacionalidad y las variaciones

Page 129: ESTADISTICA I

129

accidentales. Pero al ser k par, la serie resultante no estaría centrada, por lo que habría que volver a tomar medias móviles con k = 2. Una vez que de la serie original se han eliminado esas dos componentes cabría preguntarse cómo proceder con las variaciones cíclicas. En este caso la elección de k es más difícil, pues los ciclos no son movimientos de la serie que se repitan con una periodicidad fija, como ocurre con la estacionalidad. En estos casos, si esa periodicidad no puede determinarse de forma clara y sin que perjudique notoriamente a los resultados, la mejor forma de proceder es trabajar con lo que ha dado en denominarse componente ciclo-tendencia. En el esquema presentado hasta el momento, para la obtención de la tendencia mediante medias móviles, se ha trabajado con el supuesto de que los datos tenían una periodicidad inferior al año (semestres, cuatrimestres, trimestres, meses, etc.) lo que implicaba aceptar la posibilidad de que esa serie presentara estacionalidad. Ahora bien, si los datos fueran anuales entonces la estacionalidad quedaría descartada, pues las únicas componentes de la serie serían la tendencia, los ciclos y las variaciones accidentales. Esta nueva situación nos lleva a que sea poco verosímil que la serie presente un esquema repetitivo a lo largo del tiempo tan estable como presentaban las variaciones estacionales. Ante estas circunstancias se hace difícil saber cuál debiera ser el número adecuado de observaciones que debieran tomarse para calcular las medias móviles. La forma de salir de esta situación incómoda es obtener medias móviles de tres o cinco datos (número impar y pequeño) para de esa forma eliminar la componente accidental. Una vez que se ha procedido de esta forma, la serie suavizada resultante contiene una mezcla de ciclo-tendencia. Si la componente cíclica fuera regular con periodos definidos y fijos, entonces la tendencia se obtendría aplicando una media móvil con un k igual a la longitud del ciclo. Pero es poco probable que los ciclos tengan ese comportamiento tan sistemático, por lo que quizás la mejor solución sea, como se indicó en el párrafo anterior, no manipular más los datos y trabajar con esa mixtura de componentes ciclo-tendencia. Este método de obtención de la tendencia presenta, frente a su sencillez, algunos inconvenientes que deben ser señalados. Al igual que en el método gráfico, también aquí se introduce un cierto grado de subjetividad, pues la elección del número de observaciones a promediar queda a la elección del analista y, salvo que sea muy claro cuál debe ser ese número (caso de la estacionalidad), esa decisión no siempre es la acertada, por lo que los valores de la componente tendencia variaran según quién los calcule. Por otro lado, esta forma de obtener la tendencia no permite alcanzar el objetivo de la predicción en el análisis de las series temporales, pues la tendencia obtenida mediante medias móviles no permite que se proyecte hacia el futuro. Ejemplo. Obténgase la tendencia de la serie que se muestra en la siguiente Tabla mediante medias móviles. En este caso, dado que los datos son mensuales y la serie muestra una clara componente estacional que se repite todos los años, el periodo de la media móvil debe

Page 130: ESTADISTICA I

130

ser de doce datos (doce meses). Pero al ser par el valor de k se deben tomar medias móviles en dos ocasiones. Primero con k=12 y después con k = 2, para de esta forma obtener una serie centrada, que será la tendencia, pues, como puede observarse, la serie original, para el conjunto de años considerado, no muestra componente cíclica clara. Los resultados de estas operaciones son los que aparecen en las dos Tablas posteriores. Adicionalmente, en la Figura, se ha vuelto a representar la serie original y la suavizada que recoge la tendencia. Esta última tiene menos observaciones que la primera. En este caso se ha perdido doce datos, seis al inicio y seis al final. La forma en la que se han obtenido esos datos es la siguiente:

Page 131: ESTADISTICA I

131

Page 132: ESTADISTICA I

132

ACTIVIDADES DE APRENDIZAJE

El estudiante resolverá problemas del promedio móvil, de la bibliografía sugerida.

6.6 MEDIA ARMÓNICA

El estudiante aplicará la media armónica en diversas situaciones. La media armónica, que representaremos por H, se define como sigue:

Obsérvese que la inversa de la media armónica es la media aritmética de los inversos

de los valores de la variable. No es aconsejable en distribuciones de variables con

valores pequeños. Se suele utilizar para promediar variables tales como productividades, velocidades, tiempos, rendimientos, cambios, etc.

Ventajas e inconvenientes:

En su cálculo intervienen todos los valores de la distribución.

Su cálculo no tiene sentido cuando algún valor de la variable toma valor cero.

Es única.

ACTIVIDADES DE APRENDIZAJE

El estudiante resolverá problemas de media armónica, de la bibliografía sugerida.

Page 133: ESTADISTICA I

133

6.7 DECILES, CUARTILES Y PERCENTILES

El estudiante interpretará los deciles, cuartiles y percentiles. CUARTILES Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales. Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores de la sucesión (ordenada); el tercer cuartil, es el valor en el cual o por debajo del cual quedan las tres cuartas partes (75%) de los datos. No son cuatro como pensamos al inicio, son tres cuartiles los que dividirán en cuatro partes la curva normal, y se denotan por Q1, Q2 y Q3:

Datos Agrupados

Como los cuartiles adquieren su mayor importancia cuando contamos un número grande de datos y tenemos en cuenta que en estos casos generalmente los datos son resumidos en una tabla de frecuencia. La fórmula para el cálculo de los cuartiles cuando se trata de datos agrupados es la siguiente:

Page 134: ESTADISTICA I

134

k= 1,2,3 Donde: Lk = Límite real inferior de la clase del cuartil k n = Número de datos Fk = Frecuencia acumulada de la clase que antecede a la clase del cuartil k. fk = Frecuencia de la clase del cuartil k c = Longitud del intervalo de la clase del cuartil k Si se desea calcular cada cuartil individualmente, mediante otra fórmula se tiene lo siguiente:

El primer cuartil Q1, es el menor valor que es mayor que una cuarta parte de los datos; es decir, aquel valor de la variable que supera 25% de las observaciones y es superado por el 75% de las observaciones.

Fórmula de Q1, para series de Datos agrupados:

Donde:

L1 = límite inferior de la clase que lo contiene P = valor que representa la posición de la medida f1 = la frecuencia de la clase que contiene la medida solicitada. Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada. Ic = intervalo de clase

El segundo cuartil Q2, (coincide, es idéntico o similar a la mediana, Q2 = Md), es el menor valor que es mayor que la mitad de los datos, es decir el 50% de las observaciones son mayores que la mediana y el 50% son menores.

Fórmula de Q2, para series de Datos agrupados:

Donde:

L1 = límite inferior de la clase que lo contiene P = valor que representa la posición de la medida f1 = la frecuencia de la clase que contiene la medida solicitada. Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada. Ic = intervalo de clase

Page 135: ESTADISTICA I

135

El tercer cuartil Q3, es el menor valor que es mayor que tres cuartas partes de los datos, es decir aquel valor de la variable que supera al 75% y es superado por el 25% de las observaciones.

Fórmula de Q3, para series de Datos agrupados:

Donde:

L1 = límite inferior de la clase que lo contiene P = valor que representa la posición de la medida f1 = la frecuencia de la clase que contiene la medida solicitada. Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada. Ic = intervalo de clase. Otra manera de verlo es partir de que todas las medidas no son sino casos particulares del percentil, ya que el primer cuartil es el 25% percentil y el tercer cuartil 75% percentil.

Para Datos No Agrupados Si se tienen una serie de valores X1, X2, X3... Xn, se localiza mediante las siguientes fórmulas:

El primer cuartil: Cuando n es par:

Cuando n es impar:

Para el tercer cuartil

Cuando n es par:

Cuando n es impar:

DECILES Los deciles son ciertos números que dividen la sucesión de datos ordenados en diez partes porcentualmente iguales. Son los nueve valores que dividen al conjunto de

Page 136: ESTADISTICA I

136

datos ordenados en diez partes iguales, son también un caso particular de los percentiles. Los deciles se denotan D1, D2,..., D9, que se leen primer decil, segundo decil, etc. Los deciles, al igual que los cuartiles, son ampliamente utilizados para fijar el aprovechamiento académico. Ya sabemos que para dividir la curva normal en diez partes debemos de tener nueve Deciles.

Datos Agrupados Para datos agrupados los deciles se calculan mediante la fórmula.

k= 1,2,3,... 9 Donde: Lk = Límite real inferior de la clase del decil k n = Número de datos Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k. fk = Frecuencia de la clase del decil k c = Longitud del intervalo de la clase del decil k Otra fórmula para calcular los deciles:

El cuarto decil, es aquel valor de la variable que supera al 40%, de las observaciones y es superado por el 60% de las observaciones.

Page 137: ESTADISTICA I

137

El quinto decil corresponde a la mediana.

El noveno decil supera al 90% y es superado por el 10% restante.

Donde (para todos): L1 = límite inferior de la clase que lo contiene P = valor que representa la posición de la medida f1 = la frecuencia de la clase que contiene la medida solicitada. Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada. Ic = intervalo de clase. Fórmulas Datos No Agrupados Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes fórmulas:

Cuando n es par:

Cuando n es impar: Siendo A el número del decil. CENTILES O PERCENTILES Los percentiles son, tal vez, las medidas más utilizadas para propósitos de ubicación o clasificación de las personas cuando atienden características tales como peso, estatura, etc. Los percentiles son ciertos números que dividen la sucesión de datos ordenados en cien partes porcentualmente iguales. Estos son los 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. Los percentiles (P1, P2,... P99), leídos primer percentil,..., percentil 99.

Page 138: ESTADISTICA I

138

EJEMPLO GRÁFICA PERCENTIL

Page 139: ESTADISTICA I

139

Datos Agrupados Cuando los datos están agrupados en una tabla de frecuencias, se calculan mediante la fórmula:

k= 1,2,3,... 99 Donde: Lk = Límite real inferior de la clase del decil k n = Número de datos Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k. fk = Frecuencia de la clase del decil k c = Longitud del intervalo de la clase del decil k Otra forma para calcular los percentiles es:

Primer percentil, que supera al uno por ciento de los valores y es superado por el noventa y nueve por ciento restante.

El 60 percentil, es aquel valor de la variable que supera al 60% de las observaciones y es superado por el 40% de las observaciones.

El percentil 99 supera 99% de los datos y es superado a su vez por el 1% restante.

Fórmulas Datos No Agrupados Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes fórmulas:

Page 140: ESTADISTICA I

140

Para los percentiles, cuando n es par:

Cuando n es impar: Siendo A, el número del percentil. Es fácil ver que el primer cuartil coincide con el percentil 25; el segundo cuartil con el percentil 50 y el tercer cuartil con el percentil 75. EJEMPLO Determinación del primer cuartil, el séptimo decil y el 30 percentil, de la siguiente tabla:

Salarios No. De fa

(I. De Clases) Empleados (f1)

200-299 85 85

300-299 90 175

400-499 120 295

500-599 70 365

600-699 62 427

700-800 36 463

Como son datos agrupados, se utiliza la fórmula

Siendo,

La posición del primer cuartil.

La posición del 7 decil.

La posición del percentil 30. Entonces,

Page 141: ESTADISTICA I

141

El primer cuartil: 115.5 – 85 = 30.75 Li = 300, Ic = 100 , fi = 90

El 7 decil:

Posición: 324.1 – 295 = 29.1 Li = 500, fi = 70

El percentil 30 Posición:

138.9 – 85 = 53.9 fi = 90

Estos resultados nos indican que el 25% de los empleados ganan salarios por debajo de $ 334; que bajo 541.57 gana el 57%de los empleados y sobre $359.88, gana el 70% de los empleados.

ACTIVIDADES DE APRENDIZAJE

El estudiante resolverá problemas de cuartiles, deciles y percentiles, de la bibliografía sugerida.

Page 142: ESTADISTICA I

142

INSTRUCCIONES: Lea detenidamente y anote dentro del paréntesis “v” si el enunciado es verdadero y “f” si en falso. (Recuerde que la forma de evaluar esta sección es aciertos menos errores). 1. La moda de los siguientes datos: 10, 9, 7, 5, 8, 7, 6, 7, 5, 8.

Es 7

( )

2. La media de 9,3,8,9,8,9,18 es 9.

( )

3. La desviación media de los siguientes datos 2,3,6,8 y 11; es de 2.8

( )

4. Los deciles son ciertos números que dividen la sucesión de datos ordenados en cien partes porcentualmente iguales.

( )

5. La media de 175, 136, 165, 178 y 159 es de 162.6

( )

INSTRUCCIONES: Lea detenidamente los siguientes conceptos y subraye la respuesta a la que corresponda dicho concepto 1) Calcule la mediana de asistencia a 13 clases de psicología si asistieron : 40, 32, 37, 30, 40, 24, 40, 38, 35, 40, 28, 32 y 37 personas. A) 37 B) 37.5 C) 38 D) 40 2) = ∑ fi * x Esta fórmula corresponde a: n A) Media datos agrupados B) Mediana datos agrupados C) Media datos no agrupados D) Mediana datos no agrupados 3) Es el dato que aparece con mayor frecuencia, es una colección de datos.

A) Moda B) Media C) Mediana D) Desviación media

Page 143: ESTADISTICA I

143

4) 9 golfistas registraron los siguientes hoyos 4 3 4 5 4 3 3 4 3; la media es: A) 3 B) 3.5 C) 3.6 D) 4 5) A 18 clases de una academia de baile de asistieron: 26, 25, 28, 23, 25, 24, 24, 21, 23, 26, 28, 26, 24, 32, 25, 27, 24 y 27 personas; la moda es:

A) 24 B) 25 C) 25.4 D) 26

6) = Li + N/2 - ∑fa C . Esta fórmula corresponde a: F Mediana A) Media datos agrupados B) Mediana datos agrupados C) Media datos no agrupados D) Mediana datos no agrupados INSTRUCCIONES: Lea detenidamente y conteste en los espacios en blanco la respuesta correcta. 1. El ___________________________es un valor representativo de un conjunto de datos; se obtiene de la sumatoria de todos los datos, dividiéndose entre el total de los mismos. 2. El _________________________________________ consiste en obtener un valor futuro de la variable de estudio a partir de una serie histórica de los valores de la variable. El procedimiento consiste en obtener una media aritmética eligiendo de antemano el tamaño de la muestra e incorporando al promedio obtenido el valor de la variable siguiente hasta completar toda la serie histórica. 3. La curva sesgada a la __________________________________ tiene las medidas de tendencia central en el siguiente orden: moda, mediana y media. 5. La curva sesgada a la __________________________________ tiene las medidas de tendencia central en el siguiente orden: media, mediana y moda. 6. Consiste en ordenar los datos en forma creciente o decreciente y el valor medio se denomina ______________________.

Page 144: ESTADISTICA I

144

UNIDAD 7

MEDIDAS DE VARIABILIDAD DE DISPERSION

El estudiante distinguirá y aplicará los diferentes tipos de medidas de dispersión, así como sus ventajas y desventajas de cada uno de ellos.

Temario:

7. MEDIDAS DE VARIABILIDAD O DE DISPERSIÓN

7.1 RANGO 7.2 DESVIACIÓN MEDIA ABSOLUTA 7.3 VARIANZA PARA DATOS AGRUPADOS Y NO AGRUPADOS 7.4 DESVIACIÓN ESTÁNDAR 7.5 COEFICIENTE DE VARIACIÓN 7.6 MEDIDAS DE FORMA: ASIMETRÍA Y CURTOSIS

Page 145: ESTADISTICA I

145

MAPA CONCEPTUAL MEDIDAS DE VARIABILIDAD DE DISPERSION

7. MEDIDAS DE VARIABILIDAD DE

DISPERSION

7.1 RANGO

7.2 DESVIACIÓN

MEDIA ABSOLUTA

7.4 DESVIACIÓN ESTÁNDAR

7.3 VARIANZA

PARA DATOS AGRUPADOS

Y NO AGRUPADOS

7.5 COEFICIENTE

DE VARIACIÓN

7.6 MEDIDAS DE FORMA:

ASIMETRÍA Y CURTOSIS

Page 146: ESTADISTICA I

146

INTRODUCCIÓN En esta unidad se tratarán las medidas de dispersión para datos agrupados y no agrupados.

Page 147: ESTADISTICA I

147

7. MEDIDAS DE VARIABILIDAD O DE DISPERSIÓN

7.1. RANGO

El estudiante aplicará el rango como una medida de dispersión. Se denomina rango o rango estadístico al intervalo de menor tamaño que contiene a los datos; es calculable mediante la resta del valor mínimo al valor máximo; por ello, comparte unidades con los datos. Permite obtener una idea grosera de la dispersión estadística de los datos. Por ejemplo, para una serie de datos de carácter cuantitativo como es la estatura tal y como:

x1 = 185,x2 = 165,x3 = 170,x4 = 182,x5 = 155

es posible ordenar los datos como sigue:

x(1) = 155,x(2) = 165,x(3) = 170,x(4) = 182,x(5) = 185

donde la notación x(i) indica que se trata del elemento i-ésimo de la serie de datos. De este modo, el rango sería la diferencia entre el valor máximo (k) y el mínimo; o, lo que es lo mismo:

W = x(k) − x(1)

En nuestro ejemplo, con cinco valores, nos da que W = 185-155 = 30.

ACTIVIDADES DE APRENDIZAJE

El estudiante resolverá problemas de rango, de la bibliografía sugerida.

Page 148: ESTADISTICA I

148

7.2 DESVIACIÓN MEDIA ABSOLUTA

El estudiante aplicará la desviación media en datos agrupados y no agrupados. La desviación media mide la cantidad promedio que varían los datos respecto a su media. La definición es: Desviación media. Es la media aritmética de los valores absolutos de las desviaciones de los datos respecto a su media. Desviación media datos no agrupados

Ejemplo: El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la línea de producción son (en ml): 85.4, 85.3, 84.9, 85.4, y 84.0. ¿Cuál es la desviación media de las observaciones muestreadas?

X X -

|X - |

85.4 +

0.4 0.4

85.4 +

0.4 0.4

85.3 +

0.3 0.3

84.9 - 0.1 0.1

84.0 - 1.0 1.0

=

2.2

= 2.2 = 0.44

Page 149: ESTADISTICA I

149

5

Desviación media para datos agrupados En el caso de que los datos se encuentren agrupados en una distribución de frecuencia la fórmula es:

Ejemplo:

x i f i x i · f i | x - x | | x - x | · f i

[ 10 , 15) 12 .5 3 37 .5 9 .286 27 .858

[15 , 20) 17 .5 5 87 .5 4 .286 21 .43

[20 , 25) 22 .5 7 157 .5 0 .714 4 .998

[25 , 30) 27 .5 4 110 5 .714 22 .856

[30 , 35) 32 .5 2 65 10 .174 21 .428

21 457 .5 98 .57

Ventajas y Desventajas de la desviación media La desviación media tiene dos ventajas. Utiliza para su cómputo todos los elementos de la serie de datos y es fácil de entender. Sin embargo, es difícil trabajar con valores absolutos y por ello la desviación media no es usada frecuentemente. Cuando la suma de las desviaciones parciales absolutas es igual a cero, la desviación media no es una medida de variabilidad aceptable. Por ejemplo, tenemos dos series de datos: A = { 0, 50, 100 } B = { 49, 50, 51 }

Page 150: ESTADISTICA I

150

Claramente observamos que la serie B tiene una dispersión mayor que la serie A, sin embargo en ambos casos la desviación media es cero.

ACTIVIDADES DE APRENDIZAJE

El estudiante resolverá problemas de desviación media para datos agrupados y no agrupados, de la bibliografía sugerida.

7.3 VARIANZA PARA DATOS AGRUPADOS Y NO AGRUPADOS

El estudiante aplicará la varianza en datos agrupados y no agrupados. Varianza. Es la media aritmética de las desviaciones cuadradas de los datos respecto a la media de una distribución estadística

La varianza se representa por VARIANZA PARA DATOS NO AGRUPADOS

Ejercicio: Calcular la varianza de la distribución9, 3, 8, 8, 9, 8, 9,18

VARIANZA PARA DATOS AGRUPADOS

Page 151: ESTADISTICA I

151

Para simplificar el cálculo de la varianza vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores

Calcule la Varianza de los siguientes datos agrupados:

x i f i x i · f i x i2 · f i

[10, 20) 15 1 15 225

[20, 30) 25 8 200 5000

[30,40) 35 10 350 12 250

[40, 50) 45 9 405 18 225

[50, 60 55 8 440 24 200

[60,70) 65 4 260 16 900

[70, 80) 75 2 150 11 250

42 1 820 88 050

Propiedades de la varianza

Page 152: ESTADISTICA I

152

1. La varianza será siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales

2. Si a todos los valores de la variable se les suma un número la varianza no varía

3. Si todos los valores de la variable se multiplican por un número la varianza

queda multiplicada por el cuadrado de dicho número

4. Si tenemos varias distribuciones con la misma media y conocemos sus respectivas varianzas se puede calcular la varianza total

1. Observaciones sobre la varianza

2. La varianza, al igual que la media, es un índice muy sensible a las puntuaciones extremas

3. En los casos que no se pueda hallar la media tampoco será posible hallar la

varianza

4. La varianza no viene expresada en las mismas unidades que los datos, ya que las desviaciones están elevadas al cuadrado

ACTIVIDADES DE APRENDIZAJE

El estudiante resolverá problemas de varianza para datos agrupados y no agrupados, de la bibliografía sugerida.

7.4 DESVIACIÓN ESTÁNDAR

El estudiante aplicará la desviación estándar, datos agrupados y no agrupados La desviación típica o desviación estándar es la raíz cuadrada de la varianza. Es decir, la raíz cuadrada de la media de los cuadrados de las puntuaciones de desviación La desviación típica se representa por σ

Page 153: ESTADISTICA I

153

Desviación estándar o típica para datos agrupados

Para simplificar el cálculo vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores

Ejercicios de desviación típica. Calcular la desviación típica de la distribución: 9, 3, 8, 8, 9, 8, 9,18.

Desviación típica para datos agrupados

Page 154: ESTADISTICA I

154

Calcular la desviación típica de la distribución de la tabla

ACTIVIDADES DE APRENDIZAJE

El estudiante resolverá problemas de desviación típica o estándar para datos agrupados y no agrupados, de la bibliografía sugerida.

7.5 COEFICIENTE DE VARIACIÓN

El estudiante aplicará el coeficiente de variación El coeficiente de variación es la relación entre la desviación típica de una muestra y su media

: : x i f i x i · f i x i2 · f i

[10, 20) 15 1 15 225

[20, 30) 25 8 200 5000

[30,40) 35 10 350 12 250

[40, 50) 45 9 405 18 225

[50, 60) 55 8 440 24 200

[60,70) 65 4 260 16 900

[70, 80) 75 2 150 11 250

42 1 820 88 050

Page 155: ESTADISTICA I

155

El coeficiente de variación se suele expresar en porcentajes.

El coeficiente de variación permite comparar las dispersiones de dos distribuciones distintas, siempre que sus medias sean positivas. Se calcula para cada una de las distribuciones y los valores que se obtienen se comparan entre sí. La mayor dispersión corresponderá al valor del coeficiente de variación mayor

Ejercicio Una distribución tiene x = 140 y σ = 28.28 y otra x = 150 y σ = 25. ¿Cuál de las dos presenta mayor dispersión?

La primera distribución presenta mayor dispersión

ACTIVIDADES DE APRENDIZAJE

El estudiante resolverá problemas de coeficiente de variación, de la bibliografía sugerida.

7.6 MEDIDAS DE FORMA: ASIMETRÍA Y CURTOSIS

El estudiante comparará las medidas de asimetría y curtosis.

Las medidas de la asimetría, al igual que la curtosis, van a ser medidas de la forma de la distribución, es frecuente que los valores de una distribución tiendan a ser similares a ambos lados de las medidas de centralización. La simetría es importante para saber si los valores de la variable se concentran en una determinada zona del recorrido de la variable.

Page 156: ESTADISTICA I

156

Para medir la asimetría se puede realizar atendiendo básicamente a dos criterios:

Comparando la Media y la Moda. Comparando los valores de la variable con la media.

Comparando la Media y la Moda:

Si la diferencia es positiva, diremos que hay asimetría positiva o a la derecha, en el caso de que sea negativa diremos que hay asimetría negativa o a la izquierda. No obstante, esta medida es poco operativa al no ser una medida relativa, ya que está influida por la unidad en que se mida la variable, por lo que se define el coeficiente de Asimetría como:

Esta medida es muy fácil de calcular, pero menos precisa que el coeficiente de asimetría de Pearson. El coeficiente de asimetría de Pearson, se basa en la comparación con la media de todos los valores de la variable, así que es una medida que se basará en las

diferencias , como vimos en el caso de la dispersión si medimos la media de esas desviaciones sería nulas, si las elevamos al cuadrado, serían siempre positivas por lo que tampoco servirían, por lo tanto precisamos elevar esas diferencias al cubo.

As<0 As=0 As>0

Asimetría Negativa a la Izquierda

Simétrica

Asimetría Positiva a la Derecha.

Page 157: ESTADISTICA I

157

Para evitar el problema de la unidad, y hacer que sea una medida escalar y por lo tanto relativa, dividimos por el cubo de su desviación típica. Con lo que resulta la siguiente expresión:

Curtosis

El Coeficiente de Curtosis analiza el grado de concentración que presentan los valores alrededor de la zona central de la distribución. Se definen 3 tipos de distribuciones según su grado de curtosis: Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal).

g 2 = 0 (distribución mesocúrtica) .

Distribución leptocúrtica : presenta un elevado grado de concentración alrededor de los valores centrales de la variable.

g2 > 0(distribución leptocúrtica )

Page 158: ESTADISTICA I

158

Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable.

g2 < 0 (distribución platicúrtica)

El Coeficiente de Curtosis viene definido por la siguiente fórmula:

Donde: n = total de datos xi = Cada uno de los datos xm = Media Los resultados pueden ser los siguientes: g 2 = 0 (distribución mesocúrtica) . g2 > 0(distribución leptocúrtica ). g2 < 0 (distribución platicúrtica) .

Ejemplo: Vamos a calcular el Coefiente de Curtosis de la serie de datos referidos a la estatura de un grupo de alumnos, recordemos que la media de esta muestra es 1,253

Variable Frecuencias absolutas Frecuencias relativas

(Valor) Simple Acumulada Simple Acumulada

fi fa fr far

1,20 1 1 3,3% 3,3%

1,21 4 5 13,3% 16,6%

1,22 4 9 13,3% 30,0%

1,23 2 11 6,6% 36,6%

1,24 1 12 3,3% 40,0%

1,25 2 14 6,6% 46,6%

1,26 3 17 10,0% 56,6%

1,27 3 20 10,0% 66,6%

1,28 4 24 13,3% 80,0%

1,29 3 27 10,0% 90,0%

1,30 3 30 10,0% 100,0%

Page 159: ESTADISTICA I

159

Luego:

(1/30) * 0,00004967

g2 =

-------------------------------------------

- 3 = -1,39

((1/30) * (0,03046667))^2

Por lo tanto, el Coeficiente de Curtosis de esta muestra es -1,39, lo que quiere decir que se trata de una distribución platicúrtica, es decir, con una reducida concentración alrededor de los valores centrales de la distribución, aunque tampoco en este caso esta deviación de la simetría está suficientemente alejada del 0 para ser considerada significativa (se encuentra entre -2 y 2).

ACTIVIDADES DE APRENDIZAJE

El estudiante resolverá problemas de medidas de forma, de la bibliografía sugerida.

S ((xi - xm)^4)*ni S ((xi - xm)^2)*ni

x x

0,00004967 0,03046667

Page 160: ESTADISTICA I

160

INSTRUCCIONES: LEA DETENIDAMENTE LOS SIGUIENTES CONCEPTOS Y SUBRAYE LA RESPUESTA A LA QUE CORRESPONDA DICHO CONCEPTO

1) De los siguientes datos: 9, 7, 11, 10, 13 y 7. El resultado de 9.5 corresponde a: A) Media B) Varianza C) Desviación media D) Desviación estándar 2) Analiza el grado de concentración que presentan los valores alrededor de la zona central de la distribución. A) Varianza datos no agrupados B) Varianza datos agrupados C) Coeficiente de variación D) Coeficiente de curtosis

INSTRUCCIONES: LEA DETENIDAMENTE Y CONTESTE EN LOS ESPACIOS EN BLANCO LA RESPUESTA.

1. Al grado en que los datos numéricos tienden a extenderse alrededor de un valor medio, se le llama________________________

2. La ___________________________se obtiene de la fórmula: 3. La _________________ es la media aritmética de las desviaciones cuadradas de los

datos respecto a la media de una distribución estadística 4. El___________________________________ es la relación entre la desviación

típica de una muestra y su media

Page 161: ESTADISTICA I

161

INSTRUCCIONES: Lea detenidamente y anote dentro del paréntesis “v” si el enunciado es verdadero y “f” si en falso. (recuerde que la forma de evaluar esta sección es aciertos menos errores). 1. La varianza es la característica de una muestra o población que cuantifica

su dispersión o variabilidad.

( )

2. Se utiliza para calcular la desviación estándar de datos agrupados:

( )

3. Se denomina rango estadístico al intervalo de menor tamaño que contiene a los datos; es calculable mediante la resta del valor mínimo al valor máximo; por ello, comparte unidades con los datos

( )

4. La distribución mesocúrtica presenta un reducido grado de concentración alrededor de los valores centrales de la variable.

( )

5. La desviación media mide la cantidad promedio que varían los datos respecto a su media

( )

6. El rango intercuartílico divide a los valores muestrales, una vez

ordenados, en cuatro partes homogéneas en cuanto a número de observaciones

( )

INSTRUCCIONES: Observe las siguientes gráficas, y mencione el tipo de asimetría que cada una tiene.

.

Page 162: ESTADISTICA I

162

UNIDAD 8 PROBABILIDAD

El estudiante diferenciará los tipos de eventos asociados con los experimentos aleatorios. Además calculará y evaluará el valor numérico de su probabilidad. Temario: 8. PROBABILIDAD

8.1 PROBABILIDAD CLÁSICA, FRECUENCIAL Y SUBJETIVA 8.2 EXPERIMENTOS, EVENTOS Y ESPACIOS MUESTRALES 8.3 REGLAS DE CONTEO: COMBINACIONES Y PERMUTACIONES 8.4 REGLAS DE LA PROBABILIDAD 8.5 EVENTOS DEPENDIENTES, INDEPENDIENTES Y CONDICIONALES 8.6 TEOREMA DE BAYES 8.7 DIAGRAMA DE ÁRBOL 8.8 ESPERANZA MATEMÁTICA

Page 163: ESTADISTICA I

163

MAPA CONCEPTUAL PROBABILIDAD

8. PROBABILIDAD

8.1 PROBABILIDAD

CLÁSICA, FRECUENCIAL Y SUBJETIVA

8.2 EXPERIMENTOS

, EVENTOS Y ESPACIOS

MUESTRALES

8.3 REGLAS DE CONTEO:

COMBINACIONES Y

PERMUTACIONES

8.4 REGLAS DE LA

PROBABILIDAD

8.5 EVENTOS DEPENDIENTES,

INDEPENDIENTES Y

CONDICIONALES

8.6 TEOREMA DE BAYES

8.7 DIAGRAMA DE ÁRBOL

8.8 ESPERANZA MATEMÁTICA

Page 164: ESTADISTICA I

164

INTRODUCCIÓN En esta unidad, se conocerán las reglas de la probabilidad que deben observarse; se incluyen postulados básicos, relación entre las probabilidades y el teorema de Bayes. Se presentan también combinaciones, permutaciones y la esperanza matemática.

Page 165: ESTADISTICA I

165

8. PROBABILIDAD

8.1 PROBABILIDAD CLÁSICA, FRECUENCIAL Y SUBJETIVA

El estudiante diferenciará la probabilidad clásica, frecuencial y subjetiva. El concepto de probabilidad nace con el deseo del hombre de conocer con certeza los eventos futuros. Es por ello que el estudio de probabilidades surge como una herramienta utilizada por los nobles para ganar en los juegos y pasatiempos de la época. El desarrollo de estas herramientas fue asignado a los matemáticos de la corte. Con el tiempo estas técnicas matemáticas se perfeccionaron y encontraron otros usos muy diferentes para la que fueron creadas. Actualmente se continúo con el estudio de nuevas metodológicas que permitan maximizar el uso de la computación en el estudio de las probabilidades disminuyendo, de este modo, los márgenes de error en los cálculos A través de la historia se han desarrollado tres enfoques conceptuales diferentes para definir la probabilidad y determinar los valores de probabilidad: El enfoque clásico: Dice que si hay x posibles resultados favorables a la ocurrencia de un evento A y z posibles resultados desfavorables a la ocurrencia de A, y todos los resultados son igualmente posibles y mutuamente excluyente (no pueden ocurrir los dos al mismo tiempo), entonces la probabilidad de que ocurra A es: P(A) = __x__ (x+z) El enfoque clásico de la probabilidad se basa en la suposición de que cada resultado sea igualmente posible. Este enfoque es llamado enfoque a priori porque permite, (en caso de que pueda aplicarse) calcular el valor de probabilidad antes de observar cualquier evento de muestra. Ejemplo: Si tenemos en una caja 15 piedras verdes y 9 piedras rojas. La probabilidad de sacar una piedra roja en un intento es: P(A) = ____9____= 0.375 o 37.5% 9+15 El enfoque de frecuencia relativa: También llamado Enfoque Empírico, determina la probabilidad sobre la base de la proporción de veces que ocurre un evento favorable en un numero de observaciones. En este enfoque no ese utiliza la suposición previa de

Page 166: ESTADISTICA I

166

aleatoriedad. Porque la determinación de los valores de probabilidad se basa en la observación y recopilación de datos. Ejemplo: Se ha observado que 9 de cada 50 vehículos que pasan por una esquina no tienen cinturón de seguridad. Si un vigilante de transito se para en esa misma esquina un ida cualquiera ¿Cuál será la probabilidad de que detenga un vehículo sin cinturón de seguridad? P(A) = ___9___ = 0.18 o 18% 50 Tanto el enfoque clásico como el enfoque empírico conducen a valores objetivos de probabilidad, en el sentido de que los valores de probabilidad indican al largo plazo la tasa relativa de ocurrencia del evento. El enfoque subjetivo: Dice que la probabilidad de ocurrencia de un evento es el grado de creencia por parte de un individuo de que un evento ocurra, basado en toda la evidencia a su disposición. Bajo esta premisa se puede decir que este enfoque es adecuado cuando solo hay una oportunidad de ocurrencia del evento. Es decir, que el evento ocurrirá o no ocurrirá esa sola vez. El valor de probabilidad bajo este enfoque es un juicio personal.

ACTIVIDADES DE APRENDIZAJE

Basándose en la bibliografía sugerida, realizar un mapa conceptual en el que se explique la probabilidad clásica, frecuencial, y subjetiva. Se entregará de manera impresa la siguiente sesión.

8.2 EXPERIMENTOS, EVENTOS Y ESPACIOS MUESTRALES

El estudiante y explicará el concepto de experimento, espacio muestral y evento. Cada vez que realizamos un cálculo matemático para resolver un problema físico, estamos aplicando un modelo matemático a un fenómeno de la realidad. Como sabemos un fenómeno es algo observable y que en la mayoría de los casos es, además, cuantificable. Podemos decir que la estadística tiene por objeto el estudio y comportamiento de fenómenos. Estos fenómenos son a su vez el resultado de una

Page 167: ESTADISTICA I

167

experimentación, por lo que podemos hablar indistintamente de fenómenos y experimentos aleatorios. De forma específica se dice que un experimento aleatorio es aquel que puede concretarse en al menos dos resultados posibles, con incertidumbre en cuanto a cuál de ellos tendrá lugar. Los experimentos se pueden clasificar en deterministas y aleatorios. Los primeros son aquellos que repetidos en idénticas condiciones nos llevan siempre al mismo resultado. Por el contrario, para el segundo tipo de experimentos nos encontramos que, incluso aunque las condiciones del experimento no cambien, el resultado del experimento es impredecible antes de realizarlo. (Antes de lanzar una moneda al aire no sabremos si saldrá cara o cruz. También son experimentos aleatorios la cotización de las acciones de una empresa, sus beneficios, sus ventas, su periodo de actividad, etc.). En general diremos que las características de un experimento aleatorio son las siguientes: a) el experimento se puede repetir u observar de forma indefinida en circunstancias prácticamente muy similares. b) Aunque no podemos predecir el resultado particular del experimento, si que podemos conocer el conjunto de todos los posibles resultados. c) Si el experimento se repite pocas veces, los resultados parecen mostrar un comportamiento caótico, mientras que si se repite un número infinito de veces empieza a detectarse una regularidad en el comportamiento de los resultados. Hemos señalado antes que una de las características del experimento aleatorio es que, aunque los resultados individuales no son predecibles con anterioridad, en cambio sí que podemos saber cuál es el conjunto de todos sus posibles resultados. Pues bien, a ese conjunto de posibles resultados le llamaremos espacio muestral y lo representaremos en adelante por la letra E. Así pues, E será un conjunto formado por los resultados del experimento. Estos resultados elementales de un experimento tienen la característica de que no son descomponibles. A partir de ellos surge el concepto de suceso o evento. Un suceso o evento será un conjunto de resultados elementales del experimento. Antes de continuar con el concepto de suceso o evento conviene señalar que un espacio muestral puede ser finito ( si está formado por un conjunto finitos de resultados) o infinito. Dentro los espacios infinitos se puede diferenciar entre los infinitos numerables e infinitos no numerables. Tanto a los espacios finitos como a los infinitos numerables se les suele conocer como espacios discretos, mientras a que los infinitos no numerable se conoce también como continuos.

Page 168: ESTADISTICA I

168

Habiéndose definido previamente el concepto de suceso, a continuación vamos a dar una tipología de los mismos dentro de la cual se distingue: suceso elemental, suceso compuesto (consta de dos o más sucesos elementales), suceso seguro o universal (coincide con el espacio muestral) y suceso imposible (no contiene ningún elemento

del espacio muestral E y por tanto no ocurrirá nunca y lo denotaremos por ). Ejemplo 1. En el experimento que consiste en lanzar un dado de seis caras vamos a concretar los conceptos de suceso elemental, suceso compuesto o evento, suceso seguro, suceso imposible, espacio muestral y naturaleza del mismo. En este experimento si admitimos que cada una de las caras se identifican por los enteros que van del 1 al 6, de forma que a la cara uno se la identifica por el valor 1, a la dos por el valor 2, y así sucesivamente, entonces los sucesos elementales de este experimento, que representaremos por ei, serán los enteros e1 =1, e2 =2, e3 =3, e4 =4, e5=5, e6 =6. A partir de éstos se pueden definir otros eventos. Así, el evento A = “número par” se define como A = {2, 4, 6}, el evento B = “número primo” viene dado por B = {1, 2, 3, 5}, etc. A su vez el suceso seguro en este experimento es E = “que salga alguna cara” y está formado por E = {1, 2, 3, 4, 5, 6}. Sobre un experimento aleatorio se puede definir más de un suceso imposible, aunque todos ellos satisfacen la definición dada con anterioridad. Así en este ejemplo sería sucesos imposibles los

siguientes: = “que sal la cara siete”, = “obtener la cara dos y medio”, etc. Finalmente el espacio muestral asociado a este experimento vendría dado por E = {1, 2, 3, 4, 5, 6}, es decir, el conjunto de todos los resultados posibles del mismo. En este caso se trata de un espacio finito y, por lo tanto, discreto. Ejemplo 2. Sea el experimento que consiste en contar el número de mujeres en una muestra de 12 parlamentarios seleccionados al azar. En este caso el espacio muestral correspondiente a este experimento viene dado por E = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}, que también es finito y discreto. Para este experimento también se puede definir distintos tipos de eventos como: A = “que el número de mujeres sea mayoría”; b = “que el número de mujeres sea al menos tres”; etc.

Page 169: ESTADISTICA I

169

Ejemplo 3. Sea el experimento que consiste en contar el número de personas que llega a la caja de un supermercado durante un mes. El espacio muestral de este experimento viene dado por E = {0, 1, 2, 3, 4, 5, ........}. En este caso estamos ante un espacio infinito numerable y, en consecuencia, también discreto. Ejemplo 4. Sea el experimento que consiste en anotar el instante en que se recibe una llamada telefónica a lo largo de un día. Si se admite que esa llamada puede ocurrir en cualquier instante de ese intervalo de 24 horas, entonces el espacio muestral será E = {el intervalo de tiempo correspondiente a las 24 horas}, que origina un espacio infinito no numerable, es decir, continuo. OPERACIONES DE LOS SUCESOS O EVENTOS Una vez que se ha dado el concepto de suceso o evento, a continuación se van a definir las operaciones más habituales que pueden realizarse con los mismos. a) Suceso contenido en otro. Se dice que A está contenido en B y lo indicaremos por

A B si todos los elementos de A pertenecen a B. Ejemplo 5. A partir del experimento definido en el Ejemplo 2, vamos a definir los sucesos A = “que haya 8 ó 9 mujeres” y B = “que haya mayoría de mujeres”. En este

caso se dice que A B. b) Igualdad de sucesos. Se dice que A y B son dos sucesos iguales si se cumple

simultáneamente que A B y B Ì A. Ejemplo 6. Con el mismo experimento del Ejemplo 2 se puede definir los sucesos A =

“mayoría de mujeres” y B = “al menos siete mujeres”. Aquí se cumple que A B y B

A, por lo que A = B. c) Unión de sucesos. Dados dos sucesos A y B, se define la unión de ambos como otro

suceso, que indicaremos por A B, que está formado por los elementos pertenecientes a A, o a B o a los dos a la vez. Ejemplo 7. Con el mismo experimento del Ejemplo 2 se puede definir los sucesos A = “al menos siete mujeres” y B = “más de cinco mujeres pero menos de diez”. En este caso: A = {7, 8, 9, 10, 11, 12} B = {6, 7, 8, 9}

Page 170: ESTADISTICA I

170

Por lo que

A B = {7, 8, 9, 10, 11, 12} {6, 7, 8, 9}={6, 7, 8, 9, 10, 11, 12} d) Intersección de sucesos. Dados dos sucesos A y B, se define la intersección de

ambos como otro suceso, que representamos por A B, compuesto por resultados comunes a A y B simultáneamente. Ejemplo 8. Con el mismo experimento del Ejemplo 2 se pueden definir los sucesos A = “al menos siete mujeres” y B = “más de cinco mujeres pero menos de diez”. En este caso:

A = {7, 8, 9, 10, 11, 12} B = {6, 7, 8, 9} Por lo que

A B = {7, 8, 9, 10, 11, 12} {6, 7, 8, 9} = { 7, 8, 9} e) Sucesos disjuntos, incompatibles o mutuamente excluyentes. Dados dos sucesos A y B, se dicen que ambos son incompatibles, disjuntos o mutuamente excluyentes si la

presencia de uno impide la del otro. En tal caso ocurre que A B = . Ejemplo 9. Con el mismo experimento del Ejemplo 2 se pueden definir los sucesos A = “al menos siete mujeres” y B = “no más de cinco mujeres”. En este caso: A = {7, 8, 9, 10, 11, 12} B = {0, 1, 2, 3, 4, 5} Por lo que

A B = {7, 8, 9, 10, 11, 12} {0, 1, 2, 3, 4, 5} = f) Complementario o contrario. Dado un suceso A, se define el complementario de A como otro suceso que ocurre cuando no ocurre A y que representaremos por A. Ejemplo 10. Con el mismo experimento del Ejemplo 2 se puede definir el sucesos A = “al menos siete mujeres”. El complementario de este suceso es: A= { 0, 1, 2, 3, 4, 5, 6}

Page 171: ESTADISTICA I

171

ACTIVIDADES DE APRENDIZAJE

En base a la bibliografía sugerida realizar un análisis de por lo menos una cuartilla de contenido, en el que se explique la diferencia existente entre espacio muestral, evento, y eventos. Se entregará de manera impresa la siguiente sesión

Realice diversas operaciones de los sucesos o eventos, de la bibliografía sugerida.

8.3 REGLAS DE CONTEO: COMBINACIONES Y PERMUTACIONES

El estudiante diferenciará la combinaciones y permutaciones.. Análisis Combinatorio El análisis combinatorio es la rama de las matemáticas que estudia los diversos arreglos o selecciones que podemos formar con los elementos de un conjunto dado, los cuales nos permite resolver muchos problemas prácticos, y nos va servir para resolver y comprender problemas sobre probabilidades. Técnicas fundamentales del Análisis Combinatorio En la mayoría de los problemas de análisis combinatorio se observa que una operación o actividad aparece en forma repetitiva y es necesario conocer las formas o maneras que se puede realizar dicha operación. Para dichos casos es útil conocer determinadas técnicas o estrategias de conteo que facilitarán el cálculo señalado. Estas técnicas son: la técnica de la multiplicación, la técnica de la permutación y la técnica de la combinación. La Técnica de la Multiplicación Según La técnica de la multiplicación, si hay m formas de hacer una cosa y hay n formas de hacer otra cosa, hay m x n formas da hacer ambas cosas En términos de fórmula Número total de arreglos = m x n Esto puede ser extendido a más de dos eventos. Para tres eventos, m, n, y o:

Page 172: ESTADISTICA I

172

Número total de arreglos = m x n x o Ejemplo: Un vendedor de autos quiere presentar a sus clientes todas las diferentes opciones con que cuenta: auto convertible, auto de 2 puertas y auto de 4 puertas, cualquiera de ellos con rines deportivos o estándar. ¿Cuántos diferentes arreglos de autos y rines puede ofrecer el vendedor? Para solucionar el problema podemos emplear la técnica de la multiplicación, (donde m es número de modelos y n es el número de tipos de rin). Número total de arreglos = 3 x 2 No fue difícil de listar y contar todos los posibles arreglos de modelos de autos y rines en este ejemplo. Suponga, sin embargo, que el vendedor tiene para ofrecer ocho modelos de auto y seis tipos de rines. Sería tedioso hacer un dibujo con todas las posibilidades. Aplicando la técnica de la multiplicación fácilmente realizamos el cálculo: Número total de arreglos = m x n = 8 x 6 = 48 La Técnica de la Permutación Es un conjunto de números o elementos (n) tomados de r en r a la vez y cuyos arreglos responden a un orden determinado. Nos interesa el orden en que estos se hacen. Como vimos anteriormente la técnica de la multiplicación es aplicada para encontrar el número posible de arreglos para dos o más grupos. La técnica de la permutación es aplicada para encontrar el número posible de arreglos donde hay solo u grupo de objetos. Como ilustración analizaremos el siguiente problema: Tres componentes electrónicos - un transistor, un capacitor, y un diodo - serán ensamblados en una tablilla de una televisión. Los componentes pueden ser ensamblados en cualquier orden. ¿De cuantas diferentes maneras pueden ser ensamblados los tres componentes? Las diferentes maneras de ensamblar los componentes son llamadas permutaciones, y son las siguientes: T D C D T C C D T T C D D C T C T D Permutación: Todos los arreglos de r objetos seleccionados de n objetos posibles

Page 173: ESTADISTICA I

173

La fórmula empleada para contar el número total de diferentes permutaciones es:

Pnr = nPr =

Donde: nPr es el número de permutaciones posible n es el número total de objetos r es el número de objetos utilizados en un mismo momento (1 en 1, 2 en 2, 3 en 3, etc.)

n P r = n!

= 3!

= 3 x 2

= 6 (n – r )! ( 3 – 3 )! 1

Ejemplo: Suponga que hay ocho tipos de computadora pero solo tres espacios disponibles para exhibirlas en la tienda de computadoras. ¿De cuantas maneras diferentes pueden ser arregladas las 8 máquinas en los tres espacios disponibles?

n P r =

n! =

8! =

8! = 336

(n – r )! ( 8 – 3 )! 5! En el análisis anterior los arreglos no presentan repeticiones, es decir, no hay dos espacios disponibles con el mismo tipo de computadora. Si en los arreglos se permite la repetición, la fórmula de permutaciones es la siguiente: n Pr = nr Para ilustrar el punto, queremos saber ¿cuántas series de 2 letras se pueden formar con las letras A, B, C, si se permite la repetición? Las permutaciones son las siguientes: AA, AB, AC, BA, CA, BB, BC, CB, CC Usando la fórmula: n Pr = nr = 3P2 = 32 = 9 La Técnica de la Combinación En una permutación, el orden de los objetos de cada posible resultado es diferente. Si el orden de los objetos no es importante, cada uno de estos resultados se denomina combinación. Por ejemplo, si se quiere formar un equipo de trabajo formado por 2 personas seleccionadas de un grupo de tres (A, B y C). Si en el equipo hay dos

Page 174: ESTADISTICA I

174

funciones diferentes, entonces si importa el orden, los resultados serán permutaciones. Por el contrario si en el equipo no hay funciones definidas, entonces no importa el orden y los resultados serán combinaciones. Los resultados en ambos casos son los siguientes: Permutaciones: AB, AC, BA, CA, BC, CB Combinaciones: AB, AC, BC Combinaciones: Es el número de formas de seleccionar r objetos de un grupo de n objetos sin importar el orden. La fórmula de combinaciones es:

nr = nCr =

Ejemplo: En una compañía se quiere establecer un código de colores para identificar cada una de las 42 partes de un producto. Se quiere marcar con 3 colores de un total de 7 cada una de las partes, de tal suerte que cada una tenga una combinación de 3 colores diferentes. ¿Será adecuado este código de colores para identificar las 42 partes del producto? Usando la fórmula de combinaciones:

n C r = n!

= 7!

= 7!

= 35 r! (n – r )! 3! ( 7 – 3 )! 3! 4!

El tomar tres colores de 7 posibles no es suficiente para identificar las 42 partes del producto.

ACTIVIDADES DE APRENDIZAJE

Realice diversas operaciones de combinación y permutación, de la bibliografía sugerida.

Page 175: ESTADISTICA I

175

8.4 REGLAS DE LA PROBABILIDAD

El estudiante concoerá y comprenderá las reglas de la probabilidad. Probabilidad axiomática. Para dar esta definición es preciso, previamente, definir el concepto de s-álgebra de Boole. Un s-álgebra de Boole, que representaremos por A=P(E), es una familia de sucesos no vacía, la cual contiene necesariamente los

sucesos y E y que, además, es cerrada para las operaciones de complementación y de unión de infinitos subconjuntos numerables de E, sien E el espacio muestral del experimento. En base a este concepto, la probabilidad axiomática se define como una función de conjunto, que llamaremos P, cuyo dominio es el s-álgebra de Boole y cuyo recorrido es el intervalo cerrado [0,1] si además satisface los tres axiomas siguientes (axiomas de Kolmogorov):

A continuación vamos enunciar una serie de teoremas sobre probabilidad, de gran utilidad, que se deducen de los axiomas anteriores.

1. Para cualquier suceso AÎA se verifica que la probabilidad de su complementario

Para demostrar este teorema partimos de que:

Page 176: ESTADISTICA I

176

Por otro lado según los axiomas segundo y tercero se tiene que:

por lo que:

2. La probabilidad del suceso imposible es nula.

Si en el teorema 1 se hace que por lo que

3. La probabilidad P es monótona no decreciente, es decir, para cualesquiera sucesos

A, , tales que , entonces . Para demostrar este teorema se parte de que

Pero según los axiomas primero y tercero resulta que

4. Para cualquier suceso La primera desigualdad de este teorema es el primero de los axiomas. En cuanto a la segunda se tiene que , por lo que, según el teorema anterior, resulta que:

5. Regla de la suma. Para cualesquiera sucesos A , se verifica que

.

Page 177: ESTADISTICA I

177

Para demostrar este teorema vamos a expresar los sucesos y A como la unión de los siguientes sucesos disjuntos:

A su vez, la probabilidad de los mismos, según el tercero de los axiomas, viene dada por:

De la segunda probabilidad se deduce que

Si ahora se sustituye este resultado en P se llega a que

Ejemplo 12. Sean A y B dos sucesos tales que: P =

Page 178: ESTADISTICA I

178

Ejemplo: La probabilidad de que las acciones de una empresa financiera coticen al alza es 0,8, mientras que esa probabilidad para una empresa del sector nuevas tecnologías es 0,4. A su vez, la probabilidad de que las dos coticen al alza es 0,3. Obtenga las siguientes probabilidades:

a) que coticen al alza al menos una de las dos empresas;

b) que ninguna de las dos cotice al alza;

c) que solo cotice una al alza.

Para dar solución a este ejercicio vamos a proceder en primer lugar a definir los siguientes sucesos: A = la empresa del sector financiero cotiza al alza. B = la empresa del sector nuevas tecnologías cotiza al alza. C = al menos una empresa cotiza al alza. D = ninguna de las dos empresas cotiza al alza. E = solo una empresa cotiza al alza.

a) A partir del enunciado sabemos que P(A) = 0,8; P(B) = 0,4 y P(A B) = 0,3. Con ello tenemos que: P(C)= P(AB) = P(A) + P(B) – P(A B) = 0,8 + 0,4 – 0,3 = 0,9

c) El suceso D se puede expresar como:

Este resultado nos lleva a que:

d) El suceso E se puede expresar como

Pero como se trata de la unión de dos sucesos disjuntos, entonces la probabilidad del suceso E es:

Page 179: ESTADISTICA I

179

Ahora bien

A su vez:

Todo ello nos permite escribir:

ACTIVIDADES DE APRENDIZAJE

Ejemplifique las reglas de la probabilidad, tome de referencia la bibliografía sugerida.

8.5 EVENTOS DEPENDIENTES, INDEPENDIENTES Y CONDICIONALES

El estudiante concoerá y diferenciará eventos dependientes, independientes y condicionales.. Eventos Independientes Dos o más eventos son independientes cuando la ocurrencia o no-ocurrencia de un evento no tiene efecto sobre la probabilidad de ocurrencia del otro evento (o eventos). Un caso típico de eventos independiente es el muestreo con reposición, es decir, una vez tomada la muestra se regresa de nuevo a la población donde se obtuvo.

Page 180: ESTADISTICA I

180

Dos eventos, A y B, son independientes si la ocurrencia de uno no tiene que ver con la ocurrencia de otro. Por definición, A es independiente de B si y sólo si:

Esto implica que:

Independientes es diferente a mutuamente exclusivos. Ejemplo: Lanzar al aire dos veces una moneda son eventos independientes por que el resultado del primer evento no afecta sobre las probabilidades efectivas de que ocurra cara o sello, en el segundo lanzamiento. Eventos dependientes Dos o más eventos serán dependientes cuando la ocurrencia o no-ocurrencia de uno de ellos afecta la probabilidad de ocurrencia del otro (o otros). Cuando tenemos este caso, empleamos entonces, el concepto de probabilidad condicional para denominar la probabilidad del evento relacionado. La expresión P(A|B) indica la probabilidad de ocurrencia del evento A sí el evento B ya ocurrió. Se debe tener claro que A|B no es una fracción. P(A|B) = P(A y B)/P(B) o P(B|A) = P(A y B)/P(A) Probabilidad Condicional Si A y B son dos eventos en S, la probabilidad de que ocurra A dado que ocurrió el evento B es la probabilidad condicional de A dado B, y se

denota .

Page 181: ESTADISTICA I

181

La probabilidad condicional por definición es:

, dado P(B) > 0 Ejemplo:

Para un dado, si sé que cayó impar, cuál es la probabilidad de 3?

Similarmente:

De donde:

Esta expresión se conoce como el Teorema de Bayes, que en su forma más general es:

El denominador se le conoce como el teorema de la probabilidad total. Teorema 4: Si B1,B2,...,Bk representan una partición (exclusivos, exhaustivos y mayores a cero) de S, y A es un evento respecto a S, entonces la probabilidad de A la podemos escribir como:

ACTIVIDADES DE APRENDIZAJE

Desarrolle ejercicios de eventos dependientes, independientes y condicionales, de la bibliografía sugerida.

Page 182: ESTADISTICA I

182

8.6 TEOREMA DE BAYES

El estudiante concoerá y aplicará el teorema de Bayes. El Teorema de BAYES se apoya en el proceso inverso en el Teorema de la Probabilidad Total. Teorema de la probabilidad total: a partir de las probabilidades del suceso A (probabilidad de que llueva o de que haga buen tiempo) deducimos la probabilidad del suceso B (que ocurra un accidente). Teorema de Bayes: a partir de que ha ocurrido el suceso B (ha ocurrido un accidente) deducimos las probabilidades del suceso A (¿estaba lloviendo o hacía buen tiempo?). La fórmula del Teorema de Bayes es:

Tratar de explicar estar fórmula con palabras es un galimatías, así que vamos a intentar explicarla con un ejemplo. De todos modos, antes de entrar en el ejercicio, recordar que este teorema también exige que el suceso A forme un sistema completo. Primer ejemplo. El parte meteorológico ha anunciado tres posibilidades para el fin de semana: a) Que llueva: probabilidad del 50%. b) Que nieve: probabilidad del 30% c) Que haya niebla: probabilidad del 20%. Según estos posibles estados meteorológicos, la posibilidad de que ocurra un accidente es la siguiente: a) Si llueve: probabilidad de accidente del 20%. b) Si nieva: probabilidad de accidente del 10% c) Si hay niebla: probabilidad de accidente del 5%.

Page 183: ESTADISTICA I

183

Resulta que efectivamente ocurre un accidente y como no estábamos en la ciudad no sabemos que tiempo hizo (llovió, nevó o hubo niebla). El teorema de Bayes nos permite calcular estas probabilidades: Las probabilidades que manejamos antes de conocer que ha ocurrido un accidente se denominan "probabilidades a priori" (lluvia con el 50%, nieve con el 30% y niebla con el 20%). Una vez que incorporamos la información de que ha ocurrido un accidente, las probabilidades del suceso A cambian: son probabilidades condicionadas P (A/B), que se denominan "probabilidades a posteriori". Vamos a aplicar la fórmula:

a) Probabilidad de que estuviera lloviendo:

La probabilidad de que efectivamente estuviera lloviendo el día del accidente (probabilidad a posteriori) es del 71,4%.

b) Probabilidad de que estuviera nevando:

La probabilidad de que estuviera nevando es del 21,4%.

c) Probabilidad de que hubiera niebla:

La probabilidad de que hubiera niebla es del 7,1%

Page 184: ESTADISTICA I

184

ACTIVIDADES DE APRENDIZAJE

Elabore ejercicios del teorema de Bayes, de la bibliografía sugerida.

8.7 DIAGRAMA DE ÁRBOL

El estudiante aplicará el diagrama de árbol. Un diagrama de árbol es una representación gráfica que ilustra las formas en las que se llevan a cabo las agrupaciones de elementos. Ejemplo: Una persona tiene 4 camisas de color azul, negro, verde y beige; así mismo tiene 5 pantalones azul marino, negro, gris, beige y café. ¿de cuántas formas diferentes puede vestirse esta persona? Si llamamos C1,C2,C3 y C4 a las diferentes camisetas y P1,P2,P3,P4 y P5 a los distintos pantalones, obtendríamos el diagrama de árbol que se muestra en la figura 1. Si contamos los resultados, comprobamos que obtenemos los 20 que indicaba el principio de la multiplicación.

Page 185: ESTADISTICA I

185

En los diagramas de árbol se emplea una nomenclatura propia, que describimos a continuación:

Árbol: es el diagrama completo.

Raíz: es el punto en el cual se origina el árbol. En la figura, la raíz sería el punto desde donde parten las cuatro flechas que llegan hasta las cuatro opciones de camiseta.

Ramas: son las distintas bifurcaciones. En la figura se corresponden con las flechas del gráfico.

Nodos o nudos: son los puntos desde los que surgen nuevas bifurcaciones. En la figura, los nodos serían los puntos en los que tenemos las 4 opciones de camiseta: C1,C2,C3 y C4.

Hojas: son los puntos finales, desde los cuales no surgen nuevas bifurcaciones. En la figura, las hojas son los puntos correspondientes a las 5 opciones de pantalón (todos los nombrados como P1,P2,P3,P4 y P5, 20 puntos en total).

Nivel: es el número de ramas que separa a un nodo u hoja de la raíz. La raíz corresponde al nivel 0 y, en la figura, las opciones de camiseta estarán en el nivel 1 y las de pantalón en el nivel 2.

Camino: es cualquier recorrido por las ramas del árbol, desde la raíz hasta alguna de sus hojas. En la figura tenemos 20 caminos diferentes.

ACTIVIDADES DE APRENDIZAJE

Elabore ejercicios del diagrama de árbol, de la bibliografía sugerida.

8.8 ESPERANZA MATEMÁTICA

El estudiante concocerá y resolverá problemas de esperanza matemática. En estadística la esperanza matemática (o simplemente esperanza) o valor esperado de una variable aleatoria es la suma del producto de la probabilidad de cada suceso por el valor de dicho suceso. Por ejemplo, en un juego de azar el valor esperado es el beneficio medio.

Page 186: ESTADISTICA I

186

Si todos los sucesos son de igual probabilidad la esperanza es la media aritmética. La esperanza matemática de una función g(X) está dada por

[4.3] donde f(X) es, respectivamente, la función de probabilidad o la función densidad de probabilidad y g(X) es cualquier función de valores reales que está definida para todos los valores posibles de X. Ejemplo. La probabilidad de que una casa de cierto tipo quede destruida por un incendio en cualquier período de doce meses es de 0.005. Una compañía de seguros ofrece al propietario una póliza de seguros contra incendio por $20,000.00 (dólares) a un año con una prima de $150.00 dólares. ¿Cuál es la ganancia esperada de la compañía? Solución: Sea S = {se incendie, no se incendie}, el espacio muestral, La variable aleatoria asociada es X = {0,1}, donde 0 significa que se incendie y 1 que no se incendie (estos valores son arbitrarios). g(X) representa la ganancia de la compañía por cada casa asegurada (sin tomar en cuenta gastos). La situación se explica mejor en una tabla.

Evento X g(X) f(X)

Se incendie 0 -$19,850.00 0.005

No se incendie 1 +$150.00 0.995

En caso de que la compañía asegure 20,000 casas, su ganancia esperada sería de $1,000,000.00 (sin tomar en cuenta gastos). La esperanza matemática de una función g(X) está definida por:

Page 187: ESTADISTICA I

187

PROPIEDADES DE LA ESPERANZA MATEMÁTICA Proposición: E[a g(X) +b h(X)] = a E[g(X)]+b E[h(X)]; a, b constantes. [4.4] Demostración:

Nota si X es discreta, la demostración se hace en la misma forma, usando sumatorias en vez de integrales. Proposición: E[c1 X + c2] = c1 E [X] + c2 [4.5] Demostración:

ACTIVIDADES DE APRENDIZAJE

Elabore ejercicios de esperanza matemática, de la bibliografía sugerida.

Page 188: ESTADISTICA I

188

INSTRUCCIONES: Lea detenidamente y anote dentro del paréntesis “v” si el enunciado es verdadero y “f” si en falso. (recuerde que la forma de evaluar esta sección es aciertos menos errores). 1. La probabilidad 0, significa que algo nunca va a suceder.

( )

2. El experimento aleatorio es el que puede dar lugar a más de un resultado, por lo que, no se puede predecir uno de ellos en una prueba particular.

( )

3. La combinación es todo arreglo de elementos donde nos interesa el lugar o posición donde son colocados lo elementos.

( )

4. Con las cifras 1,2,3,4,5 y 6. Se pueden hacer 120 números con 3 cifras que sean diferentes?

( )

5. El diagrama de árbol es la representación gráfica útil para identificar los puntos muestrales de un experimento con varias etapas.

( )

INSTRUCCIONES: Lea detenidamente los siguientes conceptos y subraye la respuesta a la que corresponda dicho concepto

1. Son el conjunto de posibles resultados de un experimento aleatorio. a) Espacio muestral b) Evento simple c) Evento imposible d) Experimento determinístico 2. Es todo aquel resultado o grupo de resultados que pueden dar origen a un experimento aleatorio a) Experimento aleatorio b) Evento dependiente c) Evento excluyente d) Evento 3. Son aquellos eventos que no pueden ocurrir simultáneamente al realizar una sola vez un experimento. a) Compuesto b) Imposible

Page 189: ESTADISTICA I

189

c) Dependiente d) Mutuamente excluyente 4. Una moneda de $ 5.00 pesos se lanza al aire 8 veces, ¿Cuál es la probabilidad de que por lo menos aparezcan 6 soles? a) 14.45% b) 25% c) 50% d) 75% 5. Es el producto de todos los números consecutivos decrecientes que comienzan en 1 hasta n, entonces. a) Combinación b) Permutación c) Variación d) Factorial 6. ¿Cuál es la probabilidad de sacar 2 ases consecutivos en 2 cartas tomadas al azar de un juego ordinario de una baraja de 40 cartas, si no se sustituye la primera carta antes de sacar la segunda carta? a) .0777% b) .777% c) 7.77% d) 77.7% 7. Se denomina así al conjunto de todos los resultados posibles de un experimento. a) Muestra b) Estadística c) Probabilidad d) Espacio muestral

INSTRUCCIONES: Lea detenidamente y conteste en los espacios en blanco la respuesta correcta.

1. La _______________________ es la posibilidad de que algo pase. Se expresa

como fracción o decimales que están entre 1 y 0.

2. El experimento _______________________ es en el que es posible predecir el resultado final de ese proceso, aun sin haberlo realizado.

3. Los eventos _______________ son aquellos sucesos constituidos por todos los

eventos simples de un espacio muestral

Page 190: ESTADISTICA I

190

4. La ______________________ es la combinación lineal de un conjunto de variables formadas en la técnica multivariante mediante la derivación de los pesos empíricos aplicados a un conjunto de variables especificadas por el investigador.

5. El ___________________________de una variable aleatoria discreta, se puede

considerar como su promedio ponderado sobre todos los resultados posibles siendo las ponderaciones la probabilidad relacionada con cada uno de los resultados.

6. nPr = n ! es la fórmula para las ________________. i. (n-r)!

7. nCr = n ! es la fórmula para las _____________________________ i. r! (n-r)!

Page 191: ESTADISTICA I

191

UNIDAD 9 VARIABLES ALEATORIAS DISCRETAS Y SU DISTRIBUCIÓN DE

PROBABILIDAD

El estudiante identificará los tipos de variables aleatorias relacionadas con experimentos aleatorios discretos y con base a sus valores probabilísticos, podrá describir su comportamiento. Calculará las probabilidades asociadas a eventos de datos provenientes de variables aleatorias: Bernoulli, Binomial, Multinomial, de Poisson, Geométrica, Hipergeométrica y analizará los tipos de variables aleatorias.

Temario: 9. VARIABLES ALEATORIAS DISCRETAS Y SU DISTRIBUCIÓN DE

PROBABILIDAD

9.1 PROBABILIDAD CLÁSICA, FRECUENCIAL Y SUBJETIVA 9.2 DISTRIBUCIÓN DE PROBABILIDAD DE UNA VARIABLE ALEATORIA

DISCRETA 9.3 DISTRIBUCIÓN BERNOULLI 9.4 DISTRIBUCIÓN BINOMIAL Y MULTINOMIAL 9.5 DISTRIBUCIÓN DE POISSON 9.6 DISTRIBUCIÓN GEOMÉTRICA 9.7 DISTRIBUCIÓN HIPERGEOMÉTRICA

Page 192: ESTADISTICA I

192

MAPA CONCEPTUAL VARIABLES ALEATORIAS DISCRETAS Y SU DISTRIBUCIÓN DE PROBABILIDAD

9. VARIABLES ALEATORIAS DISCRETAS Y SU DISTRIBUCION DE

PROBABILIDAD

9.1PROBABILIDAD CLÁSICA,

FRECUENCIAL Y SUBJETIVA

9.2 DISTRIBUCIÓN

DE PROBABILIDA

D DE UNA VARIABLE

ALEATORIA DISCRETA

9.3 DISTRIBUCIÓN

BERNOULLI

9.4 DISTRIBUCIÓN BINOMIAL Y

MULTINOMIAL

9.5 DISTRIBUCIÓN DE POISSON

9.6 DISTRIBUCIÓN GEOMÉTRICA

9.7 DISTRIBUCIÓN HIPERGEOMÉTRICA

Page 193: ESTADISTICA I

193

INTRODUCCIÓN En el estudio de variables, casi siempre se le da interés a las probabilidades con que toman los diversos valores dentro de su amplitud, específicamente en las distribuciones de probabilidad. A la presentación de las variables aleatorias y las distribuciones de la probabilidad, seguirá el análisis de algunas distribuciones.

Page 194: ESTADISTICA I

194

9. VARIABLES ALEATORIAS DISCRETAS Y SU DISTRIBUCIÓN DE PROBABILIDAD

9.1 PROBABILIDAD CLÁSICA, FRECUENCIAL Y SUBJETIVA

El estudiante concocerá y diferenciará la probabilidad clásica, frecuencial y subjetiva. El concepto de probabilidad es muy antiguo y a lo largo de la historia se ha definido de distintas formas, aunque todas ellas mantienen en común las características básicas del concepto. En general cuando hablemos de probabilidad lo haremos siempre en referencia a la probabilidad de un suceso y la entenderemos como una medida cuantificada de la verosimilitud de ocurrencia de un suceso frente a los demás sucesos del experimento. Pero qué duda cabe que esta definición no es del todo buena, pues se utiliza el término verosimilitud para definir la probabilidad, cuando el mismo es un sinónimo de lo que se quiere definir. También podría hablarse del grado de incertidumbre en la ocurrencia de los resultados de un experimento. En cualquier caso la probabilidad de un suceso es una medida cuantificable que toma valores entre cero y uno a diferencia del concepto de posibilidad que es una medida cualitativa. Una vez que se ha dado el concepto de probabilidad en sentido amplio debemos señalar que a lo largo de la historia podemos encontrar tres formas distintas de definir o interpretar la probabilidad. Cada uno de ellas responde a un tipo de experimento distinto. En concreto, supongamos que queremos calcular la probabilidad de los siguientes sucesos:

Obtener un seis al lanzar un dado honesto.

Obtener un seis al lanzar un dado cargado.

Que la tasa de crecimiento del VAB de España sea superior al 4%. Para obtener esas probabilidades hay que recurrir a enfoque o definiciones distintas. En realidad esos enfoques sirven para establecer reglas de asignación de probabilidades a los sucesos más que para definir la probabilidad. Probabilidad clásica o a priori (Regla de Laplace) Si el experimento que estamos realizando da lugar a un espacio muestral E que es finito y cuyos resultados son conocidos de antemano y equiprobables o simétricos, entonces, la probabilidad del suceso A perteneciente a E se define como el cociente de los resultados favorables a A respecto del total de resultados posibles.

Page 195: ESTADISTICA I

195

A esta expresión se le conoce como regla de Laplace. Este concepto de probabilidad está íntimamente ligado a los juegos de azar. Esta definición satisface tres propiedades:

1) No negatividad, .

2) Certeza, 3) Aditividad. Si A y B son dos sucesos del espacio E y ambos son mutuamente excluyentes, entonces la probabilidad de

Antes de finalizar con este concepto de probabilidad hay que señalar la razón de su denominación. Así el adjetivo “clásica” hace alusión a que fue la forma en la que los primeros estadísticos abordaron este concepto. A su vez el término “a priori” se refiere a que la probabilidad de cualquiera de los sucesos de este tipo de experimentos es conocida incluso antes que los mismos tengan lugar. De hecho no es necesario realizar el experimento para conocer las probabilidades de sus resultados. Probabilidad frecuencial o a posteriori. En este caso la probabilidad de un suceso A se define como el límite de una frecuencia relativa, cuando el experimento se realiza un número infinito de veces. Formalmente diremos que:

Esta definición de probabilidad cumple también las tres propiedades enunciadas en el caso anterior. Con este concepto de probabilidad lo que se pretende es dar respuesta a experimentos en los que no se cumplen los requisitos señalados antes, en especial el de equiprobabilidad o simetría de los resultados. Esta circunstancia conlleva que la probabilidad de cada resultado no sea conocido de antemano, siendo necesaria la realización del experimento para la cuantificación de la misma.

Page 196: ESTADISTICA I

196

Con esta definición se puede determinar la probabilidad de: las caras de un dado cuando el mismo está cargado; pieza defectuosa en la producción de una empresa; accidente de tráfico; factura impagada; cliente moroso; que el cliente de un establecimiento comercial sea menor de 25 años; que los ingresos de una persona sea superior a la media; etc. La probabilidad definida bajo este enfoque también satisface las tres propiedades dadas anteriormente. Ejemplo. Los 1000 empleados de una empresa, según la edad y el sexo de los mismos, vienen dados en la siguiente tabla de doble entrada.

Obtenga la probabilidad de que elegido un empleado al azar el mismo sea: a) Hombre b) Mujer c) Menor de 30 años d) De 30 o más años e) Mujer menor de 30 años f) Hombre de 30 y más años Antes de calcular esas probabilidades vamos a definir simbólicamente cada uno de esos sucesos: A = el empleado seleccionado es hombre B = el empleado seleccionado es mujer C = el empleado seleccionado es menor de 30 años D = el empleado seleccionado tiene 30 o más años

Page 197: ESTADISTICA I

197

Definidos los sucesos de esta forma, las probabilidades pedidas son: a) P(A) = (700/1000) = 0,7 b) P(B) = (300/1000) = 0,3 c) P(C) = (350/1000) = 0,35 d) P(D) = (650/1000) = 0,65 e) P(B C) = (100/1000) = 0,10

f) P(A D) = (450/1000) = 0,45 Probabilidad subjetiva. Hay determinados experimentos aleatorios que no son susceptibles de realizarse y sus resultados no son equiprobables. Imaginemos que se quiere determinar la probabilidad: de que la economía de España crezca en el próximo año un 3%; que las acciones de una empresa se revaloricen en un 10% en un mes; que una empresa presente suspensión de pagos; que un nuevo producto sea bien acogido en el mercado; que ocurra un accidente nuclear; etc. En estas circunstancias, donde los experimentos solo se pueden realizar una vez o ninguna o que se puedan repetir pero en condiciones distintas, no son aplicables ninguna de las dos definiciones dadas anteriormente, por lo que no es posible asignar probabilidades mediante un procedimiento objetivo, debiendo recurrir a procedimientos de tipo subjetivo, a opiniones de expertos. En estos casos la probabilidad expresa un grado de creencia o confianza individual en relación con la ocurrencia o no de un determinado suceso. Se trata de un juicio personal sobre el resultado de un experimento aleatorio. Además debemos admitir la posibilidad de que distintos sujetos asignen probabilidades diferentes al mismo suceso. No obstante esta definición de probabilidad también satisface las tres propiedades vistas antes.

ACTIVIDADES DE APRENDIZAJE

Elabore algunos ejemplos de las probabilidades vistas aquí.

Page 198: ESTADISTICA I

198

9.2 DISTRIBUCIÓN DE PROBABILIDAD DE UNA VARIABLE ALEATORIA DISCRETA

El estudiante diferenciará la distribución de probabilidad de una variable aleatoria discreta.

Recordemos inicialmente que existen las variables aleatorias, siendo aquellas que se asocian a la ocurrencia de un fenómeno aleatorio. Cuando una de estas variables aleatorias toma diversos valores, la probabilidad asociada a cada uno de tales valores puede ser organizada como una distribución de probabilidad, la cual es la distribución de las probabilidades asociadas a cada uno de los valores de la variable aleatoria. Las distribuciones de probabilidad pueden representarse a través de una tabla, una gráfica o una fórmula, en cuyo caso tal regla de correspondencia se le denomina función de probabilidad. Consideraremos primero las distribuciones de probabilidad para variables discretas. Por ejemplo: Consideremos a la variable aleatoria X como la cantidad de águilas observadas cuando se lanzan dos volados. El espacio muestral es el conjunto {AA, AS, SA, SS} y se puede ver que la variable X puede tomar como valores 0, 1 y 2. Calculando las probabilidades tenemos:

P(de no observar águilas) = P(SS) = P(X=0) = ¼

P(de observar una águila) = P(SA È AS) = P(X=1) = 2/4

P(de observar dos águilas) = P(AA) = P(X=2) = ¼

Si ahora se organizan estos resultados con el siguiente formato

X P(X=x)

0 ¼

1 2/4

2 ¼

se podrá explicar por qué se usa el nombre "distribución de probabilidad". E, incluso, con esta información se puede construir una gráfica de barras o un histograma como el que sigue:

Page 199: ESTADISTICA I

199

Las propiedades de las distribuciones de variables discretas son dos, y que posteriormente, al hablar de las distribuciones de variables continuas, se repetirán de manera muy similar:

1. 0 £ P(X=x) £ 1. 2. SP(X=x) = 1, o que es lo mismo: la suma de todas las probabilidades de los

eventos posibles de una variable aleatoria es igual a la unidad. Hay que hacer notar que estas propiedades se enuncian suponiendo que conocemos el valor de la probabilidad, pero en la realidad esto no ocurre, es decir que no sabemos la probabilidad y lo que se hace es trabajar con estimaciones. Precisamente esto nos lleva a modelos teóricos que estiman los resultados, los principales son los que a continuación se presentan. Modelos de distribuciones de probabilidad de variables discretas

Uniforme. Es la distribución donde todos los eventos elementales tienen la misma probabilidad. Por ejemplo: tirar un dado, donde la función P(X=x)=1/6 para valores de x=1,2,3,4,5,6.

Binomial. Es la que maneja la distribución de la probabilidad de obtener cierta cantidad de éxitos al realizar una cantidad de experimentos con probabilidad de éxito constante y con ensayos independientes.

Geométrica. Es la distribución de la probabilidad de realizar cierto número de experimentos antes de obtener un éxito.

Hipergeométrica. Es similar a la binomial, pero con un tamaño de muestra grande en relación al tamaño de la población. La función de Excel que proporciona sus valores es DISTR.HIPERGEOM

De Poisson. Es la distribución de la probabilidad de que ocurra un evento raro en un periodo de tiempo, un espacio o un lugar. La función de Excel que da los valores de la distribución es POISSON

Page 200: ESTADISTICA I

200

ACTIVIDADES DE APRENDIZAJE

Elabore ejercicios, de probabilidad de una variable aleatoria discreta de la bibliografía sugerida.

9.3 DISTRIBUCIÓN BERNOULLI

El estudiante aplicará la distribución de Bernoulli.

La distribución de Bernoulli es el modelo que sigue un experimento que se realiza una sola vez y que puede tener dos soluciones: acierto o fracaso:

Cuando es acierto la variable toma el valor 1 Cuando es fracaso la variable toma el valor 0

Ejemplo: Probabilidad de salir cara al lanzar una moneda al aire (sale cara o no sale); p probabilidad de ser admitido en una universidad (o te admiten o no te admiten); p probabilidad de acertar una quiniela (o aciertas o no aciertas) Al haber únicamente dos soluciones se trata de sucesos complementarios: A la probabilidad de éxito se le denomina "p" A la probabilidad de fracaso se le denomina "q" Verificándose que:

p + q = 1 Veamos los ejemplos antes mencionados : Ejemplo 1: Probabilidad de salir cara al lanzar una moneda al aire: Probabilidad de que salga cara: p = 0,5 Probabilidad de que no salga cara: q = 0,5

p + q = 0,5 + 0,5 = 1 Ejemplo 2: Probabilidad de ser admitido en la universidad: Probabilidad de ser admitido: p = 0,25 Probabilidad de no ser admitido: q = 0,75

p + q = 0,25 + 0,75 = 1

Page 201: ESTADISTICA I

201

Ejemplo 3: Probabilidad de acertar una quiniela: Probabilidad de acertar: p = 0,00001 Probabilidad de no acertar: q = 0,99999

p + q = 0,00001 + 0,99999 = 1

ACTIVIDADES DE APRENDIZAJE

Elabore ejercicios de la distribución de Bernoulli, de la bibliografía sugerida.

9.4 DISTRIBUCIÓN BINOMIAL Y MULTINOMIAL

El estudiante aplicará la distribución binomial y multinomial. La distribución binomial parte de la distribución de Bernoulli: La distribución de Bernoulli se aplica cuando se realiza una sola vez un experimento que tiene únicamente dos posibles resultados (éxito o fracaso), por lo que la variable sólo puede tomar dos valores: el 1 y el 0 La distribución binomial se aplica cuando se realizan un número "n" de veces el experimento de Bernoulli, siendo cada ensayo independiente del anterior. La variable puede tomar valores entre: 0: si todos los experimentos han sido fracaso n: si todos los experimentos han sido éxitos Ejemplo: se tira una moneda 10 veces: ¿cuántas caras salen? Si no ha salido ninguna la variable toma el valor 0; si han salido dos caras la variable toma el valor 2; si todas han sido cara la variable toma el valor 10 La distribución de probabilidad de este tipo de distribución sigue el siguiente modelo:

Page 202: ESTADISTICA I

202

Ejemplo 1: ¿Cuál es la probabilidad de obtener 6 caras al lanzar una moneda 10 veces? " k " es el número de aciertos. En este ejemplo " k " igual a 6 (en cada acierto decíamos que la variable toma el valor 1: como son 6 aciertos, entonces k = 6) " n" es el número de ensayos. En nuestro ejemplo son 10 " p " es la probabilidad de éxito, es decir, que salga "cara" al lanzar la moneda. Por lo tanto p = 0,5 La fórmula quedaría:

Luego, P (x = 6) = 0,205 Es decir, se tiene una probabilidad del 20,5% de obtener 6 caras al lanzar 10 veces una moneda. Ejemplo 2:¿Cuál es la probabilidad de obtener cuatro veces el número 3 al lanzar un dado 8 veces? " k " (número de aciertos) toma el valor 4 " n" toma el valor 8 " p " (probabilidad de que salga un 3 al tirar el dado) es 1 / 6 (= 0,1666) La fórmula queda:

Luego, P (x = 4) = 0,026 Es decir, se tiene una probabilidad del 2,6% de obtener cuatro veces el número 3 al tirar un dado 8 veces.

Page 203: ESTADISTICA I

203

La distribución multinomial es una generalización de la distribución binomial. En este caso, en un experimento interesa estudiar no la ocurrencia de un único suceso o la de su contrario, sino la de varios sucesos (tres o más). La distribución multinomial, M(n,p1,...,pn) proporciona probabilidades de obtener, en m repeticiones independientes de un experimento, x1 veces el suceso A1, x2 veces el suceso A2,..., xn veces el suceso An, donde dichos sucesos forman una partición del

espacio muestral, es decir, tal que para y

donde , por tanto, se cumple . Así, considerando que Xi es el número de veces que se presenta el suceso Ai en las m repeticiones tenemos que la variable n-dimensional (X1, X2, ..., Xn) sigue una distribución multinomial de parámetros n, p1, ..., pn y su función de probabilidad es

para con . Hay que tener en cuenta que si (X1, X2, ..., Xn) es una variable multidimensional entonces existe una relación lineal entre sus componentes ya que X1+ X2+ ...+ Xn = m, por lo que, una de las variables, por ejemplo Xn, se puede poner como combinación lineal del resto, Xn=m-X1- X2- ...- Xn-1. Por tanto, el fenómeno que describe la variable (X1, X2, ..., Xn) queda igualmente descrito por una variable de una dimensión menor, (X1, X2, ..., Xn-1), sin que esta pérdida de dimensión suponga una pérdida de información. Por ejemplo, una variable multinomial de dimensión dos (X1, X2), M(n,p1,p2), se puede describir considerando una cualquiera de sus componentes que tiene una distribución binomial, por lo que en realidad esta variable es unidimensional y no bidimensional. Además, cada una de las n variables, Xi, que forman una multinomial M(n,p1,...,pn) siguen distribuciones binomiales B(m,pi), es decir, las distribuciones marginales de una multinomial son binomiales, por tanto, la esperanza y la varianza de cada una de estas variables es, E[Xi]=m·pi y Var(Xi)=mpi(1-pi). Además la covarianza entre dos

cualesquiera de sus componentes es, . Estos momentos de las variables componentes de una multinomial se pueden agrupar en forma de matriz dando lugar a las denominadas matriz de esperanzas y matriz de varianzas-covarianzas, que recogen las características teóricas principales de la distribución multinomial (medias, varianzas y covarianzas)

Page 204: ESTADISTICA I

204

Ejemplo: El entrenador de un equipo de baloncesto opina que los jugadores A, B y C tienen similares aptitudes para ser titulares del equipo en la posición de base. Así, determina que juegen el mismo número de minutos cada partido. Se sabe que el 40% de las canastas son de C, mientras que A y B consiguen un 30% de encestes. Calcular la probabilidad de que en un partido con 9 encestes de dos puntos, A consiguiera dos, B tres y C cuatro.

Sea la variable tridimensional que recoge el número de encestes de A, de B y de C, respectivamente. Dicha variable es una multinomial con n=9, p1=0.3, p2=0.3 y p3=0.4. Así,

ACTIVIDADES DE APRENDIZAJE

Elabore ejercicios con la distribución binomial y multinomial de la bibliografía sugerida.

9.5 DISTRIBUCIÓN DE POISSON

El estudiante aplicará la distribución de Poisson.

La distribución de Poisson sigue el siguiente modelo:

Vamos a explicarla: El número "e" es 2,71828

Page 205: ESTADISTICA I

205

" l " = n * p (es decir, el número de veces " n " que se realiza el experimento multiplicado por la probabilidad " p " de éxito en cada ensayo) " k " es el número de éxito cuya probabilidad se está calculando Veamos un ejemplo: La probabilidad de tener un accidente de tráfico es de 0,02 cada vez que se viaja, si se realizan 300 viajes, ¿cual es la probabilidad de tener 3 accidentes? Como la probabilidad " p " es menor que 0,1, y el producto " n * p " es menor que 10, entonces aplicamos el modelo de distribución de Poisson.

Luego, P (x = 3) = 0,0892 Por lo tanto, la probabilidad de tener 3 accidentes de tráfico en 300 viajes es del 8,9% Otro ejemplo: La probabilidad de que un niño nazca pelirrojo es de 0,012. ¿Cuál es la probabilidad de que entre 800 recién nacidos haya 5 pelirrojos?

Luego, P (x = 5) = 4,602 Por lo tanto, la probabilidad de que haya 5 pelirrojos entre 800 recién nacidos es del 4,6%.

ACTIVIDADES DE APRENDIZAJE

Elabore ejercicios con la distribución de Poisson de la bibliografía sugerida.

Page 206: ESTADISTICA I

206

9.6 DISTRIBUCIÓN GEOMÉTRICA

El estudiante aplicará la distribución geométrica. La distribución geométrica es un modelo adecuado para aquellos procesos en los que se repiten pruebas hasta la consecución del éxito a resultado deseado y tiene interesantes aplicaciones en los muestreos realizados de esta manera. También implica la existencia de una dicotomía de posibles resultados y la independencia de las pruebas entre sí. Proceso experimental del que se puede hacer derivar Esta distribución se puede hacer derivar de un proceso experimental puro o de Bernoulli en el que tengamos las siguientes características El proceso consta de un número no definido de pruebas o experimentos separados o separables. El proceso concluirá cuando se obtenga por primera vez el resultado deseado (éxito). Cada prueba puede dar dos resultados mutuamente excluyentes : A y no A La probabilidad de obtener un resultado A en cada prueba es p y la de obtener un resultado no A es q siendo (p + q = 1). Las probabilidades p y q son constantes en todas las pruebas ,por tanto , las pruebas ,son independientes (si se trata de un proceso de "extracción" éste se llevará a , cabo con devolución del individuo extraído) . (Derivación de la distribución). Si en estas circunstancias aleatorizamos de forma que tomemos como variable aleatoria X = el número de pruebas necesarias para obtener por primera vez un éxito o resultado A , esta variable se distribuirá con una distribución geométrica de parámetro p.

Obtención de la función de cuantía

Page 207: ESTADISTICA I

207

De lo dicho anteriormente, tendremos que la variable X es el número de pruebas necesarias para la consecución del primer éxito. De esta forma la variables aleatoria toma valores enteros a partir del uno; í 1,2,………ý La función de cuantía P(x) hará corresponder a cada valor de X la probabilidad de obtener el primer éxito precisamente en la X-sima prueba. Esto es, P(X) será la probabilidad del suceso obtener X-1 resultados "no A" y un éxito o resultado A en la prueba número X teniendo en cuenta que todas las pruebas son independientes y que conocemos sus probabilidades tendremos:

dado que se trata de sucesos independientes y conocemos las probabilidades

luego la función de cuantía quedaría

Algunos autores consideran la aleatorización como "número de pruebas anteriores al primer éxito". De esta manera el conseguir el éxito a la primera sería X=0 . En la siguiente representación gráfica de la función de cuantía de la

geométrica puede apreciarse este tipo de aleatorización, sin embargo nosotros preferimos, por razones ACTIVIDADES DE APRENDIZAJE, utilizar la aleatorización antes comentada

Page 208: ESTADISTICA I

208

Función de distribución En base a la función de cuantía se puede expresar la función de distribución de la siguiente manera.

desarrollando la expresión tendríamos

de donde

La Función Generatriz de Momentos (F.G.M.) quedaría:

por lo que queda establecida que la F.G.M. tiene la expresión

En base a la FGM podemos obtener la media y varianza:

Así

Haciendo t =0 tendríamos que

La varianza sería

Haciendo t =0 tendríamos que

Page 209: ESTADISTICA I

209

De esta manera

Luego La moda es el valor de la variable que tiene asociada mayor probabilidad el valor de su función de cuantía es el mayor. Es fácil comprobar (véase simplemente la

representación gráfica anterior) que .Por lo tanto la media de la distribución geométrica es siempre 1. En cuanto a la mediana Me será aquel valor de la variable en el cual la función de distribución toma el valor 0,5. Así

por lo que :

ACTIVIDADES DE APRENDIZAJE

Elabore ejercicios con la distribución geométrica de la bibliografía sugerida.

9.7 DISTRIBUCIÓN HIPERGEOMÉTRICA

El estudiante aplicará la distribución Hipergeométrica.

La distribución hipergeométrica multivariante H(N,m,p1,...,pn) es una generalización de la distribución hipergeómetrica. Proporciona probabilidades de extraer x1 bolas del color 1, x2 bolas del color 2,...y xn bolas del color n de una urna en la que hay N1,...Nn bolas de colores diferentes (N=N1+···+Nn).

Page 210: ESTADISTICA I

210

Realizamos m extracciones sin reposición , y consideramos las variables, Xi, número de bolas extraídas de color i (i = 1, 2, ..., n). La variable n-dimensional (X1, X2, ..., Xn) sigue una distribución hipergeométrica multivariante de parámetros N, m, p1, ...,

pn, donde , es decir, la proporción de bolas de color i-ésimo (i= 1, 2,..,n) en la primera extracción. NOTA: Si las extracciones se hiciesen con reposición entonces se trataría de una distribución multinomial. La función de probabilidad de la distribución hipergeométrica multivariante es

para con y

(i = 1, 2,..., n). Además, igual que en la distribución anterior, hay que tener en cuenta que existe una relación lineal entre las variables componentes, X1+ X2+ ...+ Xn = m, por lo que, una de las variables, por ejemplo Xn, se puede poner como combinación lineal del resto, Xn=m-X1- X2- ...- Xn-1. Por tanto, el fenómeno que describe la variable (X1, X2, ..., Xn) queda igualmente descrito por una variable de una dimensión menor, (X1, X2, ..., Xn-1), sin que esta pérdida de dimensión suponga una pérdida de información. Análogamente, una variable hipergeométrica multivariante de dimensión dos (X1, X2), H(N,m,p1,p2), se puede describir considerando una cualquiera de sus componentes que tiene una distribución hipergeométrica, por lo que en realidad esta variable es unidimensional y no bidimensional. Además, cada una de las n variables, Xi, que forman una hipergeométrica H(N,m,p1,...,pn) siguen distribuciones hipergeométricas univariantes H(N,m,pi), es decir, las distribuciones marginales de una hipergeométrica multivariante son hipergeométricas, por tanto, la esperanza y la varianza de cada una de estas variables es, E[Xi]=m·pi y Var(Xi)=mpi(1-pi)(N-m)/(N-1). Además la covarianza entre dos cualesquiera de sus componentes es,

Page 211: ESTADISTICA I

211

. Estos momentos de las variables componentes de una hipergeométrica multivariante se pueden agrupar en forma de matriz dando lugar a las denominadas matriz de esperanzas y matriz de varianzas-covarianzas, que recogen las características teóricas principales de la distribución hipergeométrica multivariante (medias, varianzas y covarianzas)

donde

Ejemplo: En un equipo de baloncesto con 12 jugadores, han hecho una comisión de 4 representantes. En la plantilla hay 3 pivotes, 3 base y 6 aleros. ¿Cuál es la probabilidad de que haya 2 bases y 2 pivotes?

Tenemos una variable tridimensional que recoge el número de pivotes, bases y aleros, respectivamente, que forman parte de la comisión. Dicha variable es una hipergeométrica multivariante con N=12, n=4, N1=3, N2=3 y N3=6. Así,

ACTIVIDADES DE APRENDIZAJE

Elabore ejercicios con la distribución hipergeométrica de la bibliografía sugerida.

Page 212: ESTADISTICA I

212

INSTRUCCIONES: Lea detenidamente y anote dentro del paréntesis “v” si el enunciado es verdadero y “f” si en falso. (recuerde que la forma de evaluar esta sección es aciertos menos errores).

INSTRUCCIONES: Lea detenidamente los siguientes conceptos y subraye la respuesta a la que corresponda dicho concepto 1. Es una distribución discreta, que expresa la probabilidad de que un número de eventos ocurran en un periodo de tiempo determinado, suponiendo que son independientes y que se conoce su tasa promedio. a) Distribución binomial

b) Distribución multinomial

c) Distribución de Poisson

d) Distribución geométrica

1. Una variable aleatoria es una función que asocia un número real a cada elemento de un espacio muestral

( )

2. La distribución binomial, en un experimento interesa estudiar no la ocurrencia de un único suceso o la de su contrario, sino la de varios sucesos (tres o más).

( )

3. En la distribución uniforme todos los eventos elementales tienen la misma probabilidad.

( )

4. Una probabilidad sencilla quiere decir que sólo un evento puede llevarse a cabo; se le conoce como probabilidad incondicional

( )

5. En este caso la probabilidad de un suceso A se define como el límite de una frecuencia relativa, cuando el experimento se realiza un número infinito de veces. Esto corresponde a la probabilidad clásica.

( )

6. La distribución hipergeométrica es una distribución de probabilidad discreta con tres parámetros discretos N, d y n.

( )

Page 213: ESTADISTICA I

213

INSTRUCCIONES: Lea detenidamente y conteste en los espacios en blanco la respuesta correcta. 1. En estadística y probabilidad, la distribución ______________________ es una distribución de probabilidad discreta que expresa la probabilidad de que un número de eventos ocurra en un periodo de tiempo determinado, suponiendo que son independientes y que se conoce su tasa promedio. 2. La __________________________ es aquella cuyo resultado varía según la muestra de una distribución de probabilidad.

3. Los ________________________ de las probabilidades son los fundamentos básicos de las reglas del cálculo de las posibilidades de eventos.

4. Se denomina ___________________________________ a aquel en el cual se encuentran todos los elementos contenidos en el conjunto universal que no se encuentra en otro conjunto dado.

5. Esta distribución es un caso especial de la binomial, ya que se desea que ocurra un éxito por primera y única vez en el último ensayo que se realiza el experimento. En aleatoria de la probabilidad y la estadística la __________________________________ es una de dos distribuciones de probabilidad discretas.

6. La ____________________ de un suceso es una medida cuantificable que toma valores entre cero y uno a diferencia del concepto de posibilidad que es una medida cualitativa.

7. Los experimentos solo se pueden realizar una vez o ninguna o que se puedan repetir pero en condiciones distintas, no son aplicables ninguna de las dos definiciones dadas anteriormente, por lo que no es posible asignar probabilidades mediante un procedimiento objetivo, debiendo recurrir a procedimientos de tipo __________________ a opiniones de expertos.

Page 214: ESTADISTICA I

214

AJUSTE DE BONFERRONI: Técnica estadística que ajusta el nivel de significación en relación al número de pruebas estadísticas realizadas simultáneamente sobre un conjunto de datos. El nivel de significación para cada prueba se calcula dividiendo el error global de tipo I entre el número de pruebas a realizar. El ajuste de Bonferroni se considera conservador. AMPLITUD O RANGO: La diferencia entre el valor máximo y mínimo de los valores de una variable. En la amplitud de una variable se encuentran comprendidos el 100% de los valores muestrales ANACOVA o ANCOVA: Análisis de la covarianza. Es una técnica estadística que combina ANOVA (pues compara medias entre grupos) y análisis de regresión (ajusta las comparaciones de las medias entres los grupos por variables continuas o covariables) ANOVA: Análisis de la varianza. Es una técnica estadística que sirve para decidir/determinar si las diferencias que existen entre las medias de tres o más grupos (niveles de clasificación) son estadísticamente significativas. Las técnicas de ANOVA se basan en la partición de la varianza para establecer si la varianza explicada por los grupos formados es suficientemente mayor que la varianza residual o no explicada ÁREA BAJO LA CURVA entre dos puntos: Si la curva viene dada por una función de densidad teórica, representa la probabilidad de que la variable aleatoria tome un valor dentro del intervalo determinado por esos dos puntos BONFERRONI: Ver ajuste de bonferroni CARACTERÍSTICAS: Propiedades de las unidades o elementos que componen las muestras. Se miden mediante variables. Se asume que los individuos presentan diferentes características. CARTOGRAMAS. Son gráficos en los que se puede agrupar para una misma clase diferentes frecuencias, por lo que se hace apropiado su uso cuando se desea analizar diferentes resultados obtenidos, con diferentes frecuencias pero con una misma clase.

Page 215: ESTADISTICA I

215

CAUSALIDAD: Relación entre causa y efecto. Generalmente identificadas como variables. No hay que confundir causalidad con correlación. La correlación mide la similitud estructural numérica entre dos variables. Normalmente la existencia de correlación es condición necesaria para la causalidad. COEFICIENTE DE CORRELACIÓN: Estadístico que cuantifica la correlación. Sus valores están comprendidos entre -1 y 1 COEFICIENTE DE DETERMINACIÓN: Es el cuadrado del coeficiente de correlación. Expresado en tanto por ciento mide el grado de información compartida entre dos variables continuas COEFICIENTES DE REGRESIÓN: En un modelo de regresión lineal son los valores de a y b que determinan la expresión de la recta de regresión y=a + b·x COEFICIENTE DE VARIACIÓN: Es una medida de dispersión relativa. No tiene unidades y se calcula dividiendo la cuasi-desviación típica entre la media muestral. Se suele expresar en tanto por ciento COMBINACIONES: selecciones diferentes de artículos tales que las secuencias alternativas posibles entre los componentes de cualquier selección se consideran inmateriales. CONTRASTE BILATERAL: Contraste de hipótesis en la que la hipótesis alternativa da opción a igualdad o superioridad CONTRASTE DE HIPÓTESIS: Es el proceso estadístico que se sigue para la toma de decisiones a partir de la información de la muestra. Comparando el valor del estadístico

experimental con el valor teórico rechazamos o no la hipótesis nula.

CONTRASTE UNILATERAL: Contraste de hipótesis en la que la hipótesis alternativa da opción a solo igualdad o a solo superioridad CORRELACIÓN: Expresa la concordancia entre dos variables según el sentido de la relación de estas en términos de aumento ó disminución COVARIABLES: Variables continuas independientes que junto a una o más variables grupo de tratamiento sirven para explicar una variable respuesta continua. Supongamos que pretendemos explicar las diferencias existentes en el nivel de cortisol en sangre por grupo de tratamiento A/B, teniendo en cuenta el peso. La variable peso es una covariable

Page 216: ESTADISTICA I

216

COVARIANZA: Representa la media del producto de las desviaciones de dos variables en relación a su media. CUARTILES: Existen tres cuartiles: Q!, Q2 y Q3. Estos números dividen a los valores muestrales , una vez ordenados, en cuatro partes homogéneas en cuanto a número de observaciones. Así Q1 determina el valor que hace que haya un 25% de valores muestrales por debajo de éste, y un 75% por encima de éste. Q2 es la mediana CUASIVARIANZA: Característica de una muestra o población que cuantifica su dispersión o variabilidad. La cuasivarianza se obtiene multiplicando la varianza por n / (n-1). La cuasivarianza muestral es un estimador centrado (no sesgado) de la varianza poblacional.

DATOS ALEATORIOS: Es la obtención de datos realizada a partir de una población a los cuales no se les ha dado ninguna prioridad. DATO ESTADÍSTICO: Los datos que se considera participan en el estudio estadístico se conoce como datos estadísticos, más concretamente, se consideran como los valores que se pueden obtenerse de la observación para formar la muestra. DATOS CENSURADOS: En análisis de supervivencia son datos donde no se conoce el tiempo total hasta la aparición del fracaso/éxito bien porque el individuo se retiró del estudio bien porque se acabó el estudio (datos con censura administrativa) Existen datos censurados por la izquierda y por la derecha. DATOS PAREADOS: Datos de poblaciones dependientes, donde los datos de las variables van emparejados por individuos, en contraposición con los datos independientes DECILES: Corresponden a los percentiles 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80% , 90% y 100% DESCRIPTIVA: Parte de la estadística que resume la información de la muestra. La información recogida y resumida en los estadísticos se usa para la estimación de parámetros poblacionales DESVIACIÓN ESTANDAR (TÍPICA): Característica de una muestra o población que cuantifica su dispersión o variabilidad. Tiene las mismas unidades que la variable. la desviación típica es invariante con respecto al origen de la distribución. Su cuadrado es la varianza

Page 217: ESTADISTICA I

217

DIAGRAMA DE PUNTOS (scatter plot): ES un gráfico bidimensional o tridimensional que muestra la variación de los valores muestrales de dos o tres variables. DIAGRAMAS DE BARRAS: Representación gráfica para las variables discretas Se utiliza para representar datos cualitativos y cuantitativos, con datos de tipo discreto. En el eje x se representan los datos ordenados en clases mientras que en el eje y se pueden representar frecuencias absolutas o relativas. DIAGRAMA DE ÁRBOL: Figura para definir el espacio muestral de experimentos aleatorios de pasos múltiples. DIAGRAMAS DE VENN: Figuras gráficas que en forma simbólica describen espacios muestrales y eventos aleatorios DIAGRAMA DE SECTORES Este tipo de diagramas puede ser de dos tipo, se puede considerar una figura geométrica en la que la información se distribuye dentro de la figura como puede ser una dona o un anillo en el que cada porción dentro de la figura representa la información porcentual del total de datos. La segunda opción es la utilización de pasteles en los que una porción del pastel determinada por sectores individuales la información para ese sector especifico. DIFERENCIAS ESTADISTICAMENTE SIGNIFICATIVAS: Las diferencias entre lo observado y lo supuesto en la hipótesis nula no puede ser explicado por el azar DIFERENCIAS RELEVANTES: Diferencia esperada o definida a priori con un valor conceptual intrínseco. No confundir diferencias estadísticamente significativas que establece si una diferencia, cualquiera que sea su valor DIMENSIÓN: Si estudiamos una única variable la dimensión es uno, si estudiamos la información de dos variables en forma conjunta la dimensión es dos,... DISPERSIÓN: Ver estadísticos de dispersión DISTRIBUCIÓN DE DATOS: En la realización de un experimento, corresponde a la recogida de los datos experimentales para cada individuo y cada variable DISTRIBUCIONES DE FRECUENCIAS Se le conoce con este nombre al conjunto de clases que aparecen con su frecuencia correspondiente, generalmente mediante una tabla estadística.

Page 218: ESTADISTICA I

218

DISTRIBUCIÓN NORMAL O DE GAUSS: Es una distribución teórica de probabilidad que se usa tanto en la estadística aplicada como en la teórica. Aparece en la práctica con mucha frecuencia como consecuencia del importante resultado que establece el teorema central del límite. Tiene una forma en forma de campana, y viene caracterizada por únicamente dos valores: la media y la varianza. DISTRIBUCIÓN T STUDENT: Distribución teórica de probabilidad. Se usa para la comparación de dos medias en poblaciones independientes y normales ECUACIÓN DE LA REGRESIÓN: Ver recta de regresión ERROR ALFA: Es el error que se comete cuando se rechaza una hipótesis nula cuando ésta verdadera. Error de tipo I ERROR ALFA GLOBAL: Es el error alfa que se comete por hacer múltiples comparaciones. ERROR BETA: Es el error que se comete cuando no se rechaza una hipótesis nula siendo ésta falsa. Error de tipo II ERROR DE PRIMERA ESPECIE: Ver error alfa ERROR DE SEGUNDA ESPECIE: Ver error beta ERROR DE TIPO I: Ver error alfa ERROR DE TIPO II: Ve error beta ERROR ESTANDAR DE LA MEDIA: Es el cociente entre la cuasivarianza muestral y la raíz cuadrada del tamaño muestral ERROR ESTANDAR DE LOS RESIDUOS: Estadístico de dispersión de los valores de los residuos después de la regresión. ERROR FALSO NEGATIVO: Ver error beta ERROR FALSO POSITIVO: Ver error alfa

Page 219: ESTADISTICA I

219

ESCALA: La distribución de datos puede recogerse en distintas escalas: nominal, dicotómica, discreta o continua ESPECIFICIDAD DE UN TEST DIAGNÓSTICO: Representa la probabilidad de que un individuo este sano habiendo dado negativo en el test diagnóstico ESTADÍSTICA INFERENCIAL O INDUCTIVA. Sirve extrapolar los resultados obtenidos en el análisis de los datos y a partir de ello predecir acerca de la población, con un margen de confianza conocido. Se apoya fuertemente mediante el cálculo de probabilidades. ESTADÍSTICA DESCRIPTIVA O DEDUCTIVA. Se construye a partir de los datos y la inferencia sobre la población no se puede realizar, al menos con una confianza determinada, la representación de la información obtenida de los datos se representa mediante el uso de unos cuantos parámetros, tablas y algunas graficas planteadas de tal forma que den importancia los mismos datos a través de parámetros que caractericen la distribución. ESTADÍGRAFO es el término utilizado para designar a la persona dedicada a las tareas propias de la estadística, aunque en ocasiones también es frecuente que se utilice para designar a la variable que define una distribución estadística, de esta forma es común escuchar el término estadígrafo de prueba. EXPERIMENTO ALEATORIO. Experimento en el que existen diferencias de una muestra a otra, cuyas muestras pese a ser de una misma población son diferentes. ESTADÍSTICO DE CONTRASTE EXPERIMENTAL Se utiliza para realizar las pruebas o contrastes de hipótesis. Depende de la muestra. Su valor hay que compararlo con el valor crítico dado en las tablas de distribución teóricas ESTADÍSTICOS Son funciones de la muestra. Su valor variará según la muestra, pero nos permite hacer estimaciones de parámetro poblacionales o construir estadísticos experimentales para tomar decisiones. Este término que se utiliza para designar al profesional que se dedica al análisis de la información estadística, al que en ocasiones también se le conoce como estadígrafo. ESTADÍSTICOS DE CENTRALIZACIÓN: Son estadísticos que nos resumen la información de la muestra dándonos información acerca del valor donde parece concentrarse la distribución de datos

Page 220: ESTADISTICA I

220

ESTADÍSTICOS DE DISPERSIÓN: Son estadísticos que nos resumen la información de la muestra dándonos información acerca de la magnitud del alejamiento de la distribución de datos en relación a un valor central o de concentración de los datos ESTADÍSTICOS DE FORMA: Son aquellos que nos hablan de la forma de la distribución de datos en cuanto a su simetría y su apuntamiento ESTADO DE LA NATURALEZA: La naturaleza funciona según una determinada hipótesis que desconocemos. La técnicas estadísticas nos cuantifican el error que cometemos cuando tomamos decisiones en la predicción de cuál es la hipótesis con la que la naturaleza trabaja. Estos errores son los del tipo I y II ESTIMACIÓN: Técnicas estadísticas que a partir de la información de la estadística descriptiva pretenden conocer cómo es la población en global. Existen técnicas de estimación puntuales y por intervalos de confianza ESTIMADO: Valor experimental que se toma como candidato al valor poblacional desconocido ESTIMADOR: Función de la muestra que sirve para dar valores candidatos a los valores desconocidos poblacionales. ESPACIO MUESTRAL: lista de todos los resultado básicos de un experimento aleatorio. EVENTO ALEATORIO: cualquier subconjunto del espacio muestral. EVENTO COMPUESTO: cualquier combinación de dos o más resultados básicos. EVENTO SIMPLE: cualquiera de los resultados básicos de un evento aleatorio. EVENTOS COLECTIVAMENTE EXHAUSTIVOS: eventos aleatorios diferentes que conjuntamente contiene todos los resultados básicos en el espacio muestral. EVENTOS COMPATIBLES: eventos aleatorios diferentes que tiene al menos algunos resultados básico en común.

Page 221: ESTADISTICA I

221

EVENTOS COMPLEMENTARIOS: dos eventos aleatorios tales que precisamente todos los resultados básicos que no están contenidos en uno están contenidos en el otro. EVENTOS DEPENDIENTES: dos eventos aleatorios tales que la probabilidad de un evento es afectada porque ocurra el otro evento; en consecuencia, p(A) no es igual a p (AôB). EVENTOS INDEPENDIENTES: dos eventos aleatorios tales que la probabilidad de un evento no es afectada por el acontecimiento del otro evento; por lo tanto, p (A) = p (AôB). EVENTOS MUTUAMENTE EXCLUSIVOS: eventos aleatorios diferentes que no tienen resultados básicos en común. EXPERIMENTO ALEATORIO: cualquier actividad que resulte en uno, y sólo uno, de varios resultados bien definidos pero que no permite decir por anticipado cuál de éstos prevalecerá en cualquier ejemplo particular. FACTOR: Variable que se incluye en un modelo con el propósito de explicar la variación en la variable respuesta. Ver variable independiente o explicativa FACTOR DE CLASIFICACIÓN: Es una variable que se usa para clasificar los datos experimentales en grupos. Los factores de clasificación son variables nominales. Cada factor de clasificación se compone de niveles. Así la variable "Fumador" codificada como "nunca", "ex fumador", "fumador actual" es un factor de clasificación con tres niveles FACTORIAL: producto de una serie de números enteros positivos que desciende de un número dado, n, hasta 1. FRECUENCIA ABSOLUTA f(xi) se determina como el número de veces que se repite un dato xi. Las frecuencias absolutas representan el recuento de los valores de una variable discreta de forma que su suma nos da el tamaño muestral. FRECUENCIA ABSOLUTA ACUMULADA Fi Para un determinado valor se considera como la frecuencia de cada dato xi mas la suma de los valores anteriores a dicha suma.

Page 222: ESTADISTICA I

222

FRECUENCIA RELATIVA HI es el cociente fi /N , donde N es el número total de datos. Las relativas son las absolutas divididas por el tamaño muestral .Las frecuencias relativas sumarán 1 ó 100 según se expresen en tanto por uno o en tanto por ciento FRECUENCIA RELATIVA ACUMULADA Hi es el cociente Fi /N FUNCIÓN: Función matemática. Expresión que liga dos o más variables de forma determinística FUNCIÓN ACUMULADA DE SUPERVIVENCIA: Función estadística que presenta la proporción de individuos que mueren entre dos tiempos dados. FUNCIÓN DE DENSIDAD DE SUPERVIVENCIA: Nos da el momento crítico de mayor tasa de fallos o muertes en términos absolutos, por ello no da una medida del riesgo en un momento dado FUNCIÓN DE RIESGO DE SUPERVIVENCIA: Nos da una media de la predisposición al fallo en función del tiempo FUNCIÓN TEÓRICA DE PROBABILIDAD: Idealización matemática que nos permite calcular probabilidades de que una variable tome un valor (caso discreto) o rango de valores (caso continuo) FUNCIÓN TEÓRICA DE PROBABILIDAD DE SUPERVIVENCIA: Probabilidad de que un individuo sobreviva un tiempo mayor que t GAUSSIANA: Ver distribución normal GRADO DE CONFIANZA: Ver nivel de confianza GRADOS DE LIBERTAD: El número de datos que se pueden variar para que a un total fijo podamos reconstruir dicho total. Así la media tiene n-1 grado de libertad, pues si conocemos el valor de esta podemos variar n-1 datos ya que restante vendrá fijado. En una tabla 4x3 , si nos dan las frecuencias marginales podremos variar las frecuencias de (4-1)x(3-1)=3x2=6 celdas, quedando forzosamente determinadas las frecuencias de las celdas restantes. Así, los grados de libertad serían en este caso de 6 HETEROCEDASTICIDAD: Hipótesis de no igualdad de varianzas poblacionales en distintos grupos

Page 223: ESTADISTICA I

223

HIPÓTESIS: Cualquier teoría que formule posibles líneas de trabajo experimental. Ver hipótesis nula y alternativa HIPOTESIS ALTERNATIVA: Aquella que queremos probar. Representa la hipótesis renovadora HIPOTESIS NULA: Aquella que queremos rechazar. Representa a la situación actual HISTOGRAMAS: Es un gráfico en forma de barras de una variable continua que se ha discretizado en intervalos, de forma que la altura de las barras en cada intervalo indica la frecuencia relativa en éste. . Los histogramas de frecuencias son gráficas que representan un conjunto de datos que se emplean para representar datos de una variable cuantitativa. En el eje horizontal o de las abscisas se representan los valores tomados por la variable, en el caso de que los valores considerados sean continuos la forma de representar los valores es mediante intervalos de un mismo tamaño llamados clases. En el eje vertical se representan los valores de las frecuencias de los datos. Las barras que se levantan sobre la horizontal y hasta una altura que representa la frecuencia. Un punto importante en el manejo de la información bajo el uso de histogramas es el hecho de poder comparar, bajo un proceso en control, que a medida que se crecen las clase tiene aproximadamente la forma de una campana centrada, es la de una de las distribuciones más importantes conocidas como frecuencia normal o gaussiana. HOMOCEDASTICIDAD: Hipótesis de igualdad de varianzas poblacionales en distintos grupos IMPRECISION: Error que se comete en la predicción INDEPENDENCIA: Son datos que no están ligados entre si INFERENCIA: Término utilizado para indicar la predicción hecha acerca de una población. INTERVALO DE PROBABILIDAD: Proporción de casos entre dos valores definidos de la muestra INTERVALOS CONFIDENCIALES: Intervalos de confianza. Intervalos fiduciales. Incluyen una cota mínima y máxima del verdadero parámetro poblacional con un determinado nivel de confianza

Page 224: ESTADISTICA I

224

JACKNIFE: Método estadístico de estimación por intervalos de confianza basado en la simulación con reeemplazamineto, propuesto por TuKey JUEGO DE SUMA CERO: En la teoría de juegos, juego en el que lo que unos ganan es a costa de lo que otros exactamente pierden LEY DE LA ADICIÓN: ley de la teoría de probabilidades que se usa para calcular la probabilidad para que ocurra la unión de dos o más eventos; según la ley general, para cualesquiera dos eventos p(A o B) = p(A) + p(B) - p(A y B); según la ley especial para dos eventos mutuamente exclusivos, p(A o B) = p(A) + p (B). LEY DE LA MULTIPLICACIÓN: ley de teoría de probabilidades que se usa para calcular la probabilidad para una intersección de dos o más eventos; según la ley general para cualesquier dos eventos, p(A y B) = p(A) · p(BôA) y también p(A y B) y también p(A y B) = p(B) · p(AïB); según la ley especial para eventos independientes, p(A y B) = p(A) · p(B). LEY DE LOS GRANDES NÚMEROS: ley que enuncia lo siguiente: la probabilidad de una desviación significativa de un valor de probabilidad empíricamente determinado, a partir de uno teóricamente determinado, es menor cuanto mayor sea el número de repeticiones del experimento aleatorio en cuestión. LIMITES CONFIDENCIALES: Extremos de los intervalos confidenciales MAXIMO: Es un valor muestral de forma que por encima de este no hay valores muestrales MARCA DE CLASE: Es el punto medio de una clase y se determina por la semisuma del LIA + LSA Marca de clase = LIA + LSA 2 MEDIANA: Corresponde al percentil 50%. Es decir, la mediana hace que haya un 50% de valores muestrales inferiores a ella y un 50% de valores muestrales superiores a ella. MEDIA: Es una medida de centralización para una variable continua. Se obtiene sumado todos los valores muestrales y dividiendo por el tamaño muestral

Page 225: ESTADISTICA I

225

MÍNIMO: Es un valor muestral de forma que por debajo de este no hay valores muestrales MODA: Es el valor que más se repite en una variable nominal MODELO: Intento matemático / estadístico para explicar una variable respuesta por medio de una o más variables explicativas o factores MUESTRAS: Subgrupos de observaciones de la población de estudio. Es un subconjunto de datos tomados de la población, cuya finalidad es la de realizar inferencias acerca de la población a partir del comportamiento de sus elementos. Es claro que si la muestra es un subconjunto de la población entonces la muestra tendrá un número menor de elementos. La naturaleza de la muestra radica en la optimización de los recursos, por ejemplo, si deseamos hacer un estudio acerca de las lecturas que a los estudiantes de Michoacán les gusta leer, el estudio implicaría considerar a los estudiantes de lugares remotos, resultando difícil desde el punto de vista económico, sin embargo la estadística plantea métodos mediante los cuales con una elección adecuada del tamaño de muestra podemos predecir a partir de una muestra las preferencias que tienen los estudiantes acerca del tipo de lectura. NIVEL DE CONFIANZA: Se define como 1 menos el nivel de significación. Se suele expresar en tanto por ciento NIVEL DE SIGNIFICACIÓN: La probabilidad de rechazar una hipótesis nula verdadera; es decir, la probabilidad de cometer un error de tipo I NIVELES DE CLASIFICACIÓN: Los distintos posibles valores que pueden aparecer en una variable explicativa nominal u ordinal NORMAL: Ver distribución de probabilidad normal NÚMEROS: Ver valores numéricos OBSERVACION: Sinónimo de caso registro e individuo ODDS: Nombre ingles para designar la medida del efecto relacionada, en una tabla de frecuencias 2 por 2, con la razón de los productos cruzados. ORDEN DE UNA MATRIZ: Es el numero que designa, en una matriz cuadrada, el numero de filas o columnas

Page 226: ESTADISTICA I

226

ORTOGONAL: Se dice de las variables y en general de las funciones que son independientes. P (p- valor): El nivel de significación observado en el test. Cuanto más pequeño sea, mayor será la evidencia para rechazar la hipótesis nula PARÁMETROS: Son valores desconocidos de características de una distribución teórica. El objetivo de la estadística es estimarlos bien dando un valor concreto, bien dado un intervalo confidencial PEARSON ( r de Pearson) .Ver coeficiente de correlación PERCENTILES: Un percentil 90% corresponde a un valor que divide a la muestra en dos, de forma que hay un 90% de valores muestrales inferiores a éste, y un 10% de valores muestrales superiores a éste. Los percentiles 25%, 50%, 75% son el primer, segundo y tercer cuartil respectivamente PERMUTACIONES: arreglos ordenados distinguibles de artículos, todos los cuales se han sacado de un grupo dado de artículos. PICTOGRAMA: El pictograma consiste en la utilización de símbolos utilizados para representar un conjunto de datos, en el caso de la representación de datos individuales a través de barras hemos utilizado los pictogramas, sin embargo en áreas especificas convendría analizar el conjunto de datos. PIRÁMIDE DE POBLACIÓN: Este gráfico se construye utilizando pirámides para construir la representación de los datos bajo cierta clase, la diferencia de información considerada entre cada clase será dada por el tamaño de la pirámide. En ocasiones la frecuencia de cada clase se coloca en el extremo superior de cada clase, sin embargo también, al igual que en las anteriores puede resultar útil colocar información, como el porcentaje de información en la punta de cada pirámide. POBLACIONES: Conjunto de individuos de interés. Normalmente no se dispone de información de toda la población y se recurre a muestras. Es conjunto de elementos que tiene características comunes, al menos una. Por ejemplo, una población es el grupo de estudiantes de un país. En el caso particular de la estadística la población constituye el objeto de estudio, es decir, la población es el conjunto de individuos o entes que constituyen el objeto de estudio sobre el que se desea predecir un comportamiento a partir del estudio. POLÍGONO DE FRECUENCIA: Representaciones gráficas alternativas al histograma de frecuencias. Estos se construyen a partir de los puntos medios de cada clase. La

Page 227: ESTADISTICA I

227

utilización de los puntos medios o marcas de clase son llevados al escenario gráfico mediante la utilización de los polígonos de frecuencias. Se construye uniendo los puntos medios de cada clase localizados en las tapas superiores de los rectángulos utilizados en los histogramas de las gráficas. Su utilidad se hace necesaria cuando desean destacarse las variables de tendencia central, como son media, modas y medianas. PORCENTAJES: Proporciones expresadas en tanto por ciento POTENCIA DE LA PRUEBA: (1-beta). Es decir la probabilidad de rechazar una hipótesis nula siendo ésta falsa. Se suele expresar en tanto por ciento PREVALECIA: Cociente entre el número de individuos que poseen una característica (p. ej. enfermedad) entre el total de la población PROBABILIDAD: Asignación de un número entre cero y uno a cada resultado experimental. PROBABILIDAD CONDICIONAL: medida en que ocurre un evento en particular, dado que otro evento ya ha ocurrido o es seguro que ocurra. PROBABILIDAD CONJUNTA: medida de la verosimilitud del acontecimiento simultáneo de dos o más eventos. PROBABILIDAD INCONDICIONAL: medida de la verosimilitud de que ocurra un evento particular, sin considerar si ocurre otro evento. PROBABILIDAD OBJETIVA: medida numérica de casualidad que estima la verosimilitud de un acontecimiento específico (evento A) de un experimento aleatorio repetible (según el método clásico, es igual al número de resultados básicos igualmente probables favorables al acontecimiento del evento A dividido entre el número de resultados básicos igualmente probables posibles; según el método empírico, es igual al número de veces que ocurrió el evento A en el pasado durante un gran número de experimentos, dividido entre el número máximo de veces que el evento a pudo haber ocurrido durante estos experimentos.) PROBABILIDAD POSTERIOR: probabilidad previa modificada con base en información nueva.

Page 228: ESTADISTICA I

228

PROMEDIO: Es la cantidad que se obtiene al sumar el conjunto de datos que intervienen en la muestra entre el total de datos, este también es conocido como media aritmética o simplemente media y se calcula como:

n

xx

i

PROPORCION: Número de individuos que verifican una condición entre el total del tamaño muestral. Se puede expresar en tanto por uno o en tanto por cien PRUEBA CHI CUADRADO: Se utiliza para analizar tablas de contingencia y comparación de proporciones en datos independientes PRUEBA DE F: Prueba estadística que sirve para comparar varianzas. El estadístico F experimental es el estadístico de contraste en el ANOVA y otras pruebas de comparación de varianzas PRUEBA DE FISHER: Es la prueba estadística de elección cuando la prueba de chi.cuadrado no puede ser empleada por tamaño muestral insuficiente. PRUEBA DE LOS SIGNOS: Prueba estadística que sirve para comparar dos variables en términos de diferencias positiva o negativa, y no en términos de magnitud PRUEBA DE MCNEMAR: Prueba estadística que sirve para comparar proporciones en datos pareados PRUEBA NO PARAMÉTRICA: Técnica estadística que no presupone ninguna distribución de probabilidad teórica de la distribución de nuestros datos. PRUEBA PARAMETRICA: En contraposición de la técnicas no paramétricas, las técnicas paramétricas si presuponen una distribución teórica de probabilidad subyacente para la distribución de los datos. Son más potentes que las no paramétricas. PRUEBA T DE STUDENT : Se utiliza para la comparación de dos medias de poblaciones independientes y normales PUNTO DE INFLEXIÓN : Representan los puntos de una función matemática donde la curva pasa de ser cóncava a convexa o recíprocamente

Page 229: ESTADISTICA I

229

RANGO: Diferencia entre el valor máximo y mínimo de un muestra o población. Solo es válido en variables continuas. Es una mala traducción de inglés "range". Amplitud RANGO INTERCUARTILICO: La diferencia entre el percentil 75% y el percentil 25% RAZÓN DE VEROSIMILITUDES: Combina resultados de varios tests diagnósticos dando una probabilidad de enfermedad en base a ese conjunto de resultados en forma global RECTA DE REGRESIÓN: Es el modelo que sirve para explicar una variable respuesta continua en términos de un único factor o variable explicativa RECORRIDO DE UNA DISTRIBUCIÓN: Ver rango. REGRESION: Técnica estadística que relaciona una variable dependiente (y) con la información suministrada por otra variable independiente (x).ambas variables deben ser continuas. Si asumimos relación lineal, utilizaremos la regresión lineal simple. Entre las restricciones de la RLS se incluyen: Los residuos deben ser normales Las observaciones independientes. La dispersión de los residuos debe mantenerse a lo largo de la recta de regresión REGRESIÓN LINEAL MÚLTIPLE: El modelo de regresión lineal múltiple sirve para explicar una variable respuesta continua en términos de varios factores o variables explicativas continuas REGRESIÓN POLINÓMICA: ES un tipo especial de regresión múltiple donde aparecen como variables independientes un única variable y potencias de ésta (al cuadrado, al cubo.) RELACIÓN LINEAL: Ver recta de regresión RESIDUOS: Residuales. Distribución de valores muestrales calculados como la diferencia entre el valor de la variables respuesta (y) y el estimado del modelo de regresión ( ^y). La distribución de residuos es importante como indicador del cumplimiento de las condiciones de aplicación de las técnicas de correlación, así como de la bondad del ajuste. SECTORES CIRCULARES: Forma de representación en forma de tarta de variables discretas nominales

Page 230: ESTADISTICA I

230

SENSIBILIDAD DE UN TEST DIAGNÓSTICO: Representa la probabilidad de que un individuo esté enfermo habiendo dado positivo en el test diagnóstico SESGO: La diferencia entre el valor del parámetro y su valor esperado. También se utiliza en contraposición de aleatorio, así una muestra sesgada es no aleatoria SIMETRIA: Es una medida que refleja si los valores muestrales se extienden o no de igual forma a ambos lados de la media. SPEARMAN (rho de Spearman): Coeficiente de correlación ordinal análogo al coeficiente r de Pearson de correlación lineal SUMATORIO: Estadístico descriptivo que suma los valores numéricos de los datos muestrales de distribuciones continuas TABLAS DE CONTINGENCIA: Tablas de 2 o más variables, donde en cada celda se contabilizan los individuos que pertenecen a cada combinación de los posibles niveles de estas variables TABLAS DE FRECUENCIAS: Ver tablas de contingencia TABLA DEL ANOVA: Es una forma de presentar la variabilidad observada en una variable respuesta en términos aditivos según las distintas fuentes de variación: modelo y residual TAMAÑO MUESTRAL: Número de individuos u observaciones que componen la muestra TECNICAS DE CORRELACION: Ver coeficiente de correlación TECNICAS DE REGRESION: Ver recta de regresión y regresión lineal múltiple TECNICAS NO PARAMETRICAS: Son técnicas estadísticas que no presuponen ningún modelo probabilístico teórico. Son menos potentes que las técnicas paramétricas, aunque tienen la ventaja que se pueden aplicar más fácilmente TEOREMA DEL LIMITE CENTRAL: Resultado básico en la estadística que afirma que la distribución de las medias muestrales será normal para un n suficientemente grande con independencia de la distribución de datos de partida

Page 231: ESTADISTICA I

231

TRANSFORMACIONES: Cambios de escala con el propósito de conseguir linealidad, normalidad en los datos UNIDAD: Concepto primario relacionado con los componentes elementales de la muestras estadísticas. Sinónimo, pero no esencialmente idéntico, de caso , observación , registro o individuo UNIVERSO: Conjunto infinito de elementos o unidades generado por un modelo teórico. Conjunto real de todos los elementos que comparten unas condiciones de admisión en el conjunto VALORES NUMÉRICOS: Resultados de las variables para cada individuo en la muestra de estudio. Su naturaleza puede ser nominal, dicotómica, ordinal o continua VALORES NUMÉRICOS: Resultados de las variables para cada individuo en la muestra de estudio. Su naturaleza puede ser nominal, dicotómica, ordinal o continua VALOR PREDICTIVO POSITIVO DE UN TEST DIAGNOSTICO: La probabilidad de que un individuo esté enfermo si el test diagnóstico da positivo VALOR PREDICTIVO NEGATIVO DE UN TEST DIAGNOSTICO: La probabilidad de que un individuo esté enfermo si el test diagnóstico da negativo VARIABLE: Objeto matemático que puede tomar diferentes valores. Generalmente asociado a propiedades o características de las unidades de la muestra. Lo contrario de variable es constante. VARIABLE ALEATORIA: Variable cuyo resultado varía según la muestra según una distribución de probabilidad VARIABLES ALEATORIAS CONTINUAS. Permiten una infinidad de valores al azar dentro de un intervalo, considerándose variables continuas precisamente por la posibilidad de poder tomar cualquier valor dentro de una infinidad de valores. VARIABLES ALEATORIAS DISCRETAS. Las variables cuya naturaleza toma un número finito de valores enteros, tales como: los estudiantes de la escuela de medicina de una universidad, los alumnos reprobados en la materia de matemáticas, el número de peces en un estanque, el número de cursos que un estudiante debe cursar para graduarse, etcétera. El conjunto de valores que podría de tomar una variable aleatoria discreta puede ser finita o infinita numerable.

Page 232: ESTADISTICA I

232

VARIABLE CONTINUA: Aquella que puede tomar una infinidad de valores, de forma que dados dos valores cualesquiera, también pueda tomar cualquier valor entre dichos valores VARIABLES CUALITATIVAS. Son aquellas variables que como su nombre lo indica están relacionadas con sus características exteriores. VARIABLES CUANTITATIVAS. Estas variables son caracterizadas por alguna información numérica que se le puede asociar a los individuos de la una población. Esta caracterización puede ser clasificada en discreta y continua. Variables nominales. Son aquellas variables que son descritas por algunas características de sus integrantes. VARIABLES CUANTITATIVAS DISCRETAS. Son aquellas cuyo valor está determinado por valores enteros. VARIABLES CUANTITATIVAS CONTINUAS. Son aquellas cuyo valor está determinado por valores reales, generalmente esas variables pueden tomar toda una gama de valores dentro de la recta real. VARIABLES CUASICUANTITATIVA. Son variables nominales que a pesar de ello se pueden ordenar entre ellas, ejemplo de ellas los pueden representar los valores que pueden tomar los corredores en una competencia, en la forma en que llegan a la meta, primer lugar, segundo lugar, etc. VARIABLE DEPENDIENTE: Ver variable respuesta VARIABLE DISCRETA: Variable que toma un número finito o infinito de valores, de forma que no cubre todos los posibles valores numéricos entre dos dados, en contraposición de las continuas VARIABLE EXPLICATIVA: Ver variable independiente VARIABLE INDEPENDIENTES O EXPLICATIVAS: Variables que no sirven para construir un modelo que explique el comportamiento de una o más variables respuesta VARIABLE RESPUESTA O DEPENDIENTE: Variable objeto del estudio y que sus resultados se pretenden explicar por medio de las variables llamadas explicativas o independientes

Page 233: ESTADISTICA I

233

VARIABLES: Describen características en las observaciones realizadas VARIANZA: Característica de una muestra o población que cuantifica su dispersión o variabilidad. La varianza tiene unidades al cuadrado de la variable. Su raíz cuadrada positiva es la desviación típica. La varianza muestral es un estimador sesgado de la varianza poblacional X2 Chi- cuadrado: Ver prueba de Chi cuadrado WILCOXON: Prueba estadística no paramétrica para la comparación de dos muestras (dos tratamientos). Las distribuciones de datos no necesitan seguir la distribución normal . Es por tanto una prueba menos restrictiva que la prueba t-Student.

Page 234: ESTADISTICA I

234

ANEXOS

TABLA PARA NIVEL DE CONFIANZA EN CÁLCULO DE TAMAÑO DE UNA MUESTRA

NIVEL DE CONFIANZA

99.7 %

99%

98%

96%

95.45%

95%

90% 80%

68.27%

50%

Z 3.00

2.58

2.33

2.05

2.00 1.96

1.645

1.28

1.00 0.6745

Page 235: ESTADISTICA I

235

Page 236: ESTADISTICA I

236

Page 237: ESTADISTICA I

237

Page 238: ESTADISTICA I

238

Page 239: ESTADISTICA I

239

Page 240: ESTADISTICA I

240

Allen, W. (2002) Estadística aplicada a los negocios y la economía (3ª ed) México: México: McGraw-Hill.

Anderson – Sweenley – Williams (1998) Estadística para administración y economía. México: Math Learning

Daniels, W. (1981) Estadística con Aplicaciones a las Ciencias Sociales y a la

Educación. México: McGraw Hill

Douglas, L., Mason, R. y Williams, M. (2004) Estadística para la Administración y la Economía (3ª ed.). México: McGraw-Hill

Ferris J. (2002) Estadística para Ciencias sociales. México: Mc Graw Hill

Freund, J. E. y Gary A. (1994). Estadística elemental. México: Prentice-Hall Hispanoamericana, SA (8ª edición.)

Fuenlabrada, S. (2004) Probabilidad y estadística. México: Mc Graw Hill. México

García, P., A. (Textos Universitarios.) Elementos de Método Estadístico. México: Universidad Nacional Autónoma de México

John E. Freud – Irwin Miller – Marylees Miller. (2002)Estadística matemática con aplicación. México: Prentice Hall

John E. Freud – Simon A. Gary (2003). Estadística elemental. (8° edición) México: Prentice Hall

Johnson, R.(1999) Estadística Elemental. México: Trillas

Page 241: ESTADISTICA I

241

Kohler, H. (2005) Estadística para negocios y economía. México: CECSA

Leonard, K.(1998) Estadística aplicada a la administración y la economía (3ª ed.). México: McGraw-Hill

Levin R. (1996) Estadística para Administradores. México: Prentice Hall

Mendenhall, W.; D.D. Wackerly y R.L. Scheaffer.(2001) Estadística Matemática con Aplicaciones. México: Grupo Editorial Iberoamérica

Mendenhall, W. (1998) Estadística para Administradores, Segunda Edición, México: Grupo Editorial Iberoamérica

Montgomery, D.C. y Runger G.C. (1996) Probabilidad y Estadística Aplicadas a la Ingeniería, Primera Edición México: Mc Graw Hill

Peña, D.; Romo J. (1997) Introducción a la Estadística para las Ciencias Sociales. México: Mc Graw Hill

Spiegel, M.R.(1970) Estadística Primera Edición Serie Schaum México: Mc Graw Hill

Stevenson W. J. (1993) Estadística para administración y economía. México: Harla

Richard, L. y David, R.(2004) Estadística para Administración y Economía (7ª ed.). México: Pearson Educación

Ritchey, F. (2002) Estadística para las Ciencias Sociales. México: McGraw Hill

Weimer, R.C. (1996) Estadística. Segunda Edición. México: CECSA