download estadistica

169
Ministerio de Educación Dirección Nacional de Educación Gerencia de Gestión Pedagógica Escuela Superior de Maestros PROGRAMA DE DIGNIFICACIÓN DEL MAGISTERIO Y DESARROLLO PROFESIONAL DE DIRECTIVOS Y DOCENTES PROYECTO PROGRAMA DE ESPECIALIZACIÓN PARA DOCENTES DE EDUCACIÓN MEDIA Y DE TERCER CICLO DE EDUCACIÓN BÁSICA. Matemática MATERIAL DE APOYO - CURSO 7 MÓDULO ESTADÍSTICA Equipo de diseño: Rolando Lemus Gómez (Coordinador) Francisco Asdrubal Hernández Ramírez Camilo Salvador Ernesto Zamora Castro Jose René Palacios Barrera Pedro Armando Ramos Alberto Ricardo Salvador Ríos Márquez Walter Otoniel Campos Granados Ingrid Carolina Martínez Barahona José Nerys Funes Torres Oscar Hernán Lemus Gómez Armando Figueroa Morales Oscar de Jesús Aguila Chávez Carlos Ernesto Gámez Rodríguez Marcelino Mejía González José Enry García Flores Jorge Alberto Martínez Gutiérrez San Salvador, Septiembre-Noviembre 2011.

Upload: ronchito

Post on 08-Jun-2015

2.173 views

Category:

Documents


24 download

TRANSCRIPT

Page 1: Download estadistica

Ministerio de EducaciónDirección Nacional de EducaciónGerencia de Gestión Pedagógica

Escuela Superior de Maestros

PROGRAMA DE DIGNIFICACIÓN DEL MAGISTERIO Y DESARROLLO PROFESIONALDE DIRECTIVOS Y DOCENTES

PROYECTOPROGRAMA DE ESPECIALIZACIÓN PARA DOCENTES DE EDUCACIÓN MEDIA Y DE TERCER CICLO DE

EDUCACIÓN BÁSICA.

Matemática

MATERIAL DE APOYO - CURSO 7

MÓDULO ESTADÍSTICAEquipo de diseño:

Rolando Lemus Gómez (Coordinador)

Francisco Asdrubal Hernández Ramírez

Camilo Salvador Ernesto Zamora Castro

Jose René Palacios Barrera

Pedro Armando Ramos Alberto

Ricardo Salvador Ríos Márquez

Walter Otoniel Campos Granados

Ingrid Carolina Martínez Barahona

José Nerys Funes Torres

Oscar Hernán Lemus Gómez

Armando Figueroa Morales

Oscar de Jesús Aguila Chávez

Carlos Ernesto Gámez Rodríguez

Marcelino Mejía González

José Enry García Flores

Jorge Alberto Martínez Gutiérrez

San Salvador, Septiembre-Noviembre 2011.

Page 2: Download estadistica

Resumen

La estadística es una de las herramientas más ampliamente utilizadas en la investigación científica.

Su aplicación en instituciones gubernamentales y educativas, en los negocios y en la industria,en la banca y en otros quehaceres diarios hacen de la estadística una herramienta indispensable.

Sin embargo el término ”Estadística” tiene varios significados para diferentes personas; para lagente común y corriente la estadística solamente significa números. En el periodo de la mañana sepueden encontrar la estadística más reciente sobre los delitos en el país; de asesinatos, de robos deautomóviles; de asaltos y demás delitos que hayan sido denunciados en determinado periodo detiempo; de la situación económica sobre la canasta básica, el empleo, el precio de la gasolina; sobrela actuación del gabinete del actual gobierno; o en relación con el deporte, el número de partidosganados y perdidos por equipos de la liga mayor de futbol.

Para otras personas es un método para obtener, presentar y escribir grandes cantidades dedatos, y para otras es un método para tomar decisiones en situaciones bajo incertidumbre.

El objetivo básico de este material de apoyo para el Módulo de Estadística es aclarar los sig-nificados de Estadística, definir sus conceptos básicos utilizados con frecuencia, estudiar el procesode análisis estadístico en la investigación educativa con ayuda del computador, y evidenciar los usosy abusos de los métodos estadísticos.

Aunque los significados sean diferentes, todos ellos forman parte del concepto total de ”Es-tadística”. La palabra tiene su sentido más amplio para aquellas personas cuyo trabajo requiere unconocimiento de los aspectos más técnicos de la estadística. Para estas personas, la palabra tienerelación con aquellos métodos y técnicas que se utilizan en la formulación del problema a investigar,la recopilación de los datos, su organización y presentación, su resumen a través de medidas, suanálisis, interpretación y comunicación de la información o modelo para obtener conclusiones queenriquezcan nuestro conocimiento de la realidad y nuestra capacidad para transformarla.

La computadora y, estos métodos y técnicas juegan un papel importante en las actividades querealizan los profesionales de todas las ciencias, y en especial los docentes de educación media, delsistema de educación nacional, ya que la Estadística contribuye al conocimiento de las condicionesfisiológicas, psicológicas y sociales de los alumnos y de los docentes. Al perfeccionamiento de losmétodos de enseñanza y de evaluación.

Page 3: Download estadistica

ÍNDICE 1

Índice1. Introducción a la estadística 7

1.1. Reseña histórica de la estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.2. Etapas de Desarrollo de la Estadística . . . . . . . . . . . . . . . . . . . . . . . . . 91.3. Importancia de la estadística y definición . . . . . . . . . . . . . . . . . . . . . . . . 101.4. La investigación educativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4.1. ¿Qué es investigar? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.4.2. ¿Qué es investigar en educación? . . . . . . . . . . . . . . . . . . . . . . . 131.4.3. Paradigmas de la investigación educativa . . . . . . . . . . . . . . . . . . . 141.4.4. Particularidades de la investigación educativa . . . . . . . . . . . . . . . . . 16

1.5. La investigación educativa y su relación con la estadística . . . . . . . . . . . . . . . 16

2. Conceptos básicos 192.1. Aleatoriedad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.2. Población, muestra, parámetro y estadístico . . . . . . . . . . . . . . . . . . . . . . 202.3. Variables y tipos de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.4. Medición de variables y escalas de medición . . . . . . . . . . . . . . . . . . . . . . 242.5. Tipos de escalas de medición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3. Fuentes y recolección de datos 273.1. Fuentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.2. Técnicas e instrumentos de recolección de datos . . . . . . . . . . . . . . . . . . . . 27

4. Planeación y diseño de una encuesta por muestreo 314.1. Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314.2. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

5. Organización y presentación de los datos 325.1. Presentación de datos en tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335.2. Distribuciones de frecuencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335.3. Presentación de datos en gráficos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 345.4. Representación gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355.5. Representaciones para variables cualitativas o Categóricas . . . . . . . . . . . . . . 365.6. Representaciones para variables cuantitativas sin agrupamiento . . . . . . . . . . . . 395.7. Representaciones para variables cuantitativas agrupadas . . . . . . . . . . . . . . . . 42

6. Resumen de datos 476.1. Medidas de Centralización. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

6.1.1. Moda , Mo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476.1.2. Mediana , Md . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486.1.3. Media , X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

6.2. Medidas de Posición. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 516.2.1. Cuartiles, Qi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 516.2.2. Deciles, Di . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526.2.3. Centiles, Ci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

Page 4: Download estadistica

ÍNDICE 2

6.3. Medidas de Dispersión. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526.3.1. Rango o Recorrido, R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 536.3.2. Desviación Media, DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 536.3.3. Varianza, S2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 536.3.4. Coeficiente de variación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 546.3.5. Estadísticos de Asimetría. . . . . . . . . . . . . . . . . . . . . . . . . . . . 556.3.6. Estadístico de apuntamiento. . . . . . . . . . . . . . . . . . . . . . . . . . . 57

6.4. Diagrama de caja. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 586.5. Otros resúmenes estadísticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596.6. Números índices: cambio de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . 616.7. Algunos índices demográficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

6.7.1. Nacimientos brutos e índice de mortalidad . . . . . . . . . . . . . . . . . . . 626.8. Estandarización de indicadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

6.8.1. Índice de mortalidad estandarizado . . . . . . . . . . . . . . . . . . . . . . 64

7. Probabilidades 677.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 677.2. Reseña Histórica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 677.3. Conceptos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 687.4. Algebra de sucesos de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . 697.5. Definición de Probabilidad. Probabilidad de un evento . . . . . . . . . . . . . . . . 727.6. Nociones Básicas de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 737.7. Teoremas de espacios probabilísticos . . . . . . . . . . . . . . . . . . . . . . . . . . 737.8. Probabilidades Condicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 747.9. Leyes de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 747.10. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

8. Distribuciones de probabilidad 768.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 768.2. Conceptos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 768.3. Distribuciones de Probabilidad. Distribución de Bernoulli . . . . . . . . . . . . . . . 798.4. Distribución de probabilidad Binomial, Valor Esperado y Varianza . . . . . . . . . . 808.5. Distribución Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 818.6. Distribución Normal Estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

9. Muestreo 869.1. Algunas técnicas probabilísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 869.2. Muestreo aleatorio simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 879.3. Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 889.4. Muestreo estratificado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

9.4.1. Muestreo Estratificado sin reposición: Estimadores y errores . . . . . . . . . 909.4.2. Muestreo Estratificado con reposición: Estimadores y errores . . . . . . . . . 909.4.3. Afijación de la muestra: Tipos de afijación y errores de los estimadores para

muestreo con reposición . . . . . . . . . . . . . . . . . . . . . . . . . . . . 909.5. Muestreo por conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 939.6. Muestreo sistemático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

Page 5: Download estadistica

ÍNDICE 3

9.7. Números Aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 969.7.1. Aleatorización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

10. Inferencia estadística 9810.1. Estimación puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

10.1.1. Propiedades deseables de los estimadores puntuales . . . . . . . . . . . . . . 9810.2. Estimación por intervalo de confianza de medias y proporciones . . . . . . . . . . . 99

10.2.1. Intervalo de confianza para la media poblacional, σ conocida (n ≥ 30) . . . . 9910.2.2. Intervalo de confianza para la media poblacional, σ es desconocida (n ≥ 30) 10010.2.3. Intervalo de confianza para estimar la diferencia de medias poblacionales

(µx − µy) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10110.2.4. Estimación por intervalo para proporciones . . . . . . . . . . . . . . . . . . 10110.2.5. Estimación por intervalo para diferencias de proporciones . . . . . . . . . . 10210.2.6. Estimación de µ para muestas pequeñas (n < 30) . . . . . . . . . . . . . . . 10210.2.7. Intervalos de confianza para diferencia de medias poblacionales (n < 30) . . 10210.2.8. Intervalos de confianza para una proporción poblacional P (n < 30) . . . . . 103

10.3. Prueba de hipótesis estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10310.3.1. Definición de pruebas de hipótesis y tipo de error . . . . . . . . . . . . . . . 10310.3.2. Procedimiento para probar hipótesis estadísticas . . . . . . . . . . . . . . . 10410.3.3. Prueba de hipótesis para muestras grandes . . . . . . . . . . . . . . . . . . . 10410.3.4. Prueba de hipótesis para muestras pequeñas y distribución t de Student . . . 106

11. Distribuciones bidimensionales 10911.1. Tablas de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

11.1.1. Contraste de independencia de caracteres . . . . . . . . . . . . . . . . . . . 10911.1.2. Distribuciones marginales y condicionales . . . . . . . . . . . . . . . . . . . 111

11.2. Correlación y predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11211.3. Modelos de regresión lineal: Línea de tendencia . . . . . . . . . . . . . . . . . . . . 11311.4. Estimación de los parámetros por mínimos cuadrados . . . . . . . . . . . . . . . . . 113

12. Problemas propuestos 11712.1. Introducción a la estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

12.1.1. Guía de Trabajo No. 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11712.1.2. Guía de Trabajo No. 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11812.1.3. Tarea No. 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

12.2. Organización y presentación de datos . . . . . . . . . . . . . . . . . . . . . . . . . 12112.3. Resumen de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12212.4. Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

12.4.1. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12512.4.2. Probabilidades condicionales y teorema de bayes . . . . . . . . . . . . . . . 12912.4.3. Varios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

12.5. Distribuciones de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13512.5.1. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13512.5.2. Distribución binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13612.5.3. Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

12.6. Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

Page 6: Download estadistica

ÍNDICE 4

12.7. Inferencia estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14212.8. Distribuciones bidimensionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

12.8.1. Prueba χ2 para tablas de contingencia . . . . . . . . . . . . . . . . . . . . . 14412.8.2. Distribuciones marginales y condicionales . . . . . . . . . . . . . . . . . . . 14412.8.3. Correlación y predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

A. Bibliografía 161

Anexos 163

A. Tablas de distribuciones de probabilidad 163

Page 7: Download estadistica

ÍNDICE DE TABLAS 5

Índice de tablas1. Diferentes formas de medir la presencia del hábito tabáquico. . . . . . . . . . . . . . . . . 262. Distribución de frecuencias simple . . . . . . . . . . . . . . . . . . . . . . . . . . . 343. Distribución de frecuencia agrupada . . . . . . . . . . . . . . . . . . . . . . . . . . 344. Resumen de las decisiones que el investigador puede tomar en la prueba de hipótesis 1035. Prueba de hipótesis para µ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1056. Prueba de hipótesis para P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1067. Prueba de hipótesis para µ en muestras pequeñas . . . . . . . . . . . . . . . . . . . 1078. Prueba de hipótesis para P en muestras pequeñas . . . . . . . . . . . . . . . . . . . 1089. Remesas en millones de dólares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

Page 8: Download estadistica

ÍNDICE DE FIGURAS 6

Índice de figuras1. Etapas que comprende la investigación educativa . . . . . . . . . . . . . . . . . . . . . . 172. La estadística en la investigación educativa . . . . . . . . . . . . . . . . . . . . . . . . . 193. Relación población, muestra, parámetro y estadístico . . . . . . . . . . . . . . . . . . . . 224. Clasificación de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235. Clasificación según el número de variables . . . . . . . . . . . . . . . . . . . . . . . . . 246. Diagrama de técnicas e instrumentos para la recolección de datos . . . . . . . . . . . . . . 287. Proceso estándar para la generación de estadísticas en Encuestas por Muestreo . . . . . . . 318. Gráfico de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379. Gráfico de pastel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3810. Pictograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3911. Cartograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4012. Gráfico de barras para las notas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4013. Gráfico tomando porcentajes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4114. Polígono de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4115. Gasto en leña . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4316. Ayuda en remesas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4417. Poligono de frecuencias acumuladas . . . . . . . . . . . . . . . . . . . . . . . . . . 4518. Serie temporal para el flujo de remesas . . . . . . . . . . . . . . . . . . . . . . . . . 4619. Medidas representativas de un conjunto de datos estadísticos . . . . . . . . . . . . . 4720. La mediana es el punto de corte de la ojiva creciente con la decreciente . . . . . . . . 4921. Posibles ubicaciones de las medidas de centralización en un conjunto de datos . . . . 5122. Distribuciones de frecuencias simétricas y asimétricas . . . . . . . . . . . . . . . . . 5623. Uso de los cuartiles para medir la asimetría. . . . . . . . . . . . . . . . . . . . . . . 5724. Apuntamiento de distribuciones de frecuencia. . . . . . . . . . . . . . . . . . . . . . 5825. Intervalo de confianza para µ con σ conocido . . . . . . . . . . . . . . . . . . . . . 9926. Interpretación del nivel de confianza en un intervalo para la media de una distribución

normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10027. Diagrama de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11228. Densidad de población por km2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12129. PIB nominal per cápita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12130. Áreas variadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

Page 9: Download estadistica

1 INTRODUCCIÓN A LA ESTADÍSTICA 7

1. Introducción a la estadísticaComo dijera Huntsberger: ”La palabra estadística a menudo nos trae a la mente imágenes de númerosapilados en grandes arreglos y tablas, de volúmenes de cifras relativas a nacimientos, muertes, im-puestos, poblaciones, ingresos, deudas, créditos y así sucesivamente”. Huntsberger tiene razón puesal instante de escuchar esta palabra estas son las imágenes que llegan a nuestra cabeza.La Estadística es mucho más que sólo números apilados y gráficas bonitas. Es una ciencia con tantaantigüedad como la escritura, y es por sí misma auxiliar de todas las demás ciencias.La ausencia de ésta conllevaría a un caos generalizado, dejando a los investigadores, administradoresy ejecutivos sin información vital a la hora de tomar decisiones en tiempos de incertidumbre.La interpretación de esta información puede resultar una tarea difícil, si además recordamos cuántasveces se nos pretende manipular con ella. Para la obtención, interpretación y evaluación de toda estainformación resulta indispensable el conocimiento de los métodos estadísticos.La estadística pretende determinar formas eficientes de obtener información sobre un fenómeno opoblación y cómo analizar dicha información para hacer inferencias sobre la población, siempretomando en cuenta la presencia de perturbaciones originadas por el azar, ya sean inherentes al ob-jeto de estudio o debidas a errores de medición. Los métodos y conceptos que desarrolla la estadísticapueden aplicarse, con las modificaciones adecuada, en muchos campos diferentes: como la medicina,la biología, la ingeniería, la educación, la industria, los gobiernos, etc.La Estadística que conocemos hoy en día debe gran parte de su realización a los trabajos matemáti-cos de aquellos hombres que desarrollaron la teoría de las probabilidades, con la cual se adhirió a laEstadística a las ciencias formales.

1.1. Reseña histórica de la estadísticaLos comienzos de la estadística pueden ser hallados en el antiguo Egipto, cuyos faraones lograronrecopilar, hacia el año 3050 antes de Cristo, prolijos datos relativos a la población y la riqueza delpaís. De acuerdo al historiador griego Heródoto, dicho registro de riqueza y población se hizo con elobjetivo de preparar la construcción de las pirámides. En el mismo Egipto, Ramsés II hizo un censode las tierras con el objeto de verificar un nuevo reparto.En el antiguo Israel la Biblia da referencias, en el libro de los Números, de los datos estadísticosobtenidos en dos recuentos de la población hebrea. El rey David por otra parte, ordenó a Joab, generaldel ejército hacer un censo de Israel con la finalidad de conocer el número de la población.También los chinos efectuaron censos hace más de cuarenta siglos. Los griegos efectuaron censosperiódicamente con fines tributarios, sociales (división de tierras) y militares (cálculo de recursos yhombres disponibles). La investigación histórica revela que se realizaron 69 censos para calcular losimpuestos, determinar los derechos de voto y ponderar la potencia guerrera.Pero fueron los romanos, maestros de la organización política, quienes mejor supieron emplear los re-cursos de la estadística. Cada cinco años realizaban un censo de la población y sus funcionarios públi-cos tenían la obligación de anotar nacimientos, defunciones y matrimonios, sin olvidar los recuentosperiódicos del ganado y de las riquezas contenidas en las tierras conquistadas. Para el nacimiento deCristo sucedía uno de estos empadronamientos de la población bajo la autoridad del imperio.Durante los mil años siguientes a la caída del imperio Romano se realizaron muy pocas operacionesEstadísticas, con la notable excepción de las relaciones de tierras pertenecientes a la Iglesia, compi-ladas por Pipino el Breve en el 758 y por Carlomagno en el 762 DC. Durante el siglo IX se realizaron

Page 10: Download estadistica

1 INTRODUCCIÓN A LA ESTADÍSTICA 8

en Francia algunos censos parciales de siervos. En Inglaterra, Guillermo el Conquistador recopiló elDomesday Book o libro del Gran Catastro para el año 1086, un documento de la propiedad, extensióny valor de las tierras de Inglaterra. Esa obra fue el primer compendio estadístico de Inglaterra.Aunque Carlomagno, en Francia; y Guillermo el Conquistador, en Inglaterra, trataron de revivir latécnica romana, los métodos estadísticos permanecieron casi olvidados durante la Edad Media.Durante los siglos XV, XVI, y XVII, hombres como Leonardo de Vinci, Nicolás Copérnico, Galileo,Neper, William Harvey, Sir Francis Bacon y René Descartes, hicieron grandes aportaciones al métodocientífico, de tal forma que cuando se crearon los Estados Nacionales y surgió como fuerza el comer-cio internacional existía ya un método capaz de aplicarse a los datos económicos.Para el año 1532 empezaron a registrarse en Inglaterra las defunciones debido al temor que EnriqueVII tenía por la peste. Más o menos por la misma época, en Francia la ley exigió a los clérigos reg-istrar los bautismos, fallecimientos y matrimonios. Durante un brote de peste que apareció a fines dela década de 1500, el gobierno inglés comenzó a publicar estadística semanales de los decesos. Esacostumbre continuó muchos años, y en 1632 estos Bills of Mortality (Cuentas de Mortalidad) con-tenían los nacimientos y fallecimientos por sexo. En 1662, el capitán John Graunt usó documentosque abarcaban treinta años y efectuó predicciones sobre el número de personas que morirían de variasenfermedades y sobre las proporciones de nacimientos de varones y mujeres que cabría esperar. Eltrabajo de Graunt, condensado en su obra Natural and Political Observations...Made upon the Bills ofMortality (Observaciones Políticas y Naturales ... Hechas a partir de las Cuentas de Mortalidad), fueun esfuerzo innovador en el análisis estadístico.Por el año 1540 el alemán Sebastián Muster realizó una compilación estadística de los recursos na-cionales, comprensiva de datos sobre organización política, instrucciones sociales, comercio y poderíomilitar. Durante el siglo XVII aportó indicaciones más concretas de métodos de observación y análisiscuantitativo y amplió los campos de la inferencia y la teoría Estadística.Los eruditos del siglo XVII demostraron especial interés por la Estadística Demográfica como resul-tado de la especulación sobre si la población aumentaba, decrecía o permanecía estática.En los tiempos modernos tales métodos fueron resucitados por algunos reyes que necesitaban cono-cer las riquezas monetarias y el potencial humano de sus respectivos países. El primer empleo delos datos estadísticos para fines ajenos a la política tuvo lugar en 1691 y estuvo a cargo de GasparNeumann, un profesor alemán que vivía en Breslau. Este investigador se propuso destruir la antiguacreencia popular de que en los años terminados en siete moría más gente que en los restantes, y paralograrlo hurgó pacientemente en los archivos parroquiales de la ciudad. Después de revisar miles departidas de defunción pudo demostrar que en tales años no fallecían más personas que en los demás.Los procedimientos de Neumann fueron conocidos por el astrónomo inglés Halley, descubridor delcometa que lleva su nombre, quien los aplicó al estudio de la vida humana. Sus cálculos sirvieron debase para las tablas de mortalidad que hoy utilizan todas las compañías de seguros.Durante el siglo XVII y principios del XVIII, matemáticos como Bernoulli, Francis Maseres, La-grange y Laplace desarrollaron la teoría de probabilidades. No obstante durante cierto tiempo, lateoría de las probabilidades limitó su aplicación a los juegos de azar y hasta el siglo XVIII no comen-zó a aplicarse a los grandes problemas científicos.Godofredo Achenwall, profesor de la Universidad de Gotinga, acuñó en 1760 la palabra estadística,que extrajo del término italiano statista (estadista). Creía, y con sobrada razón, que los datos de lanueva ciencia serían el aliado más eficaz del gobernante consciente. La raíz remota de la palabra sehalla, por otra parte, en el término latino status, que significa estado o situación; Esta etimología au-menta el valor intrínseco de la palabra, por cuanto la estadística revela el sentido cuantitativo de las

Page 11: Download estadistica

1 INTRODUCCIÓN A LA ESTADÍSTICA 9

más variadas situaciones.Jacques Quételect es quien aplica las Estadísticas a las ciencias sociales. Este interpretó la teoría de laprobabilidad para su uso en las ciencias sociales y resolver la aplicación del principio de promedios yde la variabilidad a los fenómenos sociales. Quételect fue el primero en realizar la aplicación prácticade todo el método Estadístico, entonces conocido, a las diversas ramas de la ciencia.Entretanto, en el período del 1800 al 1820 se desarrollaron dos conceptos matemáticos fundamentalespara la teoría Estadística; la teoría de los errores de observación, aportada por Laplace y Gauss; y lateoría de los mínimos cuadrados desarrollada por Laplace, Gauss y Legendre. A finales del siglo XIX,Sir Francis Gaston ideó el método conocido por Correlación, que tenía por objeto medir la influenciarelativa de los factores sobre las variables.Hasta mediados del siglo XIX la palabra ”Estadística” se usaba con referencia a informaciones o datosde tipo Socio-económico sobre la realidad de un estado.A finales del siglo XIX, con Galton y Karl Pearson nace la inferencia estadística, como fruto del en-cuentro entre la antigua Estadística (de carácter descriptivo) y el cálculo de probabilidades.Karl Pearson, es considerado el fundador de la Ciencia Estadística, por sus aportes en áreas comola teoría de las distribuciones, teoría de la correlación, errores probables de estadísticos, distribu-ción Gi-Dos, sistemáticas aplicaciones realizadas junto a alumnos como Yule o Shepard a numerososproblemas reales, fundaron la revista Biometrika publicaron numerosas tablas estadísticas. Tambiéncontribuyeron Neyman y Ego Pearson en el área de contraste de hipótesis y Ronald Aylmer Fishercon sus aportaciones en la estimación y en la teoría de los modelos lineales.En 1940, lo que hoy en día entendemos como inferencia estadística ya estaba establecida. El cálculode probabilidades, con las aportaciones de Misses y sobre todo de Kolmogorov, basados en los tra-bajos de Borel y Lebesgue, constituye ya una teoría matemática firme con una base axiomática. Lostrabajos de Wald, Von Newmann y Savage permiten un enfoque unificado de la Teoría de DecisiónEstadística.En la decada de los ochenta, se aplica la estadística como herramienta para la mejora de procesos enla industria, y alcanza su auge con su utilización masiva en Japón bajo la filosofía del Dr. Demingsobre calidad y productividad.Los progresos más recientes en el campo de la Estadística se refieren al ulterior desarrollo del cál-culo de probabilidades, particularmente en la rama denominada indeterminismo o relatividad, se hademostrado que el determinismo fue reconocido en la Física como resultado de las investigacionesatómicas y que este principio se juzga aplicable tanto a las ciencias sociales como a las físicas.

1.2. Etapas de Desarrollo de la EstadísticaLa historia de la estadística está resumida en tres grandes etapas o fases.

1.- Primera Fase: Los Censos:Desde el momento en que se constituye una autoridad política, la idea de inventariar de unaforma más o menos regular la población y las riquezas existentes en el territorio está ligada a laconciencia de soberanía y a los primeros esfuerzos administrativos.

2.- Segunda Fase: De la Descripción de los Conjuntos a la Aritmética Política:Las ideas mercantilistas extrañan una intensificación de este tipo de investigación. Colbert mul-tiplica las encuestas sobre artículos manufacturados, el comercio y la población: los intendentesdel Reino envían a París sus memorias. Vauban, más conocido por sus fortificaciones o su Dime

Page 12: Download estadistica

1 INTRODUCCIÓN A LA ESTADÍSTICA 10

Royale, que es la primera propuesta de un impuesto sobre los ingresos, se señala como el ver-dadero precursor de los sondeos. Más tarde, Bufón se preocupa de esos problemas antes dededicarse a la historia natural.La escuela inglesa proporciona un nuevo progreso al superar la fase puramente descriptiva. Sustres principales representantes son Graunt, Petty y Halley. El penúltimo es autor de la famosaAritmética Política.Chaptal, ministro del interior francés, publica en 1801 el primer censo general de población,desarrolla los estudios industriales, de las producciones y los cambios, haciéndose sistemáticosdurantes las dos terceras partes del siglo XIX.

3.- Tercera Fase: Estadística y Cálculo de Probabilidades:El cálculo de probabilidades se incorpora rápidamente como un instrumento de análisis ex-tremadamente poderoso para el estudio de los fenómenos económicos y sociales y en generalpara el estudio de fenómenos ”cuyas causas son demasiados complejas para conocerlos total-mente y hacer posible su análisis”.

1.3. Importancia de la estadística y definiciónLa estadística es una herramienta fundamental para la investigación científica o estudio de fenómenosinciertos (aleatorios), ya que ha desarrollado métodos 1 y técnicas 2 estadísticas para apoyar el trabajode los investigadores para describir lo que ven, tratar de explicar lo observado y usar esos conocimien-tos para predecir eventos del mundo en que vivimos. Entre los problemas que se presentan en esteproceso de investigación, y que trata de resolver la Estadística podemos mencionar los siguientes:

1. La descripción de datos:Es muy poca la información útil que podemos obtener simplemente observando una tabla dedatos. Necesitamos, entonces, procedimientos para resumir eficientemente la información yasea de tipo gráfico o numérico. En este caso suele hablarse de Estadística Descriptiva.

2. La elección y análisis de muestras:Al estudiar una población o fenómeno, en general es imposible (o muy costoso) obtener in-formación sobre todos los elementos de la población o repetir un número grande de veces unexperimento. Por consiguiente, nos vemos en la necesidad de usar información parcial, y de-seamos que está sea lo mejor posible. Nos enfrentamos, entonces, al problema de cómo elegirun subconjunto significativo de la población (Teoría de Muestreo) o de cómo diseñar un exper-imento que nos proporcione la mayor cantidad posible de información sobre el fenómeno deinterés (Diseño de Experimentos). Así mismo, deseamos utilizar está información parcial paraobtener inferencias sobre el total de la población o fenómeno estudiado en base a los resultadosde la muestra. Para ello, suponemos que el azar afecta los resultados que hemos obtenido yempleamos Modelos Probabilísticos.

3. El contraste o prueba de Hipótesis:Cuando se desea probar la validez de alguna hipótesis, es necesario recabar información que

1Método es una palabra que proviene del griego methodos, meta, y odos, vía y que se interpreta como la vía con lacual se logra algo y que se puede generalizar como un modo razonado de obrar.

2Del griego téchne, que significa arte, la técnica es un conjunto de saberes prácticos o procedimintos para obtener elresultado deseado. La ténica requiere de destreza manual y/o intelectual, generalmente con el uso de herramientas.

Page 13: Download estadistica

1 INTRODUCCIÓN A LA ESTADÍSTICA 11

sea pertinente a dicha hipótesis y que nos permita observar el fenómeno de particular interés.Para ello, es necesario en general el Diseño de Experimentos con el fin de obtener informaciónrelevante al problema. De la misma manera, una vez recabada dicha información, es necesariodisponer de métodos que permitan la interpretación de los resultados, es decir, que permitandecidir si la información obtenida apoya o contradice la hipótesis planteada.

4. La medición de relaciones entre variables:En muchos casos es interesante estudiar las relaciones entre las diferentes variables que inter-vienen en el problema. Por ejemplo, cómo se relaciona el tabaquismo con el número de horasdedicadas a estudiar, o cuál es el efecto de la alimentación sobre el incremento de peso de lospollos en una granja avícola. De esta manera, al conocerse una de las variables puede predecirseel valor de la otra. Para hacer esto, recurrimos al ajuste de modelos Modelos Probabilísticos,pues suponemos la presencia de perturbaciones en los datos, las cuales atribuímos al azar.

5. La predicción:En muchas ocasiones deseamos predecir eventos futuros, como por ejemplo cuál será el preciode un barril de petroleo durante el próximo año, o cuánto alcanzará la inflación. La estadísticadesarrolla metodos para realizar estas predicciones dentro de ciertos márgenes de error conoci-dos.

6. La decisión:Ante cualquier situación, distintas decisiones producirán ganancias o pérdidas diferentes. ¿Có-mo podemos elegir aquella decisión o línea de acción que produzca la mayor ganancia espera-da? A esta rama de la Estadística suele denominársele Teoria de Decisión.

Definición:

ESTADÍSTICAEs una ciencia interdisciplinar que utiliza un conjunto de técnicas y métodos para recoger,preparar, organizar, resumir, hallar regularidades, analizar e interpretar datos del fenómenoen estudio, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de losmismos; con el fin de obtener conclusiones o hacer predicciones sobre el fenómeno y tomardecisiones más acertadas.

Ejemplos:¿Qué son los métodos estadísticos?Son técnicas y métodos estadísticos con los que se toman decisiones basadas en el análisis de datosrecopilados en experimentos de diseño minucioso. Puesto que los experimentos no pueden diseñarsepara tener en cuenta toda posible contingencia, siempre existe algo de incertidumbre en la cienciaexperimental. Los métodos estadísticos están ideados para permitir la evaluación del grado de incer-tidumbre de los resultados.Es posible clasificar los métodos estadísticos de manera general en tres categorías: estadística descrip-tiva, estadística inferencial y construcción de modelos.La estadística descriptiva, actualmente también conocida como Análisis Exploratorio de Datos(AED), se puede definir como los métodos que permiten recoger, organizar, representar, resumir yanalizar una o varias características de todos los individuos u objetos de un conjunto con la finalidadde explicar en forma apropiada las relaciones de interdependencia y dependencia de las característi-cas, de dicho conjunto.

Page 14: Download estadistica

1 INTRODUCCIÓN A LA ESTADÍSTICA 12

A la estadística inferencial o inferencia estadística le conciernen los métodos que hacen posible obten-er conclusiones relevantes y válidas sobre un grupo o conjunto de objetos, al estudiar únicamente unaporción o subconjunto de los elementos de dicho grupo. La confiabilidad de las conclusiones basadasen los datos puede ser evaluada objetivamente por medio del uso de la probabilidad, ya que la teoríade la probabilidad permite pasar de datos específicos a conclusiones generales. Este concepto conllevaa la definición de población y de muestra que se hará más adelante.Por otra parte la construcción de modelos comprende los métodos estadísticos que buscan encon-trar una ley, mediante el el desarrollo de ecuaciones predictivas a partir de datos experimentales, queexplique tanto la parte sistemática o previsible del fenómeno en estudio como la parte aleatoria delmismo.No se trata de categorías mutuamente excluyentes. Dicho de otra manera, los métodos creados parasolucionar problemas en un área suelen tener aplicación en otra.

1.4. La investigación educativaAnte los cambios acelerados de conocimiento y la diversidad de paradigmas, se requiere de profe-sionales competentes que den respuesta a los problemas de una realidad compleja y dinámica; queadopten una actitud reflexiva y crítica con respecto a la realidad educativa y que posean idoneidadtécnico-profesional para investigar científicamente esa realidad y transformarla creativamente.Se necesita también de profesionales que se asuman como pensadores, es decir como sostiene PauloFreire, que ”realicen la tarea permanente de estructurar la realidad, de preguntarle y preguntarse sobrelo cotidiano y evidente, tarea ineludible para todo trabajador social”. [3]Consideramos que los especialistas de la educación deben comprometerse como investigadores de supropia práctica y reflexionar críticamente acerca de la misma para mejorarla, a través del contraste, eldiálogo, el debate, la deliberación y la experiencia compartida sobre prácticas pedagógicas habituales.Por otra parte, se hace indispensable para aprender a investigar, tener una experiencia directa con laproblemática a estudiar, cuyas conclusiones superen la mera recolección de información. Para ello,es fundamental introducir las herramientas de investigación en el estudio de situaciones cotidianas,para un posterior análisis teórico-reflexivo y la implementación de estrategias superadoras de esasprácticas.

1.4.1. ¿Qué es investigar?

Cuando hablamos de conocimiento científico, nos referimos a aquel tipo de conocimiento que seencuentra muy relacionado con el proceso de investigación y que se obtiene mediante la utilizaciónde métodos y procedimientos científicos, que se utilizan cuidadosamente para dar respuestas fiables alos interrogantes planteados.Las características del conocimiento científico han sido ampliamente desarrolladas por autores comoBayés (1974), Arnau (1978), y Kerlinger (1985), quienes lo caracterizan como:

fáctico (ya que la fuente de información y de respuesta a los problemas es la experiencia),

contrastable (puesto que el conocimiento se pone a prueba),

racional (porque se utiliza la razón como camino fundamental para llegar al conocimiento),

Page 15: Download estadistica

1 INTRODUCCIÓN A LA ESTADÍSTICA 13

metódico (pues el conocimiento se adquiere mediante el empleo de procedimientos, estrategiasy planes construidos cuidadosamente para dar respuesta a los problemas planteados),

sistemático (es un conocimiento lógico, coherente y ordenado en sus elementos),

analítico (ya que se seleccionan aspectos o variables del fenómeno para estudiarlo con mayordetenimiento),

comunicable (porque se expresa por medio de un lenguaje claro y preciso, aceptado por lacomunidad científica), y

objetivo (se corresponde con la realidad, independientemente de las preferencias y opinionesindividuales del investigador.)

Esta última característica, la de la objetividad e imparcialidad del conocimiento científico, ha sido yes actualmente discutida y puesta en duda por muchos autores y científicos, fundamentalmente en loconcerniente a la objetividad en las ciencias sociales.Este conocimiento científico que hemos caracterizado, es el resultado de la investigación científica,pero, ¿En qué consiste dicha investigación?Según Carlos Borsotti, "...investigar es un proceso por el cual se intenta dar respuesta a problemascientíficos mediante procedimientos sistemáticos, que incluyen la producción de información váliday confiable."[4]Debemos tener en cuenta que toda investigación, ya sea científica o no, comienza con el tratamientode algún problema, es decir, reside en encontrar, enunciar y trabajar con determinados problemas.El vocablo problema denota una dificultad que necesita de un proceso de investigación (empírica oconceptual) para ser resuelta, puesto que no puede solucionarse de manera rápida y automática.Sin embargo, no todo problema es un problema científico. Sólo son científicos aquellos problemasque se plantean sobre un trasfondo científico, con medios e instrumentos científicos y con el objetivoprimordial de acrecentar nuestro conocimiento. (Bunge, Mario, 1986, Pág. 167.)Cabe aclarar, que cuando hablamos de trasfondo científico nos referimos al cuerpo de conocimientospreexistente, el cual está compuesto por conceptos teóricos, datos, técnicas, procedimientos, general-izaciones empíricas, supuestos, etc. Debemos tener en cuenta que los problemas no surgen de la nada,toda teoría determina los problemas que se pueden formular.Podríamos decir que la postura problematizadora es la más evidente de la ciencia, puesto que investi-gar es investigar problemas. En palabras de Mario Bunge: ”...El proceso creador de la ciencia arrancadel reconocimiento de problemas y culmina con la construcción de teorías (...) Los problemas son elmuelle que impulsa la actividad científica, y el nivel de investigación se mide por la dimensión de losproblemas que maneja”. [5]La investigación es una práctica social específica que busca la producción de conocimiento científico.”Investigar significa dar respuestas a problemas del conocimiento. Implica o requiere actitudes y ca-pacidades básicas de: descubrimiento, observación, pensar reflexivo, relacionar teoría y empirismo,sensibilidad social, artesanía intelectual, etc.” [6]

1.4.2. ¿Qué es investigar en educación?

En el campo educativo, como en el resto de las ciencias, la investigación se ha constituido en unaactividad precisa y elemental. Por este motivo, se ha originado la investigación educativa, como dis-ciplina que ”trata las cuestiones y problemas relativos a la naturaleza, epistemología, metodología,

Page 16: Download estadistica

1 INTRODUCCIÓN A LA ESTADÍSTICA 14

fines y objetivos en el marco de la búsqueda progresiva de conocimiento en el ámbito educativo”. [7]Los orígenes de la investigación educativa se sitúan a fines del siglo XIX, cuando en pedagogíase adopta la metodología científica. Esta investigación, como disciplina de base empírica, se llamóprimeramente pedagogía experimental, designación similar a la de psicología experimental, utilizadapor Wundt en 1880.La pedagogía experimental nace en un contexto histórico-social en el cual se resalta el interés por afi-anzar la educación sobre fundamentos empíricos e incorporar el método experimental en las cienciashumanas.Según los estudios de Buyse (1949), se pueden diferenciar tres influencias principales en la pedagogíaexperimental: el pensamiento filosófico reinante en el siglo XIX, el surgimiento de la pedagogía cien-tífica y el crecimiento de la metodología experimental.El pensamiento filosófico imperante en el siglo XIX, se caracterizó por corrientes filosóficas quefueron fundamentales para la independencia de las ciencias sociales, contribuyendo en gran medi-da a dotar de cientificidad a la pedagogía. Estas corrientes son el positivismo, cuyo representante esComte; el pragmatismo, representado por James; el sociologismo de Durkheim; y el experimentalis-mo de Dewey.El surgimiento de la pedagogía científica, basada en la experimentación, fue otro factor de importanciapara el desarrollo de la pedagogía experimental. Esto se produce gracias a los aportes del racionalismodel siglo XVIII; el crecimiento de las ciencias naturales con la contribución de las ideas de Darwin,Cournot y de Bain; la publicación de las obras de autores como C.Bernard, Galton, Burt, Cattell yRice, entre otros. También son destacables las ideas educativas de Rousseau, Pestalozzi, Froebel yHerbart para establecer los pilares empíricos de la educación. (Arnal, J. y otros, 1994, Pág.24-25.) Eldesarrollo de la metodología experimental es el producto de numerosos elementos de carácter político,social y cultural. Se produce inicialmente en el área de la medicina y de la psicología, para propagarseposteriormente al ámbito educativo.El concepto de investigación educativa se ha ido modificando a medida que han surgido nuevos en-foques para el tratamiento de los fenómenos educativos. Actualmente, son variados los significadosatribuidos a la expresión Investigación Educativa, dependiendo de la diversidad de objetivos y carac-terísticas que se le establecen. Esta temática nos conduce a abordar el siguiente apartado vinculadocon los paradigmas en el estudio de los sucesos educativos.

1.4.3. Paradigmas de la investigación educativa

El concepto de paradigma desarrollado por Kuhn permite diversos usos y una pluralidad de significa-dos, por eso me parece necesario aclarar como será entendido y utilizado el concepto en el desarrollode esta temática.El término paradigma hace referencia al conjunto de creencias y actitudes, como una visión del mundo”compartida” por un grupo de científicos que implica, específicamente, una metodología determinada(Alvira, 1982, Pág.34).Cada comunidad de científicos comparte un mismo paradigma y conforma, de esta manera, una comu-nidad intelectual cuyos integrantes tienen en común valores, creencias, normas, objetivos, un lenguajedeterminado, etc. La Investigación Educativa ha estado determinada por conflictos y debates paradig-máticos, se ha desplazado desde enfoques marcadamente positivistas a enfoques más abiertos y plu-ralistas.Diversos autores, analistas de esta temática, ( como Popkewitz , Koerting , Morin y De Miguel, en-tre otros), sostienen que podemos distinguir tres grandes paradigmas en la Investigación Educativa.

Page 17: Download estadistica

1 INTRODUCCIÓN A LA ESTADÍSTICA 15

Los mismos son (aunando la diversidad de designaciones utilizadas para los mismos) el positivista,el interpretativo y el sociocrítico. Tradicionalmente la investigación en educación ha seguido los fun-damentos y preceptos surgidos de la corriente positivista. Esta corriente se relaciona con las ideasempiristas y positivistas de autores como Comte, S. Mill, y Durkheim. Sus supuestos básicos son queel mundo natural tiene existencia propia y que está regido por leyes que el investigador debe des-cubrir objetivamente y con procedimientos científicos, para poder explicar, predecir y, por lo tanto,controlar todos los fenómenos. Además, este conocimiento adquirido sobre la base de la metodologíahipotético-deductiva ( científica y válida para todas las ciencias) se supone legítimo para todo tiempoy lugar, objetivo y factual.Desde esta concepción, la investigación educativa equivale a investigación científica aplicada a la edu-cación y debe alinearse a las normas del método científico en su sentido riguroso. Se concede valor alcarácter empírico de la investigación, sustentándose en los mismos principios y bases que las cienciasde la naturaleza. Sólo el conocimiento es aceptado como tal cuando se subordina a las normativasdel método científico y puede, por consiguiente, ser utilizado para construir leyes que expliquen ypredigan los fenómenos.Desde esta perspectiva, la investigación en el ámbito educativo tiene como finalidad desnudar lasleyes que rigen los hechos educativos para poder formular teorías que orienten y controlen la prácticaeducativa. Todo ello mediante el uso de instrumentos y técnicas cuantitativas de investigación.A pesar de que este paradigma facilita la utilización de criterios de rigor metodológico en el ámbitoeducativo, es acusado de reduccionismo, ya que en aras de dicho rigor, sacrifica el estudio de otrasdimensiones importantísimas del fenómeno educativo como son la realidad sociocultural, política,humana, ideológica, etc.El paradigma interpretativo se remonta a las ideas de autores como Dilthey, Rickert y Weber, entreotros, sumado a escuelas de pensamiento como la fenomenología, el interaccionismo simbólico, la et-nometodología y la sociología cualitativa. Estas corrientes humanístico-interpretativas se concentranen el análisis de los significados de las acciones humanas y de la vida en sociedad. Para ello utilizantécnicas de investigación de carácter cualitativo.La investigación, más que aportar explicaciones de carácter causal, intenta interpretar y comprenderla conducta humana desde los significados e intenciones de los sujetos que intervienen en la escenaeducativa. Los seguidores de esta orientación, se centran en la descripción y comprensión de lo quees único y particular del sujeto más que en lo generalizable; buscan desarrollar conocimiento ideográ-fico y aceptan que la realidad es múltiple, holística y dinámica. Pretenden llegar a la objetividad enel ámbito de los significados, usando como criterio de evidencia el pacto intersubjetivo en el contextoeducativo. Acentúan la interpretación y la comprensión de la realidad educativa desde los significadosde las personas involucradas y estudian sus intenciones, creencias, motivaciones y otras característi-cas no directamente manifiestas ni susceptibles de experimentación.El paradigma sociocrítico se origina como una respuesta a los anteriores, ya que acusa de reduccionis-mo al positivismo y de conservadurismo a la corriente interpretativa.Las bases de este paradigma la encontramos en la escuela de Frankfurt, en el neomarxismo, en lasobras de Freire, Carr y Kemmis, entre otros, y en la teoría crítica social de Habermas.En los aspectos metodológicos y conceptuales, se asemejan al paradigma interpretativo, pero le in-corporan la ideología de forma explícita y la autorreflexión crítica en los procesos del conocimiento.Todo ello con el fin fundamental de modificar la estructura de las relaciones sociales, además de de-scribirlas y comprenderlas.Los partidarios de esta línea de investigación intentan conocer y comprender la realidad como prax-

Page 18: Download estadistica

1 INTRODUCCIÓN A LA ESTADÍSTICA 16

is; unir teoría y práctica; implicar al educador mediante la autorreflexión y dirigir el conocimiento aemancipar al hombre. (Popkewitz,1988, Pág. 75.) En este sentido, vemos que esta postura niega lahipotética neutralidad de la ciencia.Esta corriente tiene actualmente un impacto muy fuerte en diversos espacios educativos, como son elestudio de la administración educativa, del currículo, de la formación del profesorado, etc.

1.4.4. Particularidades de la investigación educativa

Frente a la investigación en las ciencias naturales, la investigación en el ámbito educativo (como entodas las ciencias sociales), presenta diversas particularidades que se relacionan justamente con la es-pecificidad de los fenómenos que estudia. Siguiendo el desarrollo realizado por J. Arnal, Del Rincóny Latorre sobre esta temática, podemos establecer las siguientes características de la InvestigaciónEducativa.Los fenómenos educativos, debido a su complejidad, presentan una dificultad epistemológica mayor,ya que en los mismos interaccionan una diversidad de variables que no permiten un estudio preciso yexacto como el que se realiza en las ciencias naturales. Cuestiones importantes de los hechos educa-tivos (como son los valores, significados, intenciones y creencias) no son directamente observablesni susceptibles de experimentación. En el ámbito educativo la conducta debe contextualizarse (Guba,1982), esto hace difícil su generalización, porque la misma debe estar desligada del contexto.La diversidad de paradigmas existentes, conformados por supuestos, perspectivas teóricas ymetodologías difíciles de armonizar y articular.(A diferencia de las ciencias naturales que se ori-entan por paradigmas integrados).La variedad de metodologías que se utilizan, ya que las características de los hechos educativos gen-eran la instrumentación de múltiples métodos y modelos de investigación. (Cuestión relacionada conla diversidad de paradigmas).El carácter pluridisciplinar de los fenómenos educativos lleva a que su estudio requiera de los aportescoordinados de diferentes disciplinas, como la psicología, la sociología, la pedagogía, etc.La variación de los fenómenos educativos en el tiempo y en el espacio no facilitan el proceso de gen-eralización y el establecimiento de regularidades. Esto hace más complicado el alcance de uno de losobjetivos de la ciencia.El investigador (como en todas las ciencias sociales) forma parte del objeto de estudio que investiga.Esto produce que no pueda mantenerse neutral y ajeno a la problemática educativa que investiga, locual no implica que deba abandonar la necesidad de ser lo más objetivo posible.Se hace necesario aclarar que el concepto de investigación educativa no tiene un marco definido yclaro para delimitar lo que es considerado propiamente de la disciplina. Esto exige mantener unaactitud abierta hacia sus diferentes modalidades y realizar un esfuerzo de clarificación.

1.5. La investigación educativa y su relación con la estadísticaLa investigación educativa es investigación científica, por eso en su búsqueda de conocimiento obje-tivo se apoya en el método científico. La observación directa de los hechos, la búsqueda de evidenciasque sustenten las ideas, permiten alcanzar un conocimiento más exacto y confiable. La historia delhombre ha demostrado que este es el método más seguro y productivo para obtener conocimiento.En el campo educativo la Estadística contribuye al conocimiento de las condiciones fisiológicas, psi-cológicas y sociales de los alumnos y de los profesores. Al perfeccionamiento de los métodos de

Page 19: Download estadistica

1 INTRODUCCIÓN A LA ESTADÍSTICA 17

enseñanza y de evaluación. Los investigadores, los educadores, los profesionales, los grupos priva-dos, las fundaciones, el gobierno y otros interesados que intentan entender y explicar racionalmentelos problemas o fenómenos del proceso educativo, siguen más o menos las etapas del procedimientoque se muestra en la siguiente figura.

Figura 1: Etapas que comprende la investigación educativa

1. Selección del problema.La idea o problema debe surgir de aspectos importantes para nuestras vidas. Es decir tiene queinteresarnos saber algo de nuestra cotidianeidad, pues este es nuestro principal punto de ref-erencia y conocimiento previo. Jamás debe pensarse que una idea es estúpida y descabellada.Una idea inicial siempre es vaga y cargada de confusión pero eso no significa que no sea impor-tante. No existen ideas ”obvias” que no deban ser consideradas. Lo ”obvio” sin análisis previoes prejuicio. El prejuicio es lo opuesto a la verdadera ciencia, por lo tanto se debe tener muchocuidado en este aspecto.

2. Revisión bibliográfica.La idea o problema debe surgir de aspectos importantes para nuestras vidas. Es decir tiene queinteresarnos saber algo de nuestra cotidianeidad, pues este es nuestro principal punto de ref-erencia y conocimiento previo. Jamás debe pensarse que una idea es estúpida y descabellada.Una idea inicial siempre es vaga y cargada de confusión pero eso no significa que no sea impor-tante. No existen ideas ”obvias” que no deban ser consideradas. Lo ”obvio” sin análisis previoes prejuicio. El prejuicio es lo opuesto a la verdadera ciencia, por lo tanto se debe tener muchocuidado en este aspecto.

3. Las restantes etapas estan incluidas en el Proceso de Análisis Estadístico que se detalla en lapágina 18.

La Investigación Educativa presenta una serie de características particulares. La multiplicidad de losobjetivos y fines que pretende, la singularidad de los fenómenos que estudia y la pluralidad de losmétodos que emplea son dimensiones que le otorgan especificidad propia a la vez que hacen máscompleja y ardua su descripción y estudio. El método es un modo de abordar los problemas, siendo lanaturaleza del objeto a estudiar, la que hace recomendables posibles métodos y técnicas específicas.

Page 20: Download estadistica

1 INTRODUCCIÓN A LA ESTADÍSTICA 18

La estadística es una de las herramientas fundamentales en la aplicación del método científico. Así,cuando se realiza un experimento y se miden determinadas variables como resultado del mismo (nivelde colesterol, peso, etc.) y se desea sacar alguna conclusión del estilo de ”qué tratamiento es mejor”o ”aumenta o disminuye el peso”, será necesario realizar un análisis estadístico de los datos.Conclusiones basadas en la pura observación de los resultados, o en la observación de algunos es-tadísticos descriptivos, tales como la media aritmética o el valor máximo, pueden conducir a error yson inadmisibles en la ciencia moderna. El motivo de ello es que al realizar cualquier medida en eltranscurso de un experimento siempre existe un componente muy importante debido al azar. La es-tadística es, por lo tanto, un conjunto de conocimientos y técnicas que permiten ”cuantificar” el azar.La mayoría de las veces el investigador quiere inferir resultados sobre toda una población a partir deuna muestra reducida sobre la cual se llevará a cabo el experimento. Es importante conocer a prioricuál es el tamaño de la muestra, lo cual dependerá estrechamente del tipo de análisis estadístico que serealizará posteriormente, así como de la precisión con la que se desea trabajar. A lo largo de este doc-umento se hablará de los métodos y técnicas estadísticas usadas más frecuentemente en los análisisy diseños estadísticos de investigaciones experimentales, así como del cálculo de los tamaños mues-trales adecuados. El empleo de la estadística dentro de la investigación basada en el uso del métodocientífico, tanto en Ciencias Sociales como en aspectos administrativos relacionados con la toma dedecisiones resulta cada vez más importante. En general, como veremos más adelante, se puede decirque la metodología de investigación determina la calidad de la información en la cual se basan tantola descripción del comportamiento de variables e indicadores, como la toma de decisiones.La estadística es un campo del conocimiento que permite al investigador deducir y evaluar conclu-siones acerca de una población a partir de la información proporcionada por una muestra, por mediode métodos y técnicas necesarias para recolectar y analizar los datos requeridos en una investigación,este procedimiento se denomina Proceso de Análisis Estadístico y se puede sintetizar en los siguientespasos:

1. Formulación del problema específico de la investigación. En base al conocimiento conocimien-to del problema Problemática, justificación, antecedentes, y objetivos específicos, hipótesis.

2. Desarrollo de un método para la obtención de datos. Definir las características o variables aestudiar y su operacionalidad; la obtención de los datos puede requirir diseñar un experimento,diseñar fichas, diseñar un cuestionario, o extraerlos de una base de datos, para lo cual podríaser necesario definir: la población objetivo, la población muestreada, la unidad de observación,el marco de muestreo, el tamaño de la muestra muestra; y elegir el método de selección de lamuestra más adecuado.

3. Recolección de los datos. Seleccionar las unidades a observar o medir y que integraran la mues-tra; diseñar un plan para la recolección, preparar los materiales; y realizar el experimento, en-trevista, o encuesta.

4. Organización y presentación de los datos. Después que los datos han sido recolectados, estos sepresentan en su forma primaria, sin ninguna organización, lo que hace imposible el análisis deellos; en consecuencia, se hace necesario clasificar estos datos, a través de la revisión, el agru-pamiento y presentación. Revisión en la inspección de los formularios y de los registros dondese han reunido los datos para corregir los errores, las respuestas ilógicas y encontrar las omi-siones. Agrupamiento es volcar en una sola hoja o base de datos todos los datos contenidos enlos cuestionarios. La presentación (tablas y gráficos) de los datos: Luego de la agrupación de los

Page 21: Download estadistica

2 CONCEPTOS BÁSICOS 19

datos estos se pueden presentar ordenados en tablas ó cuadros y mediante de representacionesgráficas.

5. Análisis Estadístico. Después de clasificar los datos, se encuentran en condiciones de ser anal-izados desde el punto de vista estadístico, haciendo uso de las medidas de las características,relaciones entre ellas y de métodos descriptivos e inductivos, simples y compuestos. Es decir,los datos obtenidos a través de la recolección se condensan, se estiman las medidas en funciónde la población, se determinan sus relaciones y se prueban las hipótesis. , para interpretar losresultados en función de los objetivos y preguntas planteadas.

6. Interpretación de los resultados. Consiste en traducir las medidas estadísticas obtenidas, deacuerdo al lenguaje del fenómeno o hecho estudiado. Se interpretará lo hallado y emitirá prin-cipios, leyes, etc., sobre el problema investigado.

7. Presentación de los resultados. Se dan a conocer los resultados obtenidos considerando enlo posible hacia quienes va dirigido, haciéndolo en forma comprensible y efectiva. Esta pre-sentación puede hacerse en forma: textual a través de letras y símbolos algebraicos; tabular osemitabular a través de los cuadros estadísticos, gráfica a través de esquemas y diagramas; ypor medio de modificaciones de la forma gráfica como son las formas pictóricas.

El método de investigación que seaplica al análisis de problemas denuestra realidad esta basado en elproceso estadístico planteado ante-riormente y en el uso de herramien-tas tecnológicas, tal como lo mues-tra la figura de la derecha.

Figura 2: La estadística en la investigación educativa

2. Conceptos básicosA fin de ayudar al maestro en sus trabajos de investigación, en esta sección se revisa una serie deconceptos básicos para aplicar la estadística.

2.1. AleatoriedadLa aleatoriedad es un campo de definición que, en matemáticas, se asocia a todo proceso cuyo resul-tado no es previsible más que en razón de la intervención del azar. La consecuencia de todo sucesoaleatorio no puede determinarse en ningún caso antes de que este se produzca. Por consiguiente, losprocesos aleatorios quedan englobados dentro del área del cálculo de probabilidad y, en un marcomás amplio en el de la estadística. La palabra aleatorio se usa para expresar una aparente carencia depropósito, causa, u orden. El diccionario del uso del español, define la cualidad de ser aleatorio comoaquello que es ”incierto”.

Page 22: Download estadistica

2 CONCEPTOS BÁSICOS 20

2.2. Población, muestra, parámetro y estadísticoEl libro Women and Love: A Cultural Revolution in Progress (1987), de Shere Hite, tiene variosresultados ampliamente citados:

El 84 % de las mujeres ”no están satisfechas emocionalmente con sus relaciones” (página 804).

El 70 % de las mujeres ”con cinco o más años de casadas tienen relaciones sexuales fuera delmatrimonio (página 856).

El 95 % de las mujeres ”informan de diversas maneras de acoso emocional y psicológico porparte de los hombres con los que mantuvieron alguna relación sentimental” (página 810).

El 84 % de las mujeres ”informan de ciertos sentimientos de superioridad por parte de los hom-bres con los que mantuvieron relaciones sentimentales” (página 809).

El libro fue muy criticado en los artículos de periódicos y revistas a lo largo de los Estados Unidos.¿Por qué fue tan criticado el estudio de Hite?¿Fue incorrecto que citara a las mujeres que sentían quelos hombres de sus vidas se resistían a tratarlas como iguales, féminas que posiblemente no habíantenido la oportunidad de hablar anteriormente?¿Era incorrecto informar de los porcentajes de estasmujeres que no se sentían felices con la relación que llevaban con los hombres?Por supuesto que no. La investigación de Hite permitió a las mujeres analizar una visión de sus ex-periencias y reflejó la riqueza de las experiencias de estas mujeres de una forma que no lo lograríaun examen de opción múltiple. El error de Hite fue generalizar estos resultados a todas las mujeres,hayan participado en la encuesta o no, y afirmar que los porcentajes se aplicaban a todas las mujeres.En la encuesta de Hite, como las mujeres que recibieron cuestionarios (de 127 preguntas) fueronelegidas a propósito y un porcentaje extremadamente pequeño de ellas regresó los cuestionarios, lasestadísticas calculadas a partir de estos datos no sirven para indicar la actitud de todas las mujeres deEstados Unidos. La muestra final no es representativa de todas las mujeres de Estados Unidos y lasestadísticas sólo sirven para describir a las mujeres que contestaron la encuesta.Una muestra perfecta, una versión a escala de la población, que reflejaría cada una de las caracterís-ticas de toda la población, por supuesto que no puede existir para poblaciones complejas (aunqueexistiera, no sabríamos que es perfecta sin antes medir toda la población). Pero una buena muestrareproduce las características de interés que existen en la población de la manera más cercana posible.Esta muestra será representativa, en el sentido de que cada unidad muestreada representará las car-acterísticas de una cantidad conocida de unidades de la población.Necesitamos algunas definiciones para precisar el concepto de buena muestra.

Unidad de observación. Es el objeto sobre el cual se realiza una medición de la característica ainvestigar. Esta es la unidad básica de observació, a veces llamada elemento. En los estudios depoblación humana, con frecuencia ocurre que las unidades de observación son los individuos.

Población: es el conjunto de elementos u objetos que satisfacen una definición común y enlos que interesa analizar una o varias características observables y medibles. Aquí el términopoblación tiene un significado mucho más amplio que el usual, ya que puede referirse a per-sonas, animales, cosas, actos, áreas geográficas e incluso al tiempo.Una población se precisa como un conjunto finito o infinito de personas que presentan carac-terísticas comunes, por lo que debe estar perfectamente definida en el espacio y en el tiempo,

Page 23: Download estadistica

2 CONCEPTOS BÁSICOS 21

de modo que ante la presencia de un potencial integrante de la misma, se pueda decidir si formaparte o no de la población bajo estudio. Por lo tanto, al definir una población, se debe cuidarque el conjunto de elementos que la integran quede perfectamente delimitado. Si, por ejemplo,estamos analizando las escuelas primarias, debemos especificar cuáles y cuándo, por ejemplo:Escuelas primarias de San Salvador, año 2010.El tamaño N de una población viene dado por la cantidad de elementos que la componen, en elcaso en que sea una población finita, es decir, que podemos contabilizar y establecer un límitede existencia.Hay que distinguir entre la "población objetivo"formada por todos los elementos que poseenla(s) característica(s) que deseamos estudiar; y la ”población muestreada” formada por aquellasunidades (elementos o grupos de elementos) que posiblemente puedan ser miembros de unamuestra.

Unidad de muestreo: es la unidad (individuos, objetos o grupos) de la población muestreadasobre la que se mide la(s) característica(s) que se estudia(n). Por ejemplo, podríamos quererestudiar a las personas, pero no tenemos una lista de todos los individuos que pertenecen a lapoblación objetivo. En vez de esto, las familias sirven como las unidades de muestreo y lasunidades de observación son los indiduos que viven en una familia.

Marco de muestreo: es una una lista de de las unidades de mustreo. Para las encuestas telefóni-cas, el marco de muestreo podría ser una lista de todos los números telefónicos residenciales dela ciudad; para las entrevistas personales, una lista de las direcciones de todas las calles.

Censo: es el proceso de estudiar todos los elementos que conforman la población. Es decir,tomar una muestra igual a la población.

Muestra: es un subconjunto de unidades (elementos o grupos de elementos) de la poblaciónmuestreada, que se seleccionan a partir del marco de muestreo, destinado a suministrar infor-mación sobre dicha población. Para que este subconjunto de unidades sea de utilidad estadística,deben reunirse ciertos requisitos en la selección de los elementos.Las causas por la cual se seleccionan muestras son muchas. Puede ocurrir que la población quese defina tenga tamaño infinito (incontable), y en consecuencia, no fuera posible observar atodos sus elementos. En otras ocasiones, el costo de la observación exhaustiva puede ser muyelevado, el extenso tiempo de recolección de la información, o más aún, la observación de loselementos puede ser destructiva.En todos estos casos, la única manera de estudiar la población es obteniendo muestras de ella.El tamaño de la muestra queda determinado por el número de elementos que la forman y sesimboliza con la letra n.

Parámetro: es un valor (único) que resume la característica que se investiga en una población,se cálcula considerando a todos los elementos. Los parámetros de una característica que usual-mente interesan son: el promedio, la proporción, la razón, el total, la varianza o variabilidad.

Estadístico: es un valor o medida que resume la característica que se investiga en una población,se obtiene considerando a todos los elementos o unidades de una muestra particular, por lotanto puede tomar distintos valores dependiendo de la muestra seleccionada. Formalmente, unestadístico es una función matemática de una muestra, que mediante métodos inferencialespermite aproximar o estimar al respectivo parámetro poblacional.

Page 24: Download estadistica

2 CONCEPTOS BÁSICOS 22

Figura 3: Relación población, muestra, parámetro y estadístico

Las encuestas de opinión pública se realizan con frecuencia para predecir el candidato que ganaráen las próximas elecciones. Por ejemplo, en la elección del alcalde de San Salvador. La poblaciónobjetivo está formada por las personas que viven en San Salvador y que votarán en la próxima elecciónde alcaldes, año 2011; la población muestreada podría estar formada por las personas que pueden serlocalizadas por teléfono y dicen estar dispuestas a votar en la próxima elección. El marco de muestreopuede ser el directorio telefónico (lista de números telefónicos).En la Encuesta de Hogares y Propósitos Múltiples, que se realiza en El Salvador, la población objetivoestá formada por todos los hogares del país. La población muestreada estaría formada por todas lasviviendas registradas hasta cierta fecha, anterior a la realización de la Encuesta. El marco de muestreosería un listado de viviendas registradas hasta la fecha establecida. Entonces la unidad de muestreoes la vivienda pero la unidad de observación (elemento) podría ser el hogar (jefé o jefa del hogar),observe que la vivienda A del registro podría contener 3 hogares al momento de la realizar la encuesta.La calidad de una muestra, o la confianza que se pueda depositar en ella, depende exclusivamente dela calidad del método usado para obtenerla, o de la confianza que él merezca. En la práctica, lo únicoque puede legítimamente hacerse es aplicar un método que, por el modo de hacerse la selección ypor el tamaño del subconjunto elegido, produzca un alto porcentaje de muestras ”buenas”, de maneraque resulte muy probable que la que seleccionemos en suerte pertenezca al subgrupo específico demuestras posibles que tienen ese atributo. La selección de la muestra se hace por un procedimiento queasegure en alto grado que sea representativa de la población. Los métodos de selección de muestrasse describen más adelante.

2.3. Variables y tipos de variablesDatos Estadísticos, Son los resultados del experimento o mediciones de las observaciones realizadas,son en general, el producto de las observaciones efectuadas en los cuales se produce el fenómeno quequeremos estudiar. Los datos (valores o modalidades) de una característica o cualidad que se observao mide y que es común en todos los elementos de una población o muestra son variables, su resultadovaria aleatoriamente de una medición a otra. Debido lo a los datos estadísticos los denominamos vari-ables aleatorias. Por ejemplo, Ingresos mensuales de los miembros de una comunidad, Calificacionesde un examen, número de asesinatos por mes en El Salvador en el 2010, estado civil, etc.Nota: En términos prácticos, los instrumentos de medición presentan ciertas limitaciones de tipo físi-co que restringen el grado de precisión, a pesar de esto los datos siguen siendo continuos. Este es

Page 25: Download estadistica

2 CONCEPTOS BÁSICOS 23

el caso de datos que representan la estatura de una persona. Usando una cinta métrica tradicional,se habla por ejemplo, de que una persona mide 1.73mts. Pero si tuviésemos a disposición algúninstrumento electrónico sofisticado podría obtenerse que está persona mide 1.7287253046301mts.Debemos tener claro que una variable no es el objeto de estudio en sí, sino sus características, porejemplo si estuviéramos analizando un local para alquilar el local no es la variable, variables son susatributos: ubicación, tamaño, iluminación, ventilación, etc.La definición operacional de una variable es el proceso que que permite pasar de las preguntas de in-vestigación formuladas a nivel conceptual (calidad de vida, edad, tabaquismo, mortalidad, etc.) desdeel plano teórico al operativo, a su medición (o clasificación) en cada unidad de observación o de análi-sis específica. Es algo que tiene el mismo significado ayer, hoy y mañana para todos los individuos.Consideremos un ejemplo simple y familiar: la edad. Formalmente, la edad de un sujeto habría dedifirse como el número de vueltas que ha dado la tierra en torno al sol, más la fracción del recorridorealizado desde la última vuelta completa hasta el instante en que se hace la indagación. Sin embargo,en la mayoría de los estudios, la edad se operacionaliza tomando simplemente el número de añoscumplidos (vueltas completas). Dependiendo de los valores o modalidades que tomen las variable,estas se pueden clasificar de la siguiente manera:

Figura 4: Clasificación de variables

Variables cualitativas: son aquellas que describen cuali-dades o atributos. No son numéricas, sus valores posibleson categorías o modalidades, y se subdividen en:Nominales: sus valores son categorías o nombres que noguardan un orden. Ej. Estado civil, preferencia por unamarca, sexo, lugar de residencia. Ordinales: sus valoresson categorías o nombres que representan un orden y jer-arquía. Ej. Nivel educacional, días de la semana, calidadde la atención, nivel socioeconómico.

Variables cuantitativas: son aquellas cuyo conjunto devalores posibles son valores numéricos. Dentro de ella,se subdividen en:Discretas: toman valores enteros. Ej. No. de hijos de unafamilia, no. de alumnos de un curso. Continuas: son val-ores reales. Pueden tomar cualquier valor dentro de unintervalo. Ej. Peso, estatura, salarios.

Existe otra clasificación de acuerdo al número de variables que se analizan conjuntamente. Cuandolas variables se presentan y analizan individualmente, se habla de variable univariante. Alternativa-mente, cuando se analizan simultáneamente dos, tres o más variables se habla de variable bivariante,trivariante o multivariante. Por ejemplo, de una encuesta se obtienen los datos sobre tipo de sangre,peso, ingreso y sexo de los estudiantes de un curso de Estadística; y se analiza cada una de estasvariables separadamente. En este caso se tienen cuatro variables univariantes.Por otro lado, si es de interés analizar conjuntamente las variables tipo de sangre y peso se está antela presencia de una variable bivariante. Pero, si se analizan simultáneamente las cuatro variables en-tonces se habla de una variable multivariante.

Page 26: Download estadistica

2 CONCEPTOS BÁSICOS 24

Sea, X : Tipo de sangre, Y : Peso, W : Ingreso, Z : Sexo.

Figura 5: Clasificación según el número de variables

2.4. Medición de variables y escalas de mediciónDatos Estadísticos: son los resultados del experimento o mediciones de las observaciones real-izadas, son el general, el producto de las observaciones efectuadas en los cuales se produce elfenómeno o característica que queremos estudiar.

Medición. Es la observación de un fenómeno o propiedad, y la asignación de un número ocategoría, como forma de representar ese fenómeno. Suele usarse el término observar comosinónimo de medir. Por ejemplo, pesar un objeto es observar una propiedad, su peso, y asig-narle un número, el número de kilogramos que pesa. Determinar el estado civil de una personatambién es efectuar una medición, que consiste en clasificar esa propiedad en una de variascategorías: soltera, casada, etc.

Dato o medida: es el valor (número) o atributo (categoría) que se asigna al medir un fenómenoo una característica. Un sinónimo de medida es observación.

Escala de Medida: una escala de medida es el conjunto de valores que puede tomar una deter-minada medida. Los tipos de escala se estudian a continuación.

2.5. Tipos de escalas de mediciónExisten distintas formas de medir las variables, distintos tipos de escalas de medición con uno omásde los siguientes atributos matemáticos: magnitud, un intervalo igual entre unidades adyacentes y uncero absoluto. No podemos decir que una sea mejor que otra, sino que cada una tiene sus propiedadesy responde mejor a un problema, y sobre todo que condiciona las técnicas que se pueden utilizar paraanalizarla. Podemos distinguir cuatro escalas o niveles de medición, en orden ascendente:

1. Escalas nominales: al utilizar una escala nominal, la característica o variable se divide en susdiversas categorías. Estas categorías comprenden las ”unidades” de la escala y los elementos se”miden” al determinar la categoría a la cual pertenecen. Así, la medición con una escala nominalequivale, en realidad, a clasificar los elementos y a darles el nombre (de ahí lo de escala nom-inal) de la categoría a la cual pertenecen. Las categorías deben ser mutuamente excluyentes y

Page 27: Download estadistica

2 CONCEPTOS BÁSICOS 25

colectivamente exhaustivas. Mutuamente excluyentes significa que un individuo, objeto o medi-ción pertenece únicamente a una categoría, y exhaustiva significa que ningún individuo, objetoo medición puede quedar sin categoría, por ejemplo: En un aula de clases vamos a clasificar laspersonas por lugar de nacimiento, una misma persona no puede haber nacido en dos lugares,pero tampoco se puede decir que no nació en ningún lado, por lo tanto, todos tenemos queestar en una sola categoría. A cada categoría se le puede asignar un número, por ejemplo, lavariable sexo puede tomar dos valores: mujer = 1, hombre = 2. Estos numeros son única-mente un identificador o código, pues no existe siquiera una relación de orden entre ellas. Noexiste relación de magnitud entre las categorías, representa el nivel mínimo de medición y seutiliza con frecuencia para variables cualitativas. Por ejemplo, marcas de zapatos, los días de lasemana, nacionalidad, preferencia política, creencia religiosa, etc. Las únicas operaciones quese pueden efectuar con medidas (datos) de variables nominales están basadas en la relación deequivalencia: frecuencias, modas, tablas de contingencia, etc.

2. Escalas ordinales: además de las propiedades de la escala nominal permite establecer un ordenentre los elementos medidos. La escala ordinal representa el siguiente nivel de medición, el cuales relativamente bajo de acuerdo con la propiedad de magnitud. Con esta escala, ordenamos loselementos medidos según si poseen más, menos o la misma cantidad de la variable medida.Así, una escala ordinal para medir el rendimiento de los alumnos A y B, permite determinarsi A > B, A = B, oA < B. Otro ejemplo de una escala ordinal es el orden de los primeroscinco participantes en un concurso de oratoria, de acuerdo con su facilidad de palabra. En esteejemplo, la diferencia de facilidad de palabra entre las personas de rango 1 y 2 podría sergrande y la que existe entre los individuos de rango 2 y 3 podría ser pequeña. Así, una escalaordinal no tiene la propiedad de intervalos iguales entre unidades adyacentes. Las operacionesque se pueden efectuar con medidas de una variable ordinal se basan en relaciones de orden: lamediana, el coeficiente de correlación de rangos, etc.

3. Escalas de intervalos: además de las propiedades de la escala ordinal, hace que tenga sentidocalcular diferencias entre mediciones, tiene magnitud, igual separación entre unidades adya-centes pero no cero absoluto. Por ejemplo, la escala de temperatura Celsius en la que el ceroes la temperatura a la cual se congela el agua, este es un cero arbitrario, ya que una lectura de20o Celsius no es el doble de caliente que 10o Celsius. Además de determinar si A > B, A =B, oA < B permite determinar si A−B > C −D, A−B = C −D, oA−B < C −D, porejemplo, la diferencia entre un C.I. de 120 a 125 es la misma que entre 112 y 117 (125-12005,117-112=5). Las medidas de este tipo de escala permiten utilizar casi todas las operacionesestadísticas para analizar los resultados: la media, la desviación estándar, el coeficiente de cor-relación, test paramétricos, etc.

4. Escalas de razón y proporción: posee magnitud, intervalos iguales entre unidades adyacentes ycero absoluto. Por ejemplo, la escala de temperatura Kelvin que posee un cero absoluto definidopor la ausencia completa de calor, es el punto menor en la escala, y por lo tanto permite pro-porciones, una lectura de 20o Kelvin es el doble de caliente que 10o Kelvin. Otro ejemplo, deescala de razón se tiene al querer medir la edad, el salario. Sobre medidas de este tipo de escalase pueden efectuar todas las operaciones matemáticas clásicas: suma, resta, multiplicación ydivisión, y las operaciones estadísticas: media, varianza, moda, coeficiente de correlación, etc.Otra manera de expresar esta escala es la siguiente. Supongamos que tenemos un grupo de estu-diantes que incluye 6 hombres y 14 mujeres: la proporción de hombres en el grupo es: 6

20= 0.30

Page 28: Download estadistica

2 CONCEPTOS BÁSICOS 26

la proporción de mujeres es: 1420

= 0.70. Es lo que posteriormente llamaremos frecuencia relati-va.Porcentaje. Es la proporción multiplicada por 100: porcentaje de hombres 30 %, de mujeres70 %.Cociente. El cociente o relación entre mujeres y hombres es 14

6= 2.33 a 1. Siempre va arriba

lo mas frecuente. Se usa en casos como "la posibilidad de contraer cáncer de pulmón es 7 vecesmayor (o 7 a 1) entre los fumadores".Tasa. Se usan en dos situaciones: cuando el denominador es muy bajo (por ejemplo la tasa demortalidad es de 10 en 100,000, si fuéramos a expresarnos en porcentaje sería de 0.0001 lo quees impráctico de trabajar) o en casos en que no es una frecuencia relativa (el numerador noforma parte del denominador, como por ejemplo la tasa de autos por habitante es de 0.7 autospor persona).Como vamos a ver más adelante el concepto de la frecuencia relativa nos lleva al concepto deprobabilidad.

5. Relaciones entre escalas: los cuatro tipos de escalas están ligados por una relación de jerarquía,desde la escala de razón, que posee mayores propiedades, hasta la nominal, la menos operativa.De las escalas de razón se puede pasar a las de intervalos, a las de orden y a las nominales. Así,por ejemplo, la edad se puede asociar a una variable de razón (edad, un número exacto), a unavariable de intervalos (la clase de edad), a una variable de orden (clases de edad representadospor un ordinal) y nominal (grupo de jóvenes y no jóvenes).

Una variable siempre puede bajar de escala pero no subir. Por ejemplo el peso de los niños al nacer sepuede categorizar en bajo peso, medio, y sobrepeso. Pero si nos dicen que un niño es de bajo peso, nosabemos cual fue exactamente ese peso. Una definición operacional proporciona un significado a unconcepto o variable que puede comunicarse a otros individuos. Es algo que tiene el mismo significadoayer, hoy y mañana para todos los individuos. En la tabla 1 se muestra un ejemplo.

Tabla 1: Diferentes formas de medir la presencia del hábito tabáquico.

Page 29: Download estadistica

3 FUENTES Y RECOLECCIÓN DE DATOS 27

3. Fuentes y recolección de datosLa base para el trabajo estadístico, es decir los datos, se pueden obtener de manera indirecta, por ejem-plo al utilizar la información de los censos nacionales o de algún tipo de organización o institución, ode manera directa, llenando fichas, cédulas de observación o aplicando cuestionarios. En aplicacionesreales, lo más común es que la parte inicial o básica de un estudio se apoye en datos generales que nose hayan obtenido de manera directa (por ejemplo, distribución general de la población por edades,niveles de escolaridad, distribución de actividades por entidad federativa) y que la parte medular y lasconclusiones descansen en datos obtenidos en forma directa, por ser específicos para el problema quese está analizando.En muchas ocasiones en la investigación científica es necesario recurrir a la obtención directa dedatos, ya sea al emplear fichas o cédulas de observación en las que se registran características deinterés, o bien al diseñar un cuestionario cuyas respuestas nos permitan conocer las características dequien responde, su opinión, las condiciones reales en las cuales se encuentra en relación con algúnaspecto específico, como podría ser trabajo, educación y capacitación, salud, relaciones interperson-ales, empleo del tiempo libre, etcétera.Cuando los datos se obtengan de manera directa, será necesario apoyarse en el muestreo, diseñar elinstrumento de recolección, coordinar la recopilación de datos y su procesamiento, para finalmentehacer en análisis de la información y efectuar el informe o informes finales en que se basará la tomade decisiones.

3.1. FuentesLas fuentes de recolección de datos de una investigación estadística son:

1. Fuentes Primarias: Es cuando la persona o institución ha recolectado los datos.

2. Fuentes Secundarias: Si la persona o institución que ha publicado los datos, no es la que ha efec-tuado la investigación. Se utilizan cuando la oficina que las publica tenga suficiente solvenciatécnica.

3. Fuentes Oficiales: Es cuando los datos son provistos por cualquier dependencia gubernamental.

4. Fuentes Privadas: Es cuando son provistos por agencias, personas, organizaciones, etc., no gu-bernamentales.

3.2. Técnicas e instrumentos de recolección de datosTécnica: Se entiende como técnica, el procedimiento o forma particular de obtener datos o informa-ción.La aplicación de una técnica conduce a la obtención de información, la cual debe ser resguardadamediante un instrumento de recolección de datos.Instrumento de recolección de datos: Es un dispositivo o formato (en papel o digital), que se utilizapara obtener, registrar o almacenar información. Son ejemplos de instrumentos

Un cuestionario en cuya estructura queda registradas las respuestas suministradas por el en-cuestado.(Formulario para rellenar)

Page 30: Download estadistica

3 FUENTES Y RECOLECCIÓN DE DATOS 28

Una libreta en la que el investigador anota lo observado.

Computadora portátil con sus respectivos medios de almacenaje

Dispositivos como cámara fotográfica, video- filmadora, grabador de audio, etc.

Figura 6: Diagrama de técnicas e instrumentos para la recolección de datos

Las tres técnicas para la investigación de campo son utilizadas frecuentemente.La Observación.Consiste en el uso sistemático de nuestros sentidos para captar la realidad que queremos estudiar.Es una técnica antigua, a través de sus sentidos, el hombre capta la realidad que lo rodea, que luegoorganiza intelectualmente. El uso de nuestros sentidos es una fuente inagotable de datos que, tantopara la actividad científica como para la vida práctica resulta de inestimable valor. Observación: Es elregistro visual de lo ocurre es una situacional real, clasificando los acontecimientos de acuerdo conalgún esquema pre estructurado y cónsono con el problema que se estudia.La observación es un proceso cotidiano para nosotros, es parte de nuestra experiencia de vida, peronuestras observaciones diarias al no estar orientadas a un propósito determinado carecen de controlesque nos alejen de los errores. Para realizar un proceso de observación con el propósito de recabardatos debemos seguir algunos principios básicos:

Debe tener un propósito específico.

Debe ser planeada cuidadosa y sistemáticamente.

Debe llevarse, por escrito o de forma audiovisual, un control cuidadoso de la misma.

Debe especificarse su duración y frecuencia.

Page 31: Download estadistica

3 FUENTES Y RECOLECCIÓN DE DATOS 29

Debe seguir los principios básicos de validez y confiabilidad.

La principal ventaja de esta técnica es que los hechos son percibidos directamente, sin ninguna clasede intermediación, colocándonos ante una situación tal como ésta se da naturalmente. De este modo,nunca obtendremos distorsiones de la realidad, las cuales solemos tener al emplear una entrevista,ya que en ellas los entrevistados colocan su toque personal al brindar la información. Otra ventaja esque la conducta se describe en el momento exacto en que está ocurriendo.Además, las observaciones se pueden realizar independientemente de que las personas estén dispues-tas a cooperar o no, a diferencia de otros métodos en los que sí necesitamos de la cooperación de laspersonas para obtener la información deseada.Su principal desventaja reside en que la presencia del observador puede generar una alteración omodificación en la conducta de los objetos observados, destruyendo la espontaneidad y por tantoalterando la confiabilidad de los datos.

La Entrevista.La entrevista es una técnica en la cual es investigador, de acuerdo a la información que necesitarecolectar elabora una serie de preguntas que más tarde realiza a la persona que se convertirá ensu fuente. Las entrevistas la mayoría de las veces se realizan en persona, es decir, visitando alentrevistado y registrando la información ofrecida, ya sea con un grabador o por escrito.Como técnica de recolección de datos la entrevista tiene muchas ventajas; es aplicable a toda persona,siendo muy útil con los analfabetos, los niños o con aquellos que tienen limitación física u orgánicaque les dificulte proporcionar una respuesta escrita. Se le puede explicar al entrevistado con quépropósito estamos recogiendo los datos y esta ayuda a que éste dirija mejor sus respuestas.A pesar de todas sus bondades la entrevista también posee algunas desventajas o limitaciones:Requiere una mayor inversión de tiempo para recoger la información, como las respuestas puedenser totalmente abiertas se puede dificultar el análisis de los datos y requiere de mucha astucia paraobtener los datos que se desean canalizando las respuestas del entrevistado aun cuando éste sedesoriente.

Por su importancia, en este material vamos a revisar la técnica de la encuesta.Encuesta: Se define como una técnica que pretende obtener información que suministra un grupo,muestra o población de sujetos acerca de si mismo, o en relación a un tema en particular. La encuestapuede ser oral o escrita.

Encuesta Oral: Se fundamenta en un interrogatorio cara a cara o vía telefónica en el cual elencuestador pregunta y el encuestado responde. Su duración es bastante corta por lo cual serealizan poca preguntas. Esta modalidad utiliza como instrumento la Guía de encuesta.

Encuesta escrita: Se realiza a través de un cuestionario autoadministrado, el cual como su nom-bre lo indica, siempre es respondido de forma escrita por el encuestado.

El Cuestionario.Se realiza de forma escrita mediante un instrumento o formato en papel, medios magnéticos oelectrónicos contentivo de una serie de preguntas. Se le denomina cuestionario auto administradoporque debe ser llenado por el encuestado sin intervención del encuestador. Como en el caso de laentrevista, hay preguntas pero todas están formuladas en un papel, ellas están destinadas a obtenerrepuestas sobre el problema en estudio y son dadas por consultado a través de un proceso de escritura,

Page 32: Download estadistica

3 FUENTES Y RECOLECCIÓN DE DATOS 30

sin embargo, el cuestionario puede ser llenado por el encuestado o con ayuda de un empadronador.El cuestionario puede aplicarse a grupos o individuos estando presente el responsable de recoger lainformación o no; puede enviarse por diversos medios a los seleccionados en la muestra. Tambiénpuede contratarse a una persona que cumpla que aplique el cuestionario, en estos casos se suelellamar cédula de entrevista. Un ejemplo de esta aplicación son los empadronadores de los censos depoblación, recordemos que ellos traen el cuestionario con sus preguntas y sus respuestas, la funciónque cumplen es leer cada pregunta y marcar la respuesta dada por el encuestado.Las ventajas de esta administración es que no quedarán preguntas en blanco y también que puede seraplicada a analfabetos, niños o personas con alguna discapacidad.Cuando la aplicación cuestionario queda en manos de los encuestados se pueden presentar problemasrelacionados con la cantidad y calidad de datos que pretende obtener para el estudio. Estos problemasque a su vez se convierten en desventaja son: que el cuestionario no fuese devuelto; que losconsultados evadan la respuesta a alguna pregunta o no darle la importancia necesaria a las respuestasproporcionadas. Debido a esa posible pérdida de información se recomienda cuando se use estátécnica se escoja una muestra más grande de sujetos de estudio.

Tipos de cuestionarios:Preguntas Cerradas: Son aquellas que establecen previamente las opciones de respuesta. Ejemplo:¿Posee usted un televisor? Si NoPreguntas Abiertas o de desarrollo: Son las que no ofrecen opciones de respuesta, sino que se da lalibertad de responder al encuestado, quien construye su respuesta de manera independiente. ¿Queactividades deportivas realiza durante el ultimo mes?Preguntas Mixtas: Es aquel cuestionario que combina preguntas abierta y cerradas.

Recomendaciones para la elaboración del cuestionario:

1. Las preguntas del cuestionario no se inventan a capricho, es decir estas deben tener una corre-spondencia con los objetivos específicos de la investigación.

2. Ordena las preguntas de lo general a lo particular.

3. Evitar preguntas que abusen de la memoria del encuestado

4. Obviar preguntas sobre temas o conocimientos especializados.

5. No incluir preguntas que induzcan a la respuesta (preguntas guías).

6. Omitir preguntas que originen múltiples interpretaciones.

7. Separar las preguntas de ”doble cañón”, es decir, aquellas que se interroga sobre dos puntos enuna misma pregunta.

8. Incluir preguntas que permitan verificar respuesta anteriores o preguntas de control.

9. Emplear frases de enlace cuando sea necesario.

10. Utilizar escalas de rangos para preguntas sobre tópicos muy personales, tales como, la edad yel salario

Page 33: Download estadistica

4 PLANEACIÓN Y DISEÑO DE UNA ENCUESTA POR MUESTREO 31

11. Una vez construido el cuestionario se recomienda aplicar una prueba piloto o sondeo preliminara un pequeño grupo que no forme parte de la muestra, pero que sea equivalente en cuanto a sucaracterística. Esto con la finalidad de establecer la validez, corregir cualquier falla y elaboraruna versión definitiva del instrumento.

4. Planeación y diseño de una encuesta por muestreo

4.1. GeneralidadesPuede resumirse un proceso de generación de estadística básica de encuestas por muestreo, en sietegrandes fases, cuyas actividades se interrelacionan bajo distintos esquemas de orden y secuencia. Lasdenominaciones convencionales de esas fases son:

Figura 7: Proceso estándar para la generación de estadísticas en Encuestas por Muestreo

Los operativos para la captación implican dos grandes grupos de actividades: las relacionadas con eldiseño de estrategias y las correspondientes a su ejecución; de ahí que en el marco del proceso están-dar de generación de estadísticas básicas, cubran dos de las siete fases del proceso de generación, lade ”Diseño de la captación y el procesamiento” y la de ”Captación”.En la medida que la ejecución de un operativo involucra movilización de recursos, su relación con lafase de planeación es fundamental, en virtud de que debe ajustarse a determinadas restricciones enmateria de disponibilidad sobre esos recursos, a la vez que la precisión sobre las características deloperativo es necesaria para una detallada programación y presupuestación del proyecto.En este sentido, ya que los recursos son limitados, se parte de una estimación global de los costos delproyecto, con base en experiencias previas sobre otros similares, lo cual sirve de referencia para eval-uar la factibilidad y conveniencia de generar la información requerida bajo determinada estrategia. Deresultar factible y conveniente la propuesta, se hace necesaria la cuantificación de todos los requerim-ientos y su calendarización conforme al programa detallado de actividades, y con ello establecer un

Page 34: Download estadistica

5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 32

presupuesto preciso y la programación de su ejercicio, así como las previsiones necesarias en materiade administración de los recursos. La fase de captación implica en la práctica gran interacción con lasfases previas y las subsiguientes.

4.2. Conceptos básicosLas actividades sobre la captación se planean en la fase de ”Diseño de la captación y el procesamien-to”, en la cual se establece una ”Serie de actividades para determinar, desarrollar y probar las es-trategias, procedimientos, esquemas técnicos y sistemas informáticos para las actividades tanto de lacaptación de datos como de su procesamiento”.Las estrategias para los operativos de captación de datos cubren tres aspectos principales: la operativa,la integración de los recursos humanos, y la comunicación y concertación.La estrategia operativa consiste en un Conjunto integrado y ordenado de procedimientos para deter-minar la estructura operativa y plantilla de personal, el programa general de actividades y para lacobertura de las áreas seleccionadas y la organización administrativa del proyecto para gestionar laestimación y adquisición de los requerimientos, flujo de materiales, elaboración de presupuesto y loscontroles para su eficiente aplicación.La estrategia para la integración de los recursos humanos, considera el Conjunto de procedimientospara disponer del personal capaz de desempeñar las funciones de los distintos cargos operativos y ennúmero suficiente que permita cubrir todas las áreas geográficas que se contemplan en el proyecto,así como proporcionarles los conocimientos necesarios para cumplir con sus responsabilidades.Por último, la estrategia para la comunicación y concertación es el conjunto integral y ordenado deprocedimientos para difundir el proyecto y la concertación de apoyos para el mismo, con lo cual secontribuye al logro de los objetivos y metas del proyecto estadístico en cuestión.En la fase de ”Captación”, se llevan a la práctica las estrategias diseñadas en la anterior, y consisteen la ”Serie de actividades para obtener los datos de cada elemento de la población de estudio o unamuestra de ella, siguiendo las estrategias determinadas en programas y procedimientos de trabajo”.La fase culmina con la concentración ordenada de los formatos de control y reportes de trabajo, asícomo la documentación donde se registran los datos a nivel individual, y el envío de éstos últimosal área de captura. Según las características del proyecto, principalmente en cuanto a cobertura ge-ográfica, especificidad de los datos, y complejidad de captación, esta etapa puede requerir operativosespeciales, campañas de difusión, concertaciones y diversos apoyos institucionales.

5. Organización y presentación de los datosUna vez que se han recolectado los datos necesarios, es importante organizarlos o agruparlos dealguna manera para poder ”manejarlos” más fácilmente. Sin la ayuda de la estadística, los datosrecolectados para una investigación podrían resultar algo así como una masa caótica de números. Lapresentación de estos datos en tablas o gráficos permite apreciarlos con mayor claridad, permitiendoexplorar la información antes de analizarla. Mientras que las tablas aportan una descripción másdetallada de los datos, los gráficos permiten observar los patrones generales. Veremos, entonces, cómoorganizar los datos en tablas y, posteriormente, cómo presentarlos en gráficos.

Page 35: Download estadistica

5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 33

5.1. Presentación de datos en tablasPara organizar los datos y presentarlos en forma de tabla lo primero que tenemos que hacer es agrupara los individuos o unidades del estudio (personas, viviendas, enfermedades, etc.) según alguna de suscaracterísticas. La forma de agrupación dependerá de la escala que hayamos utilizado para medir lavariable.Si la escala que utilizamos es nominal u ordinal deberemos agrupar los datos de acuerdo a las difer-entes categorías de la variable.Si la escala que utilizamos es numérica discreta, deberemos observar el rango de valores diferentesque adoptó esa variable. Si este rango es pequeño, entonces los datos se agruparán de acuerdo a cadauno de los valores de la variable. Pero si dicho rango de valores es muy amplio, entonces, deberánconstruirse intervalos.Si la escala que utilizamos para medir la variable es numérica continua, siempre deben formarse in-tervalos o clases.Una vez lograda la agrupación de los datos en diferentes categorías o intervalos, determinar la frecuen-cia de observaciones en cada categoría o intervalo de la variable y construir la Tabla de Distribuciónde Frecuencias, en el primero de los casos, y la Tabla de Frecuencias con Intervalos de Clases, en elsegundo de los casos.Las tablas para facilitar su lectura e interpretación deben contener las siguientes partes:

Título. Este describe la información más importante del problema como es: la variable, la mues-tra o población, a quién corresponde la muestra.

Encabezado. Este describe el tipo de información que se describe en cada columna.

Cuerpo. El cuerpo agrupa el contenido de la información.

Final. En el final se registran los totales.

Fuente. En esta parte se debe especificar: cómo, quién, en dónde y cuándo se tomaron los datos.

5.2. Distribuciones de frecuenciaSupongamos que tenemos recogidos un conjunto de N datos de una variable X . La tabla que recogede un modo sistemático estos datos se denomina distribución de frecuencias. Una distrubución defrecuencias puede ser de dos tipos: simple o agrupada. La siguiente tabla recoge las principales car-acterísticas de una distribución de frecuencia simple o no agrupada.La primera columna representa los distintos valores de esos datos y la segunda la frecuencia simple,es decir, el número de veces que se ha observado el correspondiente valor. La tercera columnarecoge la frecuencia acumulada, es decir, el número de veces que se han observado valores menoreso iguales que el correspondiente a dicha fila. Las frecuencias relativas se obtienen a partir de lasfrecuencias absolutas, dividiendo por el tamño de la muestra.

Cuando en la muestra hay muchos valores diferentes y mucha variabilidad se recomienda, aún a costade perder información, agrupar los datos en clases, en lo que se denomina distribución de frecuenciasagrupadas en intervalos. La siguiente tabla recoge las principales características de una distribuciónde frecuencia agrupada.

Page 36: Download estadistica

5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 34

Datos Frecuencias Frecuencias F. absolutasabsolutas relativas acumuladas

x1 n1 f1 = n1/N N1 = n1

x2 n2 f2 = n2/N N2 = n1 + n2

......

......

xk nk fk = nk/N Nk = n1 + n2 + . . .+ nk

Totalesk∑i=1

ni = N

k∑i=1

fi = 1

Tabla 2: Distribución de frecuencias simple

Intervalos Marcas Frecuencias Frecuencias F. Absolutas Amplitudes Densidadesde clase absolutas relativas acumuladas (longitudes)

Ii xi ni fi = ni/N Ni =i∑

j=1

nj ci = Li − Li−1 di = nici

[L0, L1] x1 n1 f1 N1 c1 d1

[L1, L2] x2 n2 f2 N2 c2 d2

......

......

......

...[Lk−1, Lk] xk nk fk Nk ck dk

Totalesk∑i=1

ni = Nk∑i=1

fi = 1

Tabla 3: Distribución de frecuencia agrupada

A cada uno de los intervalos se les denomina clase; a los extremos, extremos de la clase, y al puntomedio de cada clase se le llama marca de la clase. Para efectos de cálculo se elige a la marca declase como representante del intervalo. El número de clases en que se dividen los datos no debeser excesivo, puesto que pueden aparecer irregularidades accidentales si hay pocas observaciones enalgunas clases. Por el contrario, si se eligen un número reducido, se producirá una pérdida importantede información. A modo orientativo, el número de clases se puede obtener mediante la siguientefórmula empírica, llamada fórmula empírica de Sturges:

k = número de clases =

[3

2+log(N)

log(2)

](1)

donde los corchetes en la ecuación anterior significa que se toma la parte entera de la expresión.

5.3. Presentación de datos en gráficos.En ocasiones, preferirá representar gráficamente sus datos, con el objeto de obtener una rápida impre-sión visual del conjunto. Para ello podrá utilizar diferentes tipos de gráficos, pero lo que nunca debeolvidar son las siguientes aspectos:

Page 37: Download estadistica

5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 35

El gráfico debe ser sencillo y explicarse por sí mismo.

No intente graficar "todos"los datos que tiene en un solo gráfico; por el contrario, es preferibleque no contenga demasiada información y su lectura sea fácil.

Utilice un diseño atractivo, pero sin deformar los hechos que está describiendo.

Seleccione el gráfico más apropiado de acuerdo al tipo de variable y la escala de mediciónutilizada para medirla.

Los gráficos son importantes porque permiten:

Organizar los datos

Observar patrones

Observar agrupamientos

Observar relaciones

Comparar distribuciones

Visualizar rápidamentela distribuciónde los datos

Visualizar, obtenery comparar medidas estadísticas

El tipo de gráfico está condicionado por el tipo de escala utilizada para medir la variable que deseagraficar.

5.4. Representación gráficaEl objetivo esencial de las reprensentaciones gráficas de las distribuciones de frecuencias es obteneruna idea general sobre sus propiedades en un simple vistazo, así por ejemplo, observando unhistograma de frecuencias podemos ver si la variable se aproxima a una distribución normal, osi es simétrica, así como otras propiedades que posteriormente pueden ser analizadas utilizandoherramientas estadística avanzadas.A la hora de representar distribuciones de frecuencias será necesario tener presente en primerlugar si la variable es cualitativa o cuantitativa. En segundo lugar, y ya dentro de las variablescuantitativas, habrá que tener presente si la variable es agrupada o no agrupada. Teniendo en cuentaestas características de la variable cuya distribución de frecuencias se presenta se pueden clasificarlos gráficos como sigue:

Variables

Cuantitativas

Datos agrupados

Histograma de frecuenciasPolígono de frecuenciasPoligono de frecuencias acumuladas

Datos sin agrupar

Diagrama de barrasDiagrama escalonadoPolígono de frecuenciasPolígono de frecuencia acumuladas

Cualitativaso Categóricas

Diagramas de sectoresDiagramas de rectángulosPictogramas

Page 38: Download estadistica

5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 36

5.5. Representaciones para variables cualitativas o CategóricasDespués de que han sido reunidos los datos, se consolidan y resumen para mostrar la siguiente infor-mación:

¿Qué valores de la variable han sido medidos?

¿Con qué frecuencia ha ocurrido cada valor?

Para este propósito, se construyen las tablas estadísticas para mostrar los datos en forma gráfica comouna distribución de datos. El tipo de gráfico que elija depende del tipo de variable que ha medido.Cuando la variable de interés es cualitativa, la tabla estadística es una lista de las categorías consid-eradas junto a una medida de la frecuencia con que ocurrió cada valor. Puede medir la frecuencia detres maneras distintas:

La frecuencia absoluta o el número de mediciones en cada categoría,

La frecuencia relativa o proporción de mediciones en cada categoría,

El porcentaje de mediciones en cada categoría

Por ejemplo, si N es el número total de mediciones, encontrará la frecuencia relativa (denotada porf ) y el porcentaje (denotado por p), mediante las siguientes relaciones:

f =F

N, p = f ∗ 100

donde F es la frecuencia absoluta de la categoría.

Page 39: Download estadistica

5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 37

Las categorías para una variable cualitativa se deben elegir de modo que

una medición pertenecerá a una y solo una categoría,

cada medición tiene una categoría a la cual se asigna

Una vez que las mediciones han sido clasificadas y resumidas en una tabla estadística puede usar unagráfica de sectores (de pastel) o una gráfica de barras para mostrar las distribución de los datos.

Definición 5.1. Diagramas de Barras

Los diagramas de barras o rectángulos se construyen asignando a cada modalidad de la variablecualitativa un rectángulo con altura igual (o proporcional) a su frecuencia absoluta ni y con baseconstante.

Ejemplo 5.1. En la siguiente figura se muestra el gráfico de barras para la pregunta de la encuestanacional ¿Local de uso público de internet más cercano?, las categorías son: A pie, Carreta, Mi-crobús, Bus, Pick-up o Camión, Bicicleta, Auto particular, Caballo, Otros, No sabe-no utiliza, No sedesplaza

Figura 8: Gráfico de barras

De la Figura 8 se desprende que la gente que tiene acceso a internet se traslada a pie, sin embargo,una gran mayoría no sabe o no utiliza Internet.

Definición 5.2. Diagramas Circulares

También llamados Gráficos de pastel, constituyen el tipo de gráfico más utilizado para represen-tar distribuciones de frecuencias de variables cualitativas. La variable se representa en un círculocuyas proporciones (sectores circulares) tienen un área proporcional a las frecuencias absolutas de

Page 40: Download estadistica

5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 38

las modalidades de la variable. Para realizar el gráfico basta con asignar a cada modalidad de la vari-able un sector circular cuyo ángulo central sea proporcional a la frecuencia absoluta de la modalidad.Matemáticamente, el ángulo central αi de la modalidad i−ésima cuya frecuencia absoluta es ni seexpresa como sigue:

αi =360

Nni = 360

niN

= 360fi

Ejemplo 5.2. En la Figura 9 se presenta el gráfico de pastel para la pregunta de la encuenta nacional¿A que jornada (escolar o universitaria) asiste predominantemente?. (Aquí se toma el total sobretodas las personas que antes habían contestado positivamente a la pregunta ¿Estudia actualmente?,que son 20,915)

Figura 9: Gráfico de pastel

Ejercicio 1. Interprete los gráficos de las Figuras 8 y 9, y diga cual le resulta más simple de entender.

Otra forma habitual de construir gráficos de sectores consiste en asignar al sector circular relativo ala modalidad i−ésima un porcentaje igual al tanto por ciento que representa su frecuencia absolutani sobre la frecuencia total N =

∑ni. Matemáticamente, la expresión del porcentaje pi relativo a la

modalidad i−ésima se expresa como sigue:

pi = 100niN

= 100fi

Page 41: Download estadistica

5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 39

Definición 5.3. Pictogramas

Es un gráfico con dibujos alusivos al carácter que se está estudiando y cuyo tamaño es proporcional ala frecuencia que representan, dicha frecuencia se suele indicar.

Su formato es libre,

Emplean una secuencia de símbolos para representar frecuencias,

Se emplean para el tratamiento de datos tanto cualitativos como cuantitativos.

Ejemplo 5.3. La Figura 10, representa el número de árboles plantados cada mes durante un año.

Figura 10: Pictograma

Ejercicio 2. En base al gráfico de la Figura 10, explique: ¿en qué mes se plantaron menos árboles?,¿y en cuál se hicieron más plantaciones?

Definición 5.4. Cartogramas:

Los cartogramas son gráficos realizados sobre mapas, en los que aparecen indicados sobre las distin-tas zonas cantidades o colores de acuerdo con el carácter que representan.

Ejemplo 5.4. La Figura 11, muestra el cartograma que describe la urbanización en el mundo aten-diendo a la industrialización:

Ejercicio 3. Mencione tomando como referencia el gráfico de la figura 11 las zonas de cada conti-nente que estén menos urbanizadas.

5.6. Representaciones para variables cuantitativas sin agrupamientoLas variables cuantitativas miden una cantidad en cada unidad experimental. Si la variable toma sóloun número finito o contable de valores, es una variable discreta. Una variable con un númro infinitode valores que corresponden a puntos en un intervalo lineal se llama continua.Algunas veces la información que se reune para una variable cuantitativa es medida en segmentosdistintos de la población, o para diferentes categorías de clasificación. Por ejemplo se podría medirel ingreso promedio para personas de distintos grupos de edad, generos diferentes o que viven en

Page 42: Download estadistica

5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 40

Figura 11: Cartograma

distintas zonas geográficas del país. En estos casos se pueden usar gráficas de sectores o de barraspara describir los datos, con la cantidad medida en cada categoría y no la frecuencia de ocurrencia encada cateoría. La gráfica de sectores muestra como se distribuye la cantidad total entre las categoríasy la gráfica de barras usa la altura de la barra para mostrar la cantidad en una categoría particular.

Definición 5.5. Diagramas de barras

Para variables cuantitativas sin agrupar se construyen situando sobre el eje de las abscisas los valoresde la variable y sobre el eje de ordenaddas los valores de sus frecuencias absolutas.

Ejemplo 5.5. En el siguiente gráfico se muestran las notas en el examen parcial 1 del curso deposgrado en cierta sede, las categorías son: mal, para los que tengan menos de 5; bueno, para losque tengan más de 5 y menos o igual que 7.5; muy bueno para los que tengan mas de 7.5 y menos oigual que 8.5; excelente para el resto.

Figura 12: Gráfico de barras para las notas

Page 43: Download estadistica

5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 41

Recordar que esto se puede hacer también tomando porcentajes, en la siguiente figura se representaesta opción:

Figura 13: Gráfico tomando porcentajes

Ejercicio 4. En base a los gráficos de las Figuras 12 y 13, explique el rendimiento de los docentes enel examen parcial. ¿Cuál le resulta mejor?

Definición 5.6. Polígono de frecuencias

Paraconstruir el polígono de frecuencias se unen los puntos (xi, ni), también pueden unirse los puntos(xi, fi). Finalmente para construir el polígono de frecuencias acumuladas se unen los puntos (xi, Ni).Tmbién pueden unirse los puntos (xi, Fi).

Ejemplo 5.6. Se presenta el polígono de frecuencias para el ejemplo de las notas del curso de pos-grado anterior

Figura 14: Polígono de frecuencias

Ejercicio 5. Explique el gráfico de la Figura 14, ¿su explicación coincíde con la que dio anterior-mente?

Page 44: Download estadistica

5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 42

5.7. Representaciones para variables cuantitativas agrupadasLos análisis anteriores parten de la idea que la cantidad de datos con que se está trabajando es poca,sin embargo, cuando se hacen encuestas nacionales (como por ejemplo, consumo de canasta básicapor hogar) se obtienen grandes cantidades de datos y los anteriores gráficos no son viables.En lo que sigue se estudiaran las representaciones más importantes y conocidas para variables cuan-titativas que tienen una gran cantidad de datos y cuyos valores se repiten muchas veces.

Definición 5.7. Histogramas de frecuencias

Los histogramas de frecuencias para variables cuantitativas agrupadas en intervalos se construyenlevantando sobre cada intervalo un rectángulo de área proporcional a la frecuencia absoluta cor-respondiente a dicho intervalo. Hay que tener muy presente que si los intervalos son de amplitudconstante, las alturas de los rectángulos seran iguales a las frecuencias absolutas respéctivas(en este caso las áreas dependen solo de las alturas porque las bases de los rectángulos soniguales). Si las amplitudes de los intervalos son desiguales, las alturas de los rectángulos (densi-dades de frecuencias) deben calcularse dividiendo la frecuencia absoluta por la amplitud del intervalo.

Si llamamos di a la altura del intervalo i−ésimo, ci a su longitud (amplitud) y ni a sus frecuenciasabsolutas, la densidad de frecuencia di vendrá dada por

di =nici

Como norma, el número de clases o intervalos en que se agrupa la variable debe variar de 5 a 12,cuantos más datos disponibles haya, más clases son necesarias. Las clases o intervalos deben serelegidas de modo que cada observación en uno y solo un intervalo.La Tabla 2 resume los valores necesarios para construir el histograma de frecuencias, que como ya sesabe, consta de rectángulos cuyas bases sobre el eje de abscisas son los intervalos Ii y cuyas alturasson las densidades de frecuencias di.

Ejemplo 5.7. La Figura 15 muestra el histograma para la variable “gasto de dólares en leña” de loshogares en el país.

Page 45: Download estadistica

5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 43

Figura 15: Gasto en leña

Ejemplo 5.8. La Figura 16 muestra el histograma para la variable “cantidad de ayuda en remesas”en los hogares nacionales, la división de los intervalos se hizo así: intervalo 1, de cero a 100; inter-valo 2, de 100 a 200; intervalo 3, de 200 a 500; itervalo 4, de 500 a 1000; y el intervalo 5, mayor que1000. (todo en dólares).

Page 46: Download estadistica

5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 44

Figura 16: Ayuda en remesas

En ocasiones suele sustituirse el histograma por el polígono de frecuencias simple, gráfico que seforma al unir los puntos medios de cada intervalos xi (marcas de clase) a una altura proporcionala la frecuencia (para intervalos iguales). La unión de estos puntos (xi, ni) o (xi, di) forman unalínea quebrada rectilínea que al prolongarla por los extremos corta al eje X (esta prolongación suelehacerse hasta los puntos medios de la categoría inferior y superior inmediatos que corresponden a laclase de frecuencia cero). De esta forma, el área que queda por debajo del polígono de frecuenciases igual al área contenida dentro del correspondiente histograma. Este gráfico permite comparar lasdistribuciones de varios grupos observando las áreas donde coincíden o se separan.

Otro instrumento gráfico esencial para representar una distribución de frecuencias es el polígono defrecuencias acumuladas, que se utiliza cuando se trabaja con frecuencias absolutas o relativas acumu-ladas y que se construye levantando en el extremo superior de cada intervalo de clase una ordenadaigual a la frecuencia acumulada correspondiente y uniendo a continuación dichas ordenadas. Los pun-tos que se unen serán (Li+1, Ni). La primera ordenada se une al extremo inferior del primer intervaloprolongándose el polígono desde este punto hasta la izquierda sobre el eje X , y prolongándose tam-bién el polígono a partir de la ordenada del extremo superior del último entervalo con una paralelaal eje de abscisas. De esta forma, la ordenada correspondiente a cada valor de la variable X mide elnúmero de observaciones para las cuales la variable toma valores menores o iguales que la abscisa(este concepto aproxima la idea de función de distribución de la variable x).

Page 47: Download estadistica

5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 45

Figura 17: Poligono de frecuencias acumuladas

Ejercicio 6. Interprete el gráfico de la Figura 17

Definición 5.8. Serie Temporal

Hasta ahora todas las variables que se han estudiado tenían en común que, por lo general, nunca hanestado fechadas, es decir no estaban vinculadas al tiempo en forma alguna y menos explícitamente.Se trataba de datos de corte transversal o atemporales. Sin embargo es muy frecuente, especialmenteen el ámbito económico y en las ciencias sociales, que las observaciones de los caracteres de unapoblación se realicen ligadas al tiempo o fechadas en instantes determinados del tiempo. Así, porejemplo, uno de los caracteres de una empresa, susceptible de ser observado puede ser su volumende ventas y podemos estar interesados en estudiar el comportamiento y evolución temporal de esacaracterística de la empresa. En este caso esa observación se realizará de forma repetida durante unaserie de momentos del tiempo. Esa observación repetida en el tiempo da lugar a una serie temporal.En este sentido diremos que una serie temporal, cronológica, histórica o de tiempo es una sucesión deobservaciones cuantitativas de un fenómeno ordenadas en el tiempo.

Ejemplo 5.9. En la Figura 18 se presenta el gráfico para la serie temporal que se obtiene al observarel flujo de remesas mensuales en El Salvador desde enero de 1991 hasta junio de 2011

Page 48: Download estadistica

5 ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 46

Figura 18: Serie temporal para el flujo de remesas

El análisis de series temporales, desde el punto de vista de su comportamiento, tanto pasado comofuturo, requiere el uso de nuevas técnicas, pues las presentadas hasta el momento, aunque le sonaplicables, no cubren las necesidades que surgen en el tratamiento de este tipo de datos. Desde elmomento que los valores de una serie temporal van ligados a instantes del tiempo, entonces, podemosdecir que el análisis de una serie implica el manejo conjunto de dos variables, siendo una de ellasnuestra serie temporal y la otra los intervalos o instantes del tiempo sobre los cuales se han realiza-do las observaciones. Hay que señalar que esa observación sincronizada de la variable en el tiempoimplica que los valores de la misma han de estar perfectamente ordenados, de igual modo que losintervalos del tiempo lo están. Sin embargo, las técnicas para abordar el análisis de las series tempo-rales está por encima de los objetivos de este curso, ya que son necesarias herramientas avanzadas deestadísticas y probabilidad.

Page 49: Download estadistica

6 RESUMEN DE DATOS 47

6. Resumen de datosAnteriormente hemos visto cómo como se pueden resumir los datos obtenidos del estudio de unamuestra o población en una tabla o un gráfico. No obstante, tras la elaboración de tabla y su repre-sentación gráfica, en la mayoría de las ocasiones resulta más eficaz condensar dicha información enalgunos números que la expresen de forma clara y concisa.Los fenómenos no suelen ser constantes, por lo que será necesario que junto a una medida que in-dique el valor alrededor del cual se agrupan los datos, se asocie una medida que haga referencia a lavariabilidad que refleje dicha fluctación.Por tanto el siguiente paso y objeto de este capítulo consistirá en definir algunos tipos de medidas quesinteticen aún más.Es decir, dado un grupo de datos organizados en una distribución de frecuencias o bien una serie deobsevaciones sin ordenar, pretendemos describirlos mediante dos o tres cantidades sintéticas.En ese sentido pueden examinarse varias característica, siendo las más comunes: la tendencia centralde los datos, disperción o variación con respecto a este centro, los datos que ocupan ciertas posiciones,la simetría de los datos, la forma en la que los datos se agrupan.A lo largo de este capítulo, y siguiendo este orden, iremos estudiando los estadísticos que nos vana orientar sobre cada uno de los niveles de información: valores alrededor de los que se agrupan losdatos, la mayor o menor fluctuación alrededor de esos valores, nos interesaremos en ciertos valoresque marcan posiciones características de una distribución de frecuencias.

Figura 19: Medidas representativas de un conjunto de datos estadísticos

6.1. Medidas de Centralización.6.1.1. Moda , Mo .

Definición 6.1. La Moda es una medida de tendencia central que indica cuál es la puntuación, cate-gorías o modalidad que más se repite en el conjunto de datos. Otra forma de entenderla es decir quela Moda es cualquier máximo relativo de la distribución de frecuencias, es decir cualquier valor dela variable que posea una frecuancia mayor que su anterior y su posterior.

Propiedades de la moda

Puede calcularse para cualquier conjunto de datos medidos en cualquier escala.

La moda es inestable ya que puede variar mucho de una muestra a otra de una muestra extraidasde una misma población.

Page 50: Download estadistica

6 RESUMEN DE DATOS 48

Podemos encontrarnos con que no existe una única moda, a lo que llamaremos distribucionesbimodales o multimodales.

Si nos encontramos con que todas las puntuaciones de una distribución tienen la misma fre-cuencia consideraríamos que no existe moda.

Para datos agrupados por intervalos, el valor de la moda dependerá de la amplitud de los inter-valos, el número de ellos y los límites fijados.

En caso de que dos valores alcazaran la misma frecuencia máxima y estos son adyacentes, lamoda sería el promedio de ambos valores.

Cálculo de la ModaDatos no agrupados.En primer lugar se construye la distribución de frecuencias. La moda sería aquel valor con frecuenciamáxima. Si la frecuencia máxima se repite en dos o más valores tendremos varias modas, y el grupose denominaria bimodal o multimodal según el caso. En el caso de que valores adyacentes alcanzaranla misma frecuencia máxima, la moda será el promedio de ambos valores.Datos agupados.

Mo = Li−1 + (Li − Li−1)ni − ni−1

(ni − ni−1) + (ni − ni+1)(2)

En donde: Li−1: límite inferior de la clase modal, Li: límite superior de la clase modal, ni: frecuenciade la clase modal, ni−1: frecuencia de la clase premodal, ni+1: frecuencia de la clase postmodal, Clasemodal es aquella con mayor frecuencia.

6.1.2. Mediana , Md .

Definición 6.2. La mediana es una medida de tendencia central, que divide en dos partes igules aun conjunto de datos previamente ordenados. Es la puntuación del dato que deja por encima y pordebajo de sí el 50 % de los casos.

Cálculo de la MedianaDatos no agrupados.Inicialmente se ordenan los datos, si el número de datos es impar, la mediana será el valor que quedajusto al centro, en el caso de ser par tomamos el promedio de los dos datos centrales en este caso Md

no corresponde a ningún valor en el conjunto de datos.

Page 51: Download estadistica

6 RESUMEN DE DATOS 49

Datos agrupados.Sea ]Li−1, Li] la clase donde sea encontrado que por debajo de Li está al menos la mitad de las obser-vaciones, razonemos la deducción del valor deMd a partir de la gráfica de las frecuencias acumuladas,en donde Ni =

∑ik=1 ni, como se puede ver en la gráfica siguiente:

Figura 20: La mediana es el punto de corte de la ojiva creciente con la decreciente

En la figura 20 tenemos que los triángulos M ACC1 y M ABB1 son semejantes, de donde tenemosque: CC1

AC= BB1

AB, es decir:

niLi − Li−1

=N2−Ni−1

Md − Li−1

despejando Md obtenemos:

Md = Li−1 +N2−Ni−1

ni(Li − Li−1) (3)

Propiedades de Md .Destacamos las siguientes propiedades:

Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas,ya que no depende de los valores que toma la variable, sino del orden de las mismas. Por elloes adecuado su uso en distribuciones que presentan asimétrias.

Es de cálculo rápido y de interpretación sencilla.

La mediana de una variable discreta es casi siempre un valor de la variable que estudiamos.

Para datos agrupados por intervalos, el valor de la mediana dependerá de la amplitud de losintervalos, el número de estos y los límites fijados.

Page 52: Download estadistica

6 RESUMEN DE DATOS 50

6.1.3. Media , X .

Definición 6.3. La media es una medida de tendencia central que se obtiene por la suma de todas laspuntuaciones de un grupo de datos dividida por el número total de datos.

Cálculo de la MediaDatos no agrupados.Si los datos no estan ordenados en una tabla, tenemos que la media es:

X =

∑Ni=1 xiN

(4)

donde N es el total de datos.Datos agrupados.Si los datos estan organizados en tabla, tenemos que la media es:

X =

∑ki=1 xiniN

(5)

donde: ni es la frecuencia de dato xi y N =∑k

i=1 ni. Si los datos estan agrupados en clases defrecuencia, tenemos que la expresión anterior cambiamos xi por ci que es el punto medio de la claseo intervalo y tenemos k intervalos.Propiedades de la media

Es muy sensible a los valores extremos de la variable: ya que todas las observaciones inter-vienen en el cálculo de la media, la aparición de una observación extrema, hará que la mediase desplace en esa dirección. En consecuencia,no es recomendable usar la media como medidacentral en las distribuciones muy asimétricas; si consideramos una variable discreta, por ejem-plo, el número de hijos en las familias de cierto país el valor de la media puede no perteneceral conjunto de valores de la variable.

Sólo puede calcularse para variables cuantitativas.

La suma de las desviaciones de todas las puntuaciones respecto a la media es 0, es decir∑Ni=1(xi − x) = 0∑Ni=1(xi − x)2 ≥ 0

La suma de las desviaciones al cuadrado respecto a la media es menor que respecto a otro valorcualquiera. es decir,

N∑i=1

(xi − x)2 ≤N∑i=1

(xi − c)2

Si definimos yi = xi + k entonces y = x+ k, para k ∈ <.

Si definimos yi = kxi entonces y = kx, para k ∈ < .

Cuando calculamos la media para datos agrupados en intervalos el valor resultante depende delos intervalos elegidos, de su amplitud, el número de intervalos y de los límites fijados en estos.

Page 53: Download estadistica

6 RESUMEN DE DATOS 51

La media puede calcularse cuando las variables se han medido en una escala de intervalo orazón.

Si yi =∑k

r=1 aixri , para i = 1 a i = n entonces y =∑k

r=1 aixri .

Si un grupo esta particionado en r partes y cada parte tiene ni datos con una media cada partei-ésima de xi, entonces la media del grupo es:

x =

∑ri=1 nixi∑ri=1 ni

En el caso de distribuciones unimodales, la mediana está con frecuencia comprendida entre la mediay la moda incluso más cerca de la media. En distribuciones que presentan cierta inclinación, es másaconsejable el uso de la mediana. Sin embargo en estudios relacionados con propósitos estadísticos yde inferencia suele ser más apta la media.Por otra parte criterios muy generales para escoger que medida de tendencia central usamos: primeroescogemos x pues un mejor estimador para la media poblacional;si no podemos calcular la media,ya sea porque estemos en presencia de varible ordinal o tenemos muchos valores extremos usamosla mediana; si no se puede obtener la mediana pues los datos son nominales, o tenemos intervalosabiertos con más con más 50 % de los datos calcular la moda.

Figura 21: Posibles ubicaciones de las medidas de centralización en un conjunto de datos

En algunos casos los tres indicadores pueden dar valores similares pero no necesariamente ha de serasí, como se muestral en la figura 21.

6.2. Medidas de Posición.En la sección anterior, vimos lo referente a las medidas de tendencia central, las cuales, a su vez, sontambién medidas de posición ya que, de todas maneras ocupan un lugar dentro de la información. Nosocuparemos ahora de ciertos parámetros posicionales muy útiles en la interpretación porcentual de lainformación. Estos son: Cuartiles, Deciles y Centiles.

6.2.1. Cuartiles, Qi

Definición 6.4. Las cuartillas o cuartiles son valores posicionales que dividen la información encuatro partes iguales, el primer cuartil deja el 25 % de la información por debajo de él, y el 75 % porencima, el segundo cuartil, al igual que la mediana, divide la información en dos partes iguales, ypor último el tercer cuartil deja el 75 % por debajo de sí, y el 25 % por encima.

Page 54: Download estadistica

6 RESUMEN DE DATOS 52

Para calcular los cuartiles.Para deducir una expresión que nos permita el cálculo tanto el Q1, Q2, Q3 procedemos como cuandose dedujo la expresión para la media.

niLi − Li−1

=N i

4−Ni−1

Qi − Li−1

para i = 1, 2, 3, despejando tenemos que:

Qi = Li−1 +N i

4−Ni−1

ni(Li − Li−1) (6)

para i = 1, 2, 3. Para datos no agrupados se procede de manera semejante a cuando se calcula lamediana.

6.2.2. Deciles, Di .

Definición 6.5. Dividen la información en diez parte iguales,en catidades porcentuales de 10 % en10 % .

Para calcular los deciles.

Di = Li−1 +N i

10−Ni−1

ni(Li − Li−1) (7)

para i = 1, 2, 3, . . . , 9. Para datos no agrupados se procede de manera semejante a cuando se calculala mediana.

6.2.3. Centiles, Ci .

Definición 6.6. Dividen la información en cien parte iguales, lo que facilita la interpretación por-centual de la distribución de frecuencia.

Para calcular los centiles.

Ci = Li−1 +N i

100−Ni−1

ni(Li − Li−1) (8)

para i = 1, 2, 3, . . . , 99. Para datos no agrupados se procede de manera semejante a cuando se calculala mediana.

6.3. Medidas de Dispersión.En el análisis estadístico no basta el cálculo e interpretación de las medidas de tendencia central o deposición, ya que, por ejemplo, cuando pretendemos representar toda una información con la mediaaritmética, no estamos siendo absolutamente fieles a la realidad, pues suelen existir datos extremosinferiores y superiores a la media aritmética, los cuales, en honor a la verdad, no están siendo bienrepresentados por este parámetro.En dos informaciones con igual media aritmética, no significa este hecho, que las distribuciones seanexactamente iguales, por lo tanto, debemos analizar el grado de homogeneidad entre sus datos. Por

Page 55: Download estadistica

6 RESUMEN DE DATOS 53

ejemplo, los valores 5, 50, 95 tiene igual media aritmética, y mediana que los valores 49, 50, 51; sinembargo, para la primera información la media aritmética , se encuentra muy alejada de los valoresextremos 5 y 95, cosa que no ocurre con la segunda información que posee igual media aritmética ymediana, vemos entonces que la primera información es mas heterogénea o dispersa que la segunda.Para medir el grado de dispersión de una variable, se utilizan principalmente los siguientes indi-cadores: Rango, Desviación media, Varianza y desviación típica.

6.3.1. Rango o Recorrido, R .

Definición 6.7. Es la medida de dispersión mas sencilla ya que solo considera los dos valores ex-tremos de una colección de datos, es decir, el valor máximo xmax y mínimo xmin de los datos, para lavariable x de estudio.

Para calcular el rango o recorrido.

R = xmax − xminOtro recorrido utilizado es el recorrido intercuartílico, que se cálcula RQ = Q3 −Q1.

6.3.2. Desviación Media, DM .

Definición 6.8. La desviación media, mide la distancia absoluta promedio entre cada uno de losdatos, y el parámetro que caracteriza la información. Usualmente se considera la desviación mediacon respecto a la media aritmética o la mediana.

Para calcular la desviación media.Datos no agrupados.

DM =

∑Ni=1 |xi − x|

N; DM =

∑Ni=1 |xi −Md|

N

Datos agrupados.

DM =

∑mi=1 |xi − x|ni

N; DM =

∑mi=1 |xi −Md|ni

N

con m número de datos diferentes, y ni frecuencia de cada dato distinto. Si los datos estan en agru-pados en intervalos entonces tenemos que la expresión anterior cambiamos xi por ci que es el puntomedio de la clase o intervalo y tenemos m intervalos

6.3.3. Varianza, S2.

El problema de los signos en la desviación media, es eludido tomando los valores absolutos de lasdiferencias de los datos con respecto a la media aritmética. Ahora bien, la varianza obvia los signoselevando las diferencias al cuadrado, lo cual resulta ser más elegante, aparte de que es supremamenteútil en el ajuste de modelos estadísticos que generalmente conllevan formas cuadráticas.La varianza es uno de los parámetros más importantes en estadística paramétrica, se puede decir que,teniendo conocimiento de la varianza de una población, se ha avanzado mucho en el conocimiento dela población misma.

Page 56: Download estadistica

6 RESUMEN DE DATOS 54

Definición 6.9. Numéricamente definimos la varianza, como desviación cuadrática media de losdatos con respecto a la media aritmética, puede usarse también la mediana,

Para calcular la varianza.

Datos no agupados

S2 =

∑Ni=1(xi − X)2

N

Datos agrupados

S2 =

∑mi=1(xi − X)2ni

N

donde m es el número de datos diferentes y ni la frecuencia del dato xi. Si tenemos los adtosagrupados en intervalos, en la expresión anterior cambiamos xi por ci que es el punto medio dela clase o intervalo y tenemos m intervalos

Definición 6.10. La desviación típica o estándar definida como la raíz cuadrada de la varianza,denotada por S y se usa para una mejor comprensión pues esta expresada en las mismasunidades que la variable en estudio.

Propiedades de la varianza

Si definimos yi = xi + k entonces S2y = S2

x, para k ∈ <.

Si definimos yi = kxi entonces S2y = k2S2

x, para k ∈ <

Es sensibles a la variación de cada una de las puntuaciones, es decir, si una puntuación cambia,cambia con ella la varianza. La razón es que si miramos su definición, la varianza es función decada una de las puntuaciones.

La desviación típica tiene la propiedad de que en el intervalo (x− 2S, x+ 2S) se encuentra, almenos, el 75 % de las observaciones.

No es recomendable usarla, cuando tampoco lo sea el de la media como medida de tendenciacentral.

6.3.4. Coeficiente de variación.

Generalmente interesa establecer comparaciones de la dispersión, entre diferentes muestras o pobla-ciones que posean distintas magnitudes o unidades de medida.Hemos visto que las medidas de centralización y dispersión nos dan información sobre una muestra.Nos podemos preguntar si tiene sentido usar estas magnitudes para comparar dos poblaciones. Porejemplo, si nos piden comparar la dispersión de los pesos de las poblaciones de elefantes de doscircos diferentes, S nos daría información útil.¿Pero qué ocurre si lo que comparamos es la altura de unos elefantes con respecto a su peso? Tantola media como la desviación típica, x y S, se expresan en las mismas unidades que la variable. Porejemplo, en la variable altura podemos usar como unidad de longitud el metro y en la variable peso,el kilogramo. Comparar una desviación (con respecto a la media) medida en metros con otra en

Page 57: Download estadistica

6 RESUMEN DE DATOS 55

kilogramos no tiene ningún sentido. El problema no deriva sólo de que una de las medidas sea delongitud y la otra sea de masa. El mismo problema se plantea si medimos cierta cantidad, por ejemplola masa, de dos poblaciones, pero con distintas unidades. Este es el caso en que comparamos el peso entoneladas de una población de 100 elefantes con el correspondiente en miligramos de una poblaciónde 50 hormigas. El problema no se resuelve tomando las mismas escalas para ambas poblaciones.Por ejemplo, se nos puede ocurrir medir a las hormigas con las mismas unidades que los elefantes(toneladas). Si la ingeriería genética no nos sorprende con alguna barbaridad, lo lógico es que ladispersión de la variable peso de las hormigas sea practicamente nula (¡Aunque haya algunas quesean 1,000 veces mayores que otras!)En los dos primeros casos mencionados anteriormente, el problema viene de la dimensionalidad delas variables, y en el tercero de la diferencia enorme entre las medias de ambas poblaciones.

Definición 6.11. El coeficiente de variación es lo que nos permite evitar estos problemas, pues elim-ina la dimensionalidad de las variables y tiene en cuenta la proporción existente entre medias ydesviación típica. Se define como: CV = Sx

x

Propiedades del Coeficiente de variación

Sólo se debe calcular para variables con todos los valores positivos. Todo índice de variabilidades esencialmente no negativo. Las observaciones pueden ser positivas o nulas, pero su variabil-idad debe ser siempre positiva. De ahí que sólo debemos trabajar con variables positivas, parala que tenemos con seguridad que x > 0.

No es invariante ante cambios de origen. Es decir, si a los resultados de una medida le sumamosuna cantidad positiva, b > 0, para tener y = x+ b, entonces CVy < CVx.

Es invariante a cambios de escala. Así por ejemplo el coeficiente de variación de una variablemedida en metros es una cantidad adimensional que no cambia si la medición se realiza encentímetros.

6.3.5. Estadísticos de Asimetría.

Para saber si una distribución de frecuencias es simétrica, hay que precisar con respecto a qué. Unbuen candidato es la mediana, ya que para variables continuas, divide al histograma de frecuencias endos partes de igual área. Podemos basarnos en ella para, de forma natural, decir que una distribuciónde frecuencias es simétrica si el lado derecho de la gráfica a partir de la mediana es la imagen por unespejo del lado izquierdo.Cuando la variable es discreta, decimos que es simétrica, si lo es con respecto a la media.Dentro de los tipos de asimetría posible, vamos a destacar los dos fundamentales:

Asimetría positiva: Si las frecuencias más altas se encuentran en el lado izquierdo de la media,mientras que en derecho hay frecuencias más pequeñas llamada cola.

Asimetría negativa: Si las frecuencias más altas se encuentran en el lado derecho de la media,mientras que en izquierdo hay frecuencias más pequeñas.

Page 58: Download estadistica

6 RESUMEN DE DATOS 56

Figura 22: Distribuciones de frecuencias simétricas y asimétricas

Cuando realizamos un estudio descriptivo es altamente improbable que la distribución de fre-cuencias sea totalmente simétrica. En la práctica diremos que la distribución de frecuencias essimétrica si lo es de un modo aproximado. Por otro lado, aún observando cuidadosamente lagráfica, podemos no ver claro de qué lado están las frecuencias más altas. Se definen entonces to-da una familia de estadísticos que ayuden a interpretar la asimetría, denominados índices de asimetría.

Momento central de tercer orden

Definición 6.12. El momento central de tercer orden lo denotamos por a3 y lo definimos por:

a3 =1

N

N∑i=1

(xi − x)3

si los datos no estan agrupados, si estos estan agrupados tenemos:

a3 =1

N

m∑i=1

(xi − x)3ni

donde m son el total de datos distintos y ni su frecuencia. Si los datos estan en agrupados en inter-valos, cambiamos xi por ci que es el punto medio de la clase o intervalo y tenemos m intervalos

Un dato xi se puede encontrar ubicado de tal forma que xi − x < 0 o xi − x > 0, y puesto que loscubos de estas cantidades mantienen las desigualdades tenemos:

Si a3 = 0 la distribución es simétrica.

Si a3 > 0 la asimetría es positiva.

Si a3 < 0 la asimetría es negativa.

Índice de simétria basado en los tres cuartiles (Yule-Bowley)Si una distribución es simétrica, es claro que deben haber tantas observaciones entre la que deja pordebajo de sí las tres cuartas partes de la distribución y la mediana, como entre la mediana y la que dejapor encima de sí un cuarto de todas las observaciones. De forma abreviada esto es,Q2−Q1 = Q3−Q2.Si Q2 − Q1 < Q3 − Q2 la asimétria es positiva, en caso de que Q2 − Q1 > Q3 − Q2 la asimétria esnegativa.

Page 59: Download estadistica

6 RESUMEN DE DATOS 57

Figura 23: Uso de los cuartiles para medir la asimetría.

Para quitar dimensionalidad al problema, utilizamos como índice de asimetría la cantidad:

As =(Q3 −Q2)− (Q2 −Q1)

Q3 −Q1

que es invariante ante cambios de escala y de origen; además As ∈ [−1, 1], cuando As < 0 tenemosasimetría negativa, si As > 0 la asimetría es positiva y As = 0 hay simetría.Otro índice de asimetría, que se basa en que cuando tenemos una distribución de frecuencias simétricay unimodal, los valores de la media, mediana y moda coinciden, podemos definir la siguiente medidade asimetría:

As =x−Mo

S∨ As =

3(x−Md)

S

Siempre tenemos que si As < 0 asimetría negativa, As > 0 asimetría es positiva y As = 0 haysimetría.

6.3.6. Estadístico de apuntamiento.

Definición 6.13. Se define el coeficiente de aplastamiento de Fisher o curtosis como:

CC =m4

S4− 3

donde m4 es le momento de cuarto orden es decir m4 = 1N

∑Ni=1(xi − x)4, hacer las consideraciones

cuando tengamos datos agrupados.Es éste un coeficiente adimensional, invariante ante cámbios de escala y de origen. Sirve para medir siuna distribución de frecuencias es muy apuntada o no. Para decir si la distribución es larga y estrecha,hay que tener un patrón de referencia. El patrón de referencia es la distribución normal o gaussiana(que se estudia más adelante) para la que se tiene: m4

S4 = 3⇒ CC = 0.De este modo, atendiendo a CC, se clasifican las distribuciones de frecuencias en:

Platicúrtica: Cuando CC < 0, o sea, si la distribución de frecuencias es menos apuntada que lanormal.

Mesocúrtica: Cuando CC = 0, es decir, cuando la distribución de frecuencias es tan apuntadacomo la normal.

Leptocúrtica: Cuando CC > 0, o sea, si la distribución de frecuencias es más apuntada que lanormal.

Como se muestra en la figura 24.

Page 60: Download estadistica

6 RESUMEN DE DATOS 58

Figura 24: Apuntamiento de distribuciones de frecuencia.

6.4. Diagrama de caja.Para describir un conjunto de datos es muy eficaz un resumen de cinco puntos.El resumen de cinco puntos está integrado por: Min: el mínimo valor en el conjunto de datos, Q1: elprimer cuartil, x: la media, Q3: el tercer cuartil, Max: el máximo valor en el conjunto de datos.La información resumida contenida en los cuartiles se pone de relieve en la representación gráficallamada diagrama de caja. Un diagrama de caja presenta los tres cuartiles, el mínimo y el máximode los datos en una caja rectangular, alineada en forma horizontal o vertical. La caja encierra elintervalo intercuartil con la línea izquierda en el primer cuartil y la línea derecha en el tercer cuartil. Sedibuja una linea a través de la caja en el segundo cuartil (mediana). Una línea en cualquier extremo seextiende hasta los valores extremos. Estas líneas, llamadas algunas veces bigotes, pueden extedendesesolo hasta los deciles 1ºy 9º, o hasta los percentiles 5 y 95 en grandes conjuntos de datos. Algunosautores se refieren al diagrama de caja como el diagrama de caja y bigotes.Si Q = Q3 − Q1, Q se conoce como recorrido intercuartílico y se dice que toda observación a másde 1.5Q del cuartil más cercano es atípico o inusual. Un valor inusual es extremo si está a más de 3Qdel cuartil más cercano y es moderado en otro caso.El gráfico de caja nos proporciona información acerca de la localización, la dispersión, el sesgo y lascolas del conjunto de datos que se aprecia de una sola mirada. La lectura siguiente está dada para undiagrama de caja orientado de manera vertical.

La localización está representada en la línea que corta la caja y representa la mediana ( que estádentro de la caja), la disperción está dada por la altura de la caja, como por la distancia entrelos extremos de los bigotes.

El sesgo se observa en la desviación que exista entre la linea de la mediana con relación alcentro de la caja y también la relación entre las longitudes de los bigotes.

Las colas se pueden apreciar por la longitud de los bigotes con relación a la altura de la caja, ytambién por las observaciones que se marcan explícitamente.

Por ejemplo para un conjunto de datos en el cual obtenemos los siguentes datos.

Mín Q1 Mediana Q3 Máx30.10 31.35 33 35.80 39.50

Obtenemos el siguiente diagrama de caja.

Page 61: Download estadistica

6 RESUMEN DE DATOS 59

6.5. Otros resúmenes estadísticos.Hemos estudiado distintas variables estadísticas mediante una serie de instrumentos que tratan desintetizar en un solo número toda la información disponible; pero para efectos de establecer com-paraciones adecuadas de las mismas variables a través del tiempo, se utilizan ciertos indicadoresdenominados números índices.

Definición 6.14. Un número índice es una medida estadística diseñada para mostrar los cambios enuna variable o un grupo de variables relacionadas con respecto al tiempo, situación geográfica uotra característica.

Los números índices son un método estadístico que sirve para hacer comparaciones entre un año yotro, una variable o un conjunto de variables, respecto a otras, etc.Para la construcción de un número índice, se procede ante todo, a fijar el periodo de referencia o“periodo base", teniendo presente que debe ser un periodo normal, esto es, que no se hayan presentadosituaciones fortuitas (guerras, terremotos, incendios u otro tipo de imprevisto), que incidan en el valorde la variable para ese periodo. Además es recomendable considerar un periodo reciente que hagacomparables los diferentes valores de las variables consideradas. Generalmente se calcula así:

índice =valor del año determinado

valor del año base

y se suele expresar en porcentaje, multiplicándolo por 100.Dependiendo de si nos referimos a valores de una sola variable o de varias variables, tendremos:Números índices simples: Cuando la comparación se realiza para una sola variable. Es decir, si X esuna variable estadística cuya evolución se pretende estudiar.Llamaremos:Periodo inicial o base, es aquel momento del tiempo sobre el que se va comparando la evolución dela magnitud o variable estadística x0.Periodo de comparación, es aquel momento del tiempo en el que el valor de la variable xt se comparacon el del periodo base.El índice de evolución de 0 a t expresado en porcentaje:

I t0 =xtx0

· 100

Observaciones:

I t0 es un número adimensional que indica la variación que ha sufrido la variable entre uno y otroperiodo de tiempo.

Page 62: Download estadistica

6 RESUMEN DE DATOS 60

I t0 toma el valor 100 en el periodo base.

I t0 < 100 implica que xt < x0.

I t0 > 100 implica que xt > x0.

Ejemplo 6.1. índices simples más conocidos.

1. Precio relativo. Si p0 y pn denotan los precios del bien durante el periodo base y el periodoconsiderado, respectivamente, entonces, por definición

Precio relativo =pnp0

2. Cantidad relativa. Si qt es la cantidad producida de un bien en el periodo t y q0 es la cantidadproducida en el periodo base

Cantidad relativa =qtq0

3. Valor relativo. Es la razón entre el valor de un bien en el periodo t y su valor en el periodobase.

Valor relativo =ptqtp0q0

=

(ptp0

)(qtq0

)En cambio, cuando se trabaja con más de una magnitud a la vez, hablaremos de Números índicescomplejos sin ponderar y Números índices complejos ponderados.

Números índices complejos sin ponderar: Estudian la evolución en el tiempo de una magnitud quetiene varios componentes y a los cuales se asigna la misma importancia o peso relativo.Sea X una variable formada por n magnitudes simples x1, x2, . . . , xn, entonces:

I t0 =1

n

n∑i=1

I ti0 =1

n

n∑i=1

xitxi0· 100

en donde:

I ti0 Números índices simples de cada componente i en el periodo t.

I t0 Número índice total en el periodo t de la variable compleja.

I ti0 Número índice simple del componente i en el periodo t.

xit Valor del componente i en el periodo t.

xi0 Valor del componente i en el periodo base 0.

Números índices complejos ponderados: Estudian la evolución en el tiempo de una magnitud quetiene varios componentes y a los cuales se asigna un determinado coeficiente de ponderación wi.

Page 63: Download estadistica

6 RESUMEN DE DATOS 61

Sea X una variable formada por n magnitudes simples x1, x2, . . . , xn, entonces:

I t0 =

n∑i=1

I ti0wi

n∑i=1

wi

=

n∑i=1

xitxi0· 100wi

n∑i=1

wi

=n∑i=1

xitxi0· wi

n∑i=1

wi

· 100

en donde:

I ti0 Números índices simples de cada componente i en el periodo t.

Sean w1, w2, . . . , wn los coeficientes de ponderación de los componentes.

I t0 Número índice total en el periodo t de la variable compleja.

I ti0 Número índice simple del componente i en el periodo t.

xit Valor del componente i en el periodo t.

xi0 Valor del componente i en el periodo base 0.

wi Coeficiente de ponderación del componente i.

6.6. Números índices: cambio de baseDebido a la pérdida de representatividad de los números índice a medida que nos alejamos del añobase, resulta conveniente expresar los índice calculados con base en un periodo “0” en otra base h.Como

I t0 =xtx0

e Ih0 =xhx0

, es claro que I th =xtxh

=I t0 · x0

Ih0 · x0

=I t0Ih0.

6.7. Algunos índices demográficosLos indicadores demográficos nos informan de las diversas variaciones que se presentan en las pobla-ciones humanas. Antes de ver algunos índices demográficos expondremos conceptos principales.

Tiempo vivido y población media.El tiempo vivido por un grupo de personas corresponde a la suma del tiempo vivido, en años,de cada uno de los individuos, durante los cuales los miembros de la población en estudio,han estado expuestos al riesgo de ser afectados por un hecho demográfico en un período dado.Para poder determinar su valor para una población en un período dado, es necesario contar coninformación individualizada para cada uno de los miembros, que resulta muy difícil a no serque sea una población muy pequeña. Por esta razón recurrimos a otra medida que aproxima suvalor. Bajo el supuesto que las entradas y salidas que se efectúan en la población se producen demanera aleatoria a lo largo del período, se toma la convención de utilizar la población a mitad

Page 64: Download estadistica

6 RESUMEN DE DATOS 62

del periodo. Si este valor no se conoce, puede ser aproximado por la población media, la cualse obtiene de promediar dicha población al inicio y al final del período en estudio.

Población media =(Población inicial) + ( Población final )

2

La población a mitad del período o población media, un aproximado del tiempo vivido, cuandoel período de tiempo es un año. En otro caso, este valor debe ser multiplicado por la longitud,en años, del período de tiempo.

Tiempo vivido = t · ( Población media)

donde t esta dado en años.

Tasa.Las tasas son índices cuyo empleo se halla muy difundido en demografia y corresponde a diver-sos conceptos, que en nuestro una tasa la obtendremos por medio de un cociente, el numeradorrepresenta al número de personas afectadas por un hecho demográfico y el denominador repre-senta la población expuesta al riesgo de ser afectada por ese hecho.

Tasa =Número de hechos ocurridos en el período

Tiempo vivido por la población en el período

Como el tiempo vivido resulta prácticamente imposible de conocer utilizamos la poblacióna mitad del período o a la población media para aproximar su valor. Normalmente las tasas semultiplican por algún múltiplo de 10, para dar una mejor interpretación a su valor. El más usadoes 1000, por lo que se hace referencia a frecuencia del hecho por cada mil personas.

6.7.1. Nacimientos brutos e índice de mortalidad

El denominador en la definición de tasas, es un estimado de la población total expuesta a un hechodemográfico; esto convierte a los valores en medidas un tanto burdas pues, no toda la población estáexpuesta en igual magnitud al hecho. Por esta razón se acostumbra denotarlas como tasas brutas y nosaportan una medida global relativa a la natalidad, nupcialidad y la mortalidad. Cuando el denominadorincluye únicamente un subgrupo de la población y no la población total, estas tasas reciben el nombrede tasas específicas. La fórmula general de la tasa bruta se compone de dos efectos a tener en cuenta:E evento, P poblacion3. Además denotemos por x la variable composición o de disgregación de lapoblación, entonces

Tasa bruta: T =E

P

Tasa específica: Tx =ExPx

3P será la población a mitad del período o población media.

Page 65: Download estadistica

6 RESUMEN DE DATOS 63

Tomando en cuenta que∑x

Ex = E,∑x

Px = P y Ex = TxPx, tendremos que

T =

∑x

TxPx∑x

Px=∑x

TxPx∑x

Px

Es decir, la tasa bruta es una media ponderada de las tasas específicas del fenómeno con peso laestructura de la variable de composición. Normalmente estas tasas brutas se calculan con alcanceanual. De este modo si B y D nos representan el número de nacimientos y defunciones en un períododado respectivamente, entonces

Tasa bruta de natalidad =B

P; Tasa bruta de mortalidad =

D

P

6.8. Estandarización de indicadoresHemos dicho que de acuerdo al denominador utilizado, las tasas pueden ser clasificadas en dos tipos:tasas brutas y específicas. En las tasas brutas el denominador está compuesto por la población totalexpuesta a un evento. Por ejemplo, la tasa bruta de mortalidad representa la frecuencia de lo muerteen el total de la población expuesta en un lugar y tiempo determinado. Cuando queremos hacer unacomparación entre dos diferentes poblaciones, con relación a un suceso, podremos usar tasas brutassólo si las poblaciones son similares en aquellas características que pudieran afectar la ocurrencia delsuceso y, por ende, el resultado de dichas tasas. Si las poblaciones son diferentes debemos recurrira las tasas específicas o modificar las tasas brutas de tal manera que dicha comparación sea válida.Ilustraremos esta situación y el método de estandarización en el ejemplo siguiente.

Ejemplo 6.2. Supongamos que se cuenta con la información de dos regiones hipotéticas, la primeracorresponde a una región en desarrollo que se denominará como Región A y la segunda una regiónmás desarrollada que se catalogará como Región B.

Región A Región BEdad Población Defunciones Tasas de mortalidad Población Defunciones Tasas de mortalidad

(por 1000 ha.) (por 1000 ha.)0-4 279.7 2570 9.2 226.2 540 2.45-9 280.8 155 0.6 221.6 40 0.210-19 500.7 336 0.7 633.3 266 0.420-29 333.8 466 1.4 714.7 650 0.930-39 208.1 397 1.9 606.1 699 1.240-49 150.8 542 3.6 710.2 1701 2.450-59 97.4 739 7.6 547.3 2813 5.160-69 70.1 1198 17.1 402.6 5286 13.170-79 34.9 1435 41.1 357.3 11350 31.880-89 11.2 1161 103.7 67.8 5564 82.190 y + 1.7 333 195.9 40.7 7735 190.0Total 1969.3 9332 4527.8 36644

De esta información obtenemos:

Tasa bruta de mortalidad de la Región A =9332

1969.3= 4.7

Page 66: Download estadistica

6 RESUMEN DE DATOS 64

Tasa bruta de mortalidad de la Región B =36644

4527.8= 8.1

La tasa bruta de mortalidad en la Región B prácticamente duplica el valor obtenido en la RegiónA. Pero, según nuestra información, en cada uno de los grupos, las tasas específicas de mortalidadson menores en la Región B. Lo cual nos indica que el estado de mortalidad es mucho menor enesta región. Luego, es evidente que este indicador no nos sirve para poder comparar ambas regiones.Para poder comparar las regiones utilizaremos la estandarización directa o método de la poblacióntipo el cual nos proporciona un indicador comparativo. Se construye como una media ponderada delas tasas específicas donde los pesos proceden de una serie de referencia llamada estándar, con lacual se homogeneiza la estructura composicional de los distintos grupos o poblaciones a comparar.Este método responde a la pregunta: ¿Qué comportamiento tendría tal grupo, si tuviera la mismaestructura composicional que el estándar?. Con la finalidad de homgeneizar los procedimientos deajuste de tasas, se suelen utilizar poblaciones de referencia convencionales. Por ejemplo, si deseamoscomparar indices entre departamentos podríamos usar la población nacional como población tipo,para comparar países de la regón podríamos usar la población de América Latina como poblacióntipo. Cualquiera que sea el caso, la población debe estar categorizada por los mismos estratos denuestras tasas específicas. Para finalizar nuestro ejemplo usaremos como población estandar la sumade las poblaciones de la Región A y B. Obteniendo

Tasas específicas de mortalidad Defunciones esperadasEdad Población Región A Región B Región A Región B

estandar0-4 505.9 0.0092 0.0024 4654 12145-9 502.4 0.0006 0.0002 301 10010-19 1134 0.0007 0.0004 794 45420-29 1048.5 0.0014 0.0009 1468 94430-39 814.2 0.0019 0.0012 1547 97740-49 861 0.0036 0.0024 3100 206650-59 644.7 0.0076 0.0051 4900 328860-69 472.7 0.0171 0.0131 8083 619270-79 392.2 0.0411 0.0318 16119 1247280-89 79 0.1037 0.0821 8192 648690 y + 42.4 0.1959 0.1900 8306 8056Total 6497 57465 42250Tasas de mortalidadestandarizadas 8.8 6.5

De esta manera, si la Región A presenta 8.8 defunciones por cada mil habitantes y, bajo las mismaestructura poblacional en la Región B se presentarían 6.5 defunciones por cada mil habitantes. Quedaevidenciado, que el patron de mortalidad en la Región B es menor que en la región A.

6.8.1. Índice de mortalidad estandarizado

Del punto de vista de los cálculos, la estandarización directa es sencilla:

Tasa directamente estandarizada =

∑(tasas específicas de los estratos× pesos estándares)∑

(pesos estándares)

Page 67: Download estadistica

6 RESUMEN DE DATOS 65

De la definición de tasa bruta cuando conocemos las tasas específicas para la variable de composiciónx

T =

∑x

TxPx∑x

Px=∑x

TxPx∑x

Px

Cuando tenemos dos poblaciones, para eliminar las diferencias en las estructuras de las poblaciones,se sustituye la serie de pesos por una única serie de pesos extraída de la población tipo: Pest.

T esti =∑x

Ti,xPest,x∑x

Pest,x, i = 1, 2

Es claro que usando esta fórmula podemos obtener el indice de nacimientos estandarizado.Al interpretar los resultados de una estandarización directa debemos tener en cuenta los siguientespuntos:

La tasa estandarizada no tiene valor en sí misma.

Indica qué tasa bruta del fenómeno tendría una población determinada si tuviese la composiciónde la población estándar. Es decir, proporciona indicadores que son directamente comparablesy que se leen como tasas brutas.

Según el estándar escogido, el valor de la tasa estandarizada variará.

Uno de los principales problemas ligados a la estandarización directa es la gran cantidad de datos quese necesitan, sobre todo en refencia a las tasas específicas, pués, cuando los números por estrato sonpequeños, las estimaciones de las tasas específicas son demasiado susceptibles a la fuerte influencia dela variabilidad al azar para que el método de la estandarización directa de resultados satisfactorios. Eneste caso, puede usarse un procedimiento de estandarización indirecto, para el cual solamente se debedisponer de las tasas específicas de la población estándar. Para el cálculo del indicador comparativoestandarizado por el método indirecto se necesitan:

1. Los eventos totales de cada una de las poblaciones que se comparan.

2. La estructura de población de cada una de las poblaciones a comparar.

3. Las tasas específicas del fenómeno en la población tipo.

Partimos de unas tasas específicas tipo: Test,x, y las aplicamos a dos estructuras de población conoci-das: Pi,x i = 1, 2, de manera que obtendríamos unos eventos teóricos:

Eteóricosi =

∑x

Test,xPi,x , i = 1, 2

Como tenemos los eventos observados en las poblaciones, los podemos comparar:

Ei

Eteóricosi

=

∑x

Ti,xPi,x∑x

Test,xPi,x= Ii, i = 1, 2

Page 68: Download estadistica

6 RESUMEN DE DATOS 66

Este indicador nos permite situar a cada una de las poblaciones en relación a la población tipo escogi-da. Esto es, no proporciona indicadores comparables.

Si Ii < 1 entonces el fenómeno de la población i es menor que el fenómeno de la población dereferencia.

Si Ii > 1 entonces el fenómeno de la población i es mayor que el fenómeno de la población dereferencia.

En la estandarización directa, la población de estudio provee las tasas y la población estándar proveelos pesos. En la estandarización indirecta, la población estándar provee las tasas y la población deestudio provee los pesos.

Page 69: Download estadistica

7 PROBABILIDADES 67

7. Probabilidades

7.1. IntroducciónLa teoría de la probabilidad actualmente se ha convertido en una herramienta indispensable paraaquellos estudios en las que se aprecie la incertidumbre, por ejemplo, algunas expresiones que nor-malmente se escuchan: “posiblemente nuestro equipo ganará esta noche", “ hay una alta posibilidadque de este lote de artículos eléctricos el 90 % son fiables", sobre las apuestas a un juego de dados, ala hora de comprar dos tipos de fármacos A y B, nos vemos en el problema de determinar cuál de el-los es más eficaz para el tratamiento de una determinada enfermedad, también, estimar la proporciónde electores que prefieren a un determinado candidato, entonces, nos preguntamos ¿Cómo podemosllegar a confirmar los resultados?, ¿Qué se necesita para tener una respuesta antes estos ”eventos”?;llegamos al problema de buscar una forma de medir, es decir, de que si existe una medida del gradode incertidumbre asociado a cada uno de estos eventos. Entonces ¿Cómo medimos la incertidumbreasociada a eventos? La respuesta es la probabilidad.

7.2. Reseña HistóricaUna disputa entre jugadores en 1654 llevó a dos famosos matemáticos franceses, Blaise Pascal yPierre de Fermat, a la creación del cálculo de Probabilidades. Antoine Gombaud, caballero de Meré,noble francés interesado en cuestiones de juegos y apuestas, llamó la atención a Pascal respecto a unaaparente contradicción en un popular juego de dados. Este y otros problemas planteados por de Merémotivaron un intercambio de cartas entre Pascal y Fermat en las que por primera vez se formularonlos principios fundamentales de las probabilidades. Si bien unos pocos problemas sobre juegos deazar habían sido resueltos por matemáticos italianos en los siglos XV y XV I , no existía una teoríageneral antes de esa famosa solución de problemas. El científico holandés Christian Huygens, enter-ado de esa situación publicó rápidamente en 1657 el primer libro de probabilidades; fue un tratadode problemas relacionado con los juegos. El cálculo de probabilidades llegó a ser pronto popular porsus alusiones a los juegos de azar, y se desarrollo rápidamente a lo largo del siglo XV III . Quienesmás contribuyeron a su desarrollo fueron James Bernoulli y Abraham de Moivre. En 1812, Pierre deLaplace introdujo gran cantidad de ideas nuevas y técnicas matemáticas en su libro, Teoría Analíti-ca de Probabilidades. Antes de Laplace, las probabilidades prácticamente consistían en un análisismatemático de los juegos del azar. Laplace demostró que esa teoría podía ser aplicada a multitud deproblemas científicos y prácticos. Ejemplo de tales aplicaciones son la teoría de errores, la matemáti-ca actuarial y la mecánica estadística que se desarrollaron en el siglo XIX . Una de las dificultadesque se presentaron al desarrollar una teoría matemática ha sido alcanzar una definiciíon de probabili-dad lo bastante precisa para su utilización matemática. La búsqueda de una definición completamenteaceptable duro cerca de tres siglos y fue caracterizada por un gran número de controversias. El asuntofue definitivamente resuelto en el siglo XX al tratar la teoría de la probabilidad en forma axiomáticaestablecida por el matemático ruso Andrei Kolmogorov, quien consideró la relación entre la frecuen-cia relativa de un suceso y su probabilidad cuando el número de veces que se realiza el experimentoes muy grande. Antes de introducirnos al campo de la probabilidad es necesario comprender algunoslos conceptos importantes de las probabilidades, así como también, algunos conceptos de la teoría deconjuntos.

Page 70: Download estadistica

7 PROBABILIDADES 68

7.3. Conceptos Básicos1. Un evento aleatorio se define como un fenómeno que en la realización experimental su obser-

vación ocurre o no ocurre.

2. Experimento Aleatorio: Conjunto de pruebas realizadas bajo las mismas condiciones y cuyosresultados son impredecibles. Los rasgos que distinguen a los experimentos aleatorios son:

a) Todos los resultados del experimento son conocidos con anterioridad a su realización.

b) No se puede predecir el resultado del experimento.

c) El experimento puede repetirse en condiciones idénticas.

3. Espacio Muestral: Es el conjunto de todos los resultados posibles de un experimento aleatorio.Se denota por Ω aunque también suele denotarse por la letra S (la letra s viene de la primeraletra de la palabra space, espacio en inglés) y este puede ser Finito, Infinito numerable, Infinitono numerable.

4. Llamaremos suceso elemental al constituido por un solo elemento del espacio muestral y sucesocompuesto a cualquier subconjunto constituido por más de un elemento.

5. Suceso o evento aleatorio: Es cualquier subconjunto del espacio muestral. Conjunto de posiblesresultados de un experimento aleatorio.

6. Suceso o evento seguro: Es un evento que siempre ocurre.

7. Suceso o evento imposible: Es aquel que indefectiblemente no ocurrirá, se denomina conjuntovacío, ∅.

8. Eventos igualmente probables: Todos tienen la misma probabilidad de ocurrir (equiprobables).

9. Eventos mutuamente excluyentes: Se dice mutuamente excluyentes si los eventosA yB (ambosconjuntos) no contienen puntos muéstrales en común.

10. Eventos dependientes: Aquellos en que la ocurrencia de uno afecta la probabilidad de ocurren-cia de los demás.

11. Eventos independientes: La ocurrencia de uno no afecta la probabilidad de ocurrencia o no delos demás.

Para una mejor ilustración de los eventos mutuamente excluyentes e independientes utilizaremosun ejemplo que nos permita una mejor comprensión de ambos tipos de eventos. Pensemos en ellanzamiento de una moneda y en los eventos A= sale cara y B = sale cruz.¿Lleva información un resultado sobre el otro?¿Afecta un resultado con el otro?También nos podríamos preguntar si los eventos A y B:

a) ¿Son mutuamente excluyentes?

b) ¿Son independientes?

Page 71: Download estadistica

7 PROBABILIDADES 69

Sabemos entonces que P (A) = 12

, P (B) = 12.

Respondiendo a), la pregunta intuitiva a formularse es ¿Se pueden dar ambos eventos a la vez?, Si larespuesta es si, no son mutuamente excluyentes, si la respuesta es no, si son mutuamente excluyentes.Obviamente la respuesta intuitiva es que no se pueden simultaneamente obtener a la vez cara y cruz,por tanto son mutuamente excluyentes. Expresando formalmente lo escrito anteriomente diremosP (A ∩B) = 0 porqué A ∩B = ∅, en consecuencia P (∅) = 0.

Para b), la pregunta intuitiva es ¿Si sé que se ha dado el evento A eso lleva información acerca quese ha dado el evento B? es decir ¿si sé, que ha salido cara puedo decir algo sobre el hecho que hayasalido o no cruz?. La respuesta intuitiva, es que, si ha salido cara ya se que no ha salido cruz, es decir,el evento A lleva información sobre el evento B, por tanto no son independientes. Formalmente hemosencontrado que P (A ∩ B) = 0 mientras que P (A).P (B) = 1

2.12

= 14, que es distinto de cero, como

la probabilidad de la intersección es distinta del producto de las probabilidades los eventos A y B noson independientes. Proposición general: Si A y B son dos eventos mutuamente excluyentes tales queP (A) 6= 0 y la P (B) 6= 0 no es cero entonces A y B no son independientes.Proposición general: Si A y B son dos eventos mutuamente excluyentes tales que P (A) 6= 0 y laP (B) 6= 0 entonces A y B no son independientes.Demostración.Lo hacemos por contradicción, asumamos que los eventos A y B son independientes y lleguemos auna contradicción. Como A y B son independientes tenemos que P (A ∩ B) = P (A)P (B) 6= 0 porel hecho que P (A) 6= 0 y P (B) 6= 0, pero además se tiene por el hecho que A y B son mutuamenteexcluyentes lo siguiente P (A ∩ B) = P (∅) = 0 con lo que llegamos a que P (A ∩ B) = 0 yP (A ∩B) 6= 0 lo cual es una contradicción.

7.4. Algebra de sucesos de probabilidadConsideremos ahora ciertas operaciones con eventos que tendrán como resultados la formación denuevos eventos. Tales eventos nuevos serán subconjuntos del mismo espacio muestral como los even-tos dados.Supóngase que se tiene dos eventos A y B que se asocian con un experimento, es decir, A y Bsubconjuntos del espacio muestral S. Entonces:

1. La unión de dos sucesos A y B en un espacio S se define como:

A ∪B = x : x ∈ A o x ∈ B

Gráficamente tenemos:

Page 72: Download estadistica

7 PROBABILIDADES 70

2. La intersección de dos sucesos A y B en un espacio S se define como:

A ∩B = x : x ∈ A y x ∈ B

Gráficamente tenemos:

3. Las operaciones de unión e intersección gozan de las propiedades de clausura, idempotencia,conmutativa, asociativa y se vinculan mediante la propiedad distributiva de la intersección re-specto a la unión, es decir,

A ∩ (B ∪ C) = (A ∩B) ∪ (A ∩ C)

4. El complemento del suceso A en el espacio S se define como la diferencia entre el conjunto Sy el conjunto A, es decir,AC = S − A = x : x ∈ S y x 6∈ A y significa que no ocurre A.

5. Leyes de De Morgan

a) (A ∩B)C = AC ∪BC

b) (A ∪B)C = AC ∩BC

Para una mejor ilustración de nuestros conceptos resolvamos el ejercicio siguiente.

Ejemplo 7.1. Los currículos de dos aspirantes masculinos por el puesto de profesor dematemática en una facultad se colocan en el mismo archivo que los currículos de dos aspi-rantes mujeres. Hay dos puestos disponibles y el primero, con el rango de profesor asistente, secubre mediante la selección al azar de 1 de los 4 aspirantes. El segundo puesto, con el rango deprofesor titular, se cubre mediante la selección aleatoria de uno de los 3 aspirantes restantes.Utilizando una notación adecuada para denotar el evento utilizaremos la notación M1F2, quesignifica que el primer puesto se cubra con el primer aspirante hombre y el segundo puesto secubra después de la segunda aspirante mujer:

Page 73: Download estadistica

7 PROBABILIDADES 71

a) Liste los elementos del espacio muestral S.

b) Liste los elementos de S que corresponden al evento A de que el puesto de profesorasistente se cubra con un aspirante hombre.

c) Liste los elementos de S que corresponden al evento B de que exactamente 1 de los 2puestos se cubra con un aspirante hombre;

d) Liste los elementos de S que corresponden al evento C de que ningún puesto se cubra conun aspirante hombre;

e) Liste los elementos de S que corresponden al evento A ∩B.

f) Liste los elementos de S que corresponden al evento A ∪ C.

Solución.Para iniciar la solución, uno de los conceptos básicos a tener en cuenta es la construcción delespacio muestral, S, el cuál consistirá en obtener de todos los posibles resultados, es decir,quien ocupará el puesto de asistente ya sea este hombre ó mujer y del igual modo los queocuparían el puesto de profesor titular.

a) Como ya hemos denotado los elementos que conformaran nuestro conjunto diremos quenuestro espacio muestral es

S = M1M2,M1F1,M1F2,M2M1,M2F1,M2F2, F1M1, F1M2, F2F1, F2M1, F2M2, F2F1

b) Aquí buscaremos al sexo masculino que ocuparía el puesto de asistente no importando elsegundo puesto de que sexo lo ocupará.

A = M1M2,M1F1,M1F2,M2M1,M2F1,M2F2

c) Analiza en el espacio muestral los elementos que cumplen con esta condición, su resultadoserá:

B = M1F1,M1F2,M2F1,M2F2, F1M1, F1M2, F2M1, F2M2

d) Aquí buscamos aquellos elementos en las cuales los puestos los ocuparían solo mujeres,es decir:

C = F1F2, F2F1

e) Este conjunto es precisamente la combinación de dos eventos simples y su enunciado seconstruye generando un enunciado que combine a ambos eventos, es decir:

A ∩B = M1F1,M1F2,M1F1,M2F2

f) La combinación de ambos enunciado obtendríamos “El conjunto de los elementos queocupen el primer puesto sea el de asistente o que ningún puesto sea ocupado por ningúnhombre", es decir

A ∪ C = M1M2,M1F1,M1F2,M2M1,M2F1,M2F2, F1F2, F2F1

Page 74: Download estadistica

7 PROBABILIDADES 72

La relación entre eventos y el correspondiente espacio muestral se puede ilustrar en forma gráficautilizando diagramas de Venn, de la forma siguiente:

1. A ∩B = regiones 1 y 2

2. B ∩ C = regiones 1 y 3

3. A ∪B = regiones 1, 2, 3, 4, 6, 7

4. BC ∩ A = regiones 4 y 7

5. A ∩B ∩ C = región 1

6. (A ∪B) ∩ CC = regiones 2, 6 y 7

Varios resultados se obtienen de las definiciones anteriores y que se pueden verificar de forma sencillaempleando diagramas de Venn, dentro de ellos tenemos

1. A ∩ ∅ = ∅

2. A ∪ ∅ = A

3. A ∪ AC = S, donde S es el espacio muestral

4. A ∩ AC = ∅

5. SC = ∅

6. ∅C = S

7. (AC)C = A

7.5. Definición de Probabilidad. Probabilidad de un eventoLa insaciable sed de los juegos al azar condujo al desarrollo de la teoría de las probabilidades.Como resultado de este estudio inicial, la inferencia estadística, con todas sus predicciones ygeneralizaciones se extiende más allá de los juegos, abarcando muchos campos que se tiene comoresultado: eventos aleatorios.

Page 75: Download estadistica

7 PROBABILIDADES 73

Definición Clásica o “a priori". Si un evento ocurre en N formas, las cuales se excluyen mutuamentey son igualmente probables, y si m de estos eventos poseen una característica E, la probabilidad deocurrencia de E es igual a m/N . Es decir,

P (E) =m

N=

(Número de casos favorables)(Número de casos posibles)

= p

Definición Frecuencial o “a posteriori": Si algún proceso es repetido un gran número de veces, n, y sialgún evento resultante, con la característica E ocurre m veces, la frecuencia relativa de la ocurrenciade E viene dada por

P (E) =m

n= lım

n→∞P (E) = p

La proximidad de la frecuencia relativa a la probabilidad depende de las repeticiones de algún procesoy de la posibilidad de contar el número de repeticiones, así como el número de veces que algún eventode interés ocurre.

7.6. Nociones Básicas de ProbabilidadLa definición axiomática de las probabilidades se debe al matemático ruso Andrei Kolmogorov, enlos años de 1903 a 1987. La cual se enuncia así:Sea Ω el espacio muestral asociado a un experimento aleatorio y seanAi ⊂ Ω para i = 1, 2, ..., n even-tos. A cada Ai le asignaremos un número real P (Ai), denominada probabilidad de Ai, que satisfacelas propiedades siguientes:

1. 0 ≤ P (E) ≤ 1

2. P (Ω) = 1

3. Si A1 excluye a A2 entonces P (A1 ∪ A2) = P (A1) + P (A2)

4. Si los Ai son mutuamente excluyentes, es decir, Ai ∩ Aj = ∅, para todo i = 1, 2, 3, ...., nentonces

P (∪ni=1 Ai) =n∑i=1

P (Ai)

7.7. Teoremas de espacios probabilísticosLos teoremas siguientes son consecuencia directa de los cuatro axiomas.

Teorema 7.1. La probabilidad del suceso imposible, o en otras palabras del conjunto vacío es nula,es decir, P (∅) = 0

Teorema 7.2. (Regla del complementario).Para cualquier suceso A, se verifica que P (AC) = 1 −P (A)

Teorema 7.3. Para cualquier suceso A se cumple 0 ≤ P (A) ≤ 1

Este teorema nos garantiza que la probabilidad de cualquier evento estará entre 0 y 1.

Page 76: Download estadistica

7 PROBABILIDADES 74

Teorema 7.4. Si A ⊆ B entonces P (A) ⊆ P (B)

Teorema 7.5. Ley de la suma de probabilidades Para dos sucesos cualesquiera A y B, se verificaque P (A\B) = P (A)− P (A ∩B)

Teorema 7.6. (Ley de la suma de probabilidades). Para dos sucesos cualesquiera A y B,P (A ∪B) = P (A) + P (B)− P (A ∩B)

Aplicando el teorema anterior dos veces, obtenemos:

Corolario 7.7. Para tres sucesos cualesquiera A, B, C, se verifica queP (A ∪B ∪ C) = P (A) + P (B) + P (C)− P (A ∩B)− P (A ∩ C)− P (B ∩ C) + P (A ∩B ∩ C)

Esta regla de la adición puede generalizarse a cualquier número finito de conjuntos.

7.8. Probabilidades CondicionalesDefinición 7.1. La probabilidad Condicional de un evento A, ya que ocurrió un evento B, es igual a

P (A\B) =P (A ∩B)

P (B)

Siempre que P (B) > 0. El símbolo P (A\B) se lee “la probabilidad de A dada la ocurrencia de B"

Definición 7.2. Dos eventos A y B son independientes si

P (A ∩B) = P (A).P (B)

Si esta no se satisface, los eventos se dice que son dependientes. Nótese que la definición es equiva-lente a expresar que los eventos A y B son independientes si

P (A\B) = P (A) o P (B\A) = P (B)

7.9. Leyes de ProbabilidadLa probabilidad de la intersección de dos eventos A y B es

P (A ∩B) = P (A).P (B\A) = P (B).P (A\B)

Y tal como se comentó, si A y B son conjuntos independientes se satisface la definición anterior.Dentro de estas leyes también puede contemplarse la ley de la suma de probabilidades definidasanteriormente.

7.10. Teorema de BayesEl procedimiento de la composición de los eventos para resolver los problemas de probabilidad sefacilita algunas veces al considerar el espacio muestral S como una unión de subconjuntos que sonmutuamente excluyentes. Es decir, se supone que

S = B1 ∪B2 ∪B3 ∪ . . . ∪BK

Page 77: Download estadistica

7 PROBABILIDADES 75

Con Bi ∩Bj = ∅, para i 6= j. Entonces, cualquier subconjunto A de A se puede escribir como

A = A ∩ S = A ∩ (B1 ∪B2 ∪B3 ∪ . . . ∪BK) = (A ∩B1) ∪ (A ∩B2) ∪ . . . ∪ (A ∩Bk)

Entonces observemos que

P (A) = P (A ∩B1) + P (A ∩B2) + . . .+ P (A ∩Bk)

= P (B1)P (A\B1) + P (B2)P (A\B2) + P (B3)P (A\B3) + . . .+ P (Bk)P (A\Bk)

=k∑i=1

P (Bi)P (A\Bi)

Una probabilidad condicional de la forma P (Bj\A) se puede calcular como

P (Bj\A) =P (A ∩Bj)

P (A)=

P (Bj)P (A\Bj)∑ki=1 P (Bi).P (A\Bi)

Esta ecuación para la probabilidad condicional se le llama Regla de Bayes.

Page 78: Download estadistica

8 DISTRIBUCIONES DE PROBABILIDAD 76

8. Distribuciones de probabilidad

8.1. IntroducciónUno de los objetivos de la estadística es el conocimiento cuantitativo de un determinado fenómeno dela realidad. Para ello, es necesario observarlo e intentar construir un modelo de esta realidad particularpartiendo de la premisa de que modelar lo real es siempre más complejo y multiforme que cualquiermodelo que se pueda construir. De todas formas, la formulación de modelos aceptados en el campo dela estadística, nos permite minimizar la existencia del error o distancia entre la realidad y el modelo.Los modelos teóricos a los que se hace referencia se reducen en muchos casos a (o incluyen en suformulación) funciones de probabilidad.La teoría de la probabilidad tiene su origen en el estudio de los juegos de azar, como se ha comentadoal inicio de este apartado, pero uno de los conceptos más importantes de esta teoría es el de variablealeatoria que, intuitivamente, puede definirse como cualquier característica medible que toma difer-entes valores con probabilidades determinadas.Toda variable aleatoria posee una distribución de probabilidad que describe su comportamiento. Sila variable es discreta, es decir, si toma valores aislados dentro de un intervalo, su distribución deprobabilidad específica todos los valores posibles de la variable junto con la probabilidad de que ca-da uno ocurra. En el caso continuo, es decir, cuando la variable puede tomar cualquier valor de unintervalo, la distribución de probabilidad permite determinar las probabilidades correspondientes consubintervalos de valores.Una forma usual de describir la distribución de probabilidad de una variable aleatoria continua esmediante la denominada función de densidad.Una de las preocupaciones de los científicos ha sido construir modelos de distribuciones de proba-bilidad que pudieran representar el comportamiento teórico de diferentes fenómenos aleatorios queaparecían en el mundo real. La pretensión de modelar lo observable ha constituido siempre una necesi-dad básica para el científico empírico, dado que a través de esas construcciones teóricas, los modelos,podía experimentar sobre aquello que la realidad no le permitía. Por otra parte, un modelo resultaextremadamente útil, siempre que se corresponda con la realidad que pretende representar o predecir,de manera que ponga en evidencia las propiedades más importantes del mundo que nos rodea.En la práctica existen distribuciones de probabilidad teóricas, como son, por ejemplo, para variablesdiscretas, la distribución binomial, la de Poisson, entre otras. La distribución normal para variablescontinuas, que sirven de modelo para representar las distribuciones empíricas más frecuentes.

8.2. Conceptos Básicos1. Variable Aleatoria.

Definición 8.1. Una variable aleatoria de un espacio muestral Ω es una regla que asigna unvalor numérico a cada resultado de Ω, en otras palabras, una función de Ω en el conjunto Rde números reales.

Notación: Sean S y T dos conjuntos. Supongamos que para cada s ∈ S hay asignado un únicoelemento de T ; la cantidad de f de tales asignaciones se llama función de S en T , y se escribef : S → T . Escribiremos f(s) para el elemento de T que f asigna a s ∈ S, y llamaremos f(s)la imagen de s bajo f o el valor de f en s.

Page 79: Download estadistica

8 DISTRIBUCIONES DE PROBABILIDAD 77

La imagen f(A) de cualquier subconjunto A de S, y la preimagen f−1(B) de cualquier sub-conjunto B de T se define por:

f(A) = f(s) : s ∈ A

f−1(B) = s : f(s) ∈ B

En palabras, f(A) se compone de las imágenes de puntos de A, y f−1(B) se compone de aque-llos puntos cuya imagen pertenece a B. En particular , el conjunto f(S) de todas la imágenesde puntos se llama Rango ( o imagen) de la funcion f .En lo que sigue X denota la variable aleatoria y su correspondiente letra minúscula, x para unode sus valores. También tómese en cuenta que P (X = x) = f(x).Ejemplo 1El espacio muestral que ofrece una descripción detallada de cada posible resultado, cuando seprueban tres componentes electrónicos (D=funciona el componente electrónico y N=no fun-ciona el componente electrónico), se escribe como

Ω = NNN,NND,NDN,DNN,DNN,NDD,DND,DDN,DDD

Observamos que la variable aleatoria X=”Número de componentes no-defectuosos” toma elvalor de 2 para todos los elementos del subconjunto

E = DDN,DND,NDD

del espacio muestral Ω. Esto es, para cada valor posible de X representa un evento que es unsubconjunto del espacio muestral para el experimento dado.Ejemplo 2Sea X la variable definida como el tiempo de espera , en horas, entre conductores sucesivosque exceden los límites de velocidad detectados por una unidad de radar. La variable aleatoriaX toma todos los valores de x tales que x ≥ 0.

2. Espacio muestral discreto.

Definición 8.2. Si un espacio muestral contiene un número finito de posibilidades, o una serieinterminable con tantos elementos como números existen, se llama espacio muestral discre-to.Tal es el caso del ejemplo 1.

3. Espacio muestral continuo.

Definición 8.3. Si un espacio muestral contiene un nmero infinito de posibilidades igual alnúmero de puntos de un segmento de línea, se llama espacio muestral continuo. Tal es el casodel ejemplo 2.

4. Identifiquemos las distribuciones de probabilidad.

Page 80: Download estadistica

8 DISTRIBUCIONES DE PROBABILIDAD 78

a) Discretas. Distribuciones que están asociadas a variables que toman un número finito (o nu-merable) de valores posibles. El conjunto de pares ordenados [(xi, f(xi)] se da normalmenteen una tabla como la siguiente:

b) En el conjunto de pares (x, f(x)) en una función de distribución de probabilidad de la vari-able aleatoria discreta X si, para cada resultado posible x, debe cumplirse:

I) f(x) ≥ 0

II)∑

x f(x) = 1

III) P (X = x) = f(x)

c) Continuas. Las distribuciones continuas están asociadas a variables aleatorias con valoresreales. La distribución de probabilidad de una variable aleatoria continua no se puede rep-resentar de forma tabular, se le reconocerá por una fórmula , la cual necesariamente serafunción de los valores númericos de la variable aleatoria continua X , y se representa medi-ante la notacion funcional f(x). Al tratar con variables aleatorias continuas, por lo general,f(x), también se le conoce con el nombre de función de densidad de probabilidad o simple-mente funcion de densidad de X .

5. Distribución de probabilidad acumulada.La Función de Distribución acumulada F (x) de una variable aleatoria discreta X con distribu-ción de probabilidad f(x) viene dada por

F (x) = P (X ≤ x) =∑t≤x

f(t), para −∞ < x <∞

Ilustraremos con un ejemplo este apartado de una distribución en el caso discreto ya que estapuede elaborarse de manera similar tal como se elaboraron la distribución de frecuencias rela-tivas.Para el caso de la variable continua en esta oportunidad no lo abordaremos ya que se necesita deherramientas del cálculo diferencial e integral para definir sus propiedades y otros parámetroscomo la media y la varianza.EjemploUna variable aleatoria discreta tiene la siguiente función de distribución (f(x))

La función de distribución acumulada (F(x))

Page 81: Download estadistica

8 DISTRIBUCIONES DE PROBABILIDAD 79

Su respectivo gráfico

6. Valor esperado: (E(X))E[X] = x1.f(x1) + x2.f(x2) + · · ·+ xn.f(xn) =

∑ni=1 xif(xi)

7. Varianza: (V ar(X))V ar(X) = (x1−µ)2.f(x1)+(x2−µ)2.f(x2)+ . . .+(xn−µ)2.f(xn) =

∑ni=1 (xi − µ)2.f(xi)

8.3. Distribuciones de Probabilidad. Distribución de Bernoulli1. Distribución de Bernoulli

Definición 8.4. Experimento de Bernoulli. Se denomina experimento de Bernoulli a todo ex-perimento aleatorio en el que sólo son posibles dos resultados (uno, o éxito, y cero), con prob-abilidades asociadas p(1) = p y p(0) = 1− p.

La distribución de de probabilidad de una variable aleatoria de Bernoulli X viene dada por

p(x) = px(1− p)1−x para x = 0, 1

La media y la varianza de una variable aleatoria con distribucion de Bernoulli viene dada por

µ = p y σ2 = p(1− p) para x = 0, 1

Por ejemplo, tirar una moneda al aire es un experimento de Bernoulli con probabilidad decara p = 0.5 y de cruz 1 − p = 0.5. Por otra parte, la ocurrencia o no de lluvia en unalocalidad concreta también puede considerarse un experimento de Bernoulli (si no se tieneninguna información que permita predecir la ocurrencia de lluvia un día concreto).

Page 82: Download estadistica

8 DISTRIBUCIONES DE PROBABILIDAD 80

2. Distribución Binomial

Definición 8.5. Un experimento binomial es aquel que tiene las siguientes características:

a) El experimento consta de n pruebas idénticas.

b) Cada prueba tiene dos resultados posibles. Exito (E) y Fracaso (F).

c) La probabilidad de tener éxito en una sola prueba es igual a p, y permanece constante deprueba en prueba. La probabilidad de un fracaso es igual (1− p) = q

d) Las pruebas son independientes.

e) La variable aleatoria bajo estudio esX , el número de éxitos observados en las n pruebas.

Para definir si un experimento en particular es un experimento binomial se deben examinar cada unade las características anteriores. La variable de interés es el número de éxitos en la n pruebas.Se puede obtener la distribución de probabilidad binomial p(x) aplicando la técnica de los puntosmuestrales para encontrar la probabilidad de que el experimento tenga x éxitos. Cada punto muestralse puede denotar como una n− ada, utilizando E y F .Un punto muestral típico aparecería así

EEEEFFEFFEFEEEFF . . . FE

En donde la letra en la i-ésima posición (contando de izquierda a derecha) indica el resultado de lai-ésima prueba. Entonces reagrupando tenemos EEEEEEEE . . . FFFF es la intersección de las npruebas independientes, x éxitos y (n− x) fracasos y por lo tanto

pppppppppp . . . pppqqqq . . . qqq = px.qn−x

Cualquier otro punto muestral aparecería como un rearreglo de las letras E y F en el punto antesdescrito y por esto contendrá x letras E y (n − x) letras F . Se observa que el número de arreglosdistintos de E y F se puede definir como(

n

x

)=

n!

x!(n− x)!

8.4. Distribución de probabilidad Binomial, Valor Esperado y Varianza1. La Distribución de probabilidad Binomial viene dada por

P (X = x) = p(x) =

(n

x

)px.qn−x

También en otros textos se identifica la distribución binomial utilizando la notación b(x;n, p).

2. ¿De dónde viene el nombre binomial?La Distribución Binomial deriva su nombre del hecho de que los n + 1 términos en la expansión

Page 83: Download estadistica

8 DISTRIBUCIONES DE PROBABILIDAD 81

binomial de (p + q)n corresponden a los diversos valores de b(x;n, p) para x = 0, 1, 2, . . . , n. Esdecir

(p+ q)n =

(n

0

)qn +

(n

1

)p1qn−1 +

(n

2

)p2qn−2 +

(n

3

)p3qn−3 + . . .

(n

n

)pn

Obsérvese que(n

0

)qn = p(0),

(n

1

)pqn−1 = p(1) . . . y en general p(x) =

(n

x

)px.qn−x

Como p+ q = 1, entonces

∑x

p(x) =n∑x=0

(n

x

)px.qn−x = b(x;n, p) = (p+ q)n = 1

3. Valor Esperado y Varianza.La media y la varianza de la distribución binomial b(x;n.p) viene dada por

µ = np y V ar(X) = npq

La distribución de probabilidad binomial tiene muchas aplicaciones, ya que el experimento bi-nomial ocurre en el muestreo de productos defectuosos en un control de calidad, en el muestreode preferencias del consumidor o poblaciones de votantes, en la selección de medicamentos y enmuchas situaciones del mundo real.

8.5. Distribución NormalLa distribución continua de probabilidad más importante en todo el campo de la estadística es la dis-tribución normal por la frecuencia con que se encuentra y por sus aplicaciones teóricas. Su gráficorecibe el nombre de curva normal, que es una fígura en forma de campana, la cual describe aproxi-madamente muchos fenómenos sociales, mediciones en una industria, experimentos metereológicos,y otros que ocurren en nuestra naturaleza y que dada su comportamiento pueden explicarse a través dela distribución normal. Fué descubierta y publicada por primera vez en 1733 por Abraham DeMoivre.A la misma llegaron, de forma independiente, Laplace (1812) y Karl F. Gauss (1809), en relación a lateoría de los errores de observación astronómica y física .

Una variable aleatoria continua X que tiene la distribución con forma de campana se denomina

Page 84: Download estadistica

8 DISTRIBUCIONES DE PROBABILIDAD 82

variable aleatoria normal. La ecuación matemática para la distribución de probabilidad de la viariablealeatoria normal depende de los parámetros µ y σ, su media y su desviación esándar. De aquí,denotamos los valores de X con N(x : µ, σ).

Definición 8.6. La función de densidad de la variable aleatoria normal X con media µ y varianzaσ2 es

f(x) =1

√2πσ

e−(x−µ)2

2σ2

Notación: X ∼ N(µ, σ2)Una vez se conocen µ y σ la curva normal está completamente definida. En la fígura siguiente sehan trazado tres curvas normales con la misma media pero con diferentes desviaciones estándares.Observe que las tres curvas estan centradas exactamente en la misma posición sobre el eje horizontal;la curva con mayor desviación es más plana y su extiensíon es más amplia.

La fígura siguiente muestra el resultado de trazar tres curvas normales dos de ellas tiene diferentesmedias y diferentes desviaciones estándar. Evidentemente, estan centradas en posiciones diferentessobre el eje horizontal y sus formas reflejan los valores diferentes de σ.

Propiedades de la Curva normal

1. La moda, la mediana y la media es el punto en el eje horizontal en donde la curva normal alcanzasu máximo valor, ocurre en X = X = X .

2. La curva es simétrica alrededor de su eje vertical a través de la media µ.

Page 85: Download estadistica

8 DISTRIBUCIONES DE PROBABILIDAD 83

3. La curva normal tiene dos puntos de inflexion: x = µ+ σ y x = µ− σ

4. La curva normal se aproxima al eje horizontal observando un comportamiento asíntotico, estosucede conforme nos alejamos de la media en cualquier dirección, formando una asíntota.

5. El área bajo la curva y sobre el eje horizontal es igual a 1.

6. El valor esperado de la distribución normal con su respectiva varianza viene dada por

E(X) = µ y V ar(X) = σ2

La curva de cualquier distribución continua de probabilidad o función de densidad se construye demanera que el área bajo la curva limitada por las dos ordenadas x = x1 y x = x2 sea igual a la de laprobabilidad de que la variable aleatoria X tome un valor entre x = x1 y x = x2. Es decir,

P (x1 < X < x2) =1

√2πσ

∫ x2

x1

e−(x−µ)2

2σ2 dx

que ésta representada por el área de la región sombreada en la siguiente fígura

El área bajo la curva entre cualesquiera dos ordenadas también dependen de µ y σ. La P (x1 < X <x2) donde X es la variable aleatoria que describe la distribución de A y describe la distribución B,entonces P (x1 < X < x2) ésta dada por la region sombreada.Desafortunadamente, la dificultad que se encuentra al resolver las integrales de funciones de densi-dad normal se necesita de la tabulación de las áreas de la curva normal para obtener una inmediatasolución. Esta es una tarea titánica intentar establecer tablas separadas para los parametros µ y σ.Pero se cuenta con herramientas matemáticas capaces de transformar todas las observaciones de unavariable aleatoria normal X a un nuevo conjunto de observaciones de una variable aleatoria normalZ con µ = 0 y σ = 1. Esto se puede realizar mediante la transformación

Z =X − µσ

Siempre que X tome un valor x, el valor correspondiente de Z estará dado por Z = (x − µ)/σ. Porlo tanto, si X se encuentra entre los valores x = x1 y x = x2, la variable aleatoria Z caéra entre los

Page 86: Download estadistica

8 DISTRIBUCIONES DE PROBABILIDAD 84

valores correspondientes

Z1 =x1 − µσ

y Z2 =x2 − µσ

Entonces tenemos

P (x1 < X < x2) =1

√2πσ

∫ x2

x1

e−(x−µ)2

2σ2 dx =1

√2πσ

∫ z2

z1

e−12z2dz = P (z1 < Z < z2)

donde Z ∼ N(0, 1). Ahora hemos reducido el número requerido a las tablas de áreas bajo la curvanormal a una, la de la distribución normal stándar.

8.6. Distribución Normal EstándarSe dice que Z tiene distribución normal standar si sus parámetros son µ = 0 y σ2 = 1, es decirZ ∼ N(0, 1). Su función de densidad estará dada por

f(z) =1

√2πe−

z2

2

Como se menciono en las propiedades de la distribución normal también la distribucion estándarcumple ciertas propiedades: simetría, puntos de inflexión, el comportamiento asíntotico y otros.Ilustramos lo anterior con el ejemplo siguiente

EjemploConsiderar los valores de coeficientes de inteligencia(CI o IQ) en seres humanos. Los CI están dis-tribuidos normalmente con media igual a 100 y desviación estándar igual a 10.Si una persona es elegi-da al azar, ¿Cuál es la probabilidad de que su CI esté entre 100 y 115; es decir P (100 < x < 115)?SoluciónP (100 < x115) está representada por el área sombreada en la figura siguiente

La variable x debe ser estandarizada utlizando la expresión

Z =x− µσ

Los valores de z seránCuando x = 100, tenemos z = 100−100

10= 0.0

Cuando x = 115, tenemos z = 115−10010

= 1.5La distribución de probabilidad normal asociada al valor de z se presenta en la tabla ( anexar tabla )

Page 87: Download estadistica

8 DISTRIBUCIONES DE PROBABILIDAD 85

que enlista las probabilidades asociadas a los intervalos centrados en la media para valores específicosde z. Otras probabilidades pueden encontrarse por adición, sustracción ,etc. con base al concepto desimetría que existe en la distribución normal y el hecho que el área total bajo la curva normales 1.0.Representado en forma gráfica tenemos

En consecuencia P (100 < x < 115) = P (0.0 < z < 1.5) = 0.4332

Page 88: Download estadistica

9 MUESTREO 86

9. MuestreoUna técnica más reciente en el proceso de recolección de datos, consiste en las encuestas por muestreo.Por medio de éstas se trata de obtener la información de una pequeña porción (muestra) de lapoblación que debe representar a la totalidad. La mayoría de las veces los resultados de la mues-tra no interesan por si solos, sino que son un medio para inferir o generalizar resultados hacia lapoblación total o a una buena parte de ella.Para tomar una muestra de la población contamos con diferentes técnicas de muestreo. Podemosaplicar muestreo no probabilístico y muestreo probabilístico.

Aunque el muestreo no probabilístico suele aplicarse en la vida corriente, debe aplicarse a investi-gaciones en las que estamos seguros de la homogeneidad de la población o en investigaciones enlas cuales el equivocarse no traiga consecuensias graves y solo se necesiten estimaciones a partir delas cuales no se tomarán decisiones importantes, de no ser en poblaciones homogeneas la ventajaprincipal es que el presupuesto de la encuesta es menor que el muestreo probabilístico.Este tipo de muestreo no nos permite predecir el tipo de distribución de los resutados producidos niestimar cuanto difieren estos resultados del verdadero valor que se busca. Esto también implica queno podemos medir la confianza que podemos tener de los resultados producidos, debido a que nose conoce la probabilidad de que una determinada unidad sea seleccionada en el muestreo. Por lotanto, no podemos dar la distribución de frecuencia de las estimaciones, en ausencia de informaciónsobre como diferirán las diferentes muestras entre sí, el error de muestreo no puede determinarseobjetivamente.

9.1. Algunas técnicas probabilísticasAntes de describir las principales técnicas de muestreo probabilístico, veamos el leguaje que usaremosde manera natural.Representamos el conjunto de las N unidades que constituyen una población finita objeto de estudiomediante U = u1, u2, . . . , uN, es usual que los métodos de muestreo comunes consideren igualesmuestras con los mismos elementos, aunque estén colocados en orden distinto, una muestra de tamañon de elementos de U puede considerarse como un subconjunto si = ui1, ui2, . . . , uin. El conjuntoS = s1, s2, . . . , sN de todas las muestras posibles se denomina espacio muestral. Como antes, unprocedimiento o método de muestreo es sencillamente un proceso o mecanismo mediante el cual seseleccionan las muestras, ahora, cada una de esas muestras tiene una determinada probabilidad de serelegida. Por lo tanto, el método aleatorio empleado para seleccionar la muestra define en el espaciomuestral S una función de probabilidad P .Aun cuando el muestreo se realiza con muchos propósitos, el interés se centra, con frecuencia, encuatro características de la población. Estas son:

1. Población total (variables cualitativas y cuantitativas),

2. media de la población (variables cuantitativas),

3. proporción de la población (características cualitativas) y

4. tasa de la población (cociente de estimaciones).

Page 89: Download estadistica

9 MUESTREO 87

9.2. Muestreo aleatorio simpleEl muestreo aleatorio sin reemplazamiento de poblaciones finitas llamado también muestreo irrestric-tamente aleatorio o, más sencillamente, muestreo aleatorio simple, consiste en la selección de n ele-mentos entre los N que constituyen la población, de modo que todas las muestras posibles de tamañon tengan la misma probabilidad de ser obtenidas.Dada la forma de definirse el procedimiento de selección de la muestra el espacio muestral asociado

tiene(Nn

)muestras posibles, ya que el orden de colocación de los elementos en las muestras

no interviene. Como el procedimiento es con probabilidades iguales, la probabilidad de una muestracualquiera será:

p(u1, . . . , un) =Casos favorablesCasos posibles

=1(Nn

)Y la probabilidad que tiene cualquier unidad de la población de pertenecer a la muestra será:

πi = P (ui ∈ s) =Número de muestras que contienen la unidad ui

Número total de muestras=

(N − 1n− 1

)(Nn

) =n

N.

Puesto que el número de muestras posibles que se pueden formar con los elementos de la población y

que contengan al elementos dado ui será(N − 1n− 1

), ya que en este caso se fija el elemento ui y las

muestras posibles resultan de las formas de seleccionar de entre los N − 1 elementos de la poblaciónrestantes n− 1 de ellos.

Una definición operacional puede ser la siguiente: a partir de una tabla de dígitos aleatorios, selec-cionamos con igual probabilidad n números de selección diferentes, correspondiente a n de los Nnúmeros de listado de los elementos de la población. Los n números seleccionados de la lista, en lacual cada uno de los N elementos de la población está representado separadamente por exactamenteun número, debe identificar unívocamente a n elementos diferentes. Las unidades que llevan estos nnúmeros constituyen la muestra. Para aplicar el muestreo aleatorio simple se requiere que todas lasunidades muestrales estén enumeradas del 1 al N.

Page 90: Download estadistica

9 MUESTREO 88

9.3. EstimadoresA contiuación se presentan los estimadores lineales insesgados para el total, media, proporción y totalde clase.

Estimador Varianza de estimador Estimador de varianza

X = Nx V (X) = N2(1− f)S2

nV (X) = N2(1− f)

S2

N

ˆX = x V ( ˆX) = (1− f)S2

nV ( ˆX) = (1− f)

S2

n

P =1

n

n∑i=1

Ai V (P ) = NN−1

1n(1− f)PQ V (P ) = 1

n−1(1− f)P Q

Donde:S2 =1

n− 1

N∑i=1

(Xi − x)2

9.4. Muestreo estratificadoEn el muestreo estratificado, la población de N unidades se divide primero en subpoblaciones deN1, N2, . . . , NL unidades, respectivamente. Estas subpoblaciones, no se traslapan y en su conjuntocomprenden a toda la población, por lo tanto,

N1 +N2 + · · ·+NL = N

Las subpoblaciones se denominan estratos. Dentro de cada estrato se selecciona una muestraseparada a partir de todas las unidades que componen ese estrato, las extracciones deben hacerseindependientemente en los diferentes estratos. Si además la selección en cada estrato es por muestreoaleatorio simple, el procedimiento total se describe como un muestreo aleatorio estratificado.

Hay varias razones por las cuales utilizar muestreo estratificado, las principales son:

1. La estratificación puede dar lugar a una ganancia en la precisión de las estimaciones de carac-terísticas de la población total. Es decir, podemos lograr disminuir las varianzas de las estima-ciones de la muestra.

2. Se pueden formar los estratos para utilizar diferentes métodos y procedimientos dentro de ellos.

3. Los estratos pueden establecerse porque las subpoblaciones dentro de ellos también se definencomo dominios de estudio. Un dominio es una parte de la población para la que se han planeadoestimaciones separadas en el diseño de la muestras

Page 91: Download estadistica

9 MUESTREO 89

Además de procurar mediante la estratificación muestras más representativas, puede lograrse unmejor aprovechamiento de la organización administrativa y en general de las particularidades dediferentes grupos de elementos de la población.

Notación usual en el muestreo estratificadoEl subíndice h denota el estrato, e i la unidad del estrato. Los tamaños de muestras dentro de losestratos se denotan con n1, n2, . . . , nL. Todos los símbolos siguientes se refieren al estrato h.

Nh número total de unidades

nh número de unidades en la muestra

yhi valor obtenido para la i-ésima unidad

Wh =Nh

Nponderación del estrato

fh =nhNh

fracción de muestreo en el estrato

Yh =

∑Nhi=1 yhiNh

media poblacional

yh =

∑nhi=1 yhinh

media de muestra

S2h =

∑Nhi=1(yhi − Y h)

2

Nh − 1varianza poblacional

Page 92: Download estadistica

9 MUESTREO 90

9.4.1. Muestreo Estratificado sin reposición: Estimadores y errores

Estimador Varianza de estimador Estimador de varianza

Xst =L∑h=1

Xh V (Xst) =L∑h=1

N2h(1− fh)

S2h

nhV (Xst) =

L∑h=1

N2h(1− fh)

S2h

nh

ˆXst =L∑h=1

Whxh V ( ˆXst) =L∑h=1

W 2h (1− fh)

S2h

nhV ( ˆXst) =

L∑h=1

W 2h (1− fh)

S2h

nh

Ast =L∑h=1

Ah V (Ast) =L∑h=1

N2h(1− fh)

Nh

Nh − 1

PhQh

nhV (Ast) =

L∑h=1

N2h(1− fh)

PhQh

nh − 1

Pst =L∑h=1

WhPh V (Pst) =L∑h=1

W 2h (1− fh)

Nh

Nh − 1

PhQh

nhV (Pst) =

L∑h=1

W 2h (1− fh)

PhQh

nh − 1

9.4.2. Muestreo Estratificado con reposición: Estimadores y errores

Estimador Varianza de estimador Estimador de varianza

Xst =L∑h=1

Xh V (Xst) =L∑h=1

N2h

σ2h

nhV (Xst) =

L∑h=1

N2h

S2h

nh

ˆXst =L∑h=1

Whxh V ( ˆXst) =L∑h=1

W 2h

σ2h

nhV ( ˆXst) =

L∑h=1

W 2h

S2h

nh

Ast =L∑h=1

Ah V (Ast) =L∑h=1

N2h

PhQh

nhV (Ast) =

L∑h=1

N2h

PhQh

nh − 1

Pst =∑L

h=1WhPh V (Pst) =∑L

h=1W2hPhQhnh

V (Pst) =∑L

h=1 W2hPhQhnh−1

9.4.3. Afijación de la muestra: Tipos de afijación y errores de los estimadores para muestreocon reposición

Se llama afijación de la muestra al reparto, del tamaño muestral n entre los diferentes estratos. Estoes, a la determinación de los valores de nh que verifiquen n1 + n2 + . . . + nL = n. Las afijaciones

Page 93: Download estadistica

9 MUESTREO 91

mas importantes son: la afijación uniforme, la afijación proporcional, la afijación de varianza mínimay la afijación óptima. Veamos brevemente en que consisten:

Afijación uniforme

Consiste en asignar el mismo número de unidades muestrales a cada estrato, con lo que se tomarántodos los nh iguales a n/L. Aumentando o disminuyendo este tamaño en una unidad si n no fuesemúltiplo de L.

nh = k ∀h = 1, 2, . . . , L⇒L∑h=1

nh =L∑h=1

k ⇒ n = Lk

Este tipo de afijación da la misma importancia a todos los estratos, en cuanto a tamño de la muestra,con lo cual favorecerá a los estratos de menor tamaño y perjudicará a los grandes en cuanto aprecisión. Sólo es conveniente en poblaciones con estratos de tamaño similar.

Afijación proporcional

Consiste en asignar a cada estrato un número de unidades muestrales proporcionales a su tamaño. Lasn unidades de la muestra de distribuyen proporcionalmente a los tamaños de los estratos expresadosen número de unidades. Tenemos:

nh = Nhk ⇒L∑h=1

nh︸ ︷︷ ︸n

=L∑h=1

Nhk = kL∑h=1

Nh︸ ︷︷ ︸N

⇒ n = kN ⇒ k =n

N

La probabilidad de selección πhj =nhNh

=n

Nes la misma para todos los estratos. Así, la probabilidad

de que un individuo sea elegido para estar en la muestra, es la misma que en una muestra aleatoriasimple, pero muchas de las “malas” muestras que podrían aparecer en una muestra aleatoria simpleno puede ocurrir en una muestra estratificada con asignación proporcional.

Afijación de mínima varianza (o afijación de Neyman)

La afijación de mínima varianza o afijación de Neyman consiste en determinar los valores de nh deforma que para un tamaño de muestra fijo igual a n la varianza de los estimadores sea mínima. Esdecir, estamos ante el problema de optimización con restricción siguiente:

minV (θ)

L∑h=1

nh = n

Este problema se resuelve aplicando el método de los multiplicadores de Lagrange, considerando la

Page 94: Download estadistica

9 MUESTREO 92

función lagrangiana siguiente:

φ(nh, λ) = V (θ) + λ

(L∑h=1

nh − n

)

donde θ es cualquiera de los cuatro estimadores que venimos tratando.

Afijación óptima

La afijación óptima consiste en determinar los valores de nh de forma que para un coste fijo C lavarianza de los estimadores sea mínima. El coste fijo C será la suma de los costes derivados de laselección de las unidades muestrales de los estatos, es decir, si ch es el coste por unidad de muestreo enel estrato h, el coste total de selección de las nh unidades muestrales en ese estrato será chnh. Sumandolos costes chnh para los L estratos tenemos el coste total de selección de la muestra estratificada.Estamos nuevamente ante un problema de optimización4 con restricciones:

minV (θ)

L∑h=1

chnh = C

El cual se resuelve aplicando el método de los multiplicadores de Lagrange, considerando la funciónlagrangiana siguente:

φ(nh, λ) = V (θ) + λ

(L∑h=1

chnh − C

)Cuando los estratos son bastante grandes, en general, la varianza de la población de yst bajo la dis-tribución proporcional es a lo más tan grande como la varianza de la población de y, al usar el mismonúmero de observaciones pero reunidas en una muestra aleatoria. Esto es cierto sin importar lo ingen-uo que sea el esquema de estratificación. En realidad, el principal objetivo del muestreo estratificadoes mejorar la precisión de las estimaciones reduciendo los errores de muestreo. Intenta minimizar lavarianza de los estimadores mediante la creación de estratos lo más homogéneos posible entre sus el-ementos y lo más heterogéneos entre sí. Es en este sentido que vemos la conveniencia de los distintostipos de afijación en términos de su eficiencia medida a través del error de muestreo, o lo que es lomismo, a través de la varianza. Por lo tanto será más eficiente aquel tipo de afijación que presentemenos varianza. La comparación según el tipo de afijación es la siguiente:

VMAS (x) ≥ VMEP (x) ≥ VMEMV (x)

Esto es, el muestreo estratificado con afijación de mínima varianza es más preciso que el muestreoestratificado con afijación proporcional y que el aleatorio simple, siendo además el estratificado conafijación proporcional más preciso que el aleatorio simple.

Se podría pensar que, como el muestreo estratificado casi siempre porporciona una precisión

4En realidad, la signación de Neyman es un caso particular de distribución óptima, utilizada cuando los costos de losestratos son aproximadamente iguales.

Page 95: Download estadistica

9 MUESTREO 93

mayor que el muestreo aleatorio simple, no habría necesidad de estraer una muestra aleatoria simple.Sin embargo, la estratificación agrega cierta complejidad a la encuesta. Esta complejidad adicionalpuede no valer la pena para obtener una pequeña ganancia en la precisión. Además, para realizaruna muestra estratificada, necesitamos más información. Para cada estrato debemos saber cuántos ycuáles miembros de la población pertenecen a ese estrato.El número de estratos elegidos depende de muchos factores; por ejemplo, la dificultad para construirun marco de muestreo con la información estratificada y el costo de la estratificación.

Dada la forma en que están definidos los cálculos de los nh para las afijaciones uniforme y propor-cional, dichas afijaciones no van a verse afectadas por el hecho de que el muestreo sea con o sinreposición. Sin embargo, sí variarán las varianzas de los estimadores. Las afijaciones de mínimavarianza y óptima sí van a verse afectadas por la existencia de reposición o no, ya que el cálculo denh depende de las varianzas en los estratos.

Afijación uniformePara este tipo de afijación, las varianzas de los estimadores serán:

V (Xst) =∑L

h=1N2hσ2hk V ( ˆXst) =

∑Lh=1W

2hσ2hk V (Ast) =

∑Lh=1N

2hPhQhk V (Pst) =

∑Lh=1W

2hPhQhk

Afijación proporcionalPara este tipo de afijación, las varianzas de los estimadores serán:

V (Xst) = 1k

∑Lh=1Nhσ

2 V ( ˆXst) = 1k

∑Lh=1Whσ

2h V (Ast) = 1

k

∑Lh=1NhPhQh V (Pst) = 1

n

∑Lh=1Wh

PhQhk

9.5. Muestreo por conglomeradosConsideramos una población finita con M unidades elementales agrupadas en N unidades mayoresllamadas conglomerados o unidades primarias, de tal forma que no existan solapamientos entre losconglomerados y que éstos contengan en todo caso a la población en estudio. En el muestreo mo-noetápico de conglomerados las unidades muestrales son grupos completos de unidades elementales.Consideramos como unidad de muestreo el conglomerado y extraemos de la población una muestrade n conglomerados a partir de la cual estimaremos los parámetros poblacionales.

El número de unidades elementales de un conglomerado se denomina tamaño del conglomerado. Losconglomerados pueden ser de igual o de distinto tamaño5 y han de ser lo más heterogéneos posibledentro de ellos y lo más homogéneos posibles entre ellos, de tal forma que la situalción ideal seríaque un único conglomerado pudiese representar fielmente a la población.

5Los conglomerados son, en la mayoría de las poblaciones, de tamaño desigual; por ejemplo, las viviendas en man-zanas, las personas en viviendas, los empleados en secciones, etc. Los conglomerados de igual tamaño se presentan rarasveces en diseño de muestreo de la naturaleza o la sociedad, pero constituyen una introducción sencilla a la teoría delmuestreo de conglomerados. Aunque suelen ser resultado de condiciones planeadas, tales como los precesos de manufac-tura. En nuestro caso podemos suponer como conglomerados cada departamento y estratificar por el tipo de administracióndel centro educativo.

Page 96: Download estadistica

9 MUESTREO 94

En el muestreo por conglomerados en una etapa, todos o ninguno de los elementos que componen unconglomerado (unidad de muestreo primario) están en la muestra. El muestreo por conglomerados seutiliza en muchas encuestas donde el costo de muestreo de las unidades secundarias6 es despreciableen relación con el costo de muestreo de las unidades primarias. Para las encuestas educativas, unaunidad primaria natural es el salón de clase; con frecuencia, todos los estudiantes de un determinadosalón se incluyen como unidades secundarias, pues se requiere apenas un ligero costo adicional paradar un cuestionario a todos los estudiantes del salón, en vez de a unos cuantos.

Es frecuente que los conglomerados estén definidos como “áreas” o partes bien delimitadas deterreno, de modo que todas las unidades últimas correspondientes al área sean las que constituyen elconglomerado. De aquí que esté generalizada la denominación de muestreo por áreas para designarestos procedimientos de muestreo.

La concentración de unidades disminuye la necesidad de desplazamiento. Pero lo más importantees que para efectuar un muestreo aleatorio simple es necesario disponer de una lista de todos loselementos de la población, y si se trata de muestreo aleatorio estratificado son necesarias listas decada sub población o estrato. En la práctica no suele disponerse de tales listas, y además resultaríamuy costosa, difícil o excesivamente prolongada la confección del listado. Vamos a citar a modo deresumen algunas de las ventajas y desventajas que presenta este tipo de muestreo.

Entre las ventajas más importantes tenemos:

No se necesita un marco muy específico.

El costo por elemento es menor, debido al costo menor de los listados o de localización, oambas cosas.

Se pueden utilizar como marco divisiones territoriales ya establecidas por necesidades admin-istrativas para las cuales existe ya información. También se pueden utilizar como marco áreasgeográficas cuyas carcterísticas están ya muy delimitadas.

Entre las desventajas más importantes tenemos:

La varianza por elemento es mayor, lo que resulta de la homogeneidad de los elementos en losconglomerados.

La eficiencia de este tipo de muestreo disminuye al aumentar el tamaño de los conglomerados,cuando en realidad este tipo de muestreo es más util en caso de poblaciones muy numerosas enlas que se puedan construir conglomerados grandes.

Casi siempre, el muestreo por conglomerados proporciona una menor precisión para los estimadoresque en el caso de una muestra aleatoria simple con el mismo número de elementos. Debe preferirse

6En el muestreo aleatorio simple, las unidades muestreadas son también los elementos observados. En el muestreo porconglomerados, las unidades de muestreo son los conglomerados y los elementos observados constituyen las unidadessecundarias dentro de los cúmulos.

Page 97: Download estadistica

9 MUESTREO 95

trabajar por conglomerados en lugar de emplear una selección individual cuando el menor costo porelemento compense con creces estas desventajas.

Para la estimación de los parámetros poblacionales que venimos tratando, el caso más sencillo seda cuando cada conglomerado tiene el mismo número de elementos, pero como se mencionó antes,suelen ser resultado de condiciones planeadas y pueden aparecer, por ejemplo, en muestreo agrícolae industrial. Sin embargo, los cúmulos de personas que aparecen con mayor naturalidad no se ajustana este marco de referencia y es por eso que trataremos el caso de conglomerados de distinto tamaño.En donde la notación usual es la siguiente:

N número de conglomerados de la población

n número de conglomerados seleccionados en la muestra

Mi número de elementos en el conglomerado i

m =1

n

n∑i=1

Mi tamaño promedio del conglomerado en la muestra

M =N∑i=1

Mi número de elementos de la población

M =M

Ntamaño promedio del conglomerado en la población

xij valor de la variable en la unidad j del i-ésimo conglomerado

9.6. Muestreo sistemáticoPartimos de una población de tamaño N , y agrupamos sus elementos en n zonas de tamaño k (N =nk). Podríamos representar la población como sigue:

i \ j 1 2 3 . . . j . . . k

1 u11 u12 u13 . . . u1j . . . u1k

2 u21 u22 u23 . . . u2j . . . u2k...

......

......

...i ui1 ui2 ui3 . . . uij . . . uik...

......

......

...n un1 un2 un3 . . . unj . . . unk

A continuación se numeran los elementos de la tabla anterior de izquierda a derecha empezando por

Page 98: Download estadistica

9 MUESTREO 96

la primera unidad de la primera fila y pasando a la primera unidad de la fila siguiente cuando se agotacualquierfila. Tendríamos la siguiente estructura:

i \ j 1 2 3 . . . j . . . k

1 u1 u2 u3 . . . u1j . . . uk2 uk+1 uk+2 uk+3 . . . uk+j . . . uk+k

3 u2k+1 u2k+2 u2k+3 . . . u2k+j . . . u2k+k...

......

......

...i u(i−1)k+1 u(i−1)k+2 u(i−1)k+3 . . . u(i−1)k+j . . . u(i−1)k+k...

......

......

...n u(n−1)k+1 u(n−1)k+2 u(n−1)k+3 . . . u(n−1)k+j . . . u(n−1)k+k

Para extraer una muestra de tamaño n, tomamos una unidad al azar entre las k primeras y luegotomamos las subsecuentes a intervalos de k. Es decir, el intervalo k divide a la población en n zonasde k unidades cada una7. Por ejemplo si la unidad seleccionada para la muestra al azar en la primerazona es la tercera, se elegirán las n− 1 unidades restantes para la muestra tomando la tercera unidadde cada zona.

Este tipo de muestreo suele ser de fácil y rápida aplicación y además podemos tener ventajas,con relación al muestreo aleatorio simple o aleatorio estratificado. Lo cual depende mucho de laspropiedades de la población. Esto lo podemos visualizar mejor analizando las varianzas de los esti-madores poblacionales, para lo cual partiremos de la identidad fundamental siguiente:

n∑i=1

k∑j=1

(xij −X)2

︸ ︷︷ ︸Variación total

=n∑i=1

k∑j=1

(xij − xj + xj −X)2 =n∑i=1

k∑j=1

(xij − xj)2

︸ ︷︷ ︸Variación dentro

de muestras

+n∑i=1

k∑j=1

(xj −X)2

︸ ︷︷ ︸Variación entre

muestras

9.7. Números AleatoriosLos números aleatrios son un conjunto de cifras entre 0 y 9 cuyo orden no obedece ninguna regla deformación, ellas se pueden leer individualmente o en grupos y en cualquier orden, en columnas haciaabajo, columnas hacia arriba, en fila, diagonalmente, si se desea formar números aleatorios en undeterminado rango, basta con calcular la proporción, otra forma de usarlo es sumando dos númerostomados de alguna posición o multiplicarlos.Para ser presentadas estas cifras se agrupan en números de 4 dígitos, formando bloques de 5 filas y 10columnas facilitando de esta forma su lectura que puede iniciarse desde cualquier parte de la tabla.

7Si el tamaño de la población N no es un multiplo entero de k, se presenta un problema. Se puede resolver de variasmaneras, entre ellas tenemos:

a. k = Parte entera de N/n.

b. k = (Parte entera de N/n)+1.

c. Considerar la lista como si fuera circular.

Page 99: Download estadistica

9 MUESTREO 97

Una tabla de números aleatorios es útil para seleccionar al azar los individuos de una poblaciónconocida que deben formar parte de una muestra.

9.7.1. Aleatorización

La aleatorización, que permite: (i) la validación del error experimental, (ii) evita sesgos y (iii) garan-tiza la independendencia de los errores.Mediante el uso de una tabla de números aleatorios es posible realizar la aleatorización como seilustra a continuación: Suponga que se tienen N=15 unidades experimentales (UE) homogéneas, paraun experimento bajo un DCA con t=3 tratamientos y r=5 réplicas. Inicialmente asigne los dígitos 01,02, . . ., 15 a las UE, ubique la punta de su lapiz aleatoriamente en cualquier lugar de la tabla denúmeros aleatorios, por decir en la fila 26 columna 5 donde aparece el número 24878, apartir de lodos primeros dígitos (24) empiece a recorrer en cualquier sentido, suponga que se hace hacia abajode la columna donde está el número 24, registre los números de dos cífras (o de tres cífras cuando losrótulos de las UE tengan tres cífras) que esten entre 1 y 15 inclusive. En este caso son: 04, 02, 01,14, 10, continuando desde la parte inferior de la columna (6) hacia arriba se obtiene: 06, 13, siga a laparte superior de la columna (7): 15, 09, 11. Se puede parar aquí ya que se asigna las primeras cinco :04,02,01,14,10 al tratamiento 1, las siguientes cinco:06, 13,15, 09, 11 al tratamiento 2 y las restantesal:03, 05,07,08,12 al tratamiento 3.

Page 100: Download estadistica

10 INFERENCIA ESTADÍSTICA 98

10. Inferencia estadísticaLa Inferencia Estadística es la parte de la estadística encargada de estudiar métodos para la obten-ción de conclusiones generales en la población o poblaciones objeto de investigación, a partir de lainformación que proporciona una muestra.La inferencia estadística se divide en: estimación de parámetros y prueba de hipótesis.Existen dos tipos de estimaciones para parámetros; puntuales y por intervalo.

10.1. Estimación puntualUna estimación puntual es un único valor estadístico y se usa para estimar un parámetro. El estadísticousado se denomina estimador.Por tanto los estimadores puntuales son las medidas descriptivas numéricas aplicadas a las caracterís-ticas de las unidades de la muestra. La estimación hace referencia a los valores numéricos de losparámetros poblacionales desconocidos, a los cuales se llega mediante una muestra.Por ejemplo, la media muestral x es un estimador puntual de la media poblacional µ, la desviaciónmuestral s estima a la desviación poblacional σ y la proporción muestral es un estimador puntual dela proporción poblacional P.

10.1.1. Propiedades deseables de los estimadores puntuales

La distancia entre el estimador y el parámetro a estimar puede medirse mediante el error cuadráticomedio, que se define como el valor esperado del cuadrado de la diferencia entre el estimador y elparámetro.

ECM(θ) = E[θ − θ]2

El ECM puede escribirse como: ECM(θ) = VAR[θ] + [θ − E(θ)]2; una es la varianza del estimador

y la otra el cuadrado del sesgo.InsesgadoUn estimador es insesgado (o centrado) si la esperanza del estimador coincide con el parámetro aestimar E(θ) = θ.ConsistenciaSe dice que un estimador es consistente si se aproxima cada vez más al valor del parámetro a medidaque se aumenta el tamaño de la muestra.

P [(θ − θ) > ε]→ 0; si n→∞, ε→ 0

EficienciaUn estimador será eficiente cuando su varianza sea menor, ya que se concentra más alrededor delverdadero valor del parámetro.SuficienciaSe dice que un estimador es suficiente si se utiliza toda la información relevante contenida en unamuestra para la estimación del parámetro.

Page 101: Download estadistica

10 INFERENCIA ESTADÍSTICA 99

10.2. Estimación por intervalo de confianza de medias y proporcionesNo siempre resulta conveniente realizar la estimación puntual, debido a que no proporciona suficienteinformación acerca del parámetro de interés, ya que un solo número puede no resultar muy significa-tivo, es decir, que no puede estimar con exactitud el valor del parámetro de la población. Sin embargo,no se puede considerar que un estimador puntual obtenido a partir de una muestra grande, llegue aser exactamente igual al valor del parámetro de la población. Por esta razón resulta más convenientedeterminar un intervalo dentro del cual se esperaría que se encuentre el valor del parámetro, a estemétodo se le conoce como estimación por intervalo.A los estimadores por intervalo generalmente se les llama intervalos de confianza, este contiene unconjunto de valores posibles del parámetro a estimar obtenidos a partir de la muestra aleatoria de lacual se determina el estadístico de interés. Para llevar a cabo la estimación por intervalo es necesarioconocer: el nivel de confianza y el error estándar.

10.2.1. Intervalo de confianza para la media poblacional, σ conocida (n ≥ 30)

Si se dispone de una población que tiene una variable aleatoria X con distribución N(µ, σ) y conσconocida, y anteriormente se estudió que la distribución muestral de las medias corresponde a:

X ∼ N

(µ,

σ√n

)Se quiere estimar la media poblacional µ a partir de la media muestral x, obteniendo para ello unintervalo de forma que tenga una probabilidad alta de que la media poblacional esté en dicho intervalo.Tipificando la expresión anterior:

Z =X − µ

σ√n

∼ N(0, 1)

Si se fija una probabilidad α, se puede obtener ˘z y z que limitan un área de valor 1− α. Despejandoµ se obtiene el intervalo de confianza para la media poblacional:

Figura 25: Intervalo de confianza para µ con σ conocido

De un total de k muestras seleccionadas de una población, se definen K medias aritméticas, queconstituyen el 100 % de medias, de las cuales con una de ellas se estima µ con un nivel de confianza

Page 102: Download estadistica

10 INFERENCIA ESTADÍSTICA 100

de (1−α)100 % . A continuación se ilustra con un nivel de confianza del 95 % como se comportaríanlos intervalos construidos por cada media muestral al estimar a µ.

Figura 26: Interpretación del nivel de confianza en un intervalo para la media de una distribuciónnormal

Ejemplo 10.1. Una institución gubernamental realizó una encuesta para estimar el gasto promedioque los fumadores invierten en cigarrillos durante una semana. Un muestra de 49 fumadores revelóque el gasto promedio es de $20.00 con una desviación de $ 5.00.

a) ¿Cuál es el estimador puntual de la media poblacional?

b) Utilizando un nivel de confianza del 95 %, determinar el intervalo de confianza para µ , interpreteel resultado.

c) Suponga que la muestra es de 64 fumadores, con base a la información del ejemplo, determine elestimador puntual y el intervalo de confianza.

10.2.2. Intervalo de confianza para la media poblacional, σ es desconocida (n ≥ 30)

Sustituimos el valor de σ por la desviación estándar de la muestra s y los límites del intervalo de µ seencuentran mediante la expresión:

x± Zα/2s√n

Ejemplo 10.2. De un grupo de 300 estudiantes de nuevo ingreso en una Instituto Nacional, seseleccionaron de manera aleatoria 30 calificaciones de matemática, las que a continuación sepresentan:

71 49 78 58 82 53 75 73 58 7457 70 76 62 71 54 62 86 58 8650 73 64 68 56 45 72 65 87 56

Construya un intervalo de confianza del 99 % para la calificación promedio de la población

Page 103: Download estadistica

10 INFERENCIA ESTADÍSTICA 101

10.2.3. Intervalo de confianza para estimar la diferencia de medias poblacionales (µx − µy)

Se puede aplicar un argumento similar en lo planteado anteriormente para desarrollar el intervalo deconfianza para estimar a (µx−µy), es necesario definir la varianza V (x− y) = σ2

x

nx+

σ2y

ny, si se conoce

las variancias poblacionales, en caso de no conocerlas se sustituyen por las desviaciones muestralesV (x− y) = s2x

nx+

s2yny

.El intervalo de confianza para la diferencia de medias se expresan como sigue:

x− y ± zα/2

√s2x

nx+s2y

ny

Ejemplo 10.3. En un estudio para comparar los pesos promedio de niños y niñas de sexto grado enuna escuela primaria se seleccionó una muestra aleatoria de 20 niños y otra de 25 niñas. Se sabeque tanto para niños como para niñas los pesos siguen una distribución normal. El promedio de lospesos de todos los niños de sexto grado de esa escuela es de 90 libras y su desviación estándar es de8 libras, mientras que el promedio de los pesos de todas las niñas del sexto grado de esa escuela esde 80 libras y su desviación estándar es de 6 libras.Encuentre el intervalo de confianza de la diferencia de los pesos promedio de los niños y niñas conun nivel de confianza del 99 %

10.2.4. Estimación por intervalo para proporciones

Si el estadístico es la proporción de “éxitos“ en una muestra de tamaño n ≥ 30 extraída de unapoblación binomial en la que P es la proporción de éxito (es decir, la probabilidad de éxito), loslímites de confianza para P vienen dados por p ± zα/2σp donde p es la proporción de éxitos en lamuestra de tamaño n. El intervalo de confianza del (1 − α)100 % para estimar una proporción P, seexpresa como:

p− zα/2σp < P < p+ zα/2σp

Donde σp es el error estándar de la proporción, el cual mide la variabilidad en la distribución demuestreo de la proporción muestral se representa como:

σp =

√pq

n

Ejemplo 10.4. Un partido político pretende conocer la intención de voto de cara a las próximaselecciones. Para ello encarga un sondeo sobre un total de 230 personas, de las que 69 contestan quevotarían.

a) Hallar un intervalo de confianza del 90 % para la verdadera proporción población.

b) Encuentre un intervalo de confianza del 99 % para la proporción poblacional.

Page 104: Download estadistica

10 INFERENCIA ESTADÍSTICA 102

10.2.5. Estimación por intervalo para diferencias de proporciones

Un intervalo de confianza para la diferencia de proporciones se obtiene aplicando la fórmula siguiente:

px − py ± zα/2

√pxqxnx

+py qyny

Ejemplo 10.5. Una muestra aleatoria de 400 adultos y 600 adolescentes que ven un cierto programade televisión. 100 adultos y 300 adolescentes dijeron que les gustaba. Hallar los límites de confianzadel 95 % y del 99 % para la diferencia de proporciones de todos los adultos y adolescentes que ven elprograma y les gusta.

10.2.6. Estimación de µ para muestas pequeñas (n < 30)

Si la muestra es pequeña (n < 30) sus valores promedios se aproximan a una distribución t-student.Para construir intervalos de confianza para la media poblacional µ, con muestras pequeñas normal-mente distribuidas, debe utilizarse la distribución t- student, la cual es similar a la normal, pero suforma depende del tamaño n de muestra.El intervalo de confianza para µ se encuentra utilizando la expresión:

Px− t(α/2;n−1)s√n≤ µ ≤ x+ t(α/2;n−1)

s√n = 1− α

Ejemplo 10.6. Los ingresos mensuales de las familias de una comunidad se encuentran distribuidosnormalmente. De esta se seleccionó una muestra de 16 familias para estimar el ingreso promediomensual. De la información de la muestra se obtuvo una desviación estándar de $12 y una media de$300.

a) Encuentre un intervalo de confianza del 95 % para el ingreso promedio de las familias de lacomunidad.

b) Encuentre un intervalo de confianza del 99 % para el ingreso promedio de las familias de lacomunidad.

c) ¿Qué conclusión realiza de los resultados obtenidos en a) y b)?

10.2.7. Intervalos de confianza para diferencia de medias poblacionales (n < 30)

Los intervalos de confianza para la diferencia de medias poblacionales en muestras pequeñas normal-mente distribuidas, utilizan la distribución t- student y se calculan aplicando la expresión siguiente:

(x− y)± t(α/2;n−1)

√s2x

nx+s2y

ny

Ejemplo 10.7. Una muestra de tamaño 10 de una población de mujeres presenta una altura mediade 156 cm y una muestra de 12 hombres de otra población presenta una altura media de 160 cm.Sabiendo que ambas poblaciones son normales con desviaciones de 5 cm y 7 cm respectivamente.

a) Determine el intervalo para diferencias de las medias poblacionales para el 90 % de confianza

b) ¿Qué conclusión realiza al respecto de las alturas de las mujeres y hombres?

Page 105: Download estadistica

10 INFERENCIA ESTADÍSTICA 103

10.2.8. Intervalos de confianza para una proporción poblacional P (n < 30)

Los intervalos de confianza para proporciones se obtienen mediante la fórmula siguiente:

p± t(α/2;n−1)

√pq

n

Ejemplo 10.8. La oficina gubernamental de salud desea realizar una campaña a fin de disminuirel porcentaje de funcionarios públicos que tienen el hábito de fumar en horas de trabajo, para ellodecide realizar una investigación por muestreo a 28 funcionarios, encontrando que 16 de ellos fuman.

a) Determinar el intervalo de confianza del 90 % con respecto a la proporción de funcionarios quefuman.

b) Determinar el intervalo de confianza del 99 % con respecto a la proporción de funcionarios quefuman.

10.3. Prueba de hipótesis estadísticas10.3.1. Definición de pruebas de hipótesis y tipo de error

Definición 10.1. “La prueba de hipótesis es un procedimiento que se basa en la evidencia de lasmuestras y en la teoría de probabilidad para determinar si la hipótesis es un enunciado razonable”8.

TIPOS DE HIPÓTESIS ESTADÍSTICAS:

Hipótesis nula (H0) : Es una afirmación respecto del valor de un párametro de la población.

Hipótesis alternativa(H1): Es una afirmación que se acepta si los datos de la muestra proporcio-nan evidecia suficiente de que la hipótesis nula es falsa.

TIPOS DE ERROR: En la prueba de hipótesis existen dos tipos de error:

Error tipo I(α): Es la probabilidad de rechazar la hipótesis nula, cuando esta es verdadera.

Error tipo II (β): Es la probabilidad de aceptar la hipótesis nula, cuando esta es falsa.

En la tabla (4) se observan las consecuencias al tomar decisiones con respecto a pruebas de hipótesis.

Tabla 4: Resumen de las decisiones que el investigador puede tomar en la prueba de hipótesis

Estado de la Hipótesis nulaDECISIÓN DEL INVESTIGADOR

Acepta H0 Rechaza H0

H0 es verdadera Decisión correcta Error tipo IH0 es falsa Error tipo II Decisión correcta

8Douglas Lind. Estadística para Administración y Economía.México D.F, Editorial Mc. Graw Hill, 2005, pág. 318.

Page 106: Download estadistica

10 INFERENCIA ESTADÍSTICA 104

10.3.2. Procedimiento para probar hipótesis estadísticas

Para probar hipótesis estadísticas se deben seguir los siguientes pasos:Paso 1: Formular las hipótesis estadísticasH0: Hipótesis nulaH1: Hipótesis alternativaPaso2: Elección de la prueba de hipótesis con su modelo estadísticoToda prueba de hipótesis estadística está asociada a un modelo estadístico de acuerdo al tamaño demuestra y dependiendo del parámetro poblacional en el que se basa la prueba de hipótesis estadística.Los modelos estadísticos que generalmente se utilizan en la prueba de hipótesis parámetricas son lasdistribuciones normales, t-student y chi-cuadrado.Paso 3: Calcular el estadístico de pruebaEs el valor que se calcula en función de los datos de la muestra y se utiliza para determinar si se va arechazar la hipótesis nula.Paso 4: Seleccionar el nivel de significanciaEl nivel de significancia: es la probabilidad de rechazar la hipótesis nula cuando esta es verdadera.Al realizar la prueba de hipótesis se tiene como propósito aceptar o rechazar la hipótesis nula, para estodebe elegirse de acuerdo a criterios específico del investigador un margen de riesgo de equivocarse alrechazr la hipótesis nula cuando esta es verdadera.Generalmente se eligen valores α ∈ [0.01, 0.05] este valor se utilizará para determinar la región críticao de rechazo de H0.Paso 5: Establecer la región crítica o de rechazo(formular la regla de decisión) Esta formada porun conjunto de valores para los cuales se rechazará la hipótesis nula.Paso 6: Toma de decisiones La decisión de aceptar o rechazar la hipótesis nula se basa en el estadís-tico de prueba calculado a partir de los datos de la muestra.Si el valor calculado del estadístico se localiza en la región de rechazo, se rechaza la hipótesis nulay se acepta la hipótesis alternativa. Pero si el valor del estadístico no se encuentra en la región derechazo, entonces, se acepta la hipótesis nula y, es decir no se tiene suficiente evidencia para rechazarla hipótesis nula.Cualquier decisión que se toma está sujeta a cierto margen de incertidumbre ya que la inferencia serealiza a partir de una muestra.

10.3.3. Prueba de hipótesis para muestras grandes

Prueba de hipótesis para µ en muestras grandes Resulta conveniente aplicar este método de prue-ba cuando la hipótesis sobre el problema en estudio, está enfocado a realizar inferencias respecto ala media de la población y los datos obtenidos en la investigación cumplen con las siguientes condi-ciones:

El tamaño de la muestra es grande y proviene de una población normalmente distribuida

Desviación estándar de la población desconocida

Page 107: Download estadistica

10 INFERENCIA ESTADÍSTICA 105

Procedimiento:

1) Formulación de la hipótesisH0: µ = µ0 (µ0 es la constante hipotética para la media poblacional)H1: Puede tomar una de las hipótesis alternativas siguientes:

Unilateral derecha Unilateral izquierda Bilateralµ > µ0 µ < µ0 µ 6= µ0

2) Calcular el estadístico de prueba

z = x−µ0s√n

3) Elegir el nivel de significancia, si no ha sido especificado

4) Encontrar la región de rechazo asociada al nivel de significancia y utilizando las tablas de ladistribución normal

La región crítica o de rechazo dependerá del tipo de hipótesis alternativa formulada para elproblema en estudio. A continuación mencionamos los diferentes hipótesis alternativas con suscorrespondientes regiones de rechazo.

Tabla 5: Prueba de hipótesis para µHipótesis nula H0 Hipótesis alternativa H1 Región de rechazo de H0

µ = µ0

µ > µ0 Z > Zαµ < µ0 Z < −Zαµ 6= µ0 Z > Zα/2 o Z < −Zα/2

5) Tomar la decisión correspondiente basada en el estadístico de prueba y la región crítica

Ejemplo 10.9. La dirección médica de una clínica toma una muestra aleatoria de 500 medicionesacerca del tiempo de hospitalización, resultando una media muestral de 5.4 días y una desviaciónestándar de 3.1 días. La dirección médica supone que el promedio de tiempo de hospitalización esmayor de 5 días. Apoya esta información la hipótesis con un nivel de significancia del 0.05

Prueba de hipótesis para una proporción en muestras grandes Este método de prueba se puedeaplicar cuando la hipótesis sobre el problema en estudio, está enfocado a realizar inferencias respectoa la proporción de la población y los datos obtenidos en la investigación cumplen con las siguientescondiciones:

El tamaño de la muestra es grande y proviene de una población normalmente distribuida.

Que la variable aleatoria tenga solamente dos posibles resultados.

Cuando el interés del investigador sea probar que una parte o proporción de la muestra tengaun valor especifico.

Page 108: Download estadistica

10 INFERENCIA ESTADÍSTICA 106

Procedimiento:

1) Formulación de la hipótesisH0: P = P0 (donde P0 es la constante hipotética para la proporción poblacional)H1: Puede tomar una de las hipótesis alternativas siguientes:

Unilateral derecha Unilateral izquierda BilateralP > P0 P < P0 P 6= P0

2) Calcular el estadístico de prueba

z = P−P0√p(1−p)n

3) Elegir el nivel de significancia, si no ha sido especificado

4) Encontrar la región de rechazo asociada al nivel de significancia y utilizando las tablas de ladistribución normal

La región crítica o de rechazo dependerá del tipo de hipótesis alternativa formulada para elproblema en estudio.

Tabla 6: Prueba de hipótesis para PHipótesis nula H0 Hipótesis alternativa H1 Región de rechazo de H0

P = P0

P > P0 Z > ZαP < P0 Z < −ZαP 6= P0 Z > Zα/2 o Z < −Zα/2

5) Tomar la decisión correspondiente basada en el estadístico de prueba y la región crítica

Ejemplo 10.10. Por estadísticas que se tienen, se ha podido establecer que más del 40 % de losjóvenes toman regularmente Coca-Cola, cuando tienen sed. Una muestra aleatoria de 450 jóvenesreveló que 207 de ellos solían tomar dicha bebida cuando tenían sed. ¿Cuál podría ser su conclusiónal nivel del 1 % de significancia acerca de lo que muestran las estadísticas?

10.3.4. Prueba de hipótesis para muestras pequeñas y distribución t de Student

Prueba de hipótesis para una media poblacional en muestras pequeñas Este es otro de los méto-dos de inferencia estadística cuando se quiere probar la media de una población. Las condiciones aconsiderar para utilizar este método de prueba son las siguientes:

El tamaño de la muestra es pequeña (n < 30) y proviene de una población normalmente dis-tribuida.

Se desconoce la varianza poblacional, la cual se estima mediante la varianza muestral.

Page 109: Download estadistica

10 INFERENCIA ESTADÍSTICA 107

Procedimiento:

1) Formulación de la hipótesisH0: µ = µ0 (µ0 es la constante hipotética para la media poblacional)H1: Puede tomar una de las hipótesis alternativas siguientes:

Unilateral derecha Unilateral izquierda Bilateralµ > µ0 µ < µ0 µ 6= µ0

2) Calcular el estadístico de prueba

t = x−µ0s√n

3) Elegir el nivel de significancia, si no ha sido especificado

4) Encontrar la región de rechazo asociada al nivel de significancia y utilizando las tablas de ladistribución t de student

La región crítica o de rechazo dependerá del tipo de hipótesis alternativa formulada para elproblema en estudio.

Tabla 7: Prueba de hipótesis para µ en muestras pequeñasHipótesis nula H0 Hipótesis alternativa H1 Región de rechazo de H0

µ = µ0

µ > µ0 t > tα,n−1

µ < µ0 t < −tα,n−1

µ 6= µ0 t > tα/2,n−1 o t < −tα/2,n−1

5) Tomar la decisión correspondiente basada en el estadístico de prueba y la región crítica

Ejemplo 10.11. Una distribuidora de gas ofrece a sus clientes el servicio en un máximo de esperade 48 horas. Se toma una muestra de seis hogares que hicieron pedidos y se encontró lo siguiente:24,20, 60, 72, 40, 30 horas de espera. ¿Se puede creer lo ofrecido por la distribuidora?

Prueba de hipótesis para una proporción en muestras pequeñas Este método de prueba se puedeutilizar bajo las siguientes condiciones:

El tamaño de la muestra es pequeña y proviene de una población normalmente distribuida.

Que la variable aleatoria tenga solamente dos posibles resultados.

Cuando el interés del investigador sea probar que una parte o proporción de la muestra tengaun valor especifico.

Page 110: Download estadistica

10 INFERENCIA ESTADÍSTICA 108

Procedimiento:

1) Formulación de la hipótesisH0: P = P0 (P0 es la constante hipotética para la media poblacional)H1: Puede tomar una de las hipótesis alternativas siguientes:

Unilateral derecha Unilateral izquierda BilateralP > P0 P < P0 P 6= P0

2) Calcular el estadístico de prueba

t = p−P0√p(1−p)n

3) Elegir el nivel de significancia, si no ha sido especificado

4) Encontrar la región de rechazo asociada al nivel de significancia y utilizando las tablas de ladistribución t de student

La región crítica o de rechazo dependerá del tipo de hipótesis alternativa formulada para elproblema en estudio.

Tabla 8: Prueba de hipótesis para P en muestras pequeñasHipótesis nula H0 Hipótesis alternativa H1 Región de rechazo de H0

P = P0

P > P0 t > tα,n−1

P < P0 t < −tα,n−1

P 6= P0 t > tα/2,n−1 o t < −tα/2,n−1

5) Tomar la decisión correspondiente basada en el estadístico de prueba y la región crítica

Ejemplo 10.12. El Gerente de una corporación de ahorros argumenta que menos del 30 % de losclientes poseen un saldo superior a los $50,000. Desea confirmar tal apreciación, mediante unamuestra aleatoria a 20 clientes elegidos al azar, de los cuales 8 tienen saldo superior a los $50,000.Con un nivel de confianza del 5 % ¿se podrá decir que menos del 30 % de ahorradores tienen saldossuperiores a la afirmación hecha por el gerente?

Page 111: Download estadistica

11 DISTRIBUCIONES BIDIMENSIONALES 109

11. Distribuciones bidimensionalesSupongamos que en una población, y para un conjunto de n individuos, se miden dos caracteres X eY :

(x1, y1), (x2, y2) · · · , (xn, yn)

En este caso tenemos una variable estadística bidimensional o distribución bidimensional de frecuen-cias, la cual representaremos por (X, Y). Cuando se cuenta con una gran cantidad de datos, un modode presentar la distribución bidimensional es a través de una tabla de doble entrada de la forma:

X \ Y y1 y2 . . . yj . . . yk Totalx1 n11 n12 . . . n1j . . . n1k n1+

x2 n21 n22 . . . n2j . . . n2k n2+...

......

......

xi ni1 ni2 . . . nij . . . nik ni+...

......

......

...xl nl1 nl2 . . . nlj . . . nlk nl+

Total n+1 n+2 . . . n+j . . . n+k n

Donde los valores de X e Y pueden venir dados en intervalos, al igual que en el caso de una dimensión.En el caso de que las dos variables sean atributos, la tabla anterior recibe el nombre de tabla de con-tingencia. A continuación se presentan las tablas de contingencia y posteriormente las distribucionesmarginales y condicionales para variables numéricas.

11.1. Tablas de contingenciaMuy a menudo los datos de un estudio estadístico se presentan agrupados en categorías siendo el ob-jeto comparar sus frecuencias con un cierto patrón o entre ellas, para ver si es posible concluir que lapoblación tiene determinadas características. En definitiva se van a realizar contrastes de independen-cia de caracteres, en el que se juzga la independencia de dos variables observadas en los individuosde una población.

11.1.1. Contraste de independencia de caracteres

Para realizar el contraste de independencia entre dos caracteres de los individuos de una población,se supone que cada individuo puede clasificarse en a modalidades de un primer atributo A y en bmodalidades según otro criterio B. Los n individuos de una muestra aparecen, por tanto, clasificadosen una tabla de contingencia de la forma:

En este documento se utilizará indistintamente ni. = ni+ =∑k

j=1 nij o n.j = n+j =∑l

i=1 nij . Elinteres es conocer si existe dependencia entre dos características A y B de una población, en dondecada una de ellas presentan a y b categorías, respectivamente. Para ello se pretende contrastar lahipótesis:H0: A y B son independientes H1: A y B no son independientes.

Page 112: Download estadistica

11 DISTRIBUCIONES BIDIMENSIONALES 110

A \ B 1 2 3 . . . b1 n11 n12 n13 . . . n1b n1.

2 n21 n22 n23 . . . n2b n2.

3 n31 n32 n33 . . . n3b n3....

......

......

...a ni1 ni2 ni3 . . . nab na.

n.1 n.2 n.3 . . . n.b n

Si designamos por pij: la probabilidad de que un elemento de la muestra presente las característicasAi y Bj , es decir, pij = P (Ai ∩Bj) = pi.p.j para cualquier i, j. Los estimadores máximo verosimilesde pi. y p.j son:

pi. =ni.n, i = 1, 2, ..., a, p.j =

n.jn, j = 1, 2, ..., b.

El estadístico de Pearson que se utiliza para realizar este contraste es el siguiente:

χ2 =a∑i=1

b∑j=1

(Oij − Eij)2

Eij=

a∑i=1

b∑j=1

(nij − ni.n.j

n

)2

ni.n.jn

≈ χ2(a−1)(b−1)

y tiene una distribución χ2 con (a − 1)(b − 1) grados de libertad. Se rechaza H0 si el estadístico dePearson es mayor que χ2

(a−1)(b−1),1−α.

Ejemplo.Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se seleccionó unamuestra aleatoria simple de 100 jóvenes, con los siguientes resultados:

Deportista \ Depresión NO SISI 38 9 47

NO 31 22 5369 31 100

Realice el contraste de hipótesis con α = 0.05.

Solución.Las hipótesis son:

H0: La depresión es independiente de la práctica de algún deporte.H1: La depresión depende de la práctica de algún deporte.El estadístico de prueba está dado por:

χ2 =2∑i=1

2∑j=1

(nij − ni.n.j

n

)2

ni.n.jn

y toma el valor de:

Page 113: Download estadistica

11 DISTRIBUCIONES BIDIMENSIONALES 111

χ2 =

(38− 47∗69

100

)2

47∗69100

+

(9− 47∗31

100

)2

47∗31100

+

(31− 53∗69

100

)2

53∗69100

+

(22− 53∗31

100

)2

53∗31100

= 5.823

El estadístico χ2 tiene una distribución χ21 (Chi-cuadrado con 1 grado de libertad), así que el valor

de la χ21,0.05 = 3.841 (Valor de la tabla Chi-cuadrado). Como el valor del estadístico χ2 = 5.823 es

mayor que el valor de tabla χ21,0.05 = 3.841 se rechaza la independencia, es decir, que la depresión

depende de si realizas algún tipo de deporte.

11.1.2. Distribuciones marginales y condicionales

Dada una variable estadística bidimensional, las distribuciones marginales permiten estudiar de unmodo aislado cada una de las componentes. A partir de una tabla de doble entrada, las distribucionesde frecuencias marginales se obtienen sumando las frecuencias de la tabla por filas y por columnas.

Las distribuciones condicionadas permiten estudiar el comportamiento de una de las variables cuandola otra permanece constante. Vienen dadas por:

Una distribución de frecuencias bidimensional es el conjunto de valores de la variable (X, Y),junto con sus correspondientes frecuencias. Se denota por (xi, yj, nij) o bien (xi, yj, fij), según seutilicen las frecuencias conjuntas absolutas o relativas.

La frecuencia relativa conjunta, marginales y condicionales vienen dadas por: fij =nijn

; fi. = ni.n

obien f.j = n.j

n; y fi/j =

ni/jn.j

=fijf.j

o bien fj/i =nj/ini.

=fijfi.

, respectivamente.Dada una distribución de frecuencias (xi, yj; fij), las variables X e Y son estadísticamente indepen-dientes, si para cualesquiera i y j, se cumple: fij = fi.f.j o bien fi/j = fi. o fj/i = f.j .

Page 114: Download estadistica

11 DISTRIBUCIONES BIDIMENSIONALES 112

11.2. Correlación y predicciónPara hacer un estudio conjunto de dos variables cuantitativas X e Y, supondremos que disponemos deuna muestra de n pares de observaciones de X e Y:

(x1, y1), (x2, y2) · · · , (xn, yn)

Antes de hacer cualquier cálculo, conviene representar en el plano los pares de valores obtenidos. Conesto obtenemos una nube de puntos (Diagrama de dispersión), que nos puede dar una idea visual delas posibles relaciones existentes.

Figura 27: Diagrama de dispersión

Cuando se observa el comportamiento conjunto de dos variables, el objetivo principal es determinar siexiste o no algún tipo de variación conjunta o covariación entre ellas. La covarianza muestral, ayudaa cuantificar la asociación entre dos variables. La covarianza muestral se define como:

Cov(X, Y ) = Sxy =1

n

n∑i=1

(xi − x) (yi − y) =1

n

n∑i=1

xiyi − xy

Interpretación.

1. Si la Cov(X, Y ) > 0, existe una tendencia a que mayores observaciones de una de las variablesse correspondan con mayores observaciones de la otra variable.

2. Si Cov(X, Y ) < 0, existirá una tendencia a que mayores observaciones de una variable secorrespondan con menores observaciones de la otra variable.

3. Si Cov(X, Y ) = 0, no se puede concluir que no exista relación entra ambas variables. Pero sepuede decir que no existe relación lineal entre las variables.

Suponemos que Cov(X, Y ) 6= 0,indica que existe relación lineal entre las variables, la preguntaque surge es ¿Cómo de grande es la relación entre X e Y y cómo cuantificarla? El coeficiente decorrelación lineal es un valor que permite estudiar el grado de dependencia lineal existente entre X eY. Viene definido por:

r =Cov(X, Y )

SxSy=

1n

∑ni=1 (xi − x) (yi − y)√

1n

∑ni=1 (xi − x)2 1

n

∑ni=1 (yi − y)2

Page 115: Download estadistica

11 DISTRIBUCIONES BIDIMENSIONALES 113

Una propiedad importante del coeficiente de correlación es que no depende de cambios de origen yescala, y su valor siempre está comprendido entre -1 y 1 (−1 ≤ r ≤ 1).De modo que valores de r cercanos a 1 indican una dependencia lineal y positiva entre las dos vari-ables, y valores de r cercanos a -1 indican dependencia lineal negativa. Cuando el valor de r estácercano a cero, no existe dependencia lineal entre X e Y. Esto último puede ser, bien porque X e Yson variables independientes, o bien porque la dependencia existente entre ambas variables es de otrotipo diferente al lineal.

11.3. Modelos de regresión lineal: Línea de tendenciaEn este tipo de regresión se desea caracterizar el efecto lineal de una única variable explicativa sobrela variable respuesta. Los pasos para efectuar un análisis son los siguientes:

1. Representación gráfica de datos

2. Planteamiento del modelo

3. Estimación de la ecuación de predicción

4. Examen de la adecuación del modelo lineal

El modelo de regresión lineal simple tiene un solo regresor X (variable independiente) que tiene unarelación con una respuesta Y (variable dependiente), donde la relación es una línea recta. Este modelode regresión lineal poblacional es:

Y = β0 + β1X + ε

Donde la ordenada al origen β0 y la pendiente β1 son constantes desconocidas, y ε es una componentealeatorio del error. Se supone que los errores tienen promedio cero y varianza constante desconocida.Además se suele suponer que los errores no están correlacionados. Esto quiere decir que el valor deun error no depende del valor de cualquier otro error.

11.4. Estimación de los parámetros por mínimos cuadradosLa idea de la recta de regresión es sencilla: intentamos encontrar la recta que mejor represente a lanube de puntos, en el sentido de minimizar la suma de los cuadrados de las distancias verticales delos diferentes punto de la nube a la recta.Definición. La recta de regresión de Y sobre X es la recta y = a+bx, donde a y b son los estimadoresmínimos cuadráticos de β0 y β1, respectivamente. El criterio de mínimos cuadrados es:

mınS(β0, β1) = mınβ0,β1

n∑i=1

ε2i = mınβ0,β1

n∑i=1

(yi − β0 − β1xi)2

Derivando con respecto a β0 y β1, e igualando a cero, se obtienen las expresiones para a y b, esto es:

a = y − Cov(x, y)

Sxx b =

Cov(x, y)

S2x

Por tanto, la recta de regresión de Y sobre X es:

Page 116: Download estadistica

11 DISTRIBUCIONES BIDIMENSIONALES 114

y = a+ bx = y − Cov(x, y)

S2x

x+Cov(x, y)

S2x

x

La diferencia entre el valor observado yi y el valor ajustado correspondiente yi se llama residual,matemáticamente el i-ésimo residual es: ei = yi − yi = yi − (a + bxi), i = 1, 2, · · · , n, ei tieneun papel importante para investigar la adecuación del modelo de regresión ajustado, ya que debecumplir los supuestos de los errores del modelo.

Coeficiente de determinación (r2). La cantidad r2 = SCRegSCT

= 1 − SCResSCT

. Se llama coeficiente dedeterminación, donde:

SCRes =n∑i=1

e2i =

n∑i=1

(yi − yi)2 ; SCT =n∑i=1

(yi − y)2

r2: se interpreta como la proporción de la variación explicada por la variable independiente x, tomavalores entre cero y 1.

Por otra parte, la suma de cuadrados de regresión está dada por:

SCReg =n∑i=1

(yi − y)2

y se verifica que:

SCT =n∑i=1

(yi − y)2 = SCReg + SCRes =n∑i=1

(yi − y)2 +n∑i=1

(yi − yi)2

Ejemplo. Se tienen las puntuaciones por acceso a un servicio médico (X) y el grado de salud (Y ) de15 personas. Se supone que el grado de salud depende del acceso al servicio médico. Los datos sepresentan en la siguiente tabla:

Puntuación Puntuación Puntuación Puntuación Puntuación Puntuaciónpor acceso por salud por acceso por salud por acceso por salud

3 2 7 5 2 26 6 8 7 4 313 9 13 10 5 41 1 10 8 11 94 5 3 4 9 8

Realizar un diagrama de dispersión, a fin de observar la relación entre las variables X, Y .Es evidente la relación lineal entre el grado de salud y el acceso al servicio médico. Para medir elgrado de relación lineal entre X e Y , se obtiene el coeficiente de correlación:

r =152.2√

(215.6)(115.73)= 0.964

Page 117: Download estadistica

11 DISTRIBUCIONES BIDIMENSIONALES 115

Este valor se interpreta como, el 96.4 % de los datos están correlacionados linealmente y de manerapositiva. Ahora, se ajustar el modelo de regresión lineal (modelo de predicción), el cual está dadopor:

y = a+ bx = 0.8744 + 0.7059x

A partir de este modelo se obtienen las puntuaciones de salud previstas, y, y con ello las siguientesmedidas:

1. Suma de cuadrados de regresión

SCReg =n∑i=1

(yi − y)2 = 107.4322

2. Suma de cuadrados residuales

SCRes =n∑i=1

e2i =

n∑i=1

(yi − yi)2 = 8.2898

3. Utilizando estos dos resultados se tiene que:

SCT =n∑i=1

(yi − y)2 = 107.4322 + 8.2898 = 115.772

Ahora, dividiendo por n − 2 la suma de cuadrados residuales y luego obtener la raíz cuadrada, setiene: √

SCRes

n− 2=

√∑ni=1 e

2i

n− 2=

√∑ni=1(yi − yi)2

n− 2=

√8.2898

15− 2= 0.7985

este valor se interpreta como la medida del error total en la predicción de las puntuaciones de ungrupo de n sujetos, ya que este valor es pequeño, es decir, 0.7985, el modelo es aceptable para pre-decir. Sin embargo, la medida que se utiliza para indicar la bondad del modelo es el coeficiente dedeterminación, esto es:

Page 118: Download estadistica

11 DISTRIBUCIONES BIDIMENSIONALES 116

r2 =SCReg

SCT= 1− SCRes

SCT= 1− 8.2898

115.772= 0.928

Esto significa que aproximadamente el 93 % de la variación de las puntuaciones de salud estuvorelacionada con las puntuaciones de acceso a servicios médicos del individuo. Por otra parte, tambiénsignifica que aproximadamente el 7 % de esta variación no se explica por el acceso a serviciosmédicos y, por consiguiente, debe atribuirse a otros factores desconocidos.

Page 119: Download estadistica

12 PROBLEMAS PROPUESTOS 117

12. Problemas propuestos

12.1. Introducción a la estadística12.1.1. Guía de Trabajo No. 1

1. El responsable del curso, deberá recortar o fotocopiar de periódicos, revistas o libros algunosartículos estadísticos (con datos) que traten de preferencia problemas de nuestro entorno o re-alidad. Los podrás reconocer por la presencia de gráficos de números, como promedios, por-centajes, etcétera.

2. El responsable del curso, organizará a los alumnos en grupos de 2 o 3 integrantes.

3. El responsable del curso, distribuirá aleatoriamente (rifará) los artículos o temas entre los gru-pos.

4. Cada grupo discutirá y analizará el artículo o tema que eligió, y contestará por escrito las sigu-ientes preguntas:

a) ¿Cuál es el tema o problema que se estudia en el artículo?

b) ¿Cuáles son los individuos u objetos sobre los que se realiza el estudio o investigación?

c) ¿Identifique qué características comunes se estudian en los individuos u objetos?

d) ¿Cómo cree que han sido obtenidos o generados los datos que presenta el artículo?

e) ¿Cómo son presentados los datos o información?

f) ¿Considerando la información proporcionada en el artículo, qué conclusiones se planteansobre el problema o tema tratado?

g) ¿Qué crítica puede hacer al artículo analizado? Por ejemplo:

I) qué puede decir de la(s) característíca(s) que se estudia(n), de la población la muestra.II) qué puede decir del método de recolección de los datos.

III) si el artículo contiene tablas con datos, estas tablas contienen toda la informaciónnecesaria para su lectura e interpretación.

IV) si el artículo contiene gráficos con datos, hay que analizar si las gráficas son en-gañosas ya que algunas veces se toman dos escalas diferentes para graficar el fenó-meno, una para el eje horizontal y otra para el eje vertical, y esto puede llevar ainferencias falsas.

V) son válidas las conclusiones planteadas?

NOTA: El tiempo estimado para realizar este trabajo será de 40 minutos.

5. Cada grupo tendrá 5 o 7 minutos para exponer el trabajo realizado.

Page 120: Download estadistica

12 PROBLEMAS PROPUESTOS 118

12.1.2. Guía de Trabajo No. 2

1. De los siguientes enunciados ¿cuál probablemente usa la estadística descriptiva, y cuál la es-tadística inferencial?

a) Un médico general estudia la relación entre el consumo de cigarrillo y las enfermedadesdel corazón.

b) Un economista registra el crecimiento de la población en un área determinada.

c) Se desea establecer el promedio de bateo de un equipo determinado.

d) Un profesor de expresión oral emplea diferentes métodos con cada uno de sus 2 cursos.Al final del curso compara las calificaciones con el fin de establecer cual método es másefectivo.

2. Conteste V (Verdadero) ó F (Falso)

a) La estadística descriptiva es el estudio de una muestra que permite hacer proyecciones oestimaciones acerca de la población de la cual procede.

b) Un parámetro es una medida calculada de alguna característica de una población.

c) Abrir una caja de manzanas y contar las que están en mal estado es un ejemplo de datonumérico continuo.

d) En una muestra aleatoria simple todos los elementos tienen la misma posibilidad de serseleccionados.

3. Para cada una de las siguientes situaciones responda las preguntas que se plantean:

En una escuela nocturna se selecciona aleatoriamente una muestra de 54 estudiantes debachillerato, y se obtiene que el porcentaje de estudiantes que trabajan es 30 %.

Según una encuesta realizada a 500 adultos mayores de la ciudad de San Salvador, revelóque en promedio realizan 6 visitas anuales al consultorio. En vista de los resultados elministerio de salud deberá aumentar los recursos en un 10 %.

¿Cuál es la característica que se estudia, común a la población?.

¿Cuál es la unidad de observación y la población objetivo?.

¿Cuál es la unidad de muestreo la población muestreada?.

¿Cuál es la unidad de observación y la unidad de muestreo?.

¿Cómo cree que se mide la cacterística en las unidades de la muestra?, es decir, ¿cómo seobtuvierón los datos?.

¿cuál es el valor calculado para el parámetro y para el estadístico de la característica quese investiga en la población?.

Page 121: Download estadistica

12 PROBLEMAS PROPUESTOS 119

4. El encargado del curso elaborará una ficha pequeña (de papel o cartulina) en la cual recogerálos siguientes datos para cada uno de los maestros de la clase:

Sexo,

Estado civil,

Número de hermanos?.

a) El responsable del curso escribirá en la pizarra una tabla de recuento para cada una deestas características.

b) El responsable del curso extraerá aleatoriamente una de las fichas. Previamente se de-terminará si la ficha a extraer al azar, ¿es más probable que sea de un maestro de sexofemenino o masculino?, ¿es más probable que sea de un maestro de soltero o casado?

5. En una caja (población) hay 3 cubos (elementos) que pesan 1, 3 y 4 kg. respectivamente, se lepide:

a) Calcular el peso medio en esa población.

b) Suponiendo que se extraen todas las posibles muestras de 2 cubos, uno a uno con devolu-ción (con reemplazo), realice lo siguiente:

escribir todas las muestras posibles de seleccionar,calcular el peso medio de cada muestra,¿es alta la posibilidad de obtener el peso medio de la población, en las muestras?.

c) Repite el mismo ejercicio ahora sin devolución (sin reemplazo). Compara los resultados.

6. Defina algunos valores que pueden tomar las siguientes variables y luego clasifíquelas en: con-tinua, discreta, nominal, ordinal. Algunas variables pueden pertenecer a más de un tipo.

a) número de libros en un estante de una biblioteca.

b) lugar en que viven los alumnos del curso.

c) color de los ojos de tus compañeros de clase.

d) monto de pago por consumo de energía eléctrica.

e) nivel de educación.

f) sumas posibles de los números obtenidos al lanzar dos dados.

g) peso del contenido de una caja de cereal.

h) AFP a que pertenece un individuo.

i) número de litros de agua contenidos en un depósito.

j) período de duración de un automóvil.

k) número de maestros de tu Instituto.

l) nivel de atención en el Banco.

m) clasificación de la edad en: niño, joven, adulto y adulto mayor

Page 122: Download estadistica

12 PROBLEMAS PROPUESTOS 120

7. ¿En qué nivel de medición se puede expresar cada una de estas variables?. Razone su respuesta:

a) El número de horas por semana que estudia un alumno.

b) Los estudiantes califican a su profesor de estadística en una escala de: horrible, no tanmalo, bueno, magnifico, dios griego.

c) Los estudiantes de una universidad se clasifican por especialidades, como ingeniería,matemática, economía, etc.

d) Los estudiantes se clasifican por especialidades con ayuda de los valores 1, 2, 3, 4 y 5.

e) Los periódicos vendidos cada domingo.

f) Agrupar mediciones de líquidos en pinta, cuarto y galón.

g) Grupos de estudiantes según su edad.

12.1.3. Tarea No. 1

1. Se desea conocer el número de pacientes a quienes se les tomó placas de rayos X en el HospitalRosales, en el primer trimestre del año de 2010.Para recabar esta información hay varias formas que son: (12 %)

a) Preguntarle al médico de guardia.

b) Recurrir al expediente de los enfermos.

c) Recurrir al informe de los médicos.

d) Recurrir al informe del operador de la máquina de rayos X.

¿a cuál de los anteriores recurrirías?, ¿por qué?

2. ¿Qué tipo de instrumento de recolección de datos aplicarías en las siguientes situaciones?, ¿porqué?. (18 %)

a) Para registrar el comportamiento de niños en un parque público.

b) Para supervisar la correcta ejecución de una obra en tu comunidad.

c) Para conocer los hábitos alimenticios de tus familiares y amigos en una reunión.

d) Para contratar nuevos personal para tu empresa.

e) Para solucionar un problema entre el personal que labora en una organización.

f) Para conocer la opinión del público sobre los productos que produces.

3. Defina tres o más características (variables de diferente tipo) que le interese estudiar en sucomunidad o lugar donde vive, por ejemplo: pago de energía eléctrica, número de miembros delgrupo familiar, ingreso familiar mensual, nivel de estudio de los miembros del grupo familiar.Realice lo siguiente: (70 %)

a) Defina operacionalmente las variables a estudiar y clasifiquelas.

b) Investigue qué métodos estadísticos de análisis puede aplicar a cada una de las variablesen estudio.

Page 123: Download estadistica

12 PROBLEMAS PROPUESTOS 121

c) Formule algunos supuestos sobre las características o variables definidas.

d) Defina la población a estudiar, las unidades muestrales, y el marco muestral.

e) Seleccione una muestra aleatoria de 15 o 20 personas.

f) Elabore un breve cuestionario para medir las características en cada elemento de la mues-tra.

g) Realice el proceso de recolección de datos (medición de las variables).

12.2. Organización y presentación de datosEjercicio 1. Consultar el mapa para identificar los países con mayor densidad de habitantes en lospaíses mostrados. Los puntos representan a los países relativamente pequeños.

Figura 28: Densidad de población por km2

Ejercicio 2. Consultar el mapa para identificar los países con mayor y menor PIB per cápita en laregión mostrada.

Figura 29: PIB nominal per cápita

Page 124: Download estadistica

12 PROBLEMAS PROPUESTOS 122

Ejercicio 3. Basado en el siguiente mapa de temperaturas promedio de Marzo, identificar las áreasmás calientes y frescas del país.

Ejercicio 4. Los programas más populares de televisión son CSI, Friends, ER y Raymond. Los datosindican la preferencia de una muestra de 50 personas.

CSI Friends CSI CSI CSI CSI CSI Raymond ER ER Friends CSI ER Friends CSI ER ER FriendsCSI Raymond CSI Friends CSI CSI Friends ER ER ER Friends Raymond CSI Friends Friends CSIRaymond Friends Friends Raymond Friends CSI Raymond Friends ER Friends CSI CSI ER CSIFriends ERa. ¿Son los datos cuantitativos o cualitativos?b. Proveer la tabla de distribución de frecuencias, frecuencias relativas, porcentajes.c. Añadir las distribuciones acumuladas de b)d. Construir una gráfica de barras y una gráfica de pastel.

Ejercicio 5. Considere los siguientes datos

14 21 23 21 16 19 22 25 16 16 24 24 25 19 16 19 18 19 21 12 16 17 18 23 25 20 23 16 20 19 24 2615 22 24 20 22 24 22 20a. Desarrolle una table de distribución de frecuencias absolutas y relativas usando las clases 12-14,15-17, 18-20, 21-23 y 24-26. Además añadir frecuencias absolutas y relativas acumuladas.b. ¿Es el número de clases indicado en a) consistente con la fórmula de Sturges?Determine las frecuencias absolutas, frecuencias relativas, frecuencias absolutas acumuladas, frecuen-cias relativas acumuladas, rango, densidades para los siguientes conjuntos de datos.

12.3. Resumen de datosEjercicio 1. Según el ministerio de economía las exportaciones en millones de dólares entre el 1995y 2009 fueron1,652.00; 1,788.40; 2,426.10; 2,441.10; 2,510.00; 2,942.00; 2,864.00; 2,995.00; 3,128.00; 3,305.00;3,418.20; 3,705.60; 3,984.10; 4,549.10; 3,797.30Indicador Total: ExportacionesDefinición: Registro de las ventas totales de bienes y servicios del país hacia el Extranjero.

Page 125: Download estadistica

12 PROBLEMAS PROPUESTOS 123

Ejercicio 2. Según el ministerio de economía las importaciones en millones de dólares entre el 1995y 2009 fueron3,329.10; 3,221.80; 3,744.40; 3,968.20; 4,094.70; 4,947.40; 5,026.60; 5,190.20; 5,763.00; 6,330.00;6,689.60; 7,662.70; 8,711.70; 9,754.40; 7,254.70Indicador Total:ImportacionesDefinición:Todos los bienes y servicios introducidos al país mediante el comercio internacional; todolo que se compra del extranjero.

Ejercicio 3. Según el ministerio de economía y el sistema de indicadores económicos y sociales, labalanza de pagos en millones de dólares entre el 1995 y 2009 fueron-261.5; -169 -97.7; -90.7; -239.3; -430.5; -150.3; -405.1; -702.2; -627.7; -568.8; -670.9; -1,221.30;-1,681.90; -373.5Indicador Total: Balanza de Pagos (Cuenta Corriente)Definición: Saldo de las transacciones internacionales de bienes, servicios y transferencias(entradasmenos salidas).

Page 126: Download estadistica

12 PROBLEMAS PROPUESTOS 124

Ejercicio 4. La remesas por mes entre 1991 y 1993 fueron (Fuente: BANCO CENTRAL DE RESERVADE EL SALVADOR (BCR)):

MES\AÑO 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001Ene 63.1 65 57.7 69.4 82.1 90.6 89.2 98.9 106.7 132.1 147.6Feb 58.4 66 65.3 72.9 74.4 74 77.8 86.6 97.2 125.9 147.2Mar 67.6 75.6 81 81.1 86.2 89.6 84.2 110.2 115.5 140.7 149.6Abr 77.8 74.5 76.4 79 76.2 84.6 103.3 113.1 117.9 121.7 139.7May 77.4 76.3 75.6 88.2 98.1 100.9 100.9 112.5 119.4 153.4 179.1Jun 67.8 75.6 71.6 77.1 91.6 86.1 106.8 111.3 108.6 143.6 157.8Jul 70 77.7 76 75.1 90.6 105.3 117.1 116.2 119.1 152 162.9Ago 53.5 62 68.7 86.4 93.1 96.3 98.2 114.7 106.5 156.2 166.8Sept 53.1 60.3 62.9 80.4 85 88.2 105.8 114.2 106.4 142.7 146.7Oct 64 65.5 66.6 73.5 89.1 94 106.9 114.6 113.9 159.8 169.6Nov 64.3 70.5 74.1 80.1 89.1 80 88.7 115.1 121.5 155.6 158.7Dic 73.1 89.3 88.2 99.3 105.9 96.9 120.6 130.9 141.1 167 184.8MES\AÑO 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011Ene 143.4 146 171.3 189.7 237.7 270.9 270.5 248.6 228.1 250.7Feb 146.2 149.1 170.3 199.3 249.8 269 295.9 270.9 263.2 279.6Mar 157.8 170.1 218.4 250.4 309.4 320.2 338.4 309.3 337 335.5Abr 174.2 177.4 213.8 245.5 274 310.3 334.4 281.8 296.3 309.2May 180.3 186.1 220.5 272.2 330.8 338 343.6 296.3 319.2 338.6Jun 167.9 178.1 212.6 250.8 289.8 310 332.9 286.9 294.2 299.9Jul 162.2 175.8 210.1 240.9 284.9 324.6 328.8 275.4 286.8Ago 160.1 172.8 224.4 272.2 293.7 312.2 299.5 285.2 287Sept 150.5 180.4 213.5 245.2 271.4 281.6 303.1 269.4 260.5Oct 156.5 181.1 215.9 261.5 301 323.8 303 278.1 269.8Nov 160.9 174.8 230.6 266.1 279.5 283.5 262.7 259 262.7Dic 175.2 213.6 246.2 323.3 348.9 351.1 329.3 326.2 326.1

Tabla 9: Remesas en millones de dólares

Ejercicio 5. Para los 5 ejercicios anteriores, elabore un histograma utilizando los archivos de datosy las tablas de frecuencia.

Ejercicio 6. Determine la media, moda , mediana , cuartiles , deciles (1, 3, 5 , 7 , 9) en los archivosde datos de los 5 ejercicios anteriores excluyendo al último

Ejercicio 7. Determine la media, moda , mediana , cuartiles , deciles (2 , 4 , 6) y , los percentiles (15,25 , 90 , 95 , 98)en los archivos de datos de los 5 ejercicios anteriores excluyendo el último.

Page 127: Download estadistica

12 PROBLEMAS PROPUESTOS 125

12.4. Probabilidades12.4.1. Conceptos básicos

Ejercicio 1. En una investigación con familias, se definen los siguientes sucesos:H = La familia tiene hijosR = La familia vive en sectores rurales.M = El jefe de familia es mujer.Escriba en forma algebraica los siguientes sucesos:

a) La familia no vive en sectores rurales.

b) La familia tiene hijos y vive en sectores rurales.

c) El jefe de familia es mujer, pero no tiene hijos.

d) La familia vive en sectores rurales o no tiene hijos.

e) La familia no tiene hijos y vive en sectores rurales.

f) El jefe de familia es mujer, dado que vive en sectores rurales.

Ejercicio 2. El almacén X desea realizar la selección de tres televisores de un pedido y desea observarsi son o no defectuosos. Lista los posibles resultados que obtendrá el gerente del almacén.

Ejercicio 3. En el experimento que consiste en extraer una carta de una baraja española (40 cartas)consideremos el suceso A =”Salir figura”. Determínese el espacio muestral.

Ejercicio 4. Consideremos el experimento aleatorio que consiste en lanzar dos dados( no trucados)y anotar la suma de los puntos de las caras superiores.

a) ¿Cuál es el espacio muestral?

b) Listar los puntos muéstrales en las cuales la suma de igual a 8.

c) Listar los puntos muéstrales en las cuales la suma menor o igual a 4.

d) Listar los puntos muéstrales en las cuales la suma mayor que 12.

e) Escriba la unión de estos dos sucesos, la intersección y la diferencia del 3º y el 1º

Ejercicio 5. Un estudiante responde al azar a tres preguntas de verdadero o falso. Escriba el espaciomuestral de este experimento aleatorio.

Ejercicio 6. Otro estudiante responde al azar a 6 preguntas del mismo tipo anterior.

a) Escriba el espacio muestral.

b) Escriba el suceso responder “falso” a una sola pregunta

c) Escriba el suceso responder “verdadero” al menos a 3 preguntas

Page 128: Download estadistica

12 PROBLEMAS PROPUESTOS 126

d) Escriba la unión de estos dos sucesos, la intersección y la diferencia del 2º y el 1º

Ejercicio 7. Un experimento consiste en lanzar un dado y después lanzar una moneda (se sabe quetiene dos lados y le llamaremos cara y cruz) una vez, sí el número en el dado es par. Si el número deldado es impar, la moneda se lanza dos veces.

a) Obtener el espacio muestral

b) Liste los elementos que corresponden al evento A de que el dado salga un numero menor que 3

c) Liste los elementos que corresponden al evento B de que ocurran dos cruces

d) Liste los elementos que corresponde al evento AC y BC , e interprete ambos eventos

e) Liste los elementos que corresponden al evento AC ∩B, e intérprete este evento

f) Liste los elementos que corresponden al evento A ∪B

Ejercicio 8. Sean A, B y C eventos. Hallar una expresión y dibuje el diagrama de Venn para lossucesos siguientes:

a) Que ocurran A y B pero no C

b) Solo ocurra A

c) A o B , pero no los dos

d) Ninguno de los tres sucesos A, B y C

Ejercicio 9. Sean A, B y C eventos relativos al espacio muestral S. Con el uso de los diagramas deVenn, sombrear las regiones que representan los siguientes eventos

a) (A ∩B)C

b) (A ∪B)C

c) (A ∩B) ∪ C

Ejercicio 10. En una asignatura se ha decidido aprobar a aquellos que superen uno de los dosparciales. Con este criterio aprobó el 80 %, sabiendo que el primer parcial lo superó el 60 % y elsegundo el 50 %, ¿Cuál hubiese sido el porcentaje de aprobados, si se hubiese exigido superar ambosparciales?

Ejercicio 11. Se lanza un dado 6 veces. ¿Cuál es la probabilidad de que salga algún 1 en los 6lanzamientos?

Ejercicio 12. ¿Cuál es la probabilidad de torpedear un barco, si sólo se pueden lanzar tres torpedosy la probabilidad de impacto de cada uno se estima en un 30 %?

Ejercicio 13. ¿Cuál es la probabilidad de sacar dos bolas negras de una urna que contiene 15 bolasblancas y 12 negras, sin reintegrar la bola extraída?

Page 129: Download estadistica

12 PROBLEMAS PROPUESTOS 127

Ejercicio 14. Una urna contiene 12 bolas blancas y 8 negras. Si se sacan dos bolas al azar. ¿Cuál esla probabilidad de que sean del mismo color?

Ejercicio 15. En un sobre hay 20 papeletas, ocho llevan dibujado un carro las restantes son blancas.Hallar la probabilidad de extraer al menos una papeleta con el dibujo de un carro:

a) Si se saca una papeleta

b) Si se extraen dos papeletas

c) Si se extraen tres papeletas

Ejercicio 16. Un grupo de 10 personas se sientan en un banco. ¿Cuál es la probabilidad de que dospersonas fijadas de antemano se sienten juntas?

Ejercicio 17. A un congreso asisten 80 congresistas. De ellos 70 hablan inglés y 50 francés. Se eligendos congresistas al azar y se desea saber:

a) ¿Cuál la probabilidad de que se entiendan sin intérprete?

b) ¿Cuál es la probabilidad de que se entiendan sólo en francés?

c) ¿Cuál es la probabilidad de que se entiendan en un solo idioma?

d) Cuál es la probabilidad de que se entiendan en los dos idiomas?

Ejercicio 18. Si de un mazo debidamente barajado de 52 naipes se extrae una carta, ¿cuál es laProbabilidad de los siguientes eventos?

a) A = un rey rojo

b) B = 3, 4, 5 o 6

c) C = una carta negra

d) D = un as rojo o una reina negra

Ejercicio 19. Sean 2 sucesos A y B de los que se sabe que la probabilidad de B es el doble que lade A; que la probabilidad de su unión es doble que la de su intersección; y que la probabilidad de suintersección es de 0.1. Se pide

a) Calcular la probabilidad de A

b) ¿Qué suceso es más probable que ocurra sabiendo que ya ha ocurrido el otro?

Ejercicio 20. Una rata es colocada en una caja con tres pulsadores de colores rojo, azul y blanco. Sipulsa dos veces las palancas al azar:

a) ¿Cuál es la probabilidad de que las dos veces pulse la roja?

b) ¿Cuál es la probabilidad de que pulse la primera vez o la segunda o ambas la tecla azul?

Page 130: Download estadistica

12 PROBLEMAS PROPUESTOS 128

Ejercicio 21. En un grupo de 160 estudiantes graduados de ingeniería, 92 se inscriben en un cursoavanzado de estadística; 63 en un curso de investigación de operaciones; y 40 en ambos. Determinela probabilidad de que un estudiante no se inscribiera en ningún curso.

Ejercicio 22. Su familia decide irse de vacaciones de verano en su “pick-up"4x4, todo terreno y seaF el evento que sufrirán fallas mecánicas, E es el evento de que reciban una esquela de infracción detránsito y J es el evento de que llegarán a un lugar adecuado para acampar. Refiérase al diagramade Venn de la figura de abajo, y exprese con palabras los eventos representados por las regionessiguientes:

a) región 5;

b) región 3;

c) regiones 1 y 2 juntas;

d) regiones 4 y 7 juntas;

e) regiones 3, 6, 7 y 8 juntas.

Ejercicio 23. Retomando el ejercicio anterior y al diagrama de Venn liste los números de las regionesque representan los siguientes eventos:

a) La familia no experimentará fallas mecánicas y no cometerá infracciones de tránsito, pero encon-trará el lugar adecuado para acampar.

b) La familia experimentará tanto fallas mecánicas como problemas para localizar un lugardisponible para acampar, pero no recibirá multa por infracción de tránsito.

c) La familia experimentará fallas mecánicas o encontrará un lugar para acampar, pero no recibiráuna multa por cometer una infracción de tránsito.

d) La familia no llegará a un lugar adecuado para acampar.

Para los ejercicios 22 y 23 utilice los gráficos del diagrama de Venn siguiente:

Ejercicio 24. La probabilidad de que un hombre viva 20 años es 1/4 y de que la mujer viva 20 añoses 1/3. Se pide calcular la probabilidad:

Page 131: Download estadistica

12 PROBLEMAS PROPUESTOS 129

a) De que ambos vivan 20 años.

b) De que el hombre viva 20 años y su mujer no.

c) De que ambos mueran antes de los 20 años.

12.4.2. Probabilidades condicionales y teorema de bayes

Ejercicio 1. Dados P (A) = 50 %, P (B) = 30 % y P (A ∩B) = 15 %, verifique que:

a) P (A\B) = P (A)

b) P (A\BC) = P (A)

c) P (B\A) = P (B)

d) P (B\AC) = P (B)

Ejercicio 2. Se lanzan dos dados normales y se anotan los pares x, y.Sean A = (x, y);x+ y = 10 y B = (x, y) : x > y

a) Describa el espacio muestral

b) calcule P (A), P (B)

c) P (A ∩B), P (A ∪B)

d) P (A\B), P (B\A)

Ejercicio 3. Si la probabilidad de ir a la Universidad en diciembre es de 2/7 y que me vaya devaciones una vez terminado tal mes es 1/5.¿Cuál esla probabilidad de no ir a la universidad e irmede vacaciones en enero?. (Sugerencia: Suponga para este caso que los eventos son independientes)

Ejercicio 4. La probabilidad de que un hombre casado vea cierto programa de televisión es 0.4 y laprobabilidad de que una mujer casada vea el programa es 0, 5. La probabilidad de que un hombrevea el programa, dado que su esposa lo hace, es 0, 7. Encuentre la probabilidad de que:

a) Un matrimonio vea el programa

b) Una esposa vea el programa dado que su esposo lo ve

c) Al menos una persona de un matrimonio vea el programa

Ejercicio 5. Suponga que se estudia si el color del pelo está asociado al color de los ojos. Seanalizaron 300 personas seleccionadas aleatoriamente con los siguientes resultados:

a) Si se selecciona una de estas personas al azar, encuentre la probabilidad de que la persona tengael pelo negro, dado que tiene los ojos de color café.

Page 132: Download estadistica

12 PROBLEMAS PROPUESTOS 130

b) ¿Son los eventos tener el pelo rubio y tener los ojos azules independientes? Justifique su respuesta.

c) ¿Cuántas personas rubias de ojos azules esperaría encontrar en este grupo si los eventos fueranindependientes? Justifique su respuesta.

Ejercicio 6. Supóngase que en una oficina hay 100 máquinas calculadoras. Algunas de esasmáquinas son eléctricas (E), mientras que otras son manuales (M). Además, algunas son nuevas(N) mientras las otras son usadas (U). La tabla siguiente nos muestra el número de máquinas decada categoría.

Usted entra a la oficina, escoge una máquina al azar y descubre que es nueva. ¿Cuál es la probabili-dad de que sea elctrica?

Ejercicio 7. Se tiene tres urnas de igual aspecto. En la primera hay 3 bolas blancas y 4 negras; en lasegunda hay 5 negras y en la tercera hay 2 blancas y 3 negras. Se desea saber:

a) Si se extrae una bola de una urna elegida al azar, ¿Cuál es la probabilidad de que la bola extraídasea negra?.

b) Se ha extraído una bola negra de una de las urnas. ¿Cuál es la probabilidad de que haya sidoextraída de la segunda urna?

Ejercicio 8. En un hospital especializado en enfermedades de tórax ingresan un 50 % de enfermos debronquitis, un 30 % de neumonía y un 20 % con gripe. La probabilidad de curación completa en cadauna de dichas enfermedades es, respectivamente, 0.7, 0.8 y 0.9. Un enfermo internado en el hospitalha sido dado de alta completamente curado. Hallar la probabilidad de que el enfermo dado de altahubiera ingresado con bronquitis.

Ejercicio 9. Hay una epidemia de cólera. Un síntoma muy importante es la diarrea, pero ese síntomatambién se presenta en personas con intoxicación, y, aún, en personas que no tienen nada serio. Laprobabilidad de tener diarrea teniendo cólera, intoxicación y no teniendo nada serio es de 0.99; 0.5y 0.004 respectivamente. Por otra parte, se sabe que el 2 % de la población tiene cólera, el 0.5 %intoxicación y el resto 97.5 %, nada serio. Se desea saber:

a) Elegido un individuo de la población ¿Qué probabilidad hay de que tenga diarrea?

b) Se sabe que determinado individuo tiene diarrea ¿Cuál es la probabilidad de tenga cólera?

Ejercicio 10. La probabilidad de que un artículo provenga de una fábricaA1 es 0.7, y la probabilidadde que provenga de otra A2 es 0.3. Se sabe que la fábrica A1 produce un 4 por mil de artículosdefectuosos y la A2 un 8 por mil.

a) Se observa un artículo y se ve que está defectuoso. ¿Cuál es la probabilidad de que provenga dela fábrica A2?

Page 133: Download estadistica

12 PROBLEMAS PROPUESTOS 131

b) Se pide un artículo a una de las dos fábricas, elegida al azar. ¿Cuál es la probabilidad de que estédefectuoso?

c) Se piden 5 artículos a la fábrica A1 ¿Cuál es la probabilidad de que haya alguno defectuoso?

Ejercicio 11. En una población animal hay epidemia. El 10 % de los machos y el 18 % de las hembrasestán enfermos. Se sabe además que hay doble número de hembras que de machos y se pide:

a) Elegido al azar un individuo de esa población ¿Cuál es la probabilidad de que esté enfermo?

b) Un individuo de esa población se sabe que está enfermo ¿Qué probabilidad hay de que el citadoindividuo sea macho?

Ejercicio 12. En una clase mixta hay 30 alumnas, 15 estudiantes que repiten curso, de los que 10 sonalumnos, y hay 15 alumnos que no repiten curso. Se pide:

a) ¿Cuántos estudiantes hay en la clase?

b) Elegido al azar un estudiante ¿Cuál es la probabilidad de que sea alumno?

c) Elegido al azar un estudiante ¿Cuál es la probabilidad de que sea alumna y repita el curso?

d) Elegidos al azar dos estudiantes ¿Cuál es la probabilidad de que ninguno repita curso?

Ejercicio 13. A traves de ciertas investigaciones se sabe que un suero de verdad aplicado a un“sospechoso.es 90 % confiable cuando la persona es culpable, y 99 % confiable si la persona es in-ocente. Si se selecciona un individuo de un grupo de sospechosos, de los cuales se sabe que solo el 5 %de ellos ha cometido un crimen, se le aplica el suero de verdad el cual implica que es culpable.¿Cuáles la probabilidad de que el individuo sea inocente?

Ejercicio 14. En un colegio hay dos grupos de 25 alumnos de quinto curso y dos grupos de 20alumnos de sexto curso. El 50 % de los alumnos de quinto no tienen faltas de ortografía, porcentajeque sube a 70 % en los alumnos de sexto. En un concurso de redacción entre alumnos de quinto ysexto se elige una redacción al azar.

a) ¿Qué probabilidad hay de que sea de un alumno de quinto?

b) Si tiene faltas de ortografía, ¿Qué probabilidad hay de que sea de un alumno de quinto?

Ejercicio 15. En un sistema de alarma, la probabilidad de que esta funcione habiendo peligro es0.95 y la de que funcione por error sin haber peligro es 0.03. Si la probabilidad de haber peligro es0.1:

a) Calcular el porcentaje de veces que habiendo funcionado la alarma no haya peligro.

b) Hallar la probabilidad de que haya peligro y la alarma no funcione.

c) Calcular la probabilidad de que no habiendo funcionado la alarma haya peligro.

d) ¿Cuál es la probabilidad de que la alarma funcione?

Page 134: Download estadistica

12 PROBLEMAS PROPUESTOS 132

Ejercicio 16. El profesor Pérez olvida poner su despertador 3 de cada 10 dias. Además, ha compro-bado que uno de cada 10 días en los que pone el despertador acaba no levándandose a tiempo dedar su primera clase, mientras que 2 de cada 10 dias en los que olvida poner el despertador, llega atiempo a dar su primera clase.

a) Identifica y da nombre a los sucesos que aparecen en el enunciado.

b) ¿Cuál es la probabilidad de que el profesor Pérez llegue a tiempo a dar su primera clase?

c) Si un día no ha llegado a tiempo, ¿Qué probabilidad hay de que olvidase poner el despertador lanoche anterior?

Ejercicio 17. Un banco local revisa su política de tarjetas de crédito, con el objetivo de cancelaralgunas de ellas. En el pasado, el 5 % de los clientes con tarjeta ha pasado a ser moroso, esto esha dejado de pagar sin que el banco pudiera recuperar la deuda. Además, el banco ha comproba-do que la probabilidad de que un cliente normal se atrase en un pago es de 0.2. Naturalmente, laprobabilidad de que un cliente moroso se atrase en un pago es 1.

a) Identifica y da nombre a los sucesos que aparecen en el enunciado.

b) Elegido un cliente al azar, ¿qué probabilidad hay de que el cliente se atrase en un pago mensual?

c) Si un cliente se atrasa en un pago mensual, calcular la probabilidad de que el cliente acabeconvirtiendose en moroso.

d) Al banco le gustaría cancelar la línea de crédito de un cliente si la probabilidad de que éste acabeconvirtiéndose en moroso es mayor de 0.25. De acuerdo con los resultados anteriores, ¿debecancelar una línea si un cliente se atrasa en un pago?¿Por qué?

12.4.3. Varios

Ejercicio 1. Enumere todos los subconjuntos de cuatro elementos del conjunto A =a, b, c, d, e, f, g, h. ¿Cuál es la probabilidad que en estos aparezcan los elementos a y h.

Ejercicio 2. Considere el conjunto de los primeros 9 números naturalesA = 1, 2, 3, . . . , 9 . ¿Cuán-tos subconjuntos de A poseen seis elementos? ¿Cuál es la probabilidad que en estos subconjuntosaparecen los dígitos 4 y 5?

Ejercicio 3. De un conjunto de 20 personas, diez de ellas son mujeres y los otras diez son hombres.¿Cuál es la probabilidad de una comisión de 8 personas estén por lo menos por lo menos tres mujeresy cuando menos dos hombres?

Ejercicio 4. Usando los dígitos 1, 2, 3, 4, 5, 6 ¿Cuántos números con cuatro dígitos distintos sepueden formar? ¿Cuál es la probabilidad de que sean pares? ¿Cuál es la probabilidad que seanimpares? ¿Cuál es la probabilidad que aparezca el 3?

Ejercicio 5. ¿Cuántos enteros entre 1000 y 9999 inclusive tienen sus dígitos diferentes? ¿Cuáles laprobabilidad de que sean impares?

Ejercicio 6. Si se asume el orden natural en el conjunto 1, 2, 3, 4, 5, ¿cuál es la probabilidad deobtener permutaciones que dejan fijos en su posición exactamente a dos de los cinco números?

Page 135: Download estadistica

12 PROBLEMAS PROPUESTOS 133

Ejercicio 7. ¿Cuál es la probabilidad que en permutaciones de 1234 el 1 este en la primera posición,el 2 no está en la segunda posición, el 3 no está en la tercera posición, y el 4 no está en la cuartaposición?

Ejercicio 8. ¿Cuál es la probabilidad de obtener desórdenes en conjunto 1, 2, 3, 4, 5?

Ejercicio 9. ¿Cuál es la probabilidad de formar equipos de baloncesto de 5 jugadores cada uno quepueden hacerse en un club de 11 jugadores, con la condición de que los jugadores A, B y C no puedenestar simultáneamente en el mismo equipo?

Ejercicio 10. Con las cifras del número 8,752,436 ¿cuántos números distintos de tres cifras se puedenformar no repitiendo ninguna? ¿y repitiendo? ¿Cuál es la probabilidad de esos números sean mayoresque 500 (en ambos casos)?

Ejercicio 11. Con las cifras 1, 2, 3, 4 y 5 ¿Cuál es la probabilidad de formar números distintos decinco cifras y que el 3 ocupe siempre la cifra de las centenas?

Ejercicio 12. Se tienen los números 5874 y 12369. ¿Cuál es la probabilidad que puedan formarsenúmeros que contengan dos cifras no repetidas del primero y tres cifras no repetidas del segundo? Lamisma cuestión pudiendo repetirse las cifras. La misma cuestión no repitiendo las cifras del primeropero sí las del segundo.

Ejercicio 13. Averiguar cuántas guardias de cinco personas se pueden programar con 14 soldados,¿Cuál es la probabilidad que el más antiguo de ellos participe en todas?

Ejercicio 14. Cuántas secuencias de tres letras diferentes pueden ser formadas haciendo uso de lasletras a; b; c; d; e; f ¿cuál es la probabilidad que aparezcan la letra e, o la letra f, o ambas e y f?

Ejercicio 15. Se desea elegir una directiva, hay diez candidatos (cinco mujeres y cinco hombres) paralos cargos de presidente, vicepresidente, secretario, tesorero y vocal. ¿De cuántas formas puedenelegirse los cargos? ¿Cuál es la probabilidad de que una mujer sea la presidenta? ¿Y la probabilidadsi el tesorero está definido que será Juan?

Ejercicio 16. Se tienen nueve puntos en un plano. Cuatro de ellos están alineados y los restantes estándispuestos de forma que no hay nunca 3 alineados. ¿Cuál es la probabilidad de formar triánguloscon sus vértices sobre esos 9 puntos?

Ejercicio 17. Dado el conjunto de dígitos 1, 3, 6, 7, 9, determine el número de maneras de formarnúmeros de 4 cifras, ¿Cuál es la probabilidad que tales que sean múltiplos de 3?

Ejercicio 18. Se tiene 4 médicos y 3 enfermeras y se quiere hacer una comisión de 4a) ¿Cuál es la probabilidad que hayan 2 enfermeras y dos médicos?b) Al menos dos enfermerasc) Por lo menos dos médicosd) Ninguna enfermerae) Ningún medico

Ejercicio 19. Se tiene M elementos en un conjunto y N en otro ¿Cuál es la probabilidad de tomarexactamente dos de uno y dos en el otro? ¿Cuál es la probabilidad si M = N?

Page 136: Download estadistica

12 PROBLEMAS PROPUESTOS 134

Ejercicio 20. En un juego de loto, se elige 6 números entre los números enteros del 1 al 49 a) ¿Cuáles la probabilidad de elegir los 6 números ganadores? b) Una persona juega semanalmente durante10 años, ¿Cuál es la probabilidad de ganar al menos una vez?

Ejercicio 21. Se consideran dos urnas U1 y U2 que contienen bolas, U1 contiene n bolas blancas y 3bolas negras (n es un numero entero superior a 1) y U2 contiene dos bolas blancas y una bola negra.Se extrae aleatoriamente una bola de U1 y se coloca en la U2, luego se extrae una de U2 y se colocaen U1. El conjunto de estas operaciones constituye una pruebaSe considera un evento A: Después de la prueba, las urnas se encuentran cada una en su configu-ración inicial;

a. Mostrar que la probabilidad P (A) es P (A) =3(n+ 2)

4(n+ 3)b. Se considera el evento B: Después de la prueba de la urna U2, contiene solo bolas blancas. Veri-

fique que la probabilidad P (B) del evento B viene dado por P (A) =3

2(n+ 3).

Problemas de probabilidad completa

Ejercicio 22. Una urna contiene dos bolillas en la cual se echa una bolilla blanca, después de locual se extrae de la urna al azar una bolilla, hallar la probabilidad que la bolilla extraída resulteblanca, si son igualmente probables todas las suposiciones posibles sobre la composición inicial delas bolillas por color.

Ejercicio 23. Una urna contiene n bolillas, se echa una bolilla blanca después de lo cual se extraede la urna al azar una bolilla, demuestre que la probabilidad que la bolilla extraída resulte blanca, sison igualmente probables todas las suposiciones posibles sobre la composición inicial de las bolillas

por color es P (B) =n+ 2

2(n+ 1).

Ejercicio 24. Dos ajedrecistas de igual maestría juegan al ajedrez, ¿que es más probable ganar: dosde cuatro partidas o tres de seis partidas (No se toman en las tablas)?

Geométricos

Ejercicio 25. Halla la probabilidad de que un punto elegido al azar en la figura esté situado en laregión sombreada.

Figura 30: Áreas variadas

Page 137: Download estadistica

12 PROBLEMAS PROPUESTOS 135

12.5. Distribuciones de probabilidad12.5.1. Conceptos básicos

Ejercicio 1. Sea W una variable aleatoria que da el número de caras menos el de cruces en treslanzamientos de una moneda. Indique los elementos del espacio muestral S para los tres lanzamientosde la moneda y asigne un valor de w de la variable W a cada punto muestral.

Ejercicio 2. Determine el valor de c de tal forma que cada una de las siguientes funciones sirvacomo una distribución de probabilidad de la variable aleatoria discreta X:

a) f(x) = c(x2 + 4) para todo x = 0, 1, 2, 3

b) f(x) = c(

2x

)(3

3−x

)para todo x = 0, 1, 2

Ejercicio 3. Un encargado en una maquila tiene tres hombres y tres mujeres trabajando para él.Desea elegir dos trabajadores para una entrega de un pedido y decide seleccionarlos al azar parano introducir algún sesgo en la selección. Sea X el número de mujeres en su selección. Encuentre ladistribución de probabilidad para X .

Ejercicio 4. Hay una campaña en un centro médico del poblado de Apastepeque, sobre paternidadresponsable a un grupo de 4 mujeres. Una vez finalizada la charla se les entrega un papelito con unapregunta, ¿Desearía usted ser esterilizada?. Encuentre la distribución de probabilidad, representegraficamente f(x) y F (x).

Ejercicio 5. En la tabla adjunta, nos presenta el número de integrantes por familia con sus respectivaprobabilidad.

a) Calcule el valor que falta en la tabla, asumiendo que esta representa una distribución de proba-bilidades.

b) Calcule la probabilidad de que una familia tenga más de 4 integrantes.

c) Calcule el número esperado de integrantes por familia.

Ejercicio 6. De una caja que contiene 4 pelotas de fútbol, y 2 de baloncesto, se seleccionan 3 de ellasen sucesión con reemplazo. Encuentre la distribución de probabilidad para el número de pelotas debaloncesto.

Ejercicio 7. Encuéntrese la distribución de probabilidad para el números de discos cds de músi-ca rancheras cuando 4 discos se seleccionan al azar de una colección que consiste de 5 discos derancheras, 2 de música clásica y 3 de bachata. Exprese el resultado por medio de una ecuación.

Ejercicio 8. Un embarque de 7 televisores contiene 2 aparatos que no funcionan bien. Una institucióninfantil de niños huérfanos realiza una compra aleatoria de 3 de ellos. Si X es el número de unidadesdefectuosas que se compran, encuéntrese la distribución de probabilidad deX . Exprese los resultadosgráficamente con un histograma de probabilidad.

Page 138: Download estadistica

12 PROBLEMAS PROPUESTOS 136

Ejercicio 9. Mario tiene un paquete de cartas (inglés), saca tres cartas en sucesión. Encuentre ladistribución de probabilidad para el número de cartas de corazones rojos.

Ejercicio 10. Encuentre la distribución de probabilidad acumulada para los ejercicios 7, 9 y 11 deeste apartado, definir y graficar cada una de ellas.

Ejercicio 11. Considérese el eperimento de lanzar dos dados y anotarla suma de las caras superiores.Hallar

a) La función de probabilidad, f(x) y su representación.

b) La función de probabilidad, F (x) y su representación.

c) El valor esperado y la varianza de la distribución.

d) Si la varable X es la que expresa la suma de los lados superiores de las caras de los 2 dados,hallar las siguientes probabilidades P (x ≤ 5);P (x ≥ 10);F (4);F (−2);F (19)

Ejercicio 12. Sea X una variable aleatoria cuya función de probabilidad viene dada por

P (x) =1

8; para x = 2, 3, . . . , 9

Encuéntrese

a) La función de probabilidad

b) La función de distribución acumulada

c) El valor esperado y su varianza

d) Las probabilidades para P (x ≥ 6);P (4 ≤ x ≤ 7);P (x ≤ −3)

12.5.2. Distribución binomial

Ejercicio 1. Un agente de seguros vende pólizas a cinco personas de la misma edad y que disfrutande buena salud. Según las tablas actuales, la probabilidad de que una persona en estas condicionesviva 30 años o más es 2/3. Hállese la probabilidad de que, transcurridos 30 años, vivan:

a) Las cinco personas.

b) Al menos tres personas.

c) Exactamente dos personas.

Ejercicio 2. En unas pruebas de alcoholemia se ha observado que el 5 % de los conductores contro-lados dan positivo en la prueba y que el 10 % de los conductores controlados no llevan aprovechadoel cinturón de seguridad. También se ha observado que las dos infracciones son independientes.Un guardia de tráfico detiene cinco conductores al azar. Si tenemos en cuenta que el número deconductores es suficientemente importante como para estimar que la proporción de infractores novaría al hacer la selección.

Page 139: Download estadistica

12 PROBLEMAS PROPUESTOS 137

a) Determinar la probabilidad de que exactamente tres conductores hayan cometido alguna de lasdos infracciones.

b) Determine la probabilidad de que al menos uno de los conductores controlados haya cometidoalguna de las dos infracciones.

Ejercicio 3. Un laboratorio afirma que la aplicación de una droga causa efectos secundarios en unaproporción de 3 de cada 100 pacientes. Para contrastar esta afirmación, otro laboratorio elige alazar a 5 pacientes a los que aplica la droga. ¿Cuál es la probabilidad de los siguientes sucesos?

a) Ningún paciente tenga efectos secundarios.

b) Al menos dos tengan efectos secundarios.

c) ¿Cuál es el número medio de pacientes que espera el laboratorio que sufran efectos secundariossi elige 100 pacientes al azar?

d) ¿Cuál es su varianza?, ¿Cómo se interpreta este valor?. Explique.

Ejercicio 4. Un examen consta de 10 preguntas que hay que contestar. Suponiendo que a las personasque se les aplica no saben contestar a ninguna de las preguntas y, en consecuencia, contestan al azar,encontrar:

a) La probabilidad de tener cinco aciertos.

b) La probabilidad de tener algún acierto.

c) La probabilidad de obtener al menos cinco aciertos.

Ejercicio 5. La probabilidad de que un estudiante obtenga el Diplomado em Matemáticas es 0.3.Hallar la probabilidad de que su grupo de trabajo que consta de 8 estudiantes matriculados

a) Ninguno de los ocho finalice el postgrado.

b) Finalicen todos

c) Al menos 3 finalicen

d) Hallar el valor esperado y la varianza del número de alumnos que finalizan la carrera.

Ejercicio 6. Suponiendo que la probabilidad de tener un hijo varón es 0,51. Hallar la probabilidadde que una familia con seis hijos tenga:

a) Por lo menos un niño.

b) Por lo menos una niña.

Ejercicio 7. El gimnasio “El GymGuapeton" ha comprobado que el 20 % de sus alumnos se dan debaja durante el primer mes y el 80 % restante permanecen todo el año. Supongamos que este año seinscribieron 20 alumnos.

a) Explica con brevedad qué es una variable aleatoria. Identifica la variable aleatoria del problemae indica qué distribución sigue.

Page 140: Download estadistica

12 PROBLEMAS PROPUESTOS 138

b) ¿Cuál es la probabilidad de que 2 o menos se den de baja?

c) ¿Cuál es la probabilidad de que exactamente se den de baja 4 alumnos?

d) ¿Cuál es la probabilidad de que se den de baja más de 3 alumnos?Al hacer la inscripción se realiza un único pago anual de 600 euros. Cada alumno que permanecetodo el año genera un gasto anual de 150 euros.

e) ¿Cuál es el beneficio anual esperado?

f) ¿Cuántos alumnos se han dado de baja el primer mes si al final del año el gimnasio ha obtenidoel beneficio esperado?

Ejercicio 8. El gerente de un restaurante que sólo da servicio mediante reservas sabe, por experi-encia, que el 20 % de las personas que reservan una mesa no asistirán. Si el restaurante acepta 25reservas pero sólo dispone de 20 mesas, ¿cuál es la probabilidad de que a todas las personas queasistan al restaurante se les asigne una mesa?

Ejercicio 9. Un avión de alto rendimiento contienen tres computadoras idénticas. Se utiliza única-mente una para operar el avión; las dos restantes son repuestos que pueden activarse en caso deque el sistema primario falle. Durante una hora de operación la probabilidad de que una falle en lacomputadora primaria (o de cualquiera de los sistemas de repuesto activados) es 0, 005. Suponiendoque cada hora representa un ensayo independiente,

a) ¿Cuál es la probabilidad de que las tres computadoras fallen en un vuelo de 5 horas?

b) ¿Cuál es el tiempo promedio para que fallen las tres computadoras?

Ejercicio 10. El departamento de control de calidad de una empresa que fabrica pañuelos sabe queel 5 % de su producción tiene algún tipo de defecto .Los pañuelos se empaquetan en cajas con 15elementos. Calcular la probabilidad de que una caja contenga:

a) 2 elementos defectuosos .

b) Menos de 3 elementos defectuosos

c) Entre 3 y 5 elementos defectuosos(ambos incluidos)

Ejercicio 11. Una prueba de inteligencia consta de diez cuestiones cada una de ellas con cincorespuestas de las cuales una sola es verdadera .Un alumno responde al azar

a) ¿Cuál es la probabilidad de que responda al menos a dos cuestiones correctamente?

b) ¿Cuál es la probabilidad de que responda bien a seis?

c) ¿Cuál es la probabilidad de que responda bien como máximo a dos cuestiones?

d) ¿Cuál es su valor esperad y su varianza?. Interprete cada uno de estos valores.

Ejercicio 12. Determinar la probabilidad de realizar cierto tipo de experimento con éxito si se sabeque si se repite 24 veces es igual de probable obtener 4 éxitos que 5.

Page 141: Download estadistica

12 PROBLEMAS PROPUESTOS 139

12.5.3. Distribución normal

Ejercicio 1. Sabiendo que la variable Z ,sigue una distribución Normal, Z ∼ N(0, 1), calcule elárea bajo la curva que está

a) A la izquierda de z = 1.4

b) A la derecha de z = −0.89

c) entre z = −2.16 y z = 0.65

d) entre z = −2.16 y z = 1.11

e) entre z = −0.26 y z = 1.35

f) entre z = −1.6 y z = 1.6

g) A la izquierda de z = −1.64

h) A la derecha de z = 1.82

i) A la derecha de z = 0.89

j) A la izquierda de z = 1.27

Ejercicio 2. Encuentre el valor de z si el área bajo una curva normal estándar

a) A la izquierda de z es 0.3622

b) A la izquierda de z es 0.1131

c) Entre 0 y z, con zz > 0 es 0.4838

d) Entre −z y z, con z > 0 es 0.9500

Ejercicio 3. Sabiendo que la variable Z ,sigue una distribución Normal, Z ∼ N(0, 1), calcule lassiguientes Probabilidades:P (Z ≤ 0.93);P (Z ≤ 1.68);P (Z ≤ −2.27);P (Z ≤ −0.27);P (Z > 0.62);P (Z > 2.05);P (Z > −1.07);P (Z > −2.39);P (0.56 ≤ Z < 2.80);P (−2.81 < Z < −0.33);P (−0.85 < Z ≤ 072)

Ejercicio 4. Siendo Z ∼ N(0, 1), calcule los valores de la variable que verifican las siguientescondiciones:P (Z ≤ z) = 0.70;P (Z ≤ z) = 0.90;P (Z ≤ z) = 0.35;P (Z ≤ z) = 0.05;P (Z > z) = 0.25;P (Z > z) = 0.05;P (Z > z) = 0.85;P (Z > z) = 0.69;P (−z < Z ≤ z) = 0.90;P (−z < Z ≤ z) = 0.60

Ejercicio 5. Dada la variable X distribuida normalmente con media 18 y desviación estándar 2.5,encuentre

a) P (X < 15)

Page 142: Download estadistica

12 PROBLEMAS PROPUESTOS 140

b) el valor de k tal que P (X < k) = 0.2236

c) el valor de k tal que P (X > k) = 0.1814

d) P (17 < X < 21)

Ejercicio 6. Partiendo de que X es una variable que sigue una distribución Normal de media 50 ydesviación típica 4, calcule las siguientes probabilidades:P (X ≤ 55);P (X ≤ 59);P (X ≤ 47.5);P (X ≤ 45.6);P (X > 60.4);P (X > 58.64);P (X > 48.2);P (X > 46.26);P (52 < X ≤ 54);P (44, 5 < X ≤ 49);P (47.25 < X ≤ 53.48)

Ejercicio 7. Una prueba consta de 200 preguntas de verdadero o falso, para un sujeto que re-spondiese al azar, ¿Cuál sería la probabilidad de que acertase?

a) 50 preguntas o menos.

b) Más de 50 y menos de 100.

c) Más de 120 preguntas.

Ejercicio 8. Analizadas 240 muestras de sangre, se determino que el colesterol en sangre, se dis-tribuía normalmente con media 100 y desviación típica 20.

a) Calcule la probabilidad de que una muestra de sangre sea inferior a 94.

b) ¿Qué proporción de muestras de sangre tienen valores comprendidos entre 105 y 130 ?.

c) ¿Cuántas muestras de sangre fueron superiores a 138?.

Ejercicio 9. Las puntuaciones en un test de ansiedad-rasgo siguen, en una población de mujeres,una distribución Normal de media 25 y desviación Típica 10. Si queremos clasificar la población encuatro grupos de igual tamaño, ¿Cuales serán las puntuaciones que delimiten estos grupos?

Ejercicio 10. En una distribución Binomial con n = 10 y P = 0, 8 ¿Qué error se comete al calcularla probabilidad de que la variable sea igual a 6, mediante la aproximación Normal?

Ejercicio 11. Para la distribución normal tipificada, calcular :

a) Percentil 21

b) Cuartil 3º

c) Valores centrales entre los que quedan comprendidas la cuarta parte de las observaciones.

Ejercicio 12. Sólo 24 de los 200 alumnos de un Centro escolar miden menos de 150 cm. Sí la estaturamedia de dichos alumnos es de 164 cm., ¿cuál es su varianza ?.

Ejercicio 13. El percentil 70 de una distribución normal es igual a 88, siendo 0.27 la probabilidadde que la variable tenga un valor inferior a 60. ¿ A qué distribución normal nos estamos refiriendo?

Page 143: Download estadistica

12 PROBLEMAS PROPUESTOS 141

Ejercicio 14. La vida promedio de cierto tipo de motor pequeño es 10 años con una desviaciónestándar de dos años. El fabricante reemplaza gratis todos los motores que fallen dentro del tiempode garantía. Si está dispuesto a reemplazar sólo 3 % de los motores que fallan, ¿De qué duración debeser la garantía que ofrezca?. Suponga que la duración de un motor sigue una distribución normal.

Ejercicio 15. El nivel de colesterol en una persona adulta sana sigue una distribución normalN(192, 12). Calcular la probabilidad de que una persona adulta sana tenga un nivel de colesterol:

a) Superior a 200 unidades.

b) Entre 180 y 220 unidades.

12.6. MuestreoEjercicio 1. Mediante muestreo irrestricto aleatorio se obtiene una muestra de 50 trabajadoresprocedente de una población de 750 empleados de una multinacional. Al medir el salario mensual Xen cientos de euros que perciben los trabajadores de la muestra se obtienen los siguientes datos:

50∑i=1

Xi = 454 y50∑i=1

X2i = 4306

De esta muestra 20 trabajadores pertenecen al sector financiero de la multinacional, y al medir lossalarios mensuales X sobre estos 20 empleados se obtienen los siguientes resultados:

20∑i=1

Xi = 172 y20∑i=1

X2i = 1536

Estimar el salario medio mensual por trabajador y el total mensual de pagos en salarios de la multi-nacional para todos sus empleados y para los empleados del sector financiero, aŽsí como sus erroresabsolutos.

Ejercicio 2. Dos dentistas A y B hicieron una encuesta para investigar el estado de los dientes de200 niños. El doctor A seleccionó una muestra irrestricta aleatoria de 20 niños y contó el número dedientes con caries de cada niño, con los siguientes resultados:

N de dientes con caries por niño 0 1 2 3 4 5 6 7 8 9 10

N de niños 8 4 2 2 1 1 0 0 0 1 1

El doctorB, utilizando las mismas técnicas dentales, examinó a los 200 niños y sólo registró aquellosque no tenían caries, encontrando que 60 niños no tenían dientes dañados.

Estudiar qué doctor obtiene estimaciones más precisas del número total de dientes con caries en losniños cuantificando la ganancia en precisión.

Page 144: Download estadistica

12 PROBLEMAS PROPUESTOS 142

Xi 2 3 5 10 20 50 100 200

ni 100 80 200 30 30 30 20 10

Ejercicio 3. Consideremos los salarios anuales (variable X) en miles de euros de 500 trabajadoresde una empresa se obtiene la siguiente distribucón de frecuencias:Se estratifica la población en grupos homogéneos de ganancias salariales utilizando como variablede estratificación el propio salario anual mediante el criterio dado por 2 ≤ X < 10, 10 ≤ X < 100,100 ≤ X ≤ 200. Realizar las afijaciones de uniforme y proporcional sin y con reposición de unamuestra de tamaño 100 cuando se estima el salario anual medio. Analizar las precisiones y justificarlos resultados.

12.7. Inferencia estadísticaEjercicio 1. Una muestra aleatoria de 50 calificaciones de Estadística de un total de 200, arrojó unamedia de 75 y una desviación típica de 10.

a) ¿ Cuales son los limites de confianza del 95 % para la estimación de la media de las 200 califica-ciones?

b) ¿ Con qué grado de confianza podrá decirse que la media de las 200 calificaciones es 75± 1 ?

Ejercicio 2. Demostrar que E(s2) = σ2 si s2 =∑n

i=1(xi−x)2

n−1

Ejercicio 3. Demostrar que la media muestral es un estimador insesgado de la media poblacional

Ejercicio 4. Si θ es un estimador del parámetro θ y su sesgo esta dado por b = E(θ)− θ. Demostrarque E((θ − θ)

2) = V ar(θ) + b2.

Ejercicio 5. Suponga que en una muestra de 100 hombres de una universidad se obtuvo la siguientedistribución de calificaciones sobre la medida del cociente intelectual (I.Q.).

Coeficiente intelectural Frecuencia93- 107 29108- 122 38123- 137 20138- 152 10153- 167 3

a) Trace la gráfica de la distribución de frecuencias

b) Calcule el intervalo de confianza del 95 % para el I.Q. medio de todos los hombres de la univer-sidad

c) Construya un intervalo de confianza del 95 % para la proporción de hombres que tienen un I.Q.superior a 137

Page 145: Download estadistica

12 PROBLEMAS PROPUESTOS 143

Ejercicio 6. En dos ciudades se llevó a cabo una encuesta sobre el costo de la vida para obtenerel gasto semanal promedio en alimentación en familias constituidas por cuatro personas. De cadaciudad se seleccionaron aleatoriamente una muestra de 20 familias y se observaron que en la primeraciudad se obtuvo una media de $135 y una desviación típica de $15 y en la segunda ciudad se obtuvouna media de $122 y una desviación típica de $10.Se consideran que los datos referidos a cada población son independientes y con distribución normal.

a) Obtener el intervalo de confianza del 95 % de la diferencia entre las ciudades

b) Se estaría inclinado a concluir que existe una diferencia real entre µ1 y µ2

Ejercicio 7. Por estadísticas que se tienen, se ha podido establecer que más del 40 % de los jóvenestoman regularmente Coca-Cola, cuando tienen sed. Una muestra aleatoria de 450 jóvenes reveló que162 de ellos solían tomar dicha bebida cuando tenían sed.

a) ¿Cuál podría ser su conclusión al nivel del 1 % de significancia acerca de lo que muestran lasestadísticas?

b) ¿Cuál podría ser su conclusión al nivel del 5 % de significancia acerca de lo que muestran lasestadísticas?

Ejercicio 8. En cierto instituto de enseñanza secundaria hay matriculados 800 alumnos. A una mues-tra seleccionada aleatoriamente de un 15 % de ellos, se les preguntó si utilizaban la cafetería del in-stituto. Contestaron negativamente un total de 24 alumnos. Halla el intervalo de confianza del 99 %para estimar la proporción de alumnos que utilizan la cafetería del instituto.

Ejercicio 9. Se tiene que reparar una máquina en cierta fábrica si produce más del 10 % de artículosdefectuosos del gran lote de producción de un día. Una muestra aleatoria de 100 artículos de laproducción contiene 15 defectuosos y el supervisor decide que debe repararse la máquina. ¿ Laevidencia de la muestra apoya la decisión del supervisor? Utilice un nivel de significancia del 1 %.

Ejercicio 10. Una agencia de empleos, critica el hecho de que el 30 % de las personas que soncolocadas no pasan la prueba de trabajo en los tres meses. Se quieren comprobar esta crítica y delarchivo de colocación de empleados, selecciona una muestra de 25 empleados y se encuentra que 7no pasaron la prueba. ¿ Se puede justificar esta crítica?

Ejercicio 11. La oficina de control de tránsito sostiene que el 40 % de conductores de vehículos deservicio particular tienen pase de conducción vencida. Se lleva a cabo una muestra de 20 conduc-tores, encontrando que 9 de ellos tienen pase vencido. ¿ Al 5 % de nivel de significancia, se puedeafirmar que el porcentaje es mayor que el señalado por la oficina?

Ejercicio 12. La media de una muestra es de 49 y el tamaño de la muestra es de 36, la desviaciónestándar es 3. Utilice el nivel de significancia de 0.02 para probar las siguiente hipótesisH0 : µ = 50y H1 : µ 6= 50

Ejercicio 13. La cadena de restaurante Campero afirma que el tiempo de espera para el servicio deatención tiene una distribución normal, con una media de 3 minutos y una desviación 1 minuto. Eldepartamento de aseguramiento de calidad descubrió en una muestra de 50 clientes que el tiempomedio de espera es de 2 minutos, en el nivel de significancia de 0.05 ¿Se puede llegar a la conclusiónde que el tiempo de espera en promedio es menos de tres minutos?

Page 146: Download estadistica

12 PROBLEMAS PROPUESTOS 144

12.8. Distribuciones bidimensionales12.8.1. Prueba χ2 para tablas de contingencia

Ejercicio 1. En una determinada región existen 3 facultades en las que se cursan estudios deEconomía. Un programa de radio universitario pretende debatir si la dificultad de estos estudiospudiera estar relacionada con el centro donde se cursan. Para aportar información al programa,se propuso a los oyentes licenciados en Economía que llamaran a un teléfono gratuito donde se lesrealizaría una serie de preguntas. Con la información obtenida se completó la siguiente tabla de fre-cuencias, en las que las llamadas han sido clasificadas según el lugar donde se realizaron los estudiosy el tiempo empleado en terminarlos:

Facultad Número de años empleados para finalizarla licenciatura en Economía

4 ó menos Entre 5 y 6 7 ó másA 300 150 50B 110 125 90C 325 350 100

Suponiendo que estos datos pudieran ser considerados como procedentes de una muestra aleatoria,¿Se podría afirmar que existe alguna relación entre el centro de estudios y el tiempo que un estudiantetarda en terminar su carrera de Economía? Nivel de signifación del 10 %

Ejercicio 2. Las asociaciones de padres y madres de alumnos de los colegios públicos de una de-terminada ciudad pretenden organizar de forma conjunta las actividades extraescolares del próximocurso. Para tratar de conocer el interés de los padres en el tipo de actividades que pueden desarrollarsus hijos, la comisión encargada decide llevar a cabo una encuesta a una muestra aleatoria de 1500padres. Con los datos de esta encuesta, pudo construirse la siguiente tabla:

Actividades Niveles de estudio de los padresPrimarios Bachillerato Universitarios

Competiciones deportivas 150 195 175Talleres creativos en la propia ciudad 90 100 46

Excursiones diversas 60 330 180Otras 50 75 49

¿Cabe pensar, al 1 % de significación, que el nivel de estudios de los padres influye en el tipo deactividad extraescolar elegida para su hijo?

12.8.2. Distribuciones marginales y condicionales

Ejercicio 1. Se supone que el consumo de medicamentos depende de la edad de las personas, paraverificar esta suposición, se eligió una muestra de 100 individuos, cuyas edades, junto con las canti-dades, en dólares, que gastan en medicamentos durante un año, se presentan en la siguiente tabla:

Page 147: Download estadistica

12 PROBLEMAS PROPUESTOS 145

1. Obténgase la distribución de frecuencias de la variable gastos en medicina.

2. Hállese la distribución de frecuencias de la variable edad

3. ¿Cuál es la distribución de frecuencias de la edad condicionada a un nivel de gasto compren-dido entre 30 y 90 dólares?

4. Calcúlese la distribución de frecuencias del gasto para una edad comprendida entre 60 y 100años.

Ejercicio 2. La siguiente tabla recoge los ingresos y los gastos en alimentación semanales, endólares, de 12 familias.

Determínese el gasto medio por familia en alimentación de las familias con ingresos comprendidosentre 300 y 480 dólares semanales.

Ejercicio 3. La siguiente tabla recoge la clasificación de 50 trabajadores de una empresa según elsalario anual, en miles de dólares, y el número de días de baja por enfermedad en un determinadoaño:

1. ¿Cuál es el número de días de baja esperados para un trabajador cuyo salario anual es de20,000 dólares?

2. Obténgase el número de días de baja más frecuente de los trabajados con salarios anualescomprendido entre 15 y 25 mil dólares.

Page 148: Download estadistica

12 PROBLEMAS PROPUESTOS 146

Ejercicio 4. En una empresa de limpieza, se cuenta con 100 trabajadores, se ha realizado un estudiosobre la relación entre el salario y el ausentismo laboral, obteniéndose, entre otros, los resultadosque aparecen en la siguientes tablas de distribuciones condicionas:

La variable Y representa el número mensual de días de ausencia al trabajo y está distribuida en losintervalos 0− < 4, 4− < 10; la variable X representa el salario mensual, en miles de dólares, y estádistribuida en los intervalos 0.6− < 1.2, 1.2− < 1.8 y 1.8− < 2.6.

1. Hállese la distribución bidimensional correspondiente.

2. Calcúlese el número medio mensual de días de ausentismo por trabajador de los trabajadorescon salario comprendidos entre 1200 y 1800 dólares.

3. Obténgase la varianza de la distribución del salario mensual de los trabajadores que se hanausentado del trabajo entre 4 y 10 días.

Ejercicio 5. Una constructora considera que las familias adquieren viviendas de mayor tamañosegún sus ingresos. Para confirmar este hecho se han considerado los datos correspondientes a suúltima construcción de 210 viviendas, analizándose el nivel de ingresos anuales de las familias quehan adquirido una vivienda de esta construcción, X, en miles de dólares, así como el tamaño de lavivienda comprada, Y, en metros cuadrados.

¿Confirma esta información la hipótesis de la constructora?

Ejercicio 6. Dada una distribución de frecuencias bidimensional (xi, yi, fij), pruébese que la condi-ción necesaria y suficiente para que las variables X e Y sean independientes es que, para cualesquierai y j: fi/j = fi. y fj/i = f.j

Ejercicio 7. La siguiente tabla refleja el salario mensual, X, en miles de dólares, y el gasto médicoal mes en odontólogos, Y, en dólares, de un grupo de 200 familias.

Page 149: Download estadistica

12 PROBLEMAS PROPUESTOS 147

¿Son las variables X e Y independientes?

Ejercicio 8. Sobre una población de N familias se ha realizado un estudio sobre la relación entreel número mensual de llamadas telefónicas nacionales (urbanas e interurbanas), X, y las interna-cionales, Y, y se han obtenido, entre otros resultados, las dos distribuciones de Y condicionadas porvalores de X, tal y como se refleja en la siguiente tabla del mes de diciembre del pasado año:

1. Suponiendo que X está distribuida en los intervalos 0− < 60 y 60− < 240, y la variable Yen 0− < 20, 20− < 40, y 40− < 60, calcúlese el número medio por familia de llamadasinternacionales de las familias que han realizado 30 llamadas nacionales.

2. Si las variables X e Y son independientes, ¿Cuánto valen a y b?

Ejercicio 9. Sea (xi, yi, fij) una distribución de frecuencias bidimensional. Demuéstrese que lasvariables X e Y son independientes si, y solamente si, para cualesquiera i y l, el cociente fij

fljes

constante para todo j.

12.8.3. Correlación y predicción

Ejercicio 1. Dado una distribución de frecuencias bidimensional (xi, yi, fij), cuya covarianza es S,obténgase la covarianza de la distribución de frecuencias (axi + b, cyi + d, fij), S ′, siendo a y bnúmero reales positivos.

Ejercicio 2. El Departamento de Marketing de un grupo financiero ha realizado un estudio sobre lainfluencia de la renta de las decisiones de inversión de sus clientes. Para ello eligió una muestra de 20clientes, cuya renta anual, junto con las cantidades invertidas en un cierto año, en miles de dólares,aparecen recogidas en la siguiente tabla:

Page 150: Download estadistica

12 PROBLEMAS PROPUESTOS 148

1. Hállese las medias y las varianzas de las variables consideradas

2. ¿Cuál es la covarianza entre la inversión y la renta?

3. ¿Cuál será el valor de la covarianza si cada cliente aumenta su inversión en mil dólares? ¿Quévalor tendrá la covarianza si la renta de cada cliente se incrementara en un 6 por ciento?

Ejercicio 3. A partir de la regresión lineal de Y, ahorro anual, sobre X, renta mensual de un grupo defamilias (ambas variables en miles de dólares) se ha estimado que el ahorro correspondiente a unarenta de 3 mil dólares es de 0.4 miles de dólares, mientras que, si la renta es de 2.5 miles de dólares,el ahorro es de 0.3 miles de dólares. Con estos datos, hállese la ecuación de la recta de regresión deY sobre X.

Ejercicio 4. Obténgase la media y la varianza de los residuos en la regresión lineal de Y sobre X.

Ejercicio 5. Obténgase la media y la varianza de los valores teóricos en la regresión lineal de Ysobre X.

Ejercicio 6. En la regresión lineal de Y sobre X, demuéstrese la siguiente relación denominada de-scomposición de la varianza:

S2Y = S2

Y+ S2

e .

Ejercicio 7. Demuéstrese que, si existe dependencia lineal perfecta entre las variables X e Y, esto es,si Y = a+ b.X , donde a y b son números reales,b 6=, entonces,

|S| = SXSY

Ejercicio 8. En la regresión lineal de Y sobre X, demuéstrese la siguiente relación:

S2e = S2

Y (1− r2)

Ejercicio 9. Se considera la distribución de frecuencias:

Demuéstrese que las variables X e Y = X2 están incorrelacionadas pero son dependientes.

Ejercicio 10. Demuéstrese que, si para cualquier j, x/Y = yj = x, entonces, las variables X e Yestán incorrelacionadas.

Ejercicio 11. Dada una distribución de frecuencias bidimensional (xi, yj, fij), cuyo coeficiente decorrelación lineal es r, obténgase el coeficiente de correlación lineal de la distribución de frecuencias(axi + b, cyj + d, fij), siendo a y c números reales positivos.

Page 151: Download estadistica

12 PROBLEMAS PROPUESTOS 149

Ejercicio 12. Las puntuaciones obtenidas por un grupo de personas en un test para medir la habili-dad verbal X y el razonamiento abstracto Y son:

1. Obtenga las tablas de las distribuciones marginales

2. La media y la desviación típica de las distribuciones marginales

3. Calcula las medias Y /X = xi, ∀i, y graficar los pares y analice si estos puntos pueden serrepresentados por un modelo lineal de la forma y = ax+ b.

Ejercicio 13. Se toma una muestra de 50 empresas, observando el número de trabajadores X y laproducción Y.

Determine la recta de regresión de Y sobre X, el coeficiente de correlación lineal y la varianza resid-ual.

Ejercicio 14. La evolución temporal de la masa salarial de una empresa se recoge en el siguientecuadro:

1. Determine la recta que explica el salario en función del tiempo, calculando el coeficiente decorrelación lineal y la varianza residual.

2. Estime la masa salarial del sexto año.

Ejercicio 15. De un sector productivo formado por 7 empresas se recogen los siguientes datos:

Page 152: Download estadistica

12 PROBLEMAS PROPUESTOS 150

1. Determine la recta que explica la producción en función del número de empleados, calculandoel coeficiente de determinación y la varianza residual.

2. Realice un contraste de hipótesis para verificar la significancia de los estimadores de los coe-ficientes de regresión.

3. Calcule la productividad marginal del sector por persona empleada.

4. Estime la producción de una empresa con 1000 empleados.

Ejercicio 16. Datos sobre la renta X de 100 contribuyentes y los impuestos Y que pagan:

1. Si el modelo impositivo es , determine el impuesto fijo C y el tipo impositivo t . ¿Es bueno elmodelo propuesto?

2. Determine la varianza explicada por la regresión y la varianza residual.

3. Si las rentas aumentan 0.1, ¿Cuál es el aumento previsto en la cantidad pagada?

Ejercicio 17. Datos sobre antigüedad X y salario Y de los trabajadores de una empresa:

1. Halle L0, a, b y c sabiendo que SXY = −7, que las rectas de regresión se cortan en el punto(3,9.5) y que la distribución de frecuencias relativas de Y es:

2. Si se prescinde del 15 % de los empleados con salarios más bajos y el 10 % con salarios másaltos, ¿Entre qué valores están los salarios del 75 % restante?

3. Halle la recta de regresión de Y sobre X y el coeficiente de determinación.

Page 153: Download estadistica

12 PROBLEMAS PROPUESTOS 151

Ejercicio 18. La recta de regresión X = 0.5Y + 3 expresa la relación estadística entre un númeroX de unidades vendidas diariamente de un bien y el gasto mensual Y en hacerle publicidad. Se sabeque la covarianza es 22.5 y que la distribución marginal de X es la siguiente:

1. Determine las respectivas medias de X e Y, y la varianza de Y.

2. Determine la recta de regresión de Y sobre X, su coeficiente de determinación y la varianzaresidual.

Ejercicio 19. De una distribución (X, Y) se conoce la distribución marginal de X.

Si4∑j=1

yjn.j = 3240 y la recta de regresión de Y sobre X es Y = 3X + 20, determine la recta de

regresión de X sobre Y, su coeficiente de determinación y la varianza residual.

Ejercicio 20. Se sabe que la recta de regresión de Y sobre X para un conjunto de 10 datos es Y =0.74X + 0.84, siendo S2

e = 3.218 la correspondiente varianza residual. También se sabe que∑yj =

82.4 y∑xi

2 = 3340. Determine la recta de regresión de X sobre Y, y el coeficiente de determinación.

Ejercicio 21. Se conocen los siguientes datos relativos a 5 observaciones de la producción X y elcoste total Y de una industria:

5∑i=1

xi = 645∑i=1

yi = 2475∑i=1

xiyi = 3199;5∑i=1

xi2 = 828;

5∑i=1

yi2 = 12363

1. Determine la recta de regresión de Y sobre X

2. Estímese el coste si la producción es 15, valorando su bondad.

Ejercicio 22. De una distribución bidimensional de frecuencias se sabe que:

Y = 5;1

n

n∑i=1

X2i = 200; S2

Y = 5; SX = 10; SXY = 10

1. Determine la regresión de Y sobre X y el coeficiente de correlación lineal.

2. Calcule la varianza residual de la anterior regresión.

Page 154: Download estadistica

12 PROBLEMAS PROPUESTOS 152

Ejercicio 23. Analice si son posibles las siguientes situaciones:

1. r = −0.5; y = x+ 6

2. SXY = 100; S2X = 25; SY = 20; S2

Y= S2

Y

3. y = 5x+ 8, y = 9 + x5, r = 0.2

4. 2y = x+ 8, y = x− 4, x = 16, y = 12

Ejercicio 24. Demuestre que si Y es el valor teórico obtenido mediante la recta de regresión de Ysobre X, sucede que |rY Y | = |rXY |

Ejercicio 25. Analice si son posibles las siguientes situaciones:

1. y = 2x+ 4; y = 3x+ 2 r = 2/3

2. S2X = 20; Sy = 30; y = 2x+ b

3. y = 2x+ 3, r = 0

4. r = −0.4, y = 2x+ 3

Ejercicio 26. Analice lo siguiente:

1. ¿Es posible que y = (2− x)/3, x = 1− 4y?

2. ¿Si 2x− y = 1 en una recta de regresión, puede ser negativo r?

3. Si x+ 2y = 1 y 3x+ 5y = 2 son rectas de regresión, calcule x y y

4. Si entre X e Y hay correlación positiva, ¿Cómo es la correlación entre U = 3 − 2X y V =4 + 3Y ?

5. ¿Es cierto que S2e = S2

y − aSXY ?

Ejercicio 27. Se sabe que la recta de regresión de Y sobre X es y = ax + 4, y su coeficiente de de-terminación es 0.8; además, S2

Y= 16 y las rectas de regresión se cortan en el punto (1,2). Determine

las varianzas de X y de Y, y la covarianza. Estime el valor de X si Y=2.

Ejercicio 28. A partir de la regresión lineal de Y, ahorro anual, sobre X, renta mensual de un grupode familias (ambas variables en miles de dólares) se ha estimado que el ahorro correspondiente a unarenta de 3 mil dólares es de 0.4 miles de dólares, mientras que, si la renta es de 2.5 miles de dólares,el ahorro es de 0.3 miles de dólares. Con estos datos, hállese la ecuación de la recta de regresión deY sobre X.

Ejercicio 29. Obténgase la mejor explicación de la variable Y en función de la variable X según elmodelo potencial: y = axb aplicando el criterio de los mínimos cuadrados.

Ejercicio 30. Obténgase la mejor explicación de la variable Y en función de la variable X según elmodelo exponencial y = abx aplicando el criterio de los mínimos cuadrados.

Page 155: Download estadistica

12 PROBLEMAS PROPUESTOS 153

Ejercicio 31. En una residencia hospitalaria se desea estudiar la posible relación entre la edad yel gasto en medicamentos. Para ello se ha elegido una muestra de 10 individuos, cuyas edades, X, ygastos mensuales en medicamentos, Y, en dólares, figuran en la siguiente tabla.

1. Represente el diagrama de dispersión de esta distribución de frecuencias.

2. Obténgase, a partir del diagrama de dispersión, la ecuación de regresión que mejor refleje ladependencia estadística de los gastos en medicamentos de la edad de los individuos.

3. Analice la bondad del ajuste realizado.

Ejercicio 32. Cinco niñas de 2, 3, 5, 7 y 8 años de edad pesan respectivamente 14, 20, 30, 42 y 44Kg.

1. Calcula el coeficiente de correlación relativo a las variables dadas. Interpreta.

2. Halla la ecuación de la recta de regresión de la edad sobre el peso. ¿Cuál sería el peso aprox-imado de una niña de 6 años?. ¿Qué tan confiable es este resultado?.

Ejercicio 33. Las notas obtenidas por 10 alumnos en Matemática y en Música son:

Matemática 6 4 8 5 3.5 7 5 10 5 4Música 6.5 4.5 7 5 4 8 7 10 6 5

1. Calcula la covarianza y el coeficiente de correlación.

2. ¿Existe correlación entre las dos variables?.

3. ¿Cuál sería la nota esperada en Música para un alumno que hubiese obtenido un 8.3 enMatemática?.

4. ¿Qué se puede decir de la incerteza en la que se pudiese incurrir al responder en el literalanterior?.

Ejercicio 34. Sobre un conjunto de conductores se ha realizado una encuesta para analizar su edad(Y) y el número de accidentes que han sufrido (X). A partir de la misma se obtuvieron los siguientesresultados:

X/Y (20,30] (30,40] (40,50] (50,60] (60,70]0 74 82 78 72 71 7 6 5 6 52 3 2 2 1 1

A partir de estos datos, se le pide que determine para esta distribución las curvas de regresión de Ysobre X y de X sobre Y.

Page 156: Download estadistica

12 PROBLEMAS PROPUESTOS 154

Ejercicio 35. Para la economía de un país, disponemos de los datos anuales redondeados sobreconsumo en los hogares a precios corrientes (Y) y el ingreso nacional disponible neto (X), tomadosde informes de Hacienda en base a 1995, para el período 1995-2002, ambos expresados en miles demillones de dólares:

Año 1995 1996 1997 1998 1999 2000 2001 2002Y 258,6 273,6 289,7 308,9 331,0 355,0 377,1 400,4X 381,7 402,2 426,5 454,3 486,5 520,2 553,3 590,0

Considerando que el consumo se puede expresar como función lineal de la renta Y=a+bX, determine:

1. Los parámetros a y b de la recta de regresión.

2. La varianza de la variable consumo y su descomposición en varianza explicada y no explicadapor el modelo.

3. El coeficiente de determinación de dicha regresión.

4. La predicción del valor que tomará el consumo para una renta de 650 millones de dólares.

Ejercicio 36. Se supone que se puede establecer cierta relación lineal entre las exportaciones deun país y la producción interna de dicho país. En el caso de El Salvador, tenemos los datos anuales(expresados en millones de dólares) para tales variables correspondientes al quinquenio 1992-1996en la siguiente tabla:

AÑOS PRODUCCIÓN EXPORTACIONES1992 52,654 10,4201993 53,972 11,84171994 57,383 14,4431995 61,829 16,7321996 65,381 18,760

A partir de tal información, y considerando como válida dicha relación lineal, se pide:

1. Si la producción para el año 1997 fue de 69,415 millones de dólares. ¿Cuál sería la predicciónde las exportaciones para este año?.

2. ¿Qué grado de precisión tendría dicha predicción?.

Ejercicio 37. De una distribución de dos variables se conocen los siguientes datos:rxy = 0.9; Sx = 1.2 ; Sy = 2.1; x = 5; y = 10.

Obténganse las rectas de regresión mínimo cuadráticas de X sobre Y y de Y sobre X.

Ejercicio 38. Para un mismo grupo de observaciones de las variables X e Y, hemos obtenido las dosrectas de regresión siguientes:

3x+ 2y = 26 6x+ 2y = 32

En función de las mismas, responda a las siguientes cuestiones:

Page 157: Download estadistica

12 PROBLEMAS PROPUESTOS 155

1. ¿Qué valores tomarían las medias de X e Y?.

2. Represente gráficamente ambas rectas de regresión.

3. Determine el valor del coeficiente de correlación lineal rxy.

4. ¿Por qué la regresión de Y sobre X y la de X sobre Y no coinciden?.

Ejercicio 39. A partir de un conjunto de valores de las variables X e Y, se ha determinado la regresiónde Y sobre X, obteniéndose la siguiente recta:

Y = 10 + 0.45X;

Además se han obtenido los siguientes valores: R2 = 0.9 y x = 20.Se pide que, a partir de la definición de la anterior recta, determine los parámetros de la recta deregresión de X sobre Y.

Ejercicio 40. Se han observado, en varios modelos de automóviles, los datos de potencia del motor(X), en caballos, y la aceleración (Y), medida en el número de segundos necesarios para acelerar de0 a 100 Km/h. La tabla adjunta refleja los valores obtenidos.

X 50 75 90 100 120 150Y 15 12 10,5 10 9 8

A partir de tales datos, se ha decidido expresar la aceleración en función de la potencia mediante elajuste de una función lineal. Bajo esta hipótesis:

1. Determine la función de ajuste.

2. Si aumenta la potencia de un motor en un 10 por ciento, ¿en qué porcentaje repercutirá di-cho aumento en la aceleración prevista? ¿Depende ello de la potencia que tenga el motor encuestión?.

Ejercicio 41. La empresa CUSCATLECA S.A. ha trabajado hasta ahora con la hipótesis de que lasventas de un período dependen linealmente de los gastos de publicidad efectuados en el períodoanterior. En este momento, le solicitan a usted la realización de un análisis que ponga de manifiestosi la hipótesis, hasta ahora mantenida, se puede seguir sosteniendo en función de los datos que lesuministran.

AÑOS GASTOS VENTAS1987 21 181988 22 191989 25 201990 26 221991 27 231992 29 241993 30 26

En el informe final de su análisis, deberá responder a las siguientes preguntas:

Page 158: Download estadistica

12 PROBLEMAS PROPUESTOS 156

1. ¿Se incrementarán las ventas del período siguiente al aumentar los gastos en publicidad delperíodo actual?

2. ¿Es adecuado suponer que el ajuste entre estas variables es efectivamente lineal teniendo encuenta los valores de las variables? Ajuste el modelo lineal e interprete los coeficientes delmismo. ¿Qué porcentaje de la varianza de las ventas no son explicadas por las variaciones delos gastos en publicidad?

3. ¿Cuál será la predicción de las ventas para 1994? ¿Qué precisión tendrá ese pronóstico?

4. Si para el año 1994 se piensa incrementar los gastos de publicidad en un 10 por ciento, ¿quéincremento relativo cabría esperar para las ventas de 1995 con respecto a las de 1994, segúnel modelo ajustado?

Ejercicio 42. Los dueños de un restaurante regalan a sus clientes una galleta por cada bebida quees comprada en su establecimiento, pues creen que hay una relación entre la cantidad de sal en lasgalletas y la cantidad de bebidas vendidas. Se sabe que las galletas no pueden tener una concen-tración de sal superior a 3.5 gramos por cada 1000 galletas y, por ello, decide ir variando a partirde 1 gramo la concentración de 0.5 en 0.5 gramos cada semana e ir anotando el incremento en cajasemanalmente, obteniendo la siguiente tabla:

Grs. DE SAL/1000 GALLETAS INGRESOS (Dólares)1 14.30

1.5 15.02.0 16.52.5 17.53.0 203.4 24

A partir de tales cifras, se desea responder a las siguientes interrogantes:

1. ¿Considera justificado el planteamiento de un modelo lineal para expresar la relación entre lasvariables?

2. Si el propietario desea unos ingresos de 160 dólares, ¿qué cantidad de sal debería aportar porcada 1000 galletas?. Si aporta el máximo permitido de sal, ¿cuál sería el ingreso en caja?.Explicar cuál de las dos predicciones le merece mayor confianza.

3. ¿Cuál sería la variación porcentual de los ingresos cuando la cantidad de sal aumenta en un1 % sobre el último valor de la tabla? Si aumentamos en 1gr. la sal por cada 1000 galletas,¿cuánto variarán los ingresos?

Ejercicio 43. Una compañía de seguros considera que el número de vehículos (Y) que circulan poruna determinada autopista a más de 120 km/h, puede ponerse en función del número de accidentes(X) que ocurren en ella. Durante 5 días obtuvo los siguientes resultados:

L M Mi J VAccidentes Xi 5 7 2 1 9Número de vehiculos Yi 15 18 10 8 20

Page 159: Download estadistica

12 PROBLEMAS PROPUESTOS 157

1. Calcula el coeficiente de correlación lineal.

2. Si ayer se produjeron 6 accidentes, ¿cuántos vehículos podemos suponer que circulaban por laautopista a más de 120 km/h?. ¿Es buena la predicción?

Ejercicio 44. Las calificaciones de 40 alumnos en Psicología Evolutiva y en Estadística han sido lasde la tabla adjunta.

Psicologia Xi 3 4 5 6 6 7 7 8 10Estadística Yi 2 5 5 6 7 6 7 9 10Número de alumnos fi 4 6 12 4 5 4 2 1 2

1. Obtener la ecuación de la recta de regresión de calificaciones de Estadística respecto de lascalificaciones de Psicología.

2. ¿Cuál será la nota esperada en Estadística para un alumno que obtuvo un 4,5 en Psicología?

Ejercicio 45. En un determinado hotel, el responsable de la piscina del mismo debe añadir per-iódicamente un compuesto de cloro al agua para mantenerla en buenas condiciones. Dicha personaha observado la relación existente entre el número de días que dura el efecto del producto ( variableX1 ) y los gramos de cloro empleado ( variable X2 ), obteniendo los siguientes resultados:

1. s21=5.4 días-gramo y s2

2 =12 gramos2.

2. El porcentaje de varianza explicada por la regresión lineal de X1 sobre X2 sería del 78.387 %.

3. A partir de la regresión lineal de X1 sobre X2, el valor estimado para 21 gramos de cloro seríade 4 días.

4. x = 25 gramos.

A partir de esta información, determine ambas rectas de regresión y en función de ellas, calcule quécantidad de cloro habría que utilizar para que los efectos del producto durasen 7 días.

Ejercicio 46. La factura mensual del gasto telefónico de una pequeña empresa se ha incrementadonotablemente en los últimos meses. Los estudios realizados por el administrador de la misma argu-mentan que el mayor uso de Internet dentro de la misma es la principal causa del mayor gasto enteléfono, lo que ha hecho que se estudie la posibilidad de acogerse a alguno de los múltiples bonoso tarifas especiales que ofrecen las compañías, lo que hasta la fecha todavía no se llevó a cabo. Lasúltimas cifras mensuales no hacen sino confirmar esta relación:

Mes Enero Febrero Marzo Abril MayoCuantía de la factura (Dólares) 55 100 118 120 142Tiempo de conexión(en min.) 200 500 700 800 1000

De acuerdo con la información anterior, responda a las siguientes preguntas:

1. Suponiendo la existencia de una relación de tipo lineal entre tiempo de conexión y gasto tele-fónico, ¿qué porcentaje de las variaciones en la cuantía de la factura telefónica no podrían serexplicadas linealmente por el tiempo de conexión a Internet dentro de la compañía?

Page 160: Download estadistica

12 PROBLEMAS PROPUESTOS 158

2. ¿Cuál sería la cuantía de la factura telefónica de la compañía de acuerdo a esta relación linealsi no se conectase a Internet en la empresa?

3. ¿Cuál sería el gasto telefónico estimado según esta relación lineal si el tiempo de conexión aInternet fuera de 2000 minutos? ¿Le parece aceptable tal predicción? Razone su respuesta.

4. Se considera que un incremento del 20 % en el tiempo de conexión a Internet respecto al realiza-do en el mes de mayo conllevaría a que la factura telefónica se elevase de forma extraordinaria.¿Cuál sería el incremento relativo en la misma si ello se produjese? Razone su respuesta.

Ejercicio 47. En una muestra de familias se han analizado las variables ahorro anual (Y) y rentaanual (X), medidas ambas en miles de dólares. Los datos obtenidos han sido los siguientes:

Ahorro (X) 1.9 1.8 2.0 2.1 1.9 2.0 2.2 2.3 2.7 3.0Renta(Y) 20.5 20.8 21.2 21.7 22.1 22.3 22.2 22.6 23.1 23.5

A partir de tales datos, se pide:

1. Obtener el modelo lineal que explica el ahorro de las familias en función de su renta.

2. ¿Qué familia aumentaría en un mayor porcentaje su ahorro si su renta se viese incrementadaen un 5 por ciento, la familia que tiene la menor renta de entre todas o la que posee la mayorrenta?

3. ¿Cuál será el incremento absoluto del ahorro cuando una familia aumente su renta anual en500 Dls.?

4. ¿Qué porcentaje de varianza de la variable ahorro queda explicado por la variable renta através del modelo lineal planteado?

Ejercicio 48. Con el objetivo de estudiar la relación lineal entre el precio de los automóviles y elnúmero de unidades vendidas, se procedió a recoger datos sobre tales magnitudes durante el pasadomes en una determinada región. Los resultados obtenidos fueron los siguientes:

Precio(miles de dólares) 7.5 9 10.5 12 14 16 18 20.5 23.5 27Cantidad(unidades) 450 425 400 350 325 300 290 280 260 200

En función a los datos recabados para esa región y mes:

1. Una empresa radicada en la región tiene previsto para el mes próximo aumentar el precio desu modelo más vendido en 500 Dls. Si suponemos como válida la relación lineal entre las dosvariables analizadas para los datos del pasado mes, ¿cómo afectaría este hecho a las ventasde dicho modelo?

2. Si el modelo más caro de la tabla anterior se abaratase para el mes próximo un 3 por ciento,¿cómo variarían las ventas de dicho modelo?

3. Obtenga la descomposición de la varianza total de las cantidades vendidas en varianza expli-cada y varianza no explicada por el modelo lineal y, a partir de ella, determine el coeficientede determinación.

Page 161: Download estadistica

12 PROBLEMAS PROPUESTOS 159

4. Si expresamos el precio en dólares y las cantidades vendidas en miles de unidades, ¿cuál seríael modelo lineal que explica las ventas en función del precio?. ¿Y el coeficiente de determi-nación de tal modelo?.

Ejercicio 49. Una juguetería ha examinado la evolución reciente de las ventas de su muñeco Cocó (Y,en millones de dólares) junto con los gastos de publicidad de ese muñeco (X, en millones de dólares),obteniéndose los siguientes resultados:

Año 1996 1997 1998 1999 2000 2001 2002Y 126 135 156 156 150 150 180X 20 25 30 32.5 35 32 34

Además se sabe que : x = 29, 79; y = 150, 43; s2x = 25, 1327;S2

y = 253, 1020;Sxy = 64, 3776.A partir de esta información, responda a las siguientes cuestiones:

1. ¿Se puede afirmar que al aumentar los gastos en publicidad se incrementarán las ventas?.Obtenga los parámetros del ajuste lineal que explique las ventas en función de los gastos.Interprete dichos coeficientes e indique la bondad del ajuste realizado.

2. Si para el año 2003 aumentásemos los gastos de publicidad en un 1 por ciento, ¿en qué por-centaje se espera que variasen las ventas, según el modelo lineal?

3. Suponiendo que entre X e Y existe la relación Y = AX + b , calcular A y b. ¿Qué utilizaríapara medir la bondad de dicho ajuste?

4. Si para el años 2003 aumentamos los gastos de publicidad en un 1 por ciento, ¿en qué por-centaje se espera que varíe las ventas, según el modelo del apartado c)?

Ejercicio 50. Para un conjunto de personas que están siguiendo una dieta de adelgazamiento, sehan recogido datos sobre el peso perdido desde el inicio de la misma (variable Y, en Kg.) y el tiempoque llevan siguiendo la dieta (variable X, en semanas), los cuales se muestran en la siguiente tabla:

Y 2.4 5.4 5.6 8.4 10.6 13.5 15 15X 3 5 6 8 11 13 15 16

A partir de esta información, responda a las siguientes cuestiones:

1. Estime el modelo lineal que explica el peso perdido en función del tiempo que se lleva siguiendola dieta e interprete los parámetros.

2. Para el modelo estimado en el apartado anterior, descomponga la varianza total como sumade la explicada y la no explicada por el mismo y obtenga, a partir de tal descomposición elcoeficiente de determinación.

3. Según el modelo considerado, ¿qué peso esperaría perder una persona que siga la dieta durante2 meses (8 semanas)?. ¿Y una persona que esté dispuesta a seguir la dieta durante dos años(108 semanas)?

Ejercicio 51.

Page 162: Download estadistica

12 PROBLEMAS PROPUESTOS 160

Se llevó a cabo un experimento para estudiar el efecto de cierta droga en la disminución del ritmocardíaco en adultos. La variable independiente es la dosis de la droga en milígramos (X), y la variabledependiente Y es la diferencia entre el ritmo más bajo registrado después de la administración de ladroga y el ritmo antes de la administración de la droga (control), es decir es la reducción del ritmocardíaco en látidos por minuto. Los datos se muestran a continuación.

n 1 2 3 4 5 6 7 8 9 10 11 12 13X 0.50 0.75 1.00 1.25 1.50 1.75 2.00 2,25 2.50 2.75 3.00 3.25 3.50Y 10 8 12 12 14 12 16 18 17 20 18 20 21

Elabore un análisis de regresión completo, es decir, haga un análisis gráfico, determine el grado deasociación lineal que tienen las variables (coeficiente de correlación), determine la recta que mejorse ajusta a los datos, el coeficiente de determinación y haga un análisis de los errores. En base a losresultados obtenidos escriba sobre la relación entre las variables en cuestión.

Page 163: Download estadistica

A BIBLIOGRAFÍA 161

A. Bibliografía[1] J. Susan Milton, y Jesse C. Arnold. Probabilidad y estadística con aplicaciones para ingeniería

y ciencias computacionales. McGraw-Hill Interamericana, México D.F, México, 2005.

[2] Grande Esteban, I.; y Abascal Fernández, E. Métodos Multivariantes para la Investigación Com-ercial. Editorial Ariel, S.A. Barcelona, España, 1989.

[3] Freire, Paulo. La educación como práctica de la libertad. Siglo XXI Editores, México, 1988.

[4] Borsotti C. Y otros. La situación problemática. El problema de investigación. Fichas de trabajode la Universidad de Luján.

[5] Bunge, Mario. La Investigación Científica. Su estrategia y su filosofía. Ariel, Barcelona, España,1986.

[6] Sirvent, Ma. Teresa. La práctica de la investigación. Taller de Metodología de la InvestigaciónEducativa.

[7] Arnal, J. Del Rincón y otros. Investigación Educativa. Fundamentos y metodologías. EditorialLabor, 1994.

[8] Vara Horna, Arístides A. La Lógica de la Investigación en las Ciencias Sociales. Centro deInvestigaciones Científicas y Tecnológicas, Lima, Perú, 2006.

[9] Walpole, Ronald E., Myers, Raymond H.,Myers,Sharon L. Ye, Keying. Probabilidad y Estadís-tica para Ingenieria y Ciencias.. Editorial Pearson. Prentice Hall. Octava edicion, Año 2007.

[10] Lipschutz, Seymour. Introducción a la Probabilidad y Estadística. Editorial McGrawHill, Año2000.

[11] Mendenhall, William, Scheaffer, Richard L., Wackerly Dennis D. Estadística Matemática conAplicaciones. Editorial Grupo Editrial Iberoamerica, Año 1996.

[12] Martínez Bencardino, Ciro. Estadística Básica Aplicada. Colombia: ECOE EDICIONES, 3°ED, Año 2006.

[13] Montgomery, Douglas; Peck, Elizabeth y Vining, Geoffrey. Introducción al análisis de regresiónlineal. Compañía Editorial Continental, Mexico, Año 2002.

[14] Montgomery, Douglas y Runger, George C. Probabilidad y Estadística. McGrawHill, Año 1996.

[15] Peralta Astudillo, María Josefa y at. Estadística: Problemas resueltos. Ediciones Pirámide, Año2000.

[16] Isabel Castillo Manrique, Marta Guijarro. Estadistica Descriptiva y Cálculo de Probabilidades.Pearson-Prentice Hall, Año 2005.

[17] Cesar Perez López. Estadistica: problemas resueltos y aplicaciones. Pearson-Prentice Hall, Año2003.

Page 164: Download estadistica

162

[18] William Mendenhall,Robert J.Beaver. Barbara, M.Beaver. Estadistica: problemas resueltos yaplicaciones. Thomson, Año 2008.

[19] César Pérez López. Muestreo Estadístico. Concepto y problemas resueltos. Pearson, Año 2005.

[20] José Miguel Casas. Ejercicios de inferencia estadística y muestreo. Ediciones Piramide, Año1998.

Page 165: Download estadistica

163

AnexosA. Tablas de distribuciones de probabilidad

Page 166: Download estadistica

Tabla 1: Función de Distribución Normal Estándar

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

-3.0 0.001350 0.001306 0.001264 0.001223 0.001183 0.001144 0.001107 0.001070 0.001035 0.001001

-2.9 0.001866 0.001807 0.001750 0.001695 0.001641 0.001589 0.001538 0.001489 0.001441 0.001395

-2.8 0.002555 0.002477 0.002401 0.002327 0.002256 0.002186 0.002118 0.002052 0.001988 0.001926

-2.7 0.003467 0.003364 0.003264 0.003167 0.003072 0.002980 0.002890 0.002803 0.002718 0.002635

-2.6 0.004661 0.004527 0.004396 0.004269 0.004145 0.004025 0.003907 0.003793 0.003681 0.003573

-2.5 0.006210 0.006037 0.005868 0.005703 0.005543 0.005386 0.005234 0.005085 0.004940 0.004799

-2.4 0.008198 0.007976 0.007760 0.007549 0.007344 0.007143 0.006947 0.006756 0.006569 0.006387

-2.3 0.010724 0.010444 0.010170 0.009903 0.009642 0.009387 0.009137 0.008894 0.008656 0.008424

-2.2 0.013903 0.013553 0.013209 0.012874 0.012545 0.012224 0.011911 0.011604 0.011304 0.011011

-2.1 0.017864 0.017429 0.017003 0.016586 0.016177 0.015778 0.015386 0.015003 0.014629 0.014262

-2.0 0.022750 0.022216 0.021692 0.021178 0.020675 0.020182 0.019699 0.019226 0.018763 0.018309

-1.9 0.028717 0.028067 0.027429 0.026803 0.026190 0.025588 0.024998 0.024419 0.023852 0.023295

-1.8 0.035930 0.035148 0.034380 0.033625 0.032884 0.032157 0.031443 0.030742 0.030054 0.029379

-1.7 0.044565 0.043633 0.042716 0.041815 0.040930 0.040059 0.039204 0.038364 0.037538 0.036727

-1.6 0.054799 0.053699 0.052616 0.051551 0.050503 0.049471 0.048457 0.047460 0.046479 0.045514

-1.5 0.066807 0.065522 0.064255 0.063008 0.061780 0.060571 0.059380 0.058208 0.057053 0.055917

-1.4 0.080757 0.079270 0.077804 0.076359 0.074934 0.073529 0.072145 0.070781 0.069437 0.068112

-1.3 0.096800 0.095098 0.093418 0.091759 0.090123 0.088508 0.086915 0.085343 0.083793 0.082264

-1.2 0.115070 0.113139 0.111232 0.109349 0.107488 0.105650 0.103835 0.102042 0.100273 0.098525

-1.1 0.135666 0.133500 0.131357 0.129238 0.127143 0.125072 0.123024 0.121000 0.119000 0.117023

-1.0 0.158655 0.156248 0.153864 0.151505 0.149170 0.146859 0.144572 0.142310 0.140071 0.137857

-0.9 0.184060 0.181411 0.178786 0.176186 0.173609 0.171056 0.168528 0.166023 0.163543 0.161087

-0.8 0.211855 0.208970 0.206108 0.203269 0.200454 0.197663 0.194895 0.192150 0.189430 0.186733

-0.7 0.241964 0.238852 0.235762 0.232695 0.229650 0.226627 0.223627 0.220650 0.217695 0.214764

-0.6 0.274253 0.270931 0.267629 0.264347 0.261086 0.257846 0.254627 0.251429 0.248252 0.245097

-0.5 0.308538 0.305026 0.301532 0.298056 0.294599 0.291160 0.287740 0.284339 0.280957 0.277595

-0.4 0.344578 0.340903 0.337243 0.333598 0.329969 0.326355 0.322758 0.319178 0.315614 0.312067

-0.3 0.382089 0.378280 0.374484 0.370700 0.366928 0.363169 0.359424 0.355691 0.351973 0.348268

-0.2 0.420740 0.416834 0.412936 0.409046 0.405165 0.401294 0.397432 0.393580 0.389739 0.385908

-0.1 0.460172 0.456205 0.452242 0.448283 0.444330 0.440382 0.436441 0.432505 0.428576 0.424655

-0.0 0.500000 0.496011 0.492022 0.488034 0.484047 0.480061 0.476078 0.472097 0.468119 0.464144

0.0 0.500000 0.503989 0.507978 0.511966 0.515953 0.519939 0.523922 0.527903 0.531881 0.535856

0.1 0.539828 0.543795 0.547758 0.551717 0.555670 0.559618 0.563559 0.567495 0.571424 0.575345

0.2 0.579260 0.583166 0.587064 0.590954 0.594835 0.598706 0.602568 0.606420 0.610261 0.614092

0.3 0.617911 0.621720 0.625516 0.629300 0.633072 0.636831 0.640576 0.644309 0.648027 0.651732

0.4 0.655422 0.659097 0.662757 0.666402 0.670031 0.673645 0.677242 0.680822 0.684386 0.687933

0.5 0.691462 0.694974 0.698468 0.701944 0.705401 0.708840 0.712260 0.715661 0.719043 0.722405

0.6 0.725747 0.729069 0.732371 0.735653 0.738914 0.742154 0.745373 0.748571 0.751748 0.754903

0.7 0.758036 0.761148 0.764238 0.767305 0.770350 0.773373 0.776373 0.779350 0.782305 0.785236

0.8 0.788145 0.791030 0.793892 0.796731 0.799546 0.802337 0.805105 0.807850 0.810570 0.813267

0.9 0.815940 0.818589 0.821214 0.823814 0.826391 0.828944 0.831472 0.833977 0.836457 0.838913

1.0 0.841345 0.843752 0.846136 0.848495 0.850830 0.853141 0.855428 0.857690 0.859929 0.862143

1.1 0.864334 0.866500 0.868643 0.870762 0.872857 0.874928 0.876976 0.879000 0.881000 0.882977

1.2 0.884930 0.886861 0.888768 0.890651 0.892512 0.894350 0.896165 0.897958 0.899727 0.901475

1.3 0.903200 0.904902 0.906582 0.908241 0.909877 0.911492 0.913085 0.914657 0.916207 0.917736

1.4 0.919243 0.920730 0.922196 0.923641 0.925066 0.926471 0.927855 0.929219 0.930563 0.931888

1.5 0.933193 0.934478 0.935745 0.936992 0.938220 0.939429 0.940620 0.941792 0.942947 0.944083

1.6 0.945201 0.946301 0.947384 0.948449 0.949497 0.950529 0.951543 0.952540 0.953521 0.954486

1.7 0.955435 0.956367 0.957284 0.958185 0.959070 0.959941 0.960796 0.961636 0.962462 0.963273

1.8 0.964070 0.964852 0.965620 0.966375 0.967116 0.967843 0.968557 0.969258 0.969946 0.970621

i

Page 167: Download estadistica

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

1.9 0.971283 0.971933 0.972571 0.973197 0.973810 0.974412 0.975002 0.975581 0.976148 0.976705

2.0 0.977250 0.977784 0.978308 0.978822 0.979325 0.979818 0.980301 0.980774 0.981237 0.981691

2.1 0.982136 0.982571 0.982997 0.983414 0.983823 0.984222 0.984614 0.984997 0.985371 0.985738

2.2 0.986097 0.986447 0.986791 0.987126 0.987455 0.987776 0.988089 0.988396 0.988696 0.988989

2.3 0.989276 0.989556 0.989830 0.990097 0.990358 0.990613 0.990863 0.991106 0.991344 0.991576

2.4 0.991802 0.992024 0.992240 0.992451 0.992656 0.992857 0.993053 0.993244 0.993431 0.993613

2.5 0.993790 0.993963 0.994132 0.994297 0.994457 0.994614 0.994766 0.994915 0.995060 0.995201

2.6 0.995339 0.995473 0.995604 0.995731 0.995855 0.995975 0.996093 0.996207 0.996319 0.996427

2.7 0.996533 0.996636 0.996736 0.996833 0.996928 0.997020 0.997110 0.997197 0.997282 0.997365

2.8 0.997445 0.997523 0.997599 0.997673 0.997744 0.997814 0.997882 0.997948 0.998012 0.998074

2.9 0.998134 0.998193 0.998250 0.998305 0.998359 0.998411 0.998462 0.998511 0.998559 0.998605

3.0 0.998650 0.998694 0.998736 0.998777 0.998817 0.998856 0.998893 0.998930 0.998965 0.998999

Ejemplos: Si X ∼ N(0,1), entonces Pr(X ≤ −1.96) = 0.024998 y Pr(X ≤ 2.00) = 0.977250.Fuente: Tabla construida utilizando la función @cnorm de EViews® 3.1.

ii

Page 168: Download estadistica

Tabla 2: Valores Críticos de la Distribución t de Student.

FUNCION DE DISTRIBUCION

0.005 0.010 0.025 0.050 0.100 0.900 0.950 0.975 0.990 0.995

1 -63.657 -31.821 -12.706 -6.314 -3.078 3.078 6.314 12.706 31.821 63.657

2 -9.925 -6.965 -4.303 -2.920 -1.886 1.886 2.920 4.303 6.965 9.925

3 -5.841 -4.541 -3.182 -2.353 -1.638 1.638 2.353 3.182 4.541 5.841

4 -4.604 -3.747 -2.776 -2.132 -1.533 1.533 2.132 2.776 3.747 4.604

5 -4.032 -3.365 -2.571 -2.015 -1.476 1.476 2.015 2.571 3.365 4.032

6 -3.707 -3.143 -2.447 -1.943 -1.440 1.440 1.943 2.447 3.143 3.707

7 -3.499 -2.998 -2.365 -1.895 -1.415 1.415 1.895 2.365 2.998 3.499

8 -3.355 -2.896 -2.306 -1.860 -1.397 1.397 1.860 2.306 2.896 3.355

9 -3.250 -2.821 -2.262 -1.833 -1.383 1.383 1.833 2.262 2.821 3.250

10 -3.169 -2.764 -2.228 -1.812 -1.372 1.372 1.812 2.228 2.764 3.169

G 11 -3.106 -2.718 -2.201 -1.796 -1.363 1.363 1.796 2.201 2.718 3.106

R 12 -3.055 -2.681 -2.179 -1.782 -1.356 1.356 1.782 2.179 2.681 3.055

A 13 -3.012 -2.650 -2.160 -1.771 -1.350 1.350 1.771 2.160 2.650 3.012

D 14 -2.977 -2.624 -2.145 -1.761 -1.345 1.345 1.761 2.145 2.624 2.977

O 15 -2.947 -2.602 -2.131 -1.753 -1.341 1.341 1.753 2.131 2.602 2.947

S

16 -2.921 -2.583 -2.120 -1.746 -1.337 1.337 1.746 2.120 2.583 2.921

D 17 -2.898 -2.567 -2.110 -1.740 -1.333 1.333 1.740 2.110 2.567 2.898

E 18 -2.878 -2.552 -2.101 -1.734 -1.330 1.330 1.734 2.101 2.552 2.878

19 -2.861 -2.539 -2.093 -1.729 -1.328 1.328 1.729 2.093 2.539 2.861

L 20 -2.845 -2.528 -2.086 -1.725 -1.325 1.325 1.725 2.086 2.528 2.845

I

B 21 -2.831 -2.518 -2.080 -1.721 -1.323 1.323 1.721 2.080 2.518 2.831

E 22 -2.819 -2.508 -2.074 -1.717 -1.321 1.321 1.717 2.074 2.508 2.819

R 23 -2.807 -2.500 -2.069 -1.714 -1.319 1.319 1.714 2.069 2.500 2.807

T 24 -2.797 -2.492 -2.064 -1.711 -1.318 1.318 1.711 2.064 2.492 2.797

A 25 -2.787 -2.485 -2.060 -1.708 -1.316 1.316 1.708 2.060 2.485 2.787

D

26 -2.779 -2.479 -2.056 -1.706 -1.315 1.315 1.706 2.056 2.479 2.779

27 -2.771 -2.473 -2.052 -1.703 -1.314 1.314 1.703 2.052 2.473 2.771

28 -2.763 -2.467 -2.048 -1.701 -1.313 1.313 1.701 2.048 2.467 2.763

29 -2.756 -2.462 -2.045 -1.699 -1.311 1.311 1.699 2.045 2.462 2.756

30 -2.750 -2.457 -2.042 -1.697 -1.310 1.310 1.697 2.042 2.457 2.750

40 -2.704 -2.423 -2.021 -1.684 -1.303 1.303 1.684 2.021 2.423 2.704

60 -2.660 -2.390 -2.000 -1.671 -1.296 1.296 1.671 2.000 2.390 2.660

90 -2.632 -2.368 -1.987 -1.662 -1.291 1.291 1.662 1.987 2.368 2.632

120 -2.617 -2.358 -1.980 -1.658 -1.289 1.289 1.658 1.980 2.358 2.617

INF -2.576 -2.327 -1.960 -1.645 -1.282 1.282 1.645 1.960 2.327 2.576

Ejemplos: Si X ∼ t(20), entonces Pr(X ≤ −2.528) = 0.01 y Pr(X ≤ 1.725) = 0.95; si X ∼ t(n) con n suficientementegrande, entonces Pr(X ≤ −1.960) ≈ 0.025 y Pr(X ≤ 2.327) ≈ 0.99.Fuente: Tabla construida utilizando la función @qtdist de EViews® 3.1.

iii

Page 169: Download estadistica

Tabla 3: Valores Críticos de la Distribución Chi-Cuadrado.

FUNCION DE DISTRIBUCION

0.005 0.010 0.025 0.050 0.100 0.900 0.950 0.975 0.990 0.995

1 0.000039 0.000157 0.000982 0.003932 0.0158 2.71 3.84 5.02 6.63 7.88

2 0.0100 0.0201 0.0506 0.10 0.21 4.61 5.99 7.38 9.21 10.60

3 0.0717 0.11 0.22 0.35 0.58 6.25 7.81 9.35 11.34 12.84

4 0.21 0.30 0.48 0.71 1.06 7.78 9.49 11.14 13.28 14.86

5 0.41 0.55 0.83 1.15 1.61 9.24 11.07 12.83 15.09 16.75

6 0.68 0.87 1.24 1.64 2.20 10.64 12.59 14.45 16.81 18.55

7 0.99 1.24 1.69 2.17 2.83 12.02 14.07 16.01 18.48 20.28

G 8 1.34 1.65 2.18 2.73 3.49 13.36 15.51 17.53 20.09 21.95

R 9 1.73 2.09 2.70 3.33 4.17 14.68 16.92 19.02 21.67 23.59

A 10 2.16 2.56 3.25 3.94 4.87 15.99 18.31 20.48 23.21 25.19

D

O 11 2.60 3.05 3.82 4.57 5.58 17.28 19.68 21.92 24.72 26.76

S 12 3.07 3.57 4.40 5.23 6.30 18.55 21.03 23.34 26.22 28.30

13 3.57 4.11 5.01 5.89 7.04 19.81 22.36 24.74 27.69 29.82

D 14 4.07 4.66 5.63 6.57 7.79 21.06 23.68 26.12 29.14 31.32

E 15 4.60 5.23 6.26 7.26 8.55 22.31 25.00 27.49 30.58 32.80

16 5.14 5.81 6.91 7.96 9.31 23.54 26.30 28.85 32.00 34.27

L 17 5.70 6.41 7.56 8.67 10.09 24.77 27.59 30.19 33.41 35.72

I 18 6.26 7.01 8.23 9.39 10.86 25.99 28.87 31.53 34.81 37.16

B 19 6.84 7.63 8.91 10.12 11.65 27.20 30.14 32.85 36.19 38.58

E 20 7.43 8.26 9.59 10.85 12.44 28.41 31.41 34.17 37.57 40.00

R

T 21 8.03 8.90 10.28 11.59 13.24 29.62 32.67 35.48 38.93 41.40

A 22 8.64 9.54 10.98 12.34 14.04 30.81 33.92 36.78 40.29 42.80

D 23 9.26 10.20 11.69 13.09 14.85 32.01 35.17 38.08 41.64 44.18

24 9.89 10.86 12.40 13.85 15.66 33.20 36.42 39.36 42.98 45.56

25 10.52 11.52 13.12 14.61 16.47 34.38 37.65 40.65 44.31 46.93

26 11.16 12.20 13.84 15.38 17.29 35.56 38.89 41.92 45.64 48.29

27 11.81 12.88 14.57 16.15 18.11 36.74 40.11 43.19 46.96 49.64

28 12.46 13.56 15.31 16.93 18.94 37.92 41.34 44.46 48.28 50.99

29 13.12 14.26 16.05 17.71 19.77 39.09 42.56 45.72 49.59 52.34

30 13.79 14.95 16.79 18.49 20.60 40.26 43.77 46.98 50.89 53.67

Ejemplos: Si X ∼ χ2(20), entonces Pr(X ≤ 9.59) = 0.025 y Pr(X ≤ 34.17) = 0.975.Fuente: Tabla construida utilizando la función @qchisq de EViews® 3.1.

iv