material estadística

122
1 UNIVERSIDAD CENTROAMERICANA FACULTAD DE CIENCIA, TECNOLOGÍA Y AMBIENTE DEPERTAMENTO DE CIENCIAS BÁSICAS ASIGNATURA ESTADÍSTICA INGENIERÍA EN SISTEMAS Y TECNOLOGÍA DE LA INFORMACIÓN Septiembre, 2015 Recopilado por Clara Pastora Téllez

Upload: gerardo-gutierrez

Post on 01-Feb-2016

97 views

Category:

Documents


4 download

DESCRIPTION

Material Estadística

TRANSCRIPT

Page 1: Material Estadística

1 UNIVERSIDAD CENTROAMERICANA

FACULTAD DE CIENCIA, TECNOLOGÍA Y AMBIENTE

DEPERTAMENTO DE CIENCIAS BÁSICAS

ASIGNATURA ESTADÍSTICA

INGENIERÍA EN SISTEMAS Y TECNOLOGÍA DE LA INFORMACIÓN

Septiembre, 2015

Recopilado por Clara Pastora Téllez

Page 2: Material Estadística

2 Índice de contenido Objetivos ….………………………………………………………………………………………………………………………… 4

Introducción ………………………………………………………………………………………………………………………….. 4

1. Unidad I: Estadística Descriptiva ……………….………………………………………………….. 4

Ramas de la estadística………………………………………………………………….. 6

Conceptos …………………………………………………………………………………. 7

Escalas de medición …………………………………………………………………… 9

Actividad de Autoaprendizaje N° 1 ………………………………………. 11

Organización de datos …………………………………………………………………… 13

Representación Gráfica …………………………………………………………….. 17

Actividad de Autoaprendizaje N° 2 ……………………………………… 19

Medidas de posición central …………………………………………………….. 21

Media ………………………………………………………………………………… 21

Mediana……………………………………………………………………………….. 23

Moda …………………………………………………………………………………. 25

Medidas de posición no central…………………………………………………. 25

Cuartiles y Percentiles …………………………………………………….. 26

Medidas de variación ………………………………………………………………….. 26

Varianza, Desviación estándar …………………………………….. 27

Coeficiente de variación………………………………………………….. 27

Actividad de Autoaprendizaje N° 3 ……………………………………… 30

2. Unidad II: Probabilidades ……………………………………………………………………………….. 31

Enfoques de probabilidad y Conceptos ………………………………………. 31

Reglas de Probabilidad …………………………………………………….. 33

Actividad de Autoaprendizaje N° 4 ………………………………………. 37

Teorema de Bayes …………………………………………………………………… 43

Actividad de Auto aprendizaje N° 5 ……………………………………… 45

3. Unidad III: Distribuciones de Probabilidad y Pruebas Estadísticas …………… 47

Distribución de probabilidad ……………………………………………………. 47

Actividad de Autoaprendizaje N° 6 …………………………………….. 49

Distribución Binomial ………………………………………………………………….. 50

Actividad de Autoaprendizaje N° 7 ……………………………………… 52

Distribución de Poisson…………………………………………………………………. 53

Actividad de Autoaprendizaje N° 8 ……………………………………… 55

Distribución Normal ………………………………………………………………….. 56

Actividad de Autoaprendizaje N° 9 ……………………………………… 62

Distribución muestral para la media ……………………………………… 63

Teorema de Limite Central …………………………………………………… 65

Actividad de Autoaprendizaje N° 10 …………………………………….. 66

Estimación por intervalo y tamaño de muestra …………… …………. 67

Actividad de Autoaprendizaje N° 11 …………………………………….. 73

Prueba de Hipótesis …………………………………………………………………. 76

Actividad de Autoaprendizaje N° 12 …………………………………….. 86

Prueba de independencia…..……………………………………………. 87

Actividad de Autoaprendizaje N° 13 ……….……………………………. 89

Page 3: Material Estadística

3 4. Unidad IV: Regresión y Correlación Lineal Simple………………………………………………… 91

Diagrama de Dispersión……………………………………………………………………. 91

Regresión Lineal …………………………………………………………………………. 92

Estimación de la ecuación………. ……………........................................... 92

Error estándar de estimación ……………………………………………………. 94

Coeficiente de Correlación y Determinación ………………..……… 95

Intervalo de Confianza de la media ……………………………………… 95

Inferencia acerca de los parámetros ……………………………………… 96

Actividad de Autoaprendizaje N° 14 ……………………………………… 97

Guías de Laboratorio …………………………………………………………………………………………….. 99

Introducción resultados de la encuesta …………………………………. 102

Procesamiento de datos …………………………………………………………….. 105

Procesamiento de variables cuantitativas ……………………………… 107

Recodificación de variables ………………………………………………………. 108

Procesamiento de variables con opción múltiple …………………. 112

Ejercicio de aplicación ………………………………………………………………… 113

Inferencia estadística …………………………………………………………….... 114

Regresión y Correlación Lineal Simple …………………………………….. 117

Referencias ……………………………………………………………………………………………………………. 122

Page 4: Material Estadística

4 Objetivos

1. Apropiarse de la terminología usada en el área estadística, con el fin de impulsar la

adquisición de cultura estadística por parte de los estudiantes.

2. Identificar maneras adecuadas para la presentación de información y adquirir las

destrezas para construir tablas y gráficos estadísticos.

3. Se pretende lograr un aprendizaje significativo con la construcción de objetos de

aprendizaje en cada una de las unidades, además, del apoyo de herramientas de software

estadístico.

4. Se espera que el curso sea ameno y provechoso para todos (as), logrando potenciar al

estudiante en la aplicación de la estadística y fortaleciendo además, otros valores como: la

honestidad, solidaridad y el trabajo en grupo.

Introducción

El presente material de estudio no pretende sustituir a ningún texto de Estadística, por el

contrario es un esfuerzo que trata de resumir los temas que se requieren para cursar la

asignatura; los estudiante que deseen profundizar en el contenido del programa, deben realizar

las consultas necesarias para completar el conocimiento de esta disciplina.

El material cuenta con cuatro unidades donde se presenta una introducción, el desarrollo

teórico, ejercicios resueltos paso a paso, ejercicios propuestos y un formulario creado para

cada unidad. La temática se resume en: Estadística descriptiva, Probabilidades, Distribuciones

de Probabilidad y Prueba estadísticas y Regresión y Correlación Lineal Simple.

UNIDAD I ESTADÍSTICA DESCRIPTIVA

En esta Unidad se hará un pequeño recorrido por la historia de la estadística, mencionando

algunos de los personajes que la impulsaron, recalcando sus progresos y aportes a través del

tiempo.

El uso de herramientas cuantitativas para el tratamiento de datos, tiene origen en

épocas remotas. Se tiene información de hace más de 3000 años antes de Cristo, donde

las antiguas civilizaciones, como la Egipcia, aplicaron continuamente censos que ayudaban a

la organización del estado y la construcción de las pirámides.

El antiguo testamento nos sugiere que Moisés ordenó un “Censo” a la población Israelita

para identificar los miembros de las familias. En la antigua Grecia y el Imperio Romano,

era común la aplicación de censos para la planificación de impuestos y la prestación del

servicio militar.

La primera persona que introdujo el término estadística en Inglaterra fue Sir John

Sinclair (1754-1835) con su trabajo “Statistical Account of Scotland” (1791-1799)

compilado en 21 volúmenes. El autor explica en su libro, que la palabra estadística la

adoptó gracias al estudio de investigaciones realizadas en Alemania, como una palabra

novedosa que llamaría la atención de los ingleses.

A comienzos del siglo XIX, la palabra estadística adopta un significado más generalizado

hacia la recolección y clasificación de cualquier tipo de datos cuantitativos. Herman Hollerith (1860-1929) fue un estadístico estadounidense que desarrolló

la primera máquina tabuladora basada en tarjetas perforadas y mecanismos eléctrico-

mecánicos para el tratamiento rápido de millones de datos. Su máquina fue usada en el

censo de 1890 en Estados Unidos que redujo la tabulación de los datos de 7 años (censo

Page 5: Material Estadística

5 de 1880) a 2,5 años. Creó la firma “Computing Tabulating Recording Corporation (CTR)”,

que bajo la presidencia de Thomas J. Watson fue renombrada a “International Business

Machines (IBM)” en 1924.

1. Definición

1.1 Estadística es una disciplina que apoya el proceso de toma de decisiones en diversas

áreas del conocimiento, además, de entregar pautas para la presentación adecuada de

información.

1.2 Estadística es la ciencia que utilizando las matemáticas y de modo particular el cálculo

para estudiar las leyes de comportamiento de aquel los fenómenos que no

estando sometidos a leyes rígidas dependen del azar y basándose en ella, se predicen resultados.

1.3 El famoso diccionario Inglés Word Reference define la estadística como un área de la

matemática aplicada orientada a la recolección e interpretación de datos cuantitativos

y al uso de la teoría de la probabilidad para calcular los parámetros de una población.

2. Estudio de la Estadística

Existen dos razones por las cuales el campo de acción de la estadística y la necesidad de un

estudio han crecido enormemente en las últimas décadas. Una razón es que el enfoque cada

vez más cuantitativo que se emplea en todas las ciencias, así como en las empresas y en

otras actividades que afectan nuestras vidas. Esto incluye el uso de técnicas matemáticas

para la evaluación de controles contra la contaminación, la planeación de inventarios, el

estudio de la nutrición, la longevidad, la evaluación de técnicas de enseñanza, etc.

La otra razón es que la cantidad de información estadística que se recolecta, procesa y

disemina al público, por un motivo o por otro ha crecido casi más allá de nuestro

entendimiento, y algo que todo mundo se pregunta es qué parte de ella es estadística

“pura” y qué parte es “impura”.

3. Aplicaciones

3.1 Una compañía que fabrica equipos electrónicos complejos produce algunos equipos que

funcionan adecuadamente, pero también algunos que, por razones desconocidas, no

funcionan adecuadamente. ¿a que se debe que algunos sean buenos y otros no?

3.2 El departamento de control de calidad de una compañía se encarga de vigilar la

producción en forma continua, aplicando muestreo y otras técnicas estadísticas

comunes.

3.3 El contralor y el departamento de contabilidad de una empresa se encargan de la

exactitud en los cálculos financieros. Ya que resulta físicamente imposible verificar cada

documento y determinar su exactitud, se realiza un muestreo de las facturas y se toman

decisiones en base a los resultados de la muestra.

3.4 El departamento de mercadotecnia de una empresa realizará pruebas con los

consumidores y proyectan las ganancias con base en los resultados de la muestra.

3.5 Los analistas de investigación evalúan muchos aspectos de una acción o valor antes de

hacer una recomendación de compra o venta. Recopilan los datos de ventas anteriores de

la empresa y estiman las ganancias futuras.

3.6 El gobierno realiza un gran número de encuestas para determinar la condición actual de

la economía y la predicción de las tendencias económicas futuras. Se elaboran índices,

Page 6: Material Estadística

6 como el índice de precios al consumidor con el objeto de evaluar la tendencia

inflacionaria.

3.7 Los consumidores utilizan los precios unitarios para decidir la cantidad o calidad del

producto a comprar. 3.8 Los resultados de sondeos de opinión pública se presentan en los medios de comunicación.

Estos abarcan muchos temas, como evaluación del desempeño de las alcaldías, ministerios, asamblea nacional, incluso al presidente, el impacto de las medidas económicas, etc.

3.9 Dificultades que encuentran los estudiantes al momento de realizar lectura de textos, su

nivel de comprensión, etc.

4. Ramas de la estadística

Una de las ramas de la Estadística más accesible a la mayoría de la población es la

Descriptiva. Esta parte se dedica única y exclusivamente al ordenamiento y tratamiento de

la información para su presentación por medio de tablas y de representaciones gráficas,

así como de la obtención de algunos parámetros útiles para la explicación de la información

(la media y la desviación estándar). Es un primer acercamiento a la información.

4.1

La investigación cuya finalidad es: el análisis o experimentación de situaciones para el

descubrimiento de nuevos hechos, la revisión o establecimiento de teorías y las aplicaciones

prácticas de las mismas, se basa en los principios de Observación y Razonamiento y

necesita en su carácter científico, el análisis técnico de datos para obtener de ellos

información confiable y oportuna. Este análisis de datos requiere de la Estadística como

una de sus principales herramientas, por lo que los investigadores de profesión y las

personas que de una y otra forma la realizan.

Cuando se realiza un estudio de investigación, se pretende generalmente inferir o

generalizar resultados de una muestra a una población. Se estudia en particular a un

reducido número de individuos a los que tenemos acceso con la idea de poder generalizar

los hallazgos a la población de la cual esa muestra procede. Este proceso de inferencia se

efectúa por medio de métodos estadísticos basados en la probabilidad.

4.2

Estadística Descriptiva La estadística descriptiva es una ciencia que analiza series de datos (por

ejemplo, edad de una población, altura de los estudiantes de una escuela,

temperatura en los meses de verano, etc.) y trata de extraer conclusiones

sobre el comportamiento de estas variables.

Estadística Inferencial Basándose en los resultados obtenidos de una muestra induce o estima las

leyes reales del comportamiento de la población de la que proviene dicha

muestra.

Page 7: Material Estadística

7 5. Conceptos básicos

Ej. 1 Población (se simboliza por N)

1.1 Estudiantes de Ingeniería en Sistema de Nicaragua.

1.2 Trabajadores de una compañía industrial.

1.3 Producción textil en una zona franca.

1.4 Clientes de un banco.

Ej. 2 Muestra (su símbolo es n)

2.1 Si se estudia el precio de la vivienda de una ciudad, lo normal será no recoger

información sobre todas las viviendas de la ciudad (sería una labor muy compleja),

sino que se suele seleccionar un subgrupo (muestra) que se entienda que es

suficientemente representativo.

Las razones para estudiar muestras en lugar de poblaciones son diversas y entre ellas podemos

señalar:

1. Ahorrar tiempo. Estudiar a menos individuos es evidente que lleva menos tiempo.

2. Como consecuencia del punto anterior ahorraremos costos.

3. Estudiar la totalidad de las personas con una característica determinada en muchas

ocasiones puede ser una tarea inaccesible o imposible de realizar.

4. Aumentar la calidad del estudio. Al disponer de más tiempo y recursos, las observaciones y

mediciones realizadas a un reducido número de individuos pueden ser más exactas y

plurales que si las tuviésemos que realizar a una población.

5. La selección de muestras específicas nos permitirá reducir la heterogeneidad de una

población al indicar los criterios de inclusión y/o exclusión.

Población Son todos y cada uno de los elementos que se quieren analizar. Puede ser finita o infinita

(en realidad las poblaciones infinitas no existen, pero cuando se trata de un número

grande se supone como si lo fuera).

Muestra Es un subconjunto de la población o parte de la población que se observa.

(Característica de una población es la propiedad que se estudia.

Parámetro Característica numérica de una población.

Estadístico Característica numérica de una muestra.

Page 8: Material Estadística

8

Ej. 3 Población: Estudiantes de la UCA.

Variable: Edad, valor que puede asumir: 17, 18, 19,… (La característica se designa con

letras mayúsculas X, Y, Z,…)

Las variables pueden ser de dos tipos:

1. Variables cualitativas o atributos: no se pueden medir numéricamente (por ejemplo:

nacionalidad, color de la piel, sexo).

2. Variables cuantitativas o numéricas: tienen valor numérico (edad, precio de un producto,

ingresos anuales).

Por su parte, las variables cuantitativas se pueden clasificar en discretas y continuas:

2.1 Discretas: Sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo, número

de hermanos (puede ser 1, 2, 3...., etc., pero, por ejemplo, nunca podrá ser 3,45).

2.2 Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la

velocidad de un vehículo puede ser 80,3 km/h, 94,57 km/h, etc.

Ej. 4 Clasifique cada una de las siguientes variables en categórica o numéricas (discreta o

continua).

Las variables también se pueden clasificar en:

1. Variables unidimensionales: sólo recogen información sobre una característica (por

ejemplo: edad de los alumnos de una clase).

2. Variables bidimensionales: recogen información sobre dos características de la población

(por ejemplo: edad y altura de los alumnos de una clase).

Variable

Numérica

Categórica

Discreta

Continua

Variable Tipo de variable

1 Nacionalidad 2 Resistencia a la tensión 3 Salario mensual (C$) 4 N° de artículos defectuosos 5 Temperatura (°F)

Variable Es una forma de expresar una característica de un grupo de elementos de

estudio, como el peso de una persona, su estatura, el color de sus ojos,…una

población o de una muestra.

Page 9: Material Estadística

9 3. Variables pluridimensionales: recogen información sobre tres o más características (por

ejemplo: edad, altura y peso de los alumnos de una clase).

Cuando se estudia el comportamiento de una variable hay que distinguir el siguiente concepto:

6. Etapas del análisis estadístico

Recogida de datos.

Ordenación de los mismos en tablas.

Resumen de la información recogida a través de las medidas (Descriptiva).

Analizar los datos provenientes de una muestra para sacar conclusiones sobre la población

de la que proviene la muestra (Inferencial).

7. Niveles o Escalas de medición

Medir en el campo de las ciencias exactas es comparar una magnitud con otra, tomada de

manera arbitraria como referencia, denominada patrón y expresar cuántas veces la

contiene. En el campo de las ciencias sociales medir es “el proceso de vincular conceptos

abstractos con indicadores empíricos”. Al resultado de medir lo se le llama medida. La

medición de las variables puede realizarse por medio de cuatro escalas de medición: la

nominal, ordinal, de intervalo y de razón. Se utilizan para ayudar en la clasificación de las

variables, el diseño de las preguntas para medir variables, e incluso indican el tipo de

análisis estadístico apropiado para el tratamiento de los datos. Una característica esencial

de la medición es la dependencia que tiene de la posibilidad de variación. La validez y la

confiabilidad de la medición de una variable depende de las decisiones que se tomen para

operarla y lograr una adecuada comprensión del concepto evitando imprecisiones y

ambigüedades, en caso contrario, la variable corre el riesgo inherente de ser invalidada

debido a que no produce información confiable.

7.1 Escala nominal

En este nivel de medición se establecen categorías distintivas que no implican un orden

específico. Por ejemplo, si la unidad de análisis es un grupo de personas, para clasificarlas

se puede establecer la categoría sexo con dos niveles, masculino (M) y femenino (F), los

encuestados sólo tienen que señalar su género, no se requiere de un orden real. Así, se

pueden asignar números a estas categorías para su identificación: 1=M, 2=F o bien, se

pueden invertir los números sin que afecte la medición: 1=F y 2=M. En resumen en la escala

nominal se asignan números a eventos con el propósito de identificarlos. Otros ejemplos:

religión, color de ojos, etc.

7.2 Escala ordinal

Se establecen categorías con dos o más niveles que implican un orden inherente entre sí.

La escala de medición ordinal es cuantitativa porque permite ordenar a los eventos en

función de la mayor o menor posesión de un atributo o característica. Por ejemplo, en las

Individuo Cualquier elemento que porte información sobre el fenómeno que se estudia. Así, si

estudiamos la altura de los niños de una clase, cada alumno es un individuo; si estudiamos

el precio de la vivienda, cada vivienda es un individuo.

Page 10: Material Estadística

10 instituciones escolares de nivel básico suelen formar por estatura a los estudiantes, se

desarrolla un orden cuantitativo pero no suministra medidas de los sujetos. Estas escalas

admiten la asignación de números en función de un orden prescrito. Las formas más

comunes de variables ordinales son ítems (reactivos) actitudinales estableciendo una serie

de niveles que expresan una actitud de acuerdo o desacuerdo con respecto a algún

referente. Por ejemplo, ante el reactivo: ENACAL debe privatizarse, el respondiente

puede marcar su respuesta de acuerdo a las siguientes alternativas:

Totalmente de acuerdo En desacuerdo

De acuerdo Totalmente en desacuerdo

Indiferente

Las anteriores alternativas de respuesta pueden codificarse con números que van del uno al

cinco que sugieren un orden preestablecido pero no implican una distancia entre un número

y otro.

7.3 Escala de intervalos La medición de intervalo posee las características de la medición nominal y ordinal.

Establece la distancia entre una medida y otra. La escala de intervalo se aplica a variables

continuas pero carece de un punto cero absoluto. El ejemplo más representativo de este

tipo de medición es un termómetro, cuando registra cero grados centígrados de

temperatura indica el nivel de congelación del agua y cuando registra 100 grados

centígrados indica el nivel de ebullición, el punto cero es arbitrario no real, lo que significa

que en este punto no hay ausencia de temperatura.

7.4 Escala de Razón (Cociente)

Una escala de medición de razón incluye las características de los tres anteriores niveles

de medición (nominal, ordinal e intervalo). Determina la distancia exacta entre los

intervalos de una categoría. Adicionalmente tiene un punto cero absoluto, es decir, en el

punto cero no existe la característica o atributo que se mide. Las variables de ingreso,

edad, peso, estatura, número de hijos, etc. son ejemplos de este tipo de escala. El nivel de

medición de razón se aplica tanto a variables continuas como discretas.

Ej. 5 Clasifique c/u de las siguientes variables en categóricas o numéricas, si es numérica

Determine si es discreta o continua. Además proporcione el nivel de medición.

Variable Tipo de variable Nivel de medición

Número de mensajes de correo

electrónico enviados por un

planificador

Costo de los libros de texto

usado por un estudiante

Edad

Marca de computadora personal

Nivel académico

Page 11: Material Estadística

11 ACTIVIDAD DE AUTOAPRENDIZAJE N° 1

1. Origen y Evolución de la Estadística.

Escriba un ensayo que trate del origen y evolución de la estadística.

2. Describa con sus palabras cada uno de los siguientes términos, proporcionando además tres

ejemplos diferentes a los vistos en clase. 2.1 Población 2.4 Muestra 2.6 Dato 2.2 Variable 2.5 Atributo 2.7 Parámetro

2.3 Estadístico

3. Ilustración

Un estudiante de estadística desea tener una idea acerca del valor (en unidades

monetarias) del automóvil típico que poseen los profesores de su universidad. Para esto se

aplica cada uno de los términos básicos que se han definido.

3.1 La población es el conjunto de todos los vehículos de los profesores de la

universidad.

3.2 Una muestra es una porción o parte de una población. Por ejemplo el número de

automóviles cuyos propietarios son los profesores del departamento de matemáticas,

es una muestra.

3.3 La variable es el valor real de cada automóvil.

3.4 Un dato es el valor de un vehículo en particular. Por ejemplo, el auto del profesor

Miranda esta valuado en 12 mil dólares.

3.5 Los datos son el conjunto de valores que corresponden a la muestra obtenida (8, 10,

12, … miles de $)

3.6 El parámetro acerca del cual se busca información es el valor “promedio” en la

población.

3.7 El estadístico que se encontrará es el valor “promedio de la muestra”

4. Un fabricante de equipos electrónicos desea conocer la proporción de artículos

defectuosos. Se realiza un estudio en 5000 artículos y se encontró que 8% están

defectuosos. Suponiendo que esos 5000 artículos son representativas para el fabricante,

conteste las siguientes preguntas.

4.1 ¿Cuál es la población?

4.2 ¿Cuál es la muestra?

4.3 Identifique el parámetro de interés.

4.4 Identifique el estadístico e indique cuales su valor.

4.5 Se conoce el valor del parámetro.

5. Encuentre un artículo o un anuncio de periódico, que ejemplifique el empleo de la

estadística.

5.1 Describa e identifique la población de interés.

5.2 Describa e identifique una variable.

5.3 Determine e identifique un estadístico.

Page 12: Material Estadística

12 6. Usted estudia los movimientos de precios de un grupo selecto de acciones enlistadas

en la Bolsa de Valores de Nicaragua. Consultó un diario local del día 12 de julio del

2012 y encontró.

6.1 ¿Se consideran las 112 acciones una muestra o una población? Explique.

6.2 ¿Cuál es el nivel de medición? Explique.

6.3 ¿Son las categorías mutuamente excluyentes? Explique.

7. Si dos estudiantes obtienen una calificación de 90 en el mismo examen, ¿qué

argumentos podrían usar para demostrar que la variable calificación en la prueba, es

continua?

8. Indique si cada una de las siguientes variables es categórica o numérica. Si es

numérica determine si es discreta o continua. Además proporcione el nivel de medición.

N° Variable Tipo de variable Nivel de medición

8.1 Cotización de una acción en el

mercado de valores

8.2 Cociente de inteligencia.

8.3 Tipos de accidentes que ocurren en

una fábrica

8.4 Temperatura 8.5 Estado civil 8.6 Precio de un producto 8.7 Factura mensual en electricidad

8.8 Categorías de los profesores

Universitarios

8.9 Número de páginas escritas en cada

trabajo

8.10 Tiempo que se necesita para auditar

una cuenta en una empresa

8.11 Especialidad académica

8.12 Número de créditos registrados en

el II cuatrimestre

8.13 Formas de pago en una compañía 8.14 Color del teléfono usado

8.15 Cantidad de dinero gastado en ropa

el mes pasado

8.16 Tipo principal de transacción usada

al comprar la ropa

8.17

Número de señales de tránsito en

poblados con menos de 50000

habitantes

Movimiento accionario Número

Aumentaron 69

Disminuyeron 32

Sin cambio 11

Total

Page 13: Material Estadística

13

8.18

Tiempo que se necesita para

contestar una llamada telefónica en

una oficina de información

8.19 Lugar de residencia 8.20 Nº de bits transmitidos. 8.21 Satisfacción de un producto.

8.22 Tiempo de reparación de un

componente electrónico.

8.23 Capacidad de almacenamiento de un

disco duro.

9. En una facultad universitaria se ha repartido un cuestionario entre los estudiantes

para averiguar el grado de satisfacción en diversas actividades y servicios. Por ejemplo,

por lo que se refiere al “método de matrícula para las clases del III cuatrimestre”, se pide

a los estudiantes que pongan una cruz en una de las casillas siguientes:

Muy satisfecho Moderadamente insatisfecho

Moderadamente satisfecho Muy insatisfecho

Neutral

¿Es la respuesta de un estudiante a esta pregunta, numérica o categórica? Si es numérica,

¿es discreta o continua? Además indique el nivel de medición.

10. El gerente de una compañía ha formulado una serie de preguntas al responsable del

Departamento de Informática acerca de los trabajadores. Identifique el tipo de

dato que se pide en cada pregunta.

10.1 ¿Cuántos trabajadores tiene el Departamento de Informática?

10.2 Nivel académico (secundaria, universitaria, técnico, otros).

10.3 ¿Cuántas veces al mes ha habido reclamo en el salario de los empleados?

10.4 Número de trabajadores ausentes al mes.

10.5 Salario de los trabajadores.

11. Suponga que el gerente de la división de servicios al cliente de Xenith está interesado

principalmente en determinar si los clientes que han comprado una computadora durante

los últimos 12 meses quedaron satisfechos con el producto. Usando las tarjetas de garantía

entregadas después de la compra, el gerente planea encuestar a 1425 de estos clientes.

11.1 Describa tanto la población como la muestra de interés para el gerente.

11.2 Describa el tipo de dato que el gerente desea recolectar principalmente.

11.3 Desarrolle un primer borrador del cuestionario escribiendo una serie de siete

11.4 preguntas categóricas y cinco numéricas que piensa serian apropiadas para esta

encuesta.

8. Organización de datos Muchas veces uno se pregunta, ¿para qué sirven las encuestas que a veces se hacen en la

calle?, ¿Cómo saber si una estación de radio se escucha más que otra? , ¿Cuál candidato

puede ganar? La respuesta se comienza con la recaudación de datos. Los datos son

información que se recoge, esto puede ser opinión de las personas sobre un tema, edad o

sexo de encuestados, dónde viven, cuántas personas viven en una casa, qué tipo de sangre

tiene un grupo de personas, etc. Hay datos que pueden ser de mucha utilidad a diferentes

Page 14: Material Estadística

14 profesionales en la toma de decisiones, para resolver problemas o para mostrar resultados

de investigaciones. Una vez que se haya recogido toda la información, se procede a crear

una base de datos, donde se registran todos los datos obtenidos. Algunas veces, si los

datos son muy complicados, se codifican, esto quiere decir que se le coloca una palabra

clave que identifica un título muy largo. Cuando ya está elaborada la base de datos se

parece a una tabla. Es importante recordar que nunca se colocan las tablas y las gráficas

juntos, porque en realidad dicen lo mismo, corrientemente se utiliza o una tabla y su

análisis, o una gráfica y su análisis. Por ejemplo, supóngase que se ha preguntado a un

conjunto de n personas: ¿qué opinión tienen acerca de la instalación de playas en la Ciudad

de Rivas o que ha hecho el Gobierno a partir del 2010? Las n respuestas se encuentran en

una escala que va de 1 a 5, donde 1 representa un total desacuerdo con la medida mientras

que 5 quiere significar un acuerdo total.

Una manera de obtener datos es a través de la observación directa. Un experimento

estadístico es una forma de observación directa en la que se controlan algunos o todos los

factores que pueden influir en la variable que se estudia.

Frecuencia absoluta es el número de veces que se repite un determinado valor.

Frecuencia relativa es el cociente entre la frecuencia absoluta y el número total de

observaciones, por tanto la frecuencia relativa está siempre entre cero y uno.

Frecuencia absoluta acumulada es decir se suman las frecuencias anteriores a un

valor dado, por tanto la acumulada al final coincide con el tamaño de la muestra o la

población (n ó N).

Frecuencia relativa acumulada se suman las frecuencias relativas anteriores a un

valor dado, al final la suma es 1.

Variable Frecuencias absolutas Frecuencias relativas (Valor) Simple (f) Acumulada (fa) Simple (fr) Acumulada (fra)

X1 f1 f1 fr1 = f1 / n fr1 X2 f2 f1 + f2 fr2 = f2 / n fr1 + fr2

... ... ... ... ... Xn-1 fn-1 f1 + f2 +..+ fn-1 frn-1 = fn-1 / n fr1 + fr2 +..+frn-1 Xn fn ∑fa = n frn = fn / n ∑fra = 1

Siendo X los distintos valores que puede tomar la variable. Siendo f el número de veces que se repite cada valor. Siendo fr el porcentaje que la repetición de cada valor supone sobre el total

Distribución de frecuencia

Es la representación estructurada, en forma de tabla, de toda la información

que se ha recogido sobre la variable que se estudia.

Page 15: Material Estadística

15 Ej. 6 Se utiliza un contador Geiger electrónico para contar el número de emisiones

radiactivas en un periodo de 10 segundos, obteniendo las cuentas siguientes: 8, 12, 13,

15, 8, 12, 15, 23, 16, 12, 13, 16, 30, 23, 15. Presente esta información en una

distribución de frecuencias (Comente los resultados)

1. Distribución de frecuencias agrupadas 1.1 La distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si la

variable toman un número grande de valores o la variable es continua.

1.2 Se agrupan los valores en intervalos que tengan la misma amplitud denominados clases.

A cada clase se le asigna su frecuencia correspondiente.

1.3 Rango, es la diferencia entre el límite superior y el inferior. (R = XM - Xm)

1.4 Intervalo de clase, conocido también como Amplitud o Ancho de clase, Si se decide que el ancho de cada clase sea uniforme, deberá calcularse por medio de

la expresión,

1.5 Marca de clase: La marca de clase es el punto medio de cada intervalo y es el

valor que representa a todo el intervalo para el cálculo de algunos parámetros.

1.6 Límites de clase: Cada clase está delimitada por el límite inferior de la clase y el

límite superior de la clase.

En todos los casos debe comprobarse que la diferencia entre el límite superior e

inferior de cada clase sea igual al ancho de la clase menos una unidad de variación.

Emisiones

radiactivas.

N° de emisiones

(f)

(fa)

% de emisiones

(fr)

(fra)

8 2 2 0,1333 0,1333

12 3 5 0,2000 0,3333

13 2 7 0,1333 0,4666

15 3 10 0,2000 0,6666

16 2 12 0,1333 0,8000

23 2 14 0,1333 0,9333

30 1 15 0,0666 1,0000

Tabla de frecuencias Una distribución de frecuencias es una tabla en la que se organizan los datos en

clases, es decir, en grupos de valores que describen una característica de los datos

y muestra el número de observaciones del conjunto de datos que caen en cada una

de las clases.

3,322logn1

observado) valor Mín.observado valor (Máx.c

ucLL iS

Page 16: Material Estadística

16 2. Pasos para la elaboración de tablas de distribución de frecuencias.

2.1 Recopilación de datos.

2.2 Clasificación de los datos de menor a mayor (optativo).

2.3 Cálculo del ancho de la clase.

2.4 Identificación de los límites de clase.

2.5 Conteo de los datos.

Ej. 7 Treinta solicitantes interesados en trabajar para un programa de asistencia social,

rindieron un examen diseñado para medir su aptitud para el trabajo social. Los

resultados fueron los siguientes:

Clasificación ordenada.

Calculo del ancho de clase.

564,570850613,322log301

71)(98c

Con los resultados obtenidos en la tabla, responda las siguientes preguntas:

7.1 ¿Cuántos solicitantes obtuvieron calificación entre 84,5 y 89,5?

7.2 ¿Qué porcentaje de solicitantes obtuvo a lo sumo 89,5 como calificación?

7.3 ¿Cuántos solicitantes obtuvieron cuando mucho 94,5 puntos?

79 97 86 76 93 87 98 78 84 88

81 91 86 87 71 94 77 92 76 85

73 78 98 88 96 72 79 97 83 79

71 72 73 76 76 77 78 78 79 79

79 81 83 84 85 86 86 87 87 88

88 91 92 93 94 96 97 97 98 98

Calificación N° de

solicitantes (f)

(fa)

% de solicitantes

(fr)

(fra)

Marca

de clase

Limites reales

70 - 74 3 3 0,1000 0,1000 72 69,5 - 74,5

75 - 79 8 11 0,2666 0,3666 77 74,5 - 79,5

80 - 84 3 14 0,1000 0,4666 82 79,5 - 84,5

85 - 89 7 21 0,2333 0,7000 87 84,5 - 89,5

90 - 94 4 25 0,1333 0,8333 92 89,5 - 94,5

95 - 99 5 30 0,1666 1,0000 97 94,5 - 99,5

3,322logn1

observado) valor Mín.observado valor (Máx.c

Page 17: Material Estadística

17 7.4 ¿Cuánto es la calificación media representativa ubicada entre 74,5 y 79,5?

7.5 ¿Cuánto es la calificación máxima del 83,33% de los solicitantes?

7.6 ¿Qué porcentaje de solicitantes obtuvieron calificación entre 94,5 y 99,5?

Si los datos se agrupan en categorías numéricas, la tabla resultante se denomina distribución

categórica o cualitativa. Este tipo de distribución se ilustra por medio de la tabla siguiente

que pertenece a los planes de estudios superiores de un grupo de 548 estudiantes del último

año de secundaria.

Ej: 8

Planes de estudio superior N° de estudiantes del último año de

secundaria

Planea ir a la universidad. 240

Quizá vaya a la universidad. 146

Planea ir o quizá vaya a una escuela técnica. 57

No irá a ninguna universidad. 105

Total 548

9. Representación gráfica

Una gráfica es la representación de datos, generalmente numéricos, mediante líneas,

superficies o símbolos, para ver la relación que esos datos guardan entre sí. Sirven para

analizar el comportamiento de un proceso, o un conjunto de elementos o signos que

permiten la interpretación de un fenómeno.

9.1 Histograma Los histogramas no muestran frecuencias acumuladas, son preferibles para el tratamiento

de datos cuantitativos y la barra con mayor altura representa la mayor frecuencia. La

sumatoria de las alturas de las columnas equivale al 100% de los datos.

Es una representación gráfica de una

variable en forma de barras, donde la

superficie de cada barra es

proporcional a la frecuencia de los

valores representados. En el eje

vertical se representan las f. y en el

eje horizontal los valores de las

variables (límites reales de clase).

Page 18: Material Estadística

18 9.2 Polígono de frecuencias

9.3 Ojiva La diferencia fundamental entre las ojivas y los polígonos de frecuencias es que en el eje

horizontal (x) en lugar de colocar las marcas de clase se colocan las fronteras de clase.

Para el caso de la ojiva mayor que es la frontera menor y para la ojiva menor que, la

mayor.

9.4 Gráficas de barras

Se emplea cuando la variable independiente es categórica.

Es un gráfico de líneas que se usa

para presentar las frecuencias

absolutas de los valores de una

distribución en el cual la altura del

punto medio asociado a un valor de

la variable es proporcional a la

frecuencia de dicho valor.

Una gráfica similar al polígono de

frecuencias es la ojiva, pero ésta se

obtiene al aplicar parcialmente la

misma técnica a una distribución

acumulativa y de igual manera que

éstas, existen las ojivas mayores que

y las ojivas menores que.

Cada barra sólida, ya sea vertical u

horizontal representa un tipo de dato.

Cuando es necesario representar

divisiones de datos se utiliza un gráfica

de barras subdivididas.

Page 19: Material Estadística

19 9.5 Gráfica de líneas Son ideales para representar tendencias de ventas, importaciones y otra serie de valores

durante un cierto período.

9.6 Gráfica circular

ACTIVIDAD DE AUTOAPRENDIZAJE N° 2

1. Los siguientes datos representan el tiempo (en horas) que dedican 50 estudiantes de una

universidad a actividades de horas libres, durante una semana común de asistencia a clase.

1.1 Clasifique la variable involucrada.

1.2 Desarrolle la clasificación ordenada.

1.3 Organice los datos en una tabla de distribución de frecuencia.

1.4 Presente estos datos mediante: Un Histograma.

Un Polígono de frecuencia.

Una Ojiva y una Ojiva porcentual.

2 Los tiempos de reparación (medidos en horas) de 40 instrumentos electrónicos se

muestran enseguida:

23 17 22 16 22 20 18 12 24 21

16 21 28 18 15 28 20 29 14 25

29 38 17 19 23 18 20 25 32 19

16 24 12 07 18 22 17 27 24 29

30 15 20 19 14 24 34 23 18 13

21 15 25 13 12 11 14 24 09 20

12 18 19 16 16 20 12 10 11 24

08 17 13 23 18 15 12 16 13 18

10 22 12 24 19 09 15 23 18 15

Esta ilustra mediante segmento

de líneas los cambios en

cantidades con respecto al

tiempo.

Los gráficos circulares,

denominados también gráficos de

pastel, se utilizan para mostrar

porcentajes y proporciones.

Page 20: Material Estadística

20 2.1 Clasifique la variable involucrada.

2.2 Desarrolle la clasificación ordenada.

2.3 Organice los datos en una tabla de distribución de frecuencia.

2.4 Presente estos datos mediante: Un Histograma.

Un Polígono de frecuencia.

Una Ojiva y una Ojiva porcentual.

3. La prueba KSW de aptitud en ciencias de la computación fue aplicada a 50 estudiantes,

obteniendo la siguiente distribución de frecuencia de sus calificaciones o puntajes.

Puntaje de la

prueba KSW

N° de

estudiantes

1 - 4 4

5 - 8 8

9 - 12 10

13 - 16 20

17 - 20 8

Total

3.1 Complete la tabla. ¿Cuál es el ancho de cada clase?

3.2 ¿Cuántos estudiantes obtuvieron entre 12,5 y 16,5 puntos en la prueba KSW?

3.3 ¿Que % de estudiantes obtuvieron entre 4,5 y 8,5 puntos en la prueba?

3.4 ¿Cuál es la puntuación máxima del 84% de los estudiantes?

3.5 ¿Que % de estudiantes obtuvo cuando mucho 12,5 puntos?

4. Los siguientes datos representan las acciones de mercado (en porcentaje) propiedad de un

fabricante de software de aplicaciones de negocios de Windows durante el año 2014.

4.1 Construya una gráfica de barras y uno de pastel.

4.2 Escriba un informe describiendo los datos anteriores y ofrezca sugerencias

sobre como Lotus podría incrementar su posición de acciones del mercado.

5. La conservación ambiental es un asunto

nacional de principal importancia. Los

siguientes datos representan las acciones de

mercado (en porcentaje) propiedad de

fabricantes de teléfonos celulares portátiles,

transportables y móviles vendidos en el año

2014. Presente los datos mediante una gráfica

de barras.

Fabricante Acciones del mercado (%)

Aldus 5,5

Lotus 15,3

Microsoft 60,0

Software Publishing 12,7

Otros 6,5

Fabricante Acciones del mercado (%)

Motorola 16

Sony Ericsson 20

Nokia 18

Samsung 25

Otros 21

Page 21: Material Estadística

21 6. Los países industrializados tiraron 227,1 millones de

toneladas de basura en un año reciente. Por lo

general el desecho de basura se hace mediante

rellenos sanitarios (87%), incineración (7%) y

reciclamiento (5%). Suponga que la compañía

consultora donde Ud. trabaja proporciona la siguiente

tabla que muestra el desglose de porcentajes de las

fuentes de desecho: Construya la gráfica apropiada

para representar estos datos.

10. Medidas de posición central Las medidas de posición nos facilitan información sobre la serie de datos que estamos

analizando. Estas medidas permiten conocer diversas características de esta serie de

datos. Las medidas de posición son de dos tipos:

Medidas de posición central: informan sobre los valores medios de la serie de datos.

Medidas de posición no centrales: informan de como se distribuye el resto de los

valores de la serie.

Las principales medidas de posición central son las siguientes:

Media ( x ): Es el valor medio ponderado de la serie de datos. Se pueden calcular

diversos tipos de media, siendo las más utilizadas.

Media aritmética: La suma de todos los datos se divide por el total de datos de la

muestra.

Su fórmula es:

Ej: 9 La gerente de una tienda de equipos electrónicos, desea estudiar el “tránsito” en su

tienda, descubre que 295, 300, 520, 350, 400, 520, 495, 680, 520, 700 personas

entraron a la tienda durante los pasados diez días. Determine el número medio de

personas que entraron a la tienda durante esos días.

47810

700520...300295

n

xx

i

En conjunto, el número de personas que entraron al almacén durante los

pasados 10 días es 478, éste es el número medio (o promedio) de personas que

visitaron la tienda por día.

Con su calculadora científica verifique esta respuesta.

Fuente %

Papel 20

Basura de jardín 10

Desechos sólidos 26

Vidrio 6

Metales 9

Plástico 10

Madera 5

Otros 14

n

xx

i

(Entre a MODE , SD , digite los datos 295 M+ , 300 M+, … 700

M+ , luego SHIFT 2 , 1 , = y obtendrá el resultado)

Page 22: Material Estadística

22 Media geométrica: Algunas veces manejamos cantidades que cambian a lo largo de un

periodo, entonces se necesita conocer una tasa promedio de cambio. En tal caso la

media aritmética no es apropiada, porque no proporciona la respuesta correcta.

Usos principales de la media geométrica.

Para pronosticar porcentajes, índices y cifras relativas.

Ej: 10 Una fábrica de telas ha elevado el costo del algodón en un periodo que abarca los

últimos 5 años en los siguientes porcentajes. ¿Cuál es el aumento porcentual

promedio del costo del algodón en ese periodo?

%59,9592269869,952,81209)1,13)(3,12)(5,10)(8)(6( 55 MG

Es decir el incremento porcentual promedio del costo del algodón fue de 9,59%

aproximadamente, durante ese periodo.

Para determinar el incremento porcentual promedio de ventas, exportaciones,

producción u otras actividades económicas o series económicas de un periodo a otro.

Ej: 11 La producción de una fábrica se incrementó de 25600 unidades en el 2003 a 132520 en

el 2014. Obtenga el incremento porcentual anual.

%12,16161215596,01161215596,111765625,5125600

1325201111 MG

El incremento porcentual anual de la fábrica fue de 16,12% aproximadamente durante

ese periodo.

Según el tipo de datos que se analice será más apropiado utilizar la media aritmética o la media

geométrica. Esta se suele utilizar en series de datos como tipos de interés anuales, inflación,

etc., donde el valor de cada año tiene un efecto multiplicativo sobre el de los años anteriores.

En todo caso, la media aritmética es la medida de posición central más utilizada. Lo más

positivo de la media es que en su cálculo se utilizan todos los valores de la serie, por lo que no

se pierde ninguna información. Sin embargo, presenta el problema de que su valor (tanto en el

caso de la media aritmética como geométrica) se puede ver muy influido por valores extremos,

que se aparten en exceso del resto de la serie. Estos valores anómalos podrían condicionar en

gran medida el valor de la media, perdiendo ésta representatividad.

2010 2011 2012 2013 2014

6% 8% 10,5% 12,3% 13,1%

nnxxxMG ...21

11nperíodo del inicio al Valor

período del final al ValorMG

Page 23: Material Estadística

23 Media ponderada: Nos permite obtener un promedio que tiene en cuenta la

importancia de cada valor para el total global. Se denota por,

Donde wi : es el peso asignado a cada observación,

xi : es el valor de cada observación.

Ej: 12 En una agencia de viajes se han vendido 200 pasajes a los precios siguientes:

Precio de venta (cientos de $) xi 12 14 16

Número de pasajes. wi 60 100 40

$ 8,13200

2760

4010060

)16(40)14(100)12(60decientos

w

xwx

i

ii

w

El precio promedio de venta de los 200 pasajes es de $1380

Media armónica: De una serie de n números x1, x2 , … xn es la reciproca de la

media aritmética de los datos, donde ninguno toma el valor “cero”. Este promedio se

utiliza para que los valores “extremos” no afecten al valor del promedio. Los valores

extremos sí afectan cuando se usa el promedio aritmético o el promedio geométrico.

Ej: 13 Calcular el rendimiento promedio para el caso de tres automóviles que recorrieron

500 kilómetros y cada auto tuvo el rendimiento siguiente:

33434215,61048912238,0

3

6,77

1

4,62

1

50

1

3

1

ix

nH

El resultado muestra que el rendimiento promedio de los autos es de 61,3 Km/galón.

Mediana (Me); Es el valor de la serie de datos que se sitúa justamente en el centro

de la muestra (un 50% de valores son inferiores y otro 50% son superiores).

No presentan el problema de estar influida por los valores extremos, pero en cambio no

utiliza en su cálculo toda la información de la serie de datos (no pondera cada valor por

el número de veces que se ha repetido).

Para su cálculo los datos deben estar ordenados.

Auto A B C

Rendimiento (Km/galón) 50 62,4 77,6

i

ii

ww

xwx

ix

nH

1

Posición: 2

1 ne XM

Page 24: Material Estadística

24 Ej: 14 La gerente de una tienda de equipos electrónicos, desea estudiar el “tránsito” en su

tienda, descubre que 295, 300, 520, 350, 400, 520, 495, 680, 520, 700 personas

entraron a la tienda durante los pasados diez días. Determine el número mediano de

personas que entraron a la tienda durante esos días.

Ordenar datos,

X1 X2 X3 X4 X5 X6 X7 X8 X9 X10

295 300 350 400 495 520 520 520 680 700

n = 10 (par)

Posición: 5,5

2

110 XXMe

Se ubica entre la posición 5 y 6. 5085,5072

5204955,5

XM e

El número mediano de personas que visitan la tienda es de 508.

En este ejemplo, la mediana se sitúa exactamente entre el quinto y sexto dato de este grupo,

ya que entre estos dos valores se encuentra la división entre el 50% inferior y el 50% superior.

Ej: 15 Los tiempos en minutos que necesitan varias empresas de seguro para revisar

solicitudes de servicios de cobertura médica son: 230 50 180 63 120

Determine el tiempo mediano de servicio de cobertura de las empresas de seguro.

Ordenar datos,

n = 5 (impar)

Posición: 3

2

15 XXM e

Se ubica entre la posición 3. minutos 1203XeM

El tiempo mediano de servicio para revisar las solicitudes de seguro médico es de

120 minutos.

X1 X2 X3 X4 X5

50 63 120 180 230

Page 25: Material Estadística

25 Moda (M0 ): Es el valor que más se repite en la muestra.

Ej: 16 La gerente de una tienda de equipos electrónicos, desea estudiar el “tránsito” en su

tienda, descubre que 295, 300, 520, 350, 400, 520, 495, 680, 520, 700 personas

entraron a la tienda durante los pasados diez días. Determine el número modal de

personas que entraron a la tienda durante esos días.

295, 300, 520, 350, 400, 520, 495, 680, 520, 700 Observamos que el valor 520 se

repite tres veces.

El número modal de personas que visitan la tienda es de 520.

11. Medidas de posición no central Las medidas de posición no centrales permiten conocer otros puntos característicos de

la distribución que no son los valores centrales. Entre otros indicadores, se suelen

utilizar una serie de valores que dividen la muestra en tramos iguales:

Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma

creciente o decreciente, en cuatro tramos iguales, en los que cada uno de ellos

concentra el 25% de los resultados. Se determinan mediante las posiciones:

Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o

decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los

resultados. Los deciles y percentiles se calculan de igual manera.

Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma

creciente o decreciente, en cien tramos iguales, en los que cada uno de ellos concentra

el 1% de los resultados. La posición para determinar los percentiles es:

Ej: 17 Los siguientes datos se refieren a las ganancias por acción de 10 compañías de la

industria de las comunicaciones.

4,62 1,34 1,62 2,11 1,29 6,04 9,56 4,90 0,84 7,25

17.1 ¿Cuál es la ganancia máxima por acción del 25% de las compañías?

Ordenar los datos. X1 X2 X3 X4 X5 X6 X7 X8 X9 X10

0,84 1,29 1,34 1,62 2,11 4,62 4,90 6,04 7,25 9,56

4

11 : nXQ eMQ :2

4

)1 (33 : nXQ

100)1(

: pn

p XP

Page 26: Material Estadística

26 n = 10

Posición:

Es decir el 25% de las compañías tienen como ganancia máxima 1,33 por acción.

17.2 ¿Cuál es la ganancia máxima por acción del 60% de las compañías?

Ordenar los datos, X1 X2 X3 X4 X5 X6 X7 X8 X9 X10

0,84 1,29 1,34 1,62 2,11 4,62 4,90 6,04 7,25 9,56

Posición:

Lo que nos muestra es, el 60% de las compañías tienen como ganancia máxima

4,79 por acción.

17.3 ¿Cuál es la ganancia máxima por acción del 75% de las compañías?

17.4 ¿Cuál es la ganancia máxima por acción del 90% de las compañías?

12. Medidas de variación o dispersión Estudia la distribución de los valores de la serie, analizando si estos se encuentran más

o menos concentrados, o más o menos dispersos. Existen diversas medidas de

dispersión, entre las más utilizadas podemos destacar las siguientes:

Rango: Mide la amplitud de los valores de la muestra y se calcula por diferencia entre

el valor más elevado y el valor más bajo.

100)1(

: pn

p XP 6,6

100

60)110(

60 : XXP

4

11 : nXQ 75,2

4

1101 : XXQ

33,1

3275,1)29.134,1(75,029,1

1

1

Q

Q

79,4

788,4)62,490,4(6,062,4

60

60

P

P

observado mínimo Valorobservado máximo ValorR

Page 27: Material Estadística

27 Varianza: Mide la distancia existente entre los valores de la serie y la media. Se

calcula como la sumatoria de las diferencias al cuadrado entre cada valor y la media,

dividida por el tamaño de la muestra menos uno.

La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más

concentrados están los valores de la serie alrededor de la media. Por el contrario,

mientras mayor sea la varianza, más dispersos están.

Desviación estándar: También llamada desviación típica, es una medida de dispersión

usada en estadística que nos dice que tan dispersos se encuentran en promedio,

los datos con respecto a la media aritmética o cuánto tienden a alejarse los

valores del promedio en una distribución. De hecho, el cuadrado de la desviación

estándar es "el promedio del cuadrado de la distancia de cada punto respecto del

promedio". Se suele representar por una S (desviación estándar muestral) o con la

letra sigma (desviación estándar poblacional). Esta medida es más estable que el

recorrido y toma en consideración el valor de cada dato. Para conocer con detalle un

conjunto de datos, no basta con conocer las medidas de tendencia central, sino que

necesitamos conocer también la desviación que presentan los datos en su distribución

respecto de la media aritmética de dicha distribución, con objeto de tener una visión

de los mismos más acorde con la realidad al momento de describirlos e interpretarlos

para la toma de decisiones.

Interpretación La desviación estándar es una medida del grado de dispersión de los datos con respecto

al valor promedio. Dicho de otra manera, la desviación estándar es simplemente el

"promedio" o variación esperada con respecto a la media aritmética.

Por ejemplo, las tres muestras Muestras

0 0 6

0 6 6

14 8 8

14 14 8

Cada una tiene una media de 7. Sus desviaciones estándar muestrales son 8,0829,

5,7735 y 1,1547 respectivamente. La tercera muestra tiene una desviación mucho

menor que las otras dos porque sus valores están más cerca de 7.

Coeficiente de variación: se calcula como el cociente entre la desviación típica

(estándar) y la media. El interés del coeficiente de variación es que al ser un

porcentaje permite comparar el nivel de dispersión de dos muestras. Esto no ocurre

con la desviación típica, ya que viene expresada en las mismas unidas que los datos de

la serie.

1

)( 2

2

n

xxs

i

1

)( 2

n

xxs

i

Page 28: Material Estadística

28 Por ejemplo, para comparar el nivel de dispersión de una serie de datos, como la

altura de los alumnos de una clase y otra serie con el peso de dichos alumnos, no se

puede utilizar las desviaciones típicas (una se expresa en cm y la otra en kg). En

cambio, sus coeficientes de variación son ambos porcentajes, por lo que sí se pueden

comparar.

Coeficiente de asimetría: Karl Pearson desarrolló una medida para calcular el sesgo de

una distribución, llamado Coeficiente de Asimetría. El concepto de asimetría se

refiere, si la curva que forman los valores de la serie presenta la misma forma a la

izquierda y la derecha de un valor central (media aritmética).

Para medir el nivel de asimetría se utiliza la fórmula que viene definida por:

Características.

Varía de – 3.0 a + 3.0

Un valor cero indica una distribución simétrica.

Si el extremo largo de la distribución esta a la derecha, se dice que tiene sesgo

positivo.

Si el extremo largo de la distribución esta a la izquierda, el sesgo es negativo.

Ej: 18 Tomando el Ej. 9.

La gerente de una tienda de equipos electrónicos, desea estudiar el “tránsito” en su

tienda, descubre que 295, 300, 520, 350, 400, 520, 495, 680, 520, 700 personas

entraron a la tienda durante los pasados diez días.

18.1 Determine e interprete la desviación estándar.

Para calcularla debemos conocer la media.

%)100(x

sCV

s

MxCA e )(3

Page 29: Material Estadística

29 478

10

700520...300295

n

xx

i

Sustituimos en la fórmula,

1437157237,14277778,20367110

183310

1

)( 2

n

xxs

i

La cantidad promedio de personas que visitan la tienda es de 478, con una

dispersión de 143 personas aproximadamente, con respecto a la media.

Con su calculadora científica verifique esta respuesta.

18.2 Calcule e interprete el coeficiente de variación.

Conocemos 7142,715723s y478x

Sustituimos en la fórmula.

%86,29%)100(298368459,0%)100(478

7157237,142%)100(

x

sCV

Es decir…

x

)( xx

2)( xx

295 295 – 478 = -183 (-183)2 = 33489

300 300 – 478 = -178 (-178)2 = 31684

520 520 – 478 = 42 (42)2 = 1764

350 350 – 478 = -128 (-128)2 = 16384

400 400 – 478 = -78 (-78)2 = 6084

520 520 – 478 = 42 (42)2 = 1764

495 495 – 478 = 17 (17)2 = 289

680 680 – 478 = 202 (202)2 = 40804

520 520 – 478 = 42 (42)2 = 1764

700 700 – 478 = 222 (222)2 = 49284

Total 0 183310

(Entre a MODE , SD , digite los datos 295 M+ ,

300 M+, … 700 M+ , luego SHIFT 2 , 3 , = y

obtendrá el resultado)

Page 30: Material Estadística

30 18.3 ¿Cuál es el coeficiente de asimetría?

Sustituir en la fórmula.

62,0620113872,07157237,142

)5,507478(3)(3

s

MxCA e

Este valor indica un grado menor de asimetría negativa, provocando que el número

promedio de personas que visitan la tienda sea menor que el número mediano.

ACTIVIDAD DE AUTOAPRENDIZAJE N° 3

1. Un experto en computadoras, tratando de optimizar la operación de un sistema, reunió

datos sobre el tiempo, en minutos, entre la solicitud de servicio de un proceso especial.

1.1 Determine e interprete el tiempo medio, mediano y modal de este conjunto de

datos.

1.2 Calcule la desviación estándar e interprete el resultado.

1.3 Determine el porcentaje de variación de este conjunto de datos.

1.4 Calcule e interprete el coeficiente de asimetría.

1.5 ¿Cuál es el tiempo máximo del 70% de operaciones?

1.6 ¿Cuál es el tiempo máximo del 90% de operaciones?

2. Un fabricante emplea a varios especialistas para hacer reparaciones de urgencia en horas.

Por lo general, los especialistas deben viajar distancias cortas. Se tomo una muestra de 8

comprobantes de gastos de viaje de los técnicos, con el propósito de estimar los gastos que

deberán hacerse el próximo año por este concepto. La información resultante fue la

siguiente.

2.1 Determine el gasto medio y mediano de los técnicos.

2.2 ¿Qué características en este conjunto de datos es la responsable de la diferencia

sustancial entre estas dos medidas (media y mediana)?

2.3 Determine la varianza y la desviación estándar.

2.4 ¿Cuál es el porcentaje de variación de estos datos?

3. Se toma una muestra de seis resistores y se mide su resistencia (en ohm). Los resultados son

los siguientes:

Calcule:

3.1 La varianza y la desviación estándar muestral.

3.2 Reste 35 a cada una de las mediciones de resistencia originales y calcule s 2 y s.

Compare sus resultados con los obtenidos en el inciso (a).

3.3 Reste 30 de cada valor y luego multiplique las diferencias por 10. Ahora calcule s 2 para

2 800 5 913 3 750 5 520 5 000

4 900 3 420 9 530 8 735 8 900

4 500 4 900 5 010 7 012 5 400

C$230 635 525 240 252 258 420 260

45 38 47 41 35 43

Page 31: Material Estadística

31 el nuevo conjunto de datos. ¿Qué relación existe entre esta s 2 y la de los datos

originales? Explique.

4. Considere el siguiente par de muestras.

Muestra 1: Muestra 2:

4.1 Calcule el rango de ambas muestras. ¿Es posible concluir que las dos muestras exhiben

la misma variabilidad?

4.2 Calcule la desviación estándar de cada una de las muestras. ¿Estas cantidades indican

que las dos muestras tienen la misma variabilidad?

4.3 Calcule el coeficiente de variación de cada una de las muestra y diga cuál de las

muestras presenta menor variabilidad relativa.

UNIDAD II PROBABILIDADES

Introducción

Para la mayoría de las personas, “probabilidad” es un término vago utilizado en el lenguaje

cotidiano para indicar la posibilidad de la ocurrencia de un evento futuro. Esta interpretación

práctica del término puede considerarse aceptable, pero se pretende lograr una comprensión

más precisa del contexto de su aplicación, como se mide y de que manera se utiliza la

probabilidad para hacer inferencias. El concepto de probabilidad es necesario cuando se opera

con procesos físicos, biológicos y sociales que generan observaciones que no es factible

predecir con exactitud. Además, la probabilidad y la estadística se relacionan en una forma

muy curiosa. En esencia la probabilidad es el vehículo que le permite al estadístico usar la

información contenida en una muestra para hacer inferencias o para describir la población de

la cual se ha obtenido la muestra.

1. Enfoques de Probabilidad

Probabilidad clásica a priori En este caso la probabilidad de éxito se basa en el conocimiento anterior al

involucrado.

Ej: 1. La probabilidad de sacar una carta con figura negra de una baraja.

2. La probabilidad que la suma de las caras de dos dados sea siete.

10 9 8 7 8 6 10 6

10 6 10 6 8 10 8 6

resultados de total N

favorables resultados de Néxito de adProbabi lid

Page 32: Material Estadística

32 Probabilidad clásica empírica

Aunque la probabilidad se sigue definiendo como la proporción entre el número de

resultados favorables y el número total de resultados, estos resultados se basan

en datos observados, no en el conocimiento anterior a un proceso.

Ej: 1. La probabilidad que un estudiante tenga un promedio inferior a 80 puntos.

2. La probabilidad que un individuo seleccionado aleatoriamente de una encuesta sobre la

satisfacción de los empleados, este satisfecho con su trabajo.

Probabilidad subjetiva

Se refiere a la probabilidad de ocurrencia asignada a un evento por un individuo particular.

Ej: 1. La probabilidad que tenga éxito un nuevo producto en el mercado. 2. La probabilidad que un conservador gane la próxima elección presidencial.

La asignación de probabilidades a diversos eventos suele estar basada en la experiencia previa, opinión personal y el análisis de una situación en particular. La

probabilidad subjetiva es de uso especial en la toma de decisiones en situaciones en las

cuales no se puede hacer determinaciones empíricas de la probabilidad de diferentes

eventos.

2. Conceptos básicos de probabilida

Experimento

Es un proceso por medio del cual se obtiene una observación (o una medición). Su

símbolo es E .

Ej: 2.1 :1E Registrar la capacidad productiva de un obrero textil.

:2E Entrevistar a un votante para que nos diga su preferencia antes de una

elección.

:3E Registrar la puntuación obtenida en una prueba de Estadística.

Espacio muestra o muestral

Es la colección de todos los eventos posibles. Su símbolo es .S

Ej: 2.2 Con referencia a :1E Suponga que la capacidad productiva del obrero se

encuentra entre 50 y 60 unidades diarias inclusive. Entonces 60 ...., ,51 ,50S

Evento (o Suceso)

Un evento simple es el que se puede describir con una característica. Se simboliza por ...,, CBA

Ej: 2.3 Para 2E existen 3 eventos simples.

:A Votante simpatizante PLC :B Votante simpatizante PLI

:C Votante simpatizante FSLN

Page 33: Material Estadística

33 El complemento de un evento A , incluye todos los eventos que no son parte del

evento A . Su símbolo es A .

Un evento conjunto es un evento que tiene dos o más características.

Ej: 2.4 Para 3E podemos determinar eventos conjuntos como,

SyF : Estudiante mujer y con alta puntuación.

ByM : Estudiante varón y con baja calificación.

3. Axiomas de Probabilidad Suponga que un espacio muestral S , está asociado a un experimento. A cada evento A

definido en S SA , se le asigna un número )(AP , llamado probabilidad de A , de tal

manera que cumpla lo siguiente. 3.1 0)( AP 3.4 1)( SP

3.2 1)(0 AP 3.5 0)( P

3.3 )(1)( APAP

3.1.1 Probabilidad Simple (o Marginal)

Significa la probabilidad de ocurrencia de un evento simple ).(AP

Ej: 3.1 La probabilidad que un estudiante obtenga una puntuación alta en la asignatura de

Estadística.

3.2 La probabilidad que un votante sea simpatizante liberal.

3.3 Suponga que una encuesta a 200 trabajadores de una industria, se desarrolla usando

un paquete de computación para hacer una clasificación cruzada de los eventos de

interés: la satisfacción en el trabajo y el progreso en la organización, de los cuales

166 trabajadores están satisfechos en el trabajo, 116 han avanzado en la organización

y 96 participan en ambos eventos, los resultados son.

Satisfacción

en el trabajo

Avance en la organización

Total Si [B] No [B´]

Si [A] 96 70 166

No [A´] 20 14 34

Total 116 84 200

Presente estos datos en un diagrama de Venn.

B

A 70

14 BA 186BA

96

20

Page 34: Material Estadística

34 Definimos los sucesos involucrados.

:A Estar satisfecho en el trabajo.

:A No estar satisfecho en el trabajo.

:B Haber avanzado en la organización.

:B No haber avanzado en la organización.

3.3.1 Calcule la probabilidad que un empleado seleccionado aleatoriamente este

satisfecho con su trabajo.

empleadosdetotalN

trabajosuconssatisfechoempleadosdeNAP

)(

83,0200

166)( AP

El resultado 0,83 nos indica la probabilidad que un empleado escogido al azar este

satisfecho con su trabajo.

3.3.2 Calcule la probabilidad que un empleado seleccionado al azar haya avanzado en la

organización.

sdeempleadototalN

ónorganizacilaenavanzadohanqueempleadosdeNBP

)(

58,0200

116)( BP

…..

4. Probabilidad Conjunta

Se refiere a fenómenos que contienen dos o más eventos.

Ej: 4.1 Refiriéndose al ejemplo 3.3

4.1.1 Calcule la probabilidad que un empleado escogido al azar esté satisfecho con su

trabajo y no haya avanzado en la organización.

empleadosdetotalN

ónorganizacilaenavanzadohannoyssatisfechoempleadosdeNByAP

) (

35,0200

70) ( ByAP

4.1.2 Calcule la probabilidad que un empleado escogido al azar no esté satisfecho con su

trabajo, ni haya progresado en la organización.

sdeempleadototalN

ónorganizacilaenavanzadohannoysatifechosnoempleadosdeNByAP

) (

07,0200

14) ( ByAP

Page 35: Material Estadística

35 5. Regla de la Adición

Ya se ha desarrollado una forma para encontrar la probabilidad del evento “A” y la probabilidad del evento “A y B” )( BA . Ahora examinaremos una regla para encontrar

la probabilidad del evento “A o B” (A )B . Esta regla se llama unión, se refiere a la

ocurrencia, ya sea, del evento A, del evento B o de A y B. Se expresa,

Y se le llama regla general de la adición.

Ej: 5.1 Refiriéndonos al ejemplo 3.3

5.1.1 Calcule la probabilidad que un empleado seleccionado al azar este satisfecho

con su trabajo o no haya avanzado en la organización. 90,0

200

180

200

70

200

84

200

166)( BAP

5.1.2 Calcule la probabilidad que un empleado escogido aleatoriamente no esté satisfecho con

su trabajo o no haya avanzado en la organización.

52,0200

104

200

14

200

84

200

34)( BAP

Siempre que la probabilidad conjunta no tenga resultado, los eventos involucrados

se consideran mutuamente excluyentes (es decir, si ambos eventos no pueden

ocurrir al mismo tiempo), en tal caso la regla de la adición se reduce a.

Ej: 5.2 Un estudio de 200 tiendas de abarrotes reveló los siguientes ingresos, después

del pago de impuestos.

¿Cuál es la probabilidad de que una tienda de abarrotes seleccionada al azar tenga un

ingreso entre 10 y 20 millones de C$ o un ingreso de más de 20 millones de C$? 49,0

200

98

200

37

200

61)( CBP

Ingresos después de los impuestos Sucesos N° de empresas

Menos de 10 millones de C$ A 102

C$10 millones - C$20 millones B 61

Mas de C$20 millones C 37

Total

)()()() ()( BAPBPAPBoAPBAP

)()() ()( BPAPBoAPBAP

Page 36: Material Estadística

36 6. Probabilidad Condicional

La probabilidad condicional de un evento es la probabilidad del evento, dado el hecho de

que ya ocurrieron uno o más eventos. Se denota de la siguiente manera:

Ej: 6.1 Refiriéndonos al ejemplo 3.3

6.1.1 Suponga que un empleado ha progresado en la organización. ¿Cuál es la probabilidad

que esté satisfecho con el trabajo?

A: Empleado satisfecho con su trabajo.

B: Empleado ha progresado en la organización.

6.1.2 Si un empleado está satisfecho con su trabajo. ¿Cuál es la probabilidad que haya

avanzado en la organización?

5783,0166

96

200166

20096

)(

)()/(

AP

ABPABP

7. Independencia estadística

El conocimiento previo de un evento no afecta la probabilidad de otro evento. Esta

característica se llama independencia estadística.

Ej: 7.1 Refiriéndonos al ejemplo 3.3

7.1.1 ¿El evento estar satisfecho en el trabajo es independiente si el trabajador ha

progresado en la organización?

A: Empleado satisfecho con su trabajo.

B: Empleado ha progresado en la organización.

8276,0

116

96

200116

20096

)/( BAP

83,0200

166)( AP

Puesto que 0,8276 0,83, indica que estar satisfecho en el trabajo y haber

progresado en la organización no son estadísticamente independiente.

)(

)()/(

BP

BAPBAP

, 0)( BP

)()/( APBAP

8276,0

200116

20096

)(

)()/(

BP

BAPBAP

Page 37: Material Estadística

37 8. Regla de la Multiplicación

La fórmula para la probabilidad condicional se puede manejar algebraicamente, con lo que

la probabilidad conjunta (A y B) se puede determinar la probabilidad condicional de un

evento.

Se le llama regla general de la Multiplicación.

Ej: 8 De 20 cuentas que se tienen en un archivo, 5 tienen error de procedimiento en la

elaboración de los saldos. Si un auditor elige al azar 2 de las 20 cuentas. ¿Cuál es

la probabilidad de que ninguna de las cuentas contenga error de procedimiento?

:C Cuenta contiene error de procedimiento.

:C Cuenta no contiene error de procedimiento. )/()()( 12121 CCPCPCCP

5526,0380

210

19

14

20

15)( 21

CCP

Regla de la Multiplicación para eventos independientes.

Por lo tanto hay dos formas de determinar la independencia estadística.

Los eventos A y B son estadísticamente independientes si y sólo si,

Los evento A y B son estadísticamente independientes si y sólo si,

ACTIVIDAD DE AUTOAPRENDIZAJE N° 4

1. Presente una descripción del espacio muestral para cada uno de los experimentos aleatorios.

1.1 Cada una de tres piezas maquinadas se clasifica como arriba o abajo de las

especificaciones.

1.2 Cada uno de cuatro bits transmitidos se clasifica como error o sin error.

1.3 En la inspección final de fuentes de poder electrónicas podrían ocurrir tres tipos de

disconformidades: funcionales, secundarias y de acabado. Las fuentes de poder

defectuosas se clasifican además según sea el tipo de disconformidad.

1.4 En la fabricación de cinta para grabación digital, cada una de 24 pistas se clasifica de

acuerdo a si contiene o no uno o más bits con error.

1.5 En un proceso de fabricación pueden producirse algunas piezas que no son aceptables.

Cada una de tres partes se clasifica como aceptable o no aceptable.

1.6 En el pedido de una computadora puede especificarse memoria de 4, 8 ó 12 megabytes

y capacidad de almacenamiento de disco duro de 200, 300 ó 400 megabytes.

)/()()( ABPAPBAP

)()()( BPAPBAP

)()/( APBAP

)()()( BPAPBAP

Page 38: Material Estadística

38 2. El director general de una empresa expresará mañana a los accionistas su consideración

de que la compañía debe fusionarse con otra empresa. Ha recibido diez cartas acerca d

esa cuestión, y está interesado en el número de personas que estén de acuerdo con él.

2.1 ¿Cuál es el experimento?

2.2 ¿Cuáles son algunos de los eventos posibles? Exprese dos posibles resultados.

3. Se ha desarrollado un nuevo juego de computadora. Su potencial de mercado lo van a

probar 80 jugadores veteranos de este equipo de diversión.

3.1 ¿Cuál es el experimento?

3.2 ¿Cuáles son algunos de los eventos posibles? Exprese dos posibles resultados.

3.3 Suponga que 65 jugadores probaron el nuevo juego y afirmaron que les gustó.

¿65 es una probabilidad?

4. Antes de efectuar una encuesta a nivel nacional se seleccionaron 50 personas para probar

el cuestionario. Una pregunta acerca de si debe o no legalizarse el aborto terapéutico,

requiere una encuesta de sí o no.

4.1 ¿Cuál es el experimento?

4.2 ¿Cuáles son algunos de los eventos posibles? Exprese dos posibles resultados.

5. Una empresa adquiere una nueva máquina que debe instalarse y probarse antes de que

esté lista para su uso. La empresa está segura de que no tardara más de 7 días en

instalarla y probarla. Sea A el suceso “se necesitaran más de 4 días para que la máquina

esté lista” y B el suceso “se necesitarían menos de 6 días para que la máquina esté lista”.

Describa lo siguiente:

5.1 El suceso que es el complemento del suceso A.

5.2 El suceso que es la intersección de los sucesos A y B.

5.3 El suceso que es la unión de los sucesos A y B.

5.4 ¿Son los sucesos A y B mutuamente excluyentes?

6. En el diagrama de Venn de la figura se muestran tres eventos. Copie la figura y sombree la

región que corresponda a cada uno de los eventos siguientes.

6.1 A 6.4 )( CB

6.2 BA 6.5 CBA )(

6.3 CBA )( 6.6 )( BA

B

A

C

C

Page 39: Material Estadística

39 7. Muestras de una pieza de aluminio forjado se clasifica con base en el acabado de la superficie

(en micro-pulgadas) y en las mediciones de la longitud. Los resultados de 100 piezas se

resumen a continuación.

Acabado de la

superficie

Longitud

Total Excelente Bueno

Excelente 75 7

Bueno 10 8

Total

Sea A denote el evento que una muestra tiene un acabado de la superficie excelente y

sea B el evento que una muestra tiene una longitud excelente. Determine el

número de muestras en ,BA B y BA .

8. El análisis de las flechas para un compresor se resumen por su cumplimiento con las

especificaciones.

8.1 Si se sabe que una flecha cumple con los requerimientos de redondez. ¿Cuál es la

probabilidad que cumpla con los requerimientos del acabado de la superficie?

8.2 Si se sabe que una flecha no cumple con los requerimientos de redondez. ¿Cuál es

la probabilidad que cumpla con los requerimientos del acabado de la superficie?

9. Un lote de 100 chips semiconductores contiene 20 que están defectuosos. Se seleccionan dos

chips del lote, al azar, sin reemplazo.

9.1 ¿Cuál es la probabilidad de que el primero que se seleccione este defectuoso?

9.2 ¿Cuál es la probabilidad de que el segundo que se seleccione este defectuoso, dado

que el primero estuvo defectuoso?

9.3 ¿Cómo cambia la respuesta del inciso (b) si los chips seleccionados se reemplazaron

antes de la siguiente selección?

10. Se clasifican muestras de hule espuma de tres proveedores de acuerdo a si cumplen o no con

las especificaciones. Los resultados de 100 muestras se resumen a continuación.

Sea que A denote el evento de una muestra del proveedor 1 y sea que B denote el

evento de una muestra cumpla con las especificaciones. Si se selecciona una muestra de

hule espuma al azar, determine las siguientes probabilidades. 10.1 )(AP 10.4 )(BP

El acabado de la

superficie cumple

La redondez cumple

Total Si No

Si 345 57

No 12 8

Total

Proveedor

Cumple

Total Si No

1 18 2

2 17 3

3 50 10

Total

Page 40: Material Estadística

40 10.2 )(AP 10.5 )( BAP

10.3 )( BAP 10.6 )( BAP

11. Durante un período determinado, aumentó el valor de mercado de las acciones comunes en

circulación en una industria, que incluye solamente 12 acciones. Si un inversionista escoge dos

de esas acciones al azar. ¿Cuál es la probabilidad de que ambos hayan experimentado un

aumento en su valor de mercado durante ese período, si se sabe que 8 aumentaron su valor?

12. Se selecciona una muestra de tres calculadoras de una lista de fabricación y cada una de ellas

se clasifica como defectuosa o aceptable. Sean A, B y C los eventos de la primera, la segunda

y la tercera calculadora esta defectuosa, respectivamente.

12.1 Describa el espacio muestral para este experimento

12.2 Describa cada uno de los eventos siguientes: A, B , BA , CB

13. De 600 empleados de una compañía, 300 participan en un plan de reparto de utilidades,

400 tienen una cobertura de gastos médicos y 200 empleados participan en ambos programas.

13.1 Describa cada uno de los sucesos involucrados y presente estos datos en una tabla

de contingencia.

13.2 De un ejemplo de un evento simple.

13.3 De un ejemplo de un evento conjunto.

13.4 ¿Cuál es el complemento del suceso “Empleado participa en cobertura de gastos

médicos”?

13.5 ¿Cuál es la probabilidad que un empleado elegido al azar:

13.5.1 Participe por lo menos en uno de los programas?

13.5.2 No participe en ninguno de los programas?

13.5.3 Participe en el plan de reparto de utilidades considerando que tiene

seguro de gastos médicos?

13.6 Determine si los eventos empleado participa en el programa de reparto de

utilidades es independiente a tener cobertura de gastos médicos.

14. De 100 personas que solicitan empleo de operador de computadoras en una firma, 40 tenían

experiencia profesional, 30 maestría y 20 tenían experiencia y maestría.

14.1 Describa cada uno de los sucesos involucrados y presente estos datos en una tabla

de contingencia.

14.2 ¿Cuál es la probabilidad que un solicitante escogido aleatoriamente tenga experiencia

o maestría?

14.3 Tenga maestría dado que tiene alguna experiencia profesional.

14.4 Determine si la experiencia y poseer maestría son sucesos independientes.

15. Quinientos clientes de crédito de Credicom. S.A. están categorizados según el número de

años que han tenido cuenta de crédito y por su promedio de saldo. De estos clientes 210 han

tenido saldos menores a $100, otros 260 han tenido cuenta de crédito cuando menos 5 años,

80 han tenido saldos mayores de $100 y cuentas de crédito por menos de 5 años. Presente

estos datos en una tabla de contingencia.

15.1 Describa cada uno de los sucesos involucrados y presente estos datos en una tabla

de contingencia.

Page 41: Material Estadística

41 15.2 Si se selecciona al azar un cliente.

15.2.1 ¿Cuál es la probabilidad que tenga un saldo de crédito mayor de $100?

15.2.2 ¿Cuál es la probabilidad que tenga un saldo de crédito menor de $100 o ha

tenido cuenta de crédito cuando menos 5 años?

15.2.3 ¿Cuál es la probabilidad que tenga un saldo de crédito menor de $100 y han

tenido cuentas de crédito por menos de 5 años?

15.2.4 Suponga que un cliente ha tenido cuentas de crédito cuando menos 5 años.

¿Cuál es la probabilidad de que tenga un saldo inferior a $100?

15.3 Muestre si tener un saldo de crédito superior a $100 y poseer cuenta de crédito

cuando menos 5 años, son estadísticamente independiente.

16. Un lote contiene 15 piezas fundidas de un proveedor local y 25 piezas fundidas de un

proveedor del estado contiguo. Se seleccionan dos piezas fundidas al azar, sin reemplazo del

lote de 40. Sea A: el evento de que la primera pieza fundida seleccionada es del proveedor

local y sea B: el evento de que la segunda pieza fundida seleccionada es del proveedor del

estado contiguo. Determine: 16.1 )(AP 16.3 )/( BAP

16.2 )( BAP 16.4 )( BAP

17. Durante una semana determinada se estima que la probabilidad de que el precio de una acción

específica aumente (A), permanezca sin cambio (C) o se reduzca (R) es de 0,35, 0,20 y 0,45

respectivamente.

17.1 ¿Cómo son los sucesos A, C y R?

17.2 ¿Cuál es la probabilidad de que el precio de la acción aumente o permanezca sin

cambio?

17.3 ¿Cuál es la probabilidad de que el precio de la acción cambie durante la semana?

18. Si 8,0)( 6,0)( ; 4,0)/( BPyAPBAP ¿Los eventos A y B son

independientes?

19. Se estima que la probabilidad de que aumenten las ventas de automóviles en el siguiente mes

es de 0,40. Se estima que la probabilidad de que aumenten las ventas de refacciones es de

0,50. Se estima que la probabilidad de que ambas industrias experimenten un aumento en

ventas es de 0,10. ¿Cuál es la probabilidad de que:

19.1 Hayan aumentado las ventas de automóviles durante el mes, dado que existe

información de que han aumentado las ventas de refacciones.

19.2 Hayan aumentado las ventas de refacciones, dado que existe información de que

aumentaron las ventas de automóviles durante ese mes.

20. La proporción general de artículos defectuosos en un proceso continuo de producción es 0,08.

¿Cuál es la probabilidad de que:

20.1 Dos artículos elegidos al azar ninguno tenga defecto?

20.2 Dos artículos escogidos al azar tengan defecto?

Page 42: Material Estadística

42 21. La siguiente tabla de contingencia representa la clasificación de 150 compañías muestreadas

de acuerdo con cuatro grupos industriales, y respecto a si su rendimiento sobre la inversión

está por encima o por debajo del rendimiento promedio.

Categoría

Industrial

Rendimiento sobre el capital Total

Superior al promedio (S) Inferior al promedio (I)

A 20 40

B 10 10

C 20 10

D 25 15

Total

21.1 Construya una tabla de probabilidad conjunta en base a estos datos muestrales.

21.2 Determine las siguientes probabilidades:

P(A y S) P(I) P(C/I)

P(S) P(D) P(I/S)

P(B/S) P(B o I) P(D y S)

22. La probabilidad de que haya escasez de cemento es 0,28 y la probabilidad de que no habrá

escasez y que una obra de construcción se termine a tiempo es 0,64. ¿Cuál es la probabilidad

de que la obra se termine a tiempo dado que no habrá escasez de cemento?

23. Un estudiante está tomando dos cursos, historia y matemáticas. La probabilidad de que

apruebe el curso de historia es 0,60 y matemáticas es 0,70. La probabilidad que apruebe

ambas es 0,50. ¿Cuál es la probabilidad que pase por lo menos una? ¿Qué regla de

probabilidad aplicó?

24. Las probabilidades de dos eventos A y B son 0,20 y 0,30, respectivamente. Los sucesos no

son mutuamente excluyentes. La probabilidad de que ambos A y B ocurran es 0,15 ¿Cuál es

la probabilidad de que sucedan A o bien B?

25. Un estudio de las opiniones de los diseñadores en lo referente al color primario más

conveniente para aplicar en oficinas ejecutivas indicó:

25.1 ¿Cuál es el experimento?

25.2 ¿Cuál es un posible evento?

25.3 ¿Cuál es la probabilidad de seleccionar una respuesta especifica y descubrir que el

diseñador prefiere rojo o verde?

25.4 ¿Cuál es la probabilidad de que un diseñador no prefiera amarillo?

Color primario N° de opiniones

Blanco 92

Amarillo 86

Violeta 70

Verde 14

Total

Page 43: Material Estadística

43 26. Cada vendedor de una empresa se califica como por debajo del promedio. Promedio o

Arriba del promedio, con respecto a su habilidad para las ventas. Además, cada vendedor

también se califica con respecto a su posibilidad de promoción en: regular, buena o

excelente. En la tabla que sigue se presentan las clasificaciones de estos rasgos para 500

vendedores.

26.1 ¿Cómo se llama esta tabla?

26.2 ¿Cuál es la probabilidad que un vendedor seleccionado al azar tenga habilidad de

ventas por encima del promedio y excelente posibilidad de promoción?

27. Suponga que P(A) = 0,40, P(B/A) = 0,30 ¿Cuál es la probabilidad conjunta de A y B?

28. Una encuesta a ejecutivos de alto nivel reveló que 45% leen con regularidad el diario La

Prensa, 35% El Nuevo Diario y 25% ambos diarios.

28.1 ¿Qué porcentaje de ejecutivos no lee ninguno de los diarios?

28.2 ¿Cómo se le llama a la probabilidad 0,25?

28.3 ¿Los eventos son mutuamente excluyentes? Explique su respuesta.

9. Teorema de Bayes

La probabilidad condicional toma en cuenta la información en cuanto a la ocurrencia de un

evento para predecir la probabilidad de otro evento. Este concepto se puede ampliar para

la “revisión” de las probabilidades basadas en nueva información y para determinar la

probabilidad de que un evento particular se debió a una causa específica. El procedimiento

para la revisión de estas probabilidades se conoce como Teorema de Bayes y la

composición de los eventos para resolver los problemas de la probabilidad se facilita

algunas veces al considerar el espacio muestral S como una unión de subconjuntos que son

mutuamente excluyentes.

Es decir,

kBBBS ....21 con jiBB ji , luego cualquier subconjunto A de S se

puede escribir como,

)....( 21 kBBBAA Usando ley distributiva entre conjuntos,

)(....)()( 21 kBABABAA Observemos que,

)(...)()()( 21 kBAPBAPBAPAP

)/()(...)/()()/()()( 2211 kk BAPBPBAPBPBAPBPAP

k

i

ii BAPBPAP1

)/()()( Se le llama probabilidad total.

Habilidades en ventas

Posibilidades de promoción

Total Regular Buena Excelente

Por debajo del promedio 16 12 22

Promedio 45 60 45

Arriba del promedio 93 72 135

Total

Page 44: Material Estadística

44 Una probabilidad condicional se puede calcular como,

9.1 Árbol de decisión, diagrama de árbol o arborigrama.

Una forma alternativa de ver la descomposición de las probabilidades es, a través del

de un arborigrama.

Ej: 9.11 El gerente de marketing de una firma fabricante de juguetes planea evaluar la

introducción de un nuevo juguete al mercado. En el pasado 40% de los juguetes

introducidos por esta firma han tenido éxito y 60% no lo han tenido. Antes de

lanzar el juguete al mercado, se lleva a cabo una investigación y se elabora un

informe, favorable o desfavorable. En el pasado 80% de los juguetes con éxito

recibieron informes favorables y 30% de los juguetes sin éxito también recibieron

informes favorables. El gerente de marketing desea conocer la probabilidad de que el

nuevo juguete tenga éxito si recibe un informe favorable. Sean,

:S Producción de juguetes de esa firma.

:1B Juguete con éxito en el mercado. :2B Juguete sin éxito en el mercado.

:A Informe favorable. :A Informa desfavorable.

0,8 A (0,4) (0,8) = 0,32

1B

0,4 0,2 A (0,4) (0,2) = 0,08

S

0,3 A (0,6) (0,3) = 0,18

0,6 2B

0,7 A (0,6) (0,7) = 0,42

Probabilidades Probabilidades Probabilidades

a priori. condicionales. conjuntas.

)/()()/()(

)/()()/(

2211

11

1BAPBPBAPBP

BAPBPABP

64,050,0

32,0

18,032,0

32,0

)3,0)(6,0()8,0)(4,0(

)8,0)(4,0()/( 1

ABP

k

i

ii

ii

i

BAPBP

BAPBPABP

1

)/()(

)/()()/(

Page 45: Material Estadística

45 ACTIVIDAD DE AUTOAPRENDIZAJE N° 5

1. El software para detectar fraudes con tarjetas telefónicas personales rastrea el número de

áreas donde se originan las llamadas cada día. Se ha encontrado que 1% de los usuarios

legítimos hacen llamadas de dos o más áreas en un solo días. Sin embargo, 30% de los

usuarios fraudulentos hacen llamadas de dos o más áreas en un solo día. La proporción de

usuarios fraudulentos es 0,01%.

1.1 Describa cada uno de los sucesos involucrados y presente esta información en un

diagrama de árbol.

1.2 Si el mismo usuario hace llamadas de dos o más áreas en un solo día. ¿Cuál es la

probabilidad de que el usuario sea fraudulento?

2. En una fábrica de zapatos, se sabe por experiencia que la probabilidad es 0,82 de que un

trabajador que ha asistido a un programa de capacitación de la fábrica cumplirá con la cuota

de producción y que la probabilidad correspondiente es 0,53 para un trabajador que no

asistió al programa de capacitación. Si el 60% de los trabajadores asisten al programa de

capacitación de la fábrica.

2.1 Describa cada uno de los sucesos involucrados y presente esta información en un

diagrama de árbol.

2.2 Suponga que el trabajador cumplió con la cuota de producción. ¿Cuál es la

probabilidad de que haya asistido al curso?

3. Suponga que 2% de los rollos de tela de algodón y 3% de los rollos de tela de nylon

contienen defectos. De los rollos usados por un fabricante, 70% son de algodón y 30% son de

nylon.

3.1 Describa cada uno de los sucesos involucrados y presente estos datos en un diagrama

de árbol.

3.2 ¿Cuál es la probabilidad que uno de los rollos de tela de nylon usados por el

fabricante seleccionado al azar contenga defectos?

4. Los clientes acostumbran evaluar en forma preliminar el diseño de los productos. En el

pasado, 95% de los productos de gran éxito recibieron críticas favorables, 60% de los

productos con éxito moderado recibieron críticas favorables y 10% de los productos sin

mucho éxito también recibieron críticas favorables. Además 40% de los productos han sido

de gran éxito, 35% de éxito moderado y 25% han sido productos sin mucho éxito.

4.1 Describa cada uno de los sucesos involucrados y presente esta información en un

diagrama de árbol.

4.2 Si un diseño nuevo obtiene una crítica favorable. ¿Cuál es la probabilidad que sea un

producto de gran éxito?

4.3 ¿Cuál es la probabilidad que sea un producto de gran éxito, si no consigue una crítica

favorable?

5. El dueño de una tienda de discos divide a los clientes que entran a su tienda en clientes

en edad escolar, clientes en edad universitaria y clientes mayores y observa que el 30,

50 y 20 por ciento de todos los clientes, respectivamente, pertenecen a estas

categorías. También observa que compran discos el 20 por ciento de los clientes en

Page 46: Material Estadística

46 edad escolar, el 60 por ciento de los clientes en edad universitaria y el 80 por ciento

de los clientes mayores.

5.1 Describa cada uno de los sucesos involucrados y presente esta información en un

diagrama de árbol.

5.2 Si un cliente seleccionado aleatoriamente compra un disco. ¿Cuál es la probabilidad

que esté en edad escolar?

6. El departamento de crédito de una casa comercial, informó que 30% de sus ventas son en

efectivo, 30% se pagan con cheque en el momento de la adquisición y 40% se pagan con

tarjetas de crédito. Se tiene que 29% de las compras en efectivo, 90% en cheques y 60% de

las compras con tarjeta de crédito son por más de $100.

6.1 Describa cada uno de los sucesos involucrados y presente esta información en un

diagrama de árbol.

6.2 Alba Marín acaba de comprar un vestido nuevo que cuesta $150. ¿Cuál es la

probabilidad de que haya pagado en efectivo?

7. Tres máquinas M1, M2, M3 producen respectivamente 50%, 30%, 20% del total de artículos

de una fábrica. Las máquinas producen artículos defectuosos en un porcentaje de 7%, 6%,

4% respectivamente. Al colocar la producción de las tres máquinas en fila y escoger un

artículo.

7.1 Describa cada uno de los sucesos involucrados y presente esta información en un

diagrama de árbol.

7.2 Si el artículo escogido es defectuoso. ¿Cuál es la probabilidad que haya sido

producido en cualesquiera de las tres máquinas? Tome como decisión el elemento

mayor probabilidad de producir artículos defectuosos.

8. En cierta Empresa el 6% de los empleados varones y el 4% de los empleados mujeres tienen

salarios mayores de C$ 12 000. Además el 60% de los empleados son hombres.

8.1 Describa cada uno de los sucesos involucrados y presente esta información en un

diagrama de árbol.

8.2 Se despide a un empleado al azar que gana más de C$12 000.

8.2.1 ¿Cuál es la probabilidad que sea varón?

8.2.2 ¿Cuál es la probabilidad que sea mujer?

9. Un comerciante de parte para automóviles tiene 4 empleados K, L, M y N, que cometen

errores al llenar un pedido una vez en cien, cuatro veces en cien, dos veces en cien y seis

veces en cien respectivamente. De todos los pedidos llenados, K, L, M y N llenan

respectivamente el 20, 40, 30 y 10%.

9.1 Presente esta información en un diagrama de árbol que muestre todas las

probabilidades.

9.2 Si se encuentra un error en un pedido. ¿Cuál es la probabilidad que fue llenado por K,

L, M o N.

Page 47: Material Estadística

47 UNIDAD III DISTRIBUCIONES DE PROBABILIDAD Y PRUEBAS

ESTADÍSTICAS

Introducción

La preparación de un proyecto de investigación es una tarea compleja, ya que se han de tener

en cuenta multitud de aspectos para que el documento final contemple todos los apartados que

cualquier estructura estándar considera y para que todos los investigadores sepan con qué y

cómo deben proceder en todas las etapas de ejecución del estudio planteado. Uno de los

dilemas que se presenta cuando se inicia la elaboración del proyecto es decidir sobre los

individuos o elementos que se incluirán en el estudio: qué características tendrán «criterios de

inclusión y exclusión», a cuántos individuos se estudiará «tamaño de la muestra» y cómo se

elegirán para que entren a formar parte del estudio «técnica de muestreo». Estudiar a toda la

población, que sería la manera más exacta de conocer lo que se pretende estudiar, es casi

imposible en la práctica. Entre los motivos que lo impiden se encuentran la falta de tiempo, la

escasez de recursos humanos y económicos, la dificultad para acceder a todos los sujetos, etc.,

por lo que se estudia sólo a una parte de ellos, para, posteriormente, generalizar o inferir

los resultados obtenidos a toda la población. Por tanto, cuando se habla de sujetos de estudio,

se ha de diferenciar claramente entre población, muestra e individuo.

1. Distribución de probabilidad

Una distribución de probabilidad indica toda la gama de valores que pueden representarse

como resultado de un experimento. Es decir, describe la probabilidad de que un evento

se realice en el futuro y constituye una herramienta fundamental para la prospectiva,

puesto que se puede diseñar un escenario de acontecimientos futuros considerando las

tendencias actuales de diversos fenómenos naturales. Recordemos inicialmente que

existen las variables aleatorias, siendo aquellas que se asocian a la ocurrencia de un

fenómeno aleatorio. Cuando una de estas variables aleatorias toma diversos valores, la

probabilidad asociada a cada uno de tales valores puede ser organizada como una

distribución de probabilidad. Las distribuciones de probabilidad pueden representarse a

través de una tabla, una gráfica o una fórmula, en cuyo caso tal regla de correspondencia

se le denomina función de probabilidad. Toda distribución de probabilidad es generada por

una variable aleatoria x, y puede ser de dos tipos:

2. Variable aleatoria discreta (x)

Porque solo puede tomar valores enteros y un número finito de ellos.

Ej: 2.1 x→Variable que nos define el número de alumnos aprobados en la asignatura

de Estadística en un grupo de 40 estudiantes (1, 2 ,3…ó los 40). Consideraremos

primero las distribuciones de probabilidad para variables discretas. Las propiedades de

las distribuciones de variables discretas son dos, y que posteriormente, al hablar de las

distribuciones de variables continuas, se repetirán de manera muy similar:

0 ≤ P(X = x) ≤ 1.

∑P(X = x) = 1, o que es lo mismo: la suma de todas las probabilidades de los

eventos posibles de una variable aleatoria es igual a la unidad.

Page 48: Material Estadística

48 Hay que hacer notar que estas propiedades se enuncian suponiendo que conocemos el

valor de la probabilidad, pero en la realidad esto no ocurre, es decir que no sabemos la

probabilidad y lo que se hace es trabajar con estimaciones. Precisamente esto nos lleva

a modelos teóricos que estiman los resultados, los principales son los que a continuación

se presentan.

3. Valor esperado de una variable aleatoria (v.a)

Para tener una medida del punto central de una distribución de probabilidad, introducimos

el concepto de esperanza de una variable aleatoria, el valor esperado es la medida

correspondiente del punto central de una variable aleatoria.

Su fórmula es:

4. Varianza y Desviación Estándar de una variable aleatoria

En la unidad I observamos que la varianza muestral es una medida útil de la dispersión de

un conjunto de observaciones numéricas. Y es el promedio de los cuadrados de las

diferencias entre las observaciones y la media. Nos basamos en esta misma idea para medir

la dispersión de la distribución de probabilidad de una v.a. La varianza de una v.a. es el

promedio ponderado de los cuadrados de sus diferencias posibles con respecto a la media.

Su fórmula es:

Y la desviación estándar está dada:

Ej: 4.1 Un contratista está interesado en saber cuál es el costo total de un proyecto

para el que pretende presentar una oferta. Estima que los materiales costarán

$25000 y su trabajo $900 al día. Si el proyecto tarda en realizarse X días, el costo

laboral total será 900X $ y el costo total del proyecto (en $) será

xxC 90025000)( El contratista estima unas probabilidades subjetivas de la

duración probable del proyecto.

4.1.1 Determine la media, la varianza y la desviación estándar de la duración X del

proyecto.

)()( xxPxE

díasxE 9,11)1,0(14)2,0(13)3,0(12)3,0(11)1,0(10)(

Este valor indica que sobre un gran número de días, el contratista espera que la

duración promedio de la obra sea de 11,9 días.

Duración X (días) 10 11 12 13 14

Probabilidad 0,1 0,3 0,3 0,2 0,1

)()( xxPxE

)()()( 22 xPxxV

)()( 2 xPx

Page 49: Material Estadística

49 )()()( 22 xPxxV

29,1)1,0()9,1114(

)2,0()9,1113()3,0()9,1112()3,0()9,1111()1,0()9,1110(

2

22222

. 1,1 135781669,129,1 día

ACTIVIDAD DE AUTOAPRENDIZAJE N° 6

1. El número de computadoras vendidas al día en una tienda viene definida por la

siguiente distribución de probabilidad:

1.1 ¿En promedio cuántas computadoras vende al día la tienda?

1.2 ¿Cuál es la desviación estándar de esta distribución?

1.3 Grafique esta función de probabilidad.

1.4 ¿Cuál es la probabilidad que la tienda venda a lo sumo 3 computadoras en un día?

2. Las muestras de cierta materia prima se clasifican de acuerdo con su contenido de

humedad e impurezas, redondeado este al porcentaje más cercano. A continuación se

presentan los resultados obtenidos con 80 muestras.

2.1 Determine la media y la varianza del contenido de humedad de esas muestras.

2.2 Calcule la media y la varianza del contenido de impurezas de estas muestras.

3. Una pastelería ofrece bocadillos con

decoración especial para cumpleaños,

bodas y otras ocasiones. En la tabla que

sigue se proporciona el número total de bocadillos vendidos al día y las probabilidades

correspondientes. Calcule la media, la varianza y la desviación estándar para el número

promedio de bocadillos vendidos por día.

4. El gerente de personal de una empresa está

estudiando el número de accidentes en el

trabajo durante un periodo de un mes.

Elaboró la distribución probabilística que se muestra enseguida. Calcule e interprete la media,

la varianza y la desviación estándar del número de accidentes en un mes.

X 0 1 2 3 4 5 6

P(X) 0,05 0,10 0,20 0,20 0,20 0,15 0,10

Impurezas Contenido de humedad.

3% 4%

1% 5 14

2% 57 4

N° de bocadillos vendidos 12 13 14 15

Probabilidad 0,25 0,40 0,25 0,10

N° de accidentes 0 1 2 3 4

Probabilidad 0,4 0,2 0,2 0,1 0,1

Page 50: Material Estadística

50

5. Una compañía inmobiliaria tiene un

gran número de apartamentos

disponibles cada mes para rentar. Un

interés de la administración es el # de apartamentos vacantes mensualmente. Un estudio

reciente reveló el porcentaje del tiempo que está vacante un número dado de apartamentos.

Calcule la media y la desviación estándar del número de unidades desocupadas.

5. Distribucion Binomial

Consideremos los llamados ensayos de Bernoulli, éstos son aquellos experimentos cuyo

resultado es uno de dos posibles y mutuamente excluyentes. Es decir aquel modelo que

sigue un experimento que se realiza una sola vez y que puede tener dos soluciones: éxito

(acierto) o fracaso:

Cuando es acierto la variable toma el valor 1

Cuando es fracaso la variable toma el valor 0

Ej: 5.1 Los siguientes son ensayos Bernoulli.

El saldo de una cuenta por cobrar esta correcta o incorrecta.

Un tornillo, puede estar defectuoso o no defectuoso.

El sexo de un bebé al nacer: niño o niña.

La respuesta correcta o incorrecta en un examen.

Si consideramos una serie de ensayos Bernoulli que tiene como características:

La probabilidad de éxito permanece constante, ensayo tras ensayo; y

Los ensayos son independientes entre sí.

La distribución binomial se aplica cuando se realizan un número "n" de veces el experimento de

Bernoulli, siendo cada ensayo independiente del anterior. La variable puede tomar valores

entre 0 y n

Entonces se tiene lo que se denomina experimento binomial, donde el número de ensayos se

denota con n, la probabilidad de éxito con p y la de fracaso con q. Hay que notar que las

probabilidades de éxito y de fracaso están relacionadas de la siguiente manera: p + q = 1.

Ej: 5.2 Consideremos un examen con tres preguntas de opción múltiple, con cuatro pciones,

y que será contestado al azar.

Al examinar los registros de facturación mensual de una editora con ventas por internet, el

auditor tomó una muestra de 8 de las facturas no pagadas. La cantidad adeudada a la compañía

es, $ 260 340 300 320 300 280 240 220

La deuda promedio es:

a. 305 b. 282,5 c. 300 d. 290,5

La mediana es:

a. 280 b. 290 c. 320 d. 240

La varianza es:

a. 1650 b. 1560 c. 1565 d. 1625

N° de vacantes 0 1 2 3 4

Probabilidad 0,40 0,30 0,20 0,08 0,02

Page 51: Material Estadística

51 Con esto contamos con un experimento binomial, ya que la probabilidad de éxito

permanece constante en las tres preguntas (p =¼) y las respuestas de una a otra pregunta son

independientes entre sí. Se cuenta con una cantidad n = 3 de ensayos y q = 1 - p = 3/4.

Hay que decir que n y p son los llamados parámetros de la distribución. Tenemos ahora la

variable aleatoria X que representará el número de respuestas correctas, siendo sus posibles

valores: 0, 1, 2, y 3.

En general, si se tienen n ensayos de Bernoulli con probabilidad de éxito p y de fracaso q,

entonces la distribución de probabilidad que la modela es la distribución de probabilidad

binomial y su regla de correspondencia es:

para x = 0, 1,2,…, n.

La media y la desviación estándar de la distribución binomial con parámetros n y p es:

Nota:

La elección de éxito o fracaso es subjetiva y queda a opción de la persona que resuelve el

problema, pero teniendo cuidado de plantear correctamente lo que se pide.

Ej: 5.3 Suponga que Susana Fermín es agente de seguros y contacta a 5 personas y cree

que la probabilidad de vender un seguro a cada una es de 0,4.

5.3.1 Halle la probabilidad de que no venda seguro. Es decir, )0( XP

X: # de seguros a vender.

n = 5

p = 0,4 q = 0,6

Sustituyendo en la fórmula.

)( xnx

xn qpCxXP

0,07776 0,07776))(1)(1( )6,0()4,0()0( 050

05 CXP

Es decir, hay un 7,8 % de probabilidad aproximadamente, de que Susana Fermín no

venda seguro.

5.3.2 ¿Cuál es la probabilidad que venda a lo máximo un seguro?

En forma simbólica P(X ≤ 1)

Sustituyendo en la fórmula. (0,6)(0,4)C)6,0()4,0()1()0()1( 1-51

15

050

05 CXPXPXP

33696.02592,007776,0)1( XP

Lo que indica que hay una probabilidad de 0,337 ≈ de que venda cuando mucho un

seguro.

5.3.3 Halle la probabilidad de que venda entre dos y cuatro seguros (inclusive).

)( xnx

xn qpCxXP

npqnpxE , )(

Page 52: Material Estadística

52 5.3.4 ¿Cuál es la probabilidad que venda por lo menos un seguro?

ACTIVIDAD DE AUTOAPRENDIZAJE N° 7

1. Un director de producción sabe que el 5% de los componentes producidos en un

determinado proceso tiene algún defecto. Se examinan seis de estos

componentes, cuyas características pueden suponerse que son independientes entre sí.

1.1 ¿Cuál es la probabilidad que ningún componente tenga este defecto?

1.2 ¿Cuál es la probabilidad que uno de estos componentes tenga un defecto?

1.3 ¿Cuál es la probabilidad que al menos dos de estos componentes tenga un defecto?

2. Una máquina de cierta marca está produciendo 10% de piezas defectuosas. El ingeniero de

control de calidad ha estado verificando la producción por medio de muestreo casi continuo

desde que empezó la condición anormal. ¿Cuál es la probabilidad que en una muestra de 10

piezas:

2.1 Exactamente 5 estén defectuosas?

2.2 5 o más estén defectuosas?

2.3 A lo sumo una esta defectuosa?

3. Un inspector encargado del control de calidad de los camiones de juguete producidos por una

fábrica, ha observado que cierto defecto en las llantas se presenta en el 5% de los vehículos.

En cada uno se colocan seis llantas. ¿Cuál es la probabilidad de que en un conjunto de seis

llantas seleccionadas aleatoriamente no se presente el defecto?

4. Un circuito electrónico contiene 10 circuitos integrados. La probabilidad de que cualquier

circuito integrado este defectuoso es 0.05, y los circuitos integrados son independientes.

El artículo trabaja sólo si no contiene circuitos defectuosos. ¿Cuál es la probabilidad que el

artículo trabaje?

5. En un proceso de producción se examinan lotes de 50 resortes helicoidales para

determinar si cumplen con los requerimientos del cliente. El número promedio de resortes

helicoidales que no cumplen con los requerimientos es de 5 por lote. Suponga que el número

de resortes que no cumplen con los requerimientos en un lote, denotado por X, es una v.a.

binomial.

5.1 ¿Que valor tiene n y p?

5.2 Calcule P(X ≤ 2) y P(X ≥ 49)

6. Las observaciones durante un largo período muestran que un vendedor determinado puede

concluir una venta en una sola entrevista con una probabilidad de 0,30 Suponga que el

vendedor entrevista a 6 prospectos (o compradores prospectivos).

6.1 ¿Cuál es la probabilidad que exactamente dos prospectos compren el producto?

6.2 ¿Cuál es la probabilidad de que todos los prospectos compren el producto?

6.3 ¿Cuál es la probabilidad que al menos dos prospectos compren el producto?

Page 53: Material Estadística

53 6. Distribución de Poisson

La distribución de Poisson es también un caso particular de probabilidad de variable

aleatoria discreta, el nombre se debe a Simeón Denis Poisson (1781-1840), un francés que

la desarrolló a partir de los estudios que realizó durante la última etapa de su vida, como

una forma límite de la distribución binomial que surge cuando se observa un evento raro

después de un número grande de repeticiones. En general, la distribución de Poisson se

puede utilizar como una aproximación de la binomial, si el número de pruebas n es grande,

pero la probabilidad de éxito p es pequeña; una regla es que la aproximación Poisson-

Binomial es “buena” si n ≥ 20 y p ≤ 0,05 y “muy buena” si n ≥ 100 y p ≤ 0,01. La distribución

de Poisson también surge cuando un evento o suceso “raro” ocurre aleatoriamente en el

espacio o el tiempo. La variable asociada es el número de ocurrencias del evento en un

intervalo o espacio continuo, por tanto, es una variable aleatoria discreta que toma valores

enteros de 0 en adelante (0, 1, 2, ...). Así, el número de llamadas que recibe un servicio de

atención a urgencias durante 1 hora, el número de células anormales en una superficie

histológica o el número de glóbulos blancos en un milímetro cúbico de sangre son ejemplos

de variables que siguen una distribución de Poisson.

Características:

En este tipo de experimentos los éxitos buscados son expresados por unidad de área o

tiempo.

Ej: 6.1 # de clientes que llegan a una caja de un supermercado en la hora pico.

# de defectos de una tela por m2.

# de aviones que aterrizan en un aeropuerto por día, hora, minuto, etc.

# de bacterias por cm2 de cultivo.

# de llamadas telefónicas a un conmutador por hora, minuto, etc.

# de llegadas de embarcaciones a un puerto por día, mes, etc.

Para determinar la probabilidad de que ocurran x éxitos por unidad de tiempo o área, la

fórmula a utilizar sería:

Donde,

)( xXP Es la probabilidad de que ocurran x éxitos, cuando el número promedio

de ocurrencia de ellos es t

t : Media o promedio de éxitos por unidad de tiempo o área.

e = 2,718… (Base de logaritmo neperiano o natural)

X : Variable que nos denota el número de éxitos que se desea que ocurran.

Hay que hacer notar que en esta distribución el número de éxitos que ocurren por unidad de

tiempo o área es totalmente al azar y que cada intervalo de tiempo es independiente de otro,

así como cada área es independiente de otra área. Para que una variable siga una distribución

de Poisson deben cumplirse varias condiciones:

En un intervalo muy pequeño (por ej. un milisegundo) la probabilidad de que ocurra un

evento es proporcional al tamaño del intervalo.

ttXExx

texXP

xt

)( ... ,1 ,0 !

)()( 2

Page 54: Material Estadística

54 La probabilidad de que ocurran dos o más eventos en un intervalo muy pequeño es tan

reducida que, a efectos prácticos, se puede considerar nula.

El número de ocurrencias en un intervalo pequeño no depende de lo que ocurra en cualquier

otro intervalo pequeño que no se solape con aquél.

El parámetro de la distribución, es, t (lambda), representa el número promedio de

eventos esperados por unidad de tiempo o de espacio, por lo que también se suele hablar de

lambda como “la tasa de ocurrencia” del fenómeno que se observa.

La distribución de Poisson tiene iguales la media y la varianza. Si la variación de los casos

observados en una población excede a la variación esperada por la Poisson, se está ante la

presencia de un problema conocido como sobredispersión y, en tal caso, la distribución

binomial negativa es más adecuada.

Ej: 6.2 El número de fallas de un instrumento de prueba debido a las partículas

contaminantes de un producto, tiene una media de 0,02 fallas por hora.

6.2.1 ¿Cuál es la probabilidad que el instrumento no falle en una jornada de 8 horas?

8 , 0,02 horast Determinar P(X = 0)

0,160,02(8) tCalculamos

Sustituimos en la fórmula: !

)()(

x

texXP

xt

90,85214378

!0

)16,0()0(

016.,0

e

XP

Es decir la probabilidad es de 0,8521 ≈ de que no falle el instrumento en una jornada

de 8 horas.

6.2.2 ¿Cuál es la probabilidad que se presente al menos una falla en un periodo de 24

horas? Es decir P(X ≥ 1), donde horast 24 0,02

480)24(020 ,, λt Calculamos ; )0(1)1(1)1( XPXPXP

Sustituimos en la fórmula: !

)()(

x

texXP

xt

3812,0381216608,0618783391,01

!0

)48,0(1)1(

048,0

e

XP

Por consiguiente la probabilidad que se presente al menos una falla en un periodo de

24 horas es de 0,3812 ≈.

6.2.3 ¿Cuál es la probabilidad que se presente a lo sumo una falla en un periodo de 12

horas? Es decir P(X ≤ 1), donde horast 12 0,02

240)12(020 ,, λt Calculamos ; )1()0()1( XPXPXP

Page 55: Material Estadística

55 Sustituimos en la fórmula:

!

)()(

x

texXP

xt

9754,0975418547,0188790686,0786627861,0

!1

)24,0(

!0

)24,0()1(

124,0024,0

ee

XP

ACTIVIDAD DE AUTOAPRENDIZAJE N° 8

1. Una persona pasa todas las mañanas a la misma hora por un crucero donde el semáforo

está en verde el 20% de las veces. Suponga que cada mañana representa un ensayo

independiente.

1.1 En cinco mañanas consecutivas, ¿Cuál es la probabilidad que el semáforo este en verde

exactamente un día?

1.2 En 20 mañanas, ¿Cuál es la probabilidad que el semáforo este en verde exactamente

cuatro días?

1.3 En 20 mañanas, ¿Cuál es la probabilidad que el semáforo este en verde más de cuatro

días?

2. Se supone que el número de defectos en los rollos de tela de cierta industria textil es una v.a

de Poisson con una media de 0.10 defectos por metro cuadrado.

2.1 ¿Cuál es la probabilidad de tener dos defectos en un metro cuadrado de tela?

2.2 ¿Cuál es la probabilidad de tener un defecto en 10 metros cuadrados de tela?

2.3 ¿Cuál es la probabilidad de que no haya defectos en 20 metros cuadrados de tela?

2.4 ¿Cuál es la probabilidad que existan al menos dos defectos en 10 metros cuadrados de

tela?

3. El número de mensajes que se envían por computadora a un boletín electrónico tiene una

media de cinco mensajes por hora.

3.1 ¿Cuál es la probabilidad que el boletín reciba cinco mensajes en una hora?

3.2 ¿Cuál es la probabilidad que el boletín reciba 10 mensajes en una hora y media?

3.3 ¿Cuál es la probabilidad que el boletín reciba menos de dos mensajes en media hora?

3.4 ¿Cuál es la probabilidad que el boletín reciba por lo menos tres mensajes en una hora?

4. Un profesor recibe, por término medio, 4,2 llamadas telefónicas de los estudiantes el día

antes de realizarse alguna prueba sistemática. Sí las llamadas siguen una distribución de

Poisson. ¿Cuál es la probabilidad que:

4.1 Reciba al menos tres llamadas ese día?

4.2 El profesor no reciba llamadas ese día?

4.3 Reciba a lo sumo tres llamadas ese día?

5. Un estudio de las filas en las cajas registradoras de salida en un supermercado reveló que

durante un cierto periodo en la hora más concurrida, el número de clientes en espera era en

promedio cuatro. ¿Cuál es la probabilidad que durante ese periodo:

5.1 No haya cliente esperando?

5.2 Cuatro o menos clientes estén en espera?

5.3 A lo sumo un cliente este en espera?

Page 56: Material Estadística

56 5.4 Por lo menos un cliente este en espera?

6. Un banco en promedio recibe 6 cheques sin fondos por día. ¿Cuál es la probabilidad de que

reciba cuatro cheques sin fondo en un día dado?

7. Variable aleatoria Continua

Una variable aleatoria continua es aquella que puede asumir un número infinito de valores

dentro de un determinado rango. Los conceptos y las ideas sobre las variables aleatorias

discretas también se aplican a las variables aleatorias continuas. Muchos indicadores

económicos y empresariales como las ventas, la inversión, el consumo, los costos y los

ingresos pueden representarse por medio de variables aleatorias continuas. Además, las

medidas del tiempo, la distancia, la temperatura y el peso encajan en esta categoría.

8. Distribución normal

Es el modelo de distribución más utilizado en la práctica, ya que multitud de fenómenos se

comportan según una distribución normal.

La distribución normal es, sin duda, la distribución de probabilidad más importante del

Cálculo de probabilidades y de la Estadística. Fue descubierta por De Moivre (1773), como

aproximación de la distribución binomial. Esta distribución se caracteriza porque los

valores se distribuyen formando una campana de Gauss, en torno a un valor central que

coincide con el valor medio de la distribución. La curva de la distribución normal puede ser

modelada utilizando la función de densidad,

Un 50% de los valores están a la derecha de este valor central y otro 50% a la izquierda.

Esta distribución viene definida por dos parámetros: : es el valor medio de la distribución y es precisamente donde se sitúa el centro

de la curva (de la campana de Gauss).

:2 es la varianza e indica si los valores están más o menos alejados del valor central:

si la varianza es baja los valores están próximos a la media; si es alta, entonces

los valores están muy dispersos.

Cuando la media de la distribución es 0 y la varianza es 1 se denomina "normal

tipificada o estandarizada", y su ventaja reside en que hay tablas donde se recoge la

probabilidad acumulada para cada punto de la curva de esta distribución. Además, para

transformarla en una normal tipificada se crea una nueva variable (Z) que será igual a la

anterior (X) menos su media y dividida por su desviación típica (que es la raíz cuadrada de la

varianza)

zx

xZ

,

Page 57: Material Estadística

57 Toda distribución normal se puede transformar en una normal tipificada: La distribución

normal tipificada tiene la ventaja, como ya hemos indicado, de que las probabilidades para cada

valor de la curva se encuentran recogidas en una tabla.

Propiedades de la curva de distribución normal.

Los valores de la curva son positivos.

La curva es simétrica con respecto al valor de la media. La curva tiene un valor máximo en

el valor de la media.

La curva tiene puntos de inflexión en aquellos valores de X para los cuales a la media se le

suma o se le resta una desviación estándar.

La curva, en sus extremos izquierdo y derecho, tiende a acercarse infinitamente al valor

cero, es decir, el eje de las abscisas es asíntota horizontal.

El área bajo la curva es la unidad.

Manejo de la tabla La tabla nos da la probabil idad P(Z ≤ z ) s iendo z la variable tipificada.

1 . P (a ≤ Z ≤ b) = Z (b) - Z (a )

2. P(Z ≥ a) = 1– P(Z < a ) = 1 - Z(a)

3. P(Z ≤ a ) = Z (a )

Búsqueda en la tabla el valor Z

En la pr imera columna buscamos el va lor de las un idades y l as déc imas. En

l a pr imera fi l a el va lor de l as centésimas. Su intersecc ión nos da la

probabil idad buscada .

Page 58: Material Estadística

58 Ej. 8.1 Un cliente tiene una cartera de inversión cuyo valor medio es de 78 mil dólares y

desviación estándar de 36 mil dólares. Se le ha pedido que calcule:

8.1.1 La probabilidad que el valor de la cartera sea inferior a 132 000 $.

X: Valor de la cartera de inversión (en miles de $) $ 36 $ 78 milymil

Fórmula para estandarizar:

xZ

0,9332)50,1( 1,50 36

78132 )132 (

ZZPZPXP

Es decir el 93,32% del valor de la cartera de inversión es inferior a $132 000.

8.1.2 La probabilidad que el valor de la cartera de inversión sea por lo menos de 96 000 $.

X: Valor de la cartera de inversión (en miles de $) $ 36 $ 78 milymil

Fórmula para estandarizar:

xZ

0,30856915,01)50,0(1)50,0(1

0,50 36

7896 )96X(

ZZP

ZPZPP

Este resultado muestra que el 30,85% del valor de la cartera de inversión es por

lo menos de $ 96 000.

8.1.3 La probabilidad que el valor de la cartera de inversión sea cuando mucho 25 000

dólares.

X: Valor de la cartera de inversión (en miles de $) $ 36 $ 78 milymil

Fórmula para estandarizar:

xZ

0,0708)47,1(

-1,47 36

7825 )25X(

Z

ZPZPP

Lo que indica que el 7,08% del valor de la cartera de inversión es cuanto mucho

de 25 mil dólares.

Page 59: Material Estadística

59 8.1.4 La probabilidad que el valor de la cartera sea superior a $72 000.

X: Valor de la cartera de inversión (en miles de $) $ 36 $ 78 milymil

Fórmula para estandarizar:

xZ

5675,04335,01)17,0(1

)17,0(1 17,036

7872)72(

Z

ZPZPZPXP

El 56,75% del valor de la cartera de inversión es superior a $72 000.

8.1.5 La probabilidad que el valor de la cartera de inversión este entre 80 y 90 mil dólares.

X: Valor de la cartera de inversión (en miles de $) $ 36 $ 78 milymil

Fórmula para estandarizar:

xZ

1054,05239,06293,0)06,0()33,0(

33,0 06,036

7890

36

7880)9280(

ZZ

ZPZPXP

Lo que indica que esta probabilidad de ocurrencia es apenas de un 0,1054, que la cartera de

inversión se ubique entre esos valores.

8.1.6 La probabilidad que el valor de la cartera de inversión este entre 20 mil y 29 mil

dólares.

X: Valor de la cartera de inversión (en miles de $) $ 36 $ 78 milymil

Fórmula para estandarizar:

xZ

0,03320869,00537,0)61,1()36,1(

1,36- 61,1

36

7829

36

7820)2920(

ZZ

ZP

ZPXP

El resultado muestra que la probabilidad de ocurrencia es de un 3,32% de que la cartera

de inversión se encuentre entre esos valores.

8.1.7 La probabilidad que el valor de la cartera se encuentre entre 65 mil y 172 mil dolares.

X: Valor de la cartera de inversión (en miles de $) $ 36 $ 78 milymil

Page 60: Material Estadística

60 Fórmula para estandarizar:

xZ

0,63613594,09955,0)36,0()61,2(

2,61 36,036

78172

36

7865)17265(

ZZ

ZPZPXP

Este resultado nos muestra que 0,6361 es la probabilidad que la cartera de inversión

se encuentre entre 65 y 172 mil dólares.

Nos encontramos con el caso inverso a los anteriores, conocemos el valor de la probabilidad y

se trata de hallar el valor de la abscisa. Ahora tenemos que buscar en la tabla el valor que más

se aproxime a éste.

Ej: 8.2 Suponga que la cantidad de tiempo que lleva a la superintendencia de contribuciones enviar

reembolsos se distribuye normal con una media de 12 semanas y una varianza de 9.

8.2.1 ¿Cuántas semanas tendrá que esperar el 95% de los contribuyentes distribuidos

simétricamente para obtener el reembolso?

μ = 12 , σ2 = 9 σ = 3 )( 21 zZzP Por la simetría 95% divida en dos partes iguales.

96,1 975,0) 22 zzP(Z 96,1 1 z

Sustituyendo en zx

. 7 12,7)3)(96,1(12 11 semanasxsemanasx

. 18 88,17)3)(96,1(12 12 semanasxsemanasx

El contribuyente que solicite reembolso tendrá que esperar entre 7 y 18 semanas, con

estas características.

8.2.2 ¿Cuánto tiempo tienen que esperar el 90% de los contribuyentes? 1,28 90,0)( 11 zzZP

Sustituyendo en zx

. 16 84,15)3)(28,1(12 11 semanasxsemanasx

Es decir que el 90% de los contribuyentes que soliciten reembolso tendrá que esperar

apróximamente 16 semanas.

Ej. 8.3 Se aplica un test de cultura general y se observa que las puntuaciones obtenidas

siguen una distribución normal con media 65 y desviación estándar 18. Se desea

clasificar a los examinados en tres grupos (de baja cultura general, de cultura general

aceptable y de excelente cultura general) de modo que hay en el primero un 20% de la

Page 61: Material Estadística

61 población, un 65% en el segundo y un 15% en el tercero. ¿Cuál ha de ser la puntuación

que marca el paso de un grupo a otro?

8.3.1 Baja cultura general.

X: Puntuación en el examen. 18 65 y

Para calcular la variable X usamos la fórmula estandarizada (ó t ipif icada)

xZ zx

20,0)( 1 zZP Este valor lo ubicamos en el cuerpo de la tabla. 84,0 1 z

Sustituyendo en zx

5088,49 )18)(84,0(65 11 xx

Hasta 50 puntos para cultura baja.

8.3.2 Cultura aceptable. 04,185,0)( 22 zzZP

Sustituyendo en zx

8472,83 )18)(04,1(65 22 xx

De 51 a 84 para cultura general aceptable.

8.2.3 Excelente cultura.

A partir de 85 puntos.

ACTIVIDAD DE AUTOAPRENDIZAJE N° 9

1. Periódicamente se suspende el servicio de una computadora para darle mantenimiento, instalar

nuevo equipo, etc. El tiempo que permanece inactiva una computadora en particular, está

distribuida normalmente con media igual a 1,5 horas y desviación estándar de 0,4 horas. ¿Cuál

es el porcentaje de período de inactividad,

1.1 Entre 1 y 2 horas?

1.2 Menos de 1 hora?

1.3 A lo sumo 1,8 horas?

1.4 ¿Cuánto es el tiempo de inactividad del 75 % de las computadoras?

1.5 ¿Cuánto es el tiempo de inactividad del 25% de las computadoras?

Page 62: Material Estadística

62 2. Una compañía de transporte premia con un bono especial a aquellos empleados que venden

300 o más boletos durante una jornada de 8 horas. El número de boletos vendidos por

empleado en dicha jornada está distribuido de manera aproximadamente normal,

con μ = 270 y σ = 16. ¿Cuál es la probabilidad que un vendedor seleccionado

aleatoriamente no reciba el premio?

3. La distribución de los salarios anuales de 10 000 trabajadores de una empresa es normal y

tiene una media de C$ 110 y varianza de C$ 64 (en miles). ¿Cuántos trabajadores tienen

salarios:

3.1 Iguales o inferiores a C$ 110?

3.2 Entre C$ 88 y C$ 115?

3.3 Entre que valores se encuentra simétricamente distribuidos el 95% de los salarios

anuales de esos trabajadores? ¿Y del 90%?

3.4 ¿Cuánto es el salario máximo del 95% de los trabajadores? ¿Y del 80%?

4. El 80% de los integrantes de un grupo de personas tienen menos de 30 años. Sabiendo

que la edad media del grupo es de 24 años, calcule su desviación típica.

5. El tiempo de espera en cierto banco está distribuido en forma normal, aproximadamente, con

media y desviación estándar iguales a 3,7 y 1,4 minutos, respectivamente. Encuentre la

probabilidad de que un cliente seleccionado aleatoriamente tenga que esperar,

5.1 menos de 2 minutos.

5.2 entre 3 y 3,5 minutos.

5.3 por lo menos 2,3 minutos.

5.4 ¿cuánto tiempo tiene que esperar el 90 % de los clientes? y ¿el 10%?

6. Se sabe que la cantidad de dinero que gastan los estudiantes en libros de texto en un año

en una universidad sigue una distribución normal que tiene una media de $380 y una

desviación estándar de $50. ¿Cuál es la probabilidad que un estudiante elegido al azar:

6.1 gaste menos de $360 en libros de texto en un año?

6.2 gaste más de $400 en libros de texto en un año?

6.3 gaste entre $300 y $400 en libros de texto en un año?

6.4 gaste entre $250 y $280 en libros de texto en un año?

6.5 Quiero hallar un intervalo de gastos en libros de texto que incluya el 80% de todos los

estudiantes de esa universidad.

9. Distribución muestral de la media

9.1 Distribución muestral para la media de tamaño “n”, con reemplazo

una población constituida por un número “N” de elementos, cuya media aritmética es μ

y donde la desviación típica viene dada σ, pueden formarse N2 muestras posibles. Para

cada una de estas muestras es posible una MEDIA MUESTRAL, que denotaremos con

el símbolo En una distribución muestral de las medias, la VARIABLE ALEATORIA

MEDIA MUESTRAL sigue una ley normal descrita como N (μ, σ/√n).

ix

Page 63: Material Estadística

63 Resumen de fórmulas para la distribución de muestreo para la media.

Extracción

Con reemplazo Sin reemplazo

Población

Infinita

Finita (N)

Ej: 9 Dado los elementos de la población {1, 3, 5}, encuentre todas las medias muestrales

posibles de tamaño 2, con reemplazo. Las medias aritméticas reflejadas, serían:

Medias muestrales de todas las muestras posibles de tamaño 2, con reemplazo.

A partir de la variable estadística original de la población se puede construir una nueva

variable estadística , que tendría como valores las medias de las muestras tomadas de la

población. La media aritmética de esta DISTRIBUCIÓN MUESTRAL DE LAS MEDIAS se

denota por , y su desviación típica por .

PARÁMETROS DE LA DISTRIBUCIÓN MUESTRAL DE LAS MEDIAS DE TAMAÑO 2

Distribución de muestreo para la media de todas la muestras de tamaño dos.

Media muestral Frecuencia Probabilidad

1 1 1/9

2 2 2/9

3 3 3/9

4 2 2/9

5 1 1/9

Total ∑ = 9 ∑ = 1

Gráfica de distribución de muestreo de tamaño 2.

Establecida una distribución muestral de las medias de tamaño 2, su ESPERANZA

MATEMÁTICA adopta el valor siguiente,

Muestra 1 , 1 1 , 3 1, 5 3 , 1 3 , 3 3 , 5 5 , 1 5 , 3 5 , 5

Media 1 2 3 2 3 4 3 4 5

1 2 3 4 5

X

0.11

0.22

0.33

prob

abili

dad

x x

x

x x

nx

nx

nx

1

N

nN

nx

x

ix

)()( xExE x

ix

Page 64: Material Estadística

64 Siendo la media aritmética de la población, la media aritmética de cada muestra , la

media aritmética de todas las medias , la esperanza matemática de la variable

aleatoria X (para la población) y la esperanza matemática de la variable aleatoria (para

la distribución muestral de las medias).

Por su parte, los valores de la varianza y la desviación típica de esta distribución muestral de

tamaño 2 son:

donde es la desviación típica de la población, la desviación típica de la distribución

muestral, la varianza de la variable x (población) y la varianza de la variable

(distribución muestral de las medias).

Basado en el ejemplo 9, obtenemos:

Media muestral Media Poblacional

Desviación estándar muestral Desviación estándar poblacional

ó

Análisis de la distribución de muestreo para la media:

Se tiene que la media muestral y la poblacional son iguales a 3

La desviación estándar poblacional es 1,6399 y la muestral es 1.1547. Es decir, que la

desviación muestral es menor a la poblacional.

Las medias muestrales varían entre 1 y 5, mientras que los datos originales de la población

van de 1, 3, y 5.

Se tiene que la distribución de muestreo de los valores de las medias tiende a una

distribución Normal.

NOTA: La diferencia de la DESVIACIÓN ESTÁNDAR describe la variabilidad de los valores

de una variable, en cambio el ERROR ESTÁNDAR describe la precisión del estadístico.

Además, se cumple que .

x ix

)(xE)(xE

2 , )( , )( 2 xxxVxV

)(xV )(xV x

39

27

9

5...2321)(

xEx 3

3

9

3

531

3

)35()33()31( 2222

666666667,23

82

63993162,1

x

154700538,1x

9

)35(...)33()32()31( 2222 x

333333333,19

12x

81515470053,1x

x

2

632993162,1

nx

x

666666667,2

Page 65: Material Estadística

65 9.2 Distribución muestral de las medias de tamaño “n”, sin reemplazo

Dada una población constituida por un número n de elementos, cuya media aritmética es μ y

donde la desviación típica viene dada σ, pueden formarse NCn , se lee “N” combinaciones de “n”

para encontrar todas las muestras posibles.

Ej: 10 Auxiliándonos del ejemplo 9. Dado los elementos de la población {1, 3, 5}, encuentre

todas las medias muestrales posibles de tamaño 2, sin reemplazo.

N = 3 ; n = 2, entonces, 3C2 = 3, se refiere al número total de muestras posibles y

sería;

Medias muestrales de todas las muestras de tamaño 2 sin reemplazo.

Distribución muestral para la media de todas la muestras de tamaño 2 sin reemplazo. Medias muestral Frecuencia Probabilidad

2 1 1/3

3 1 1/3

4 1 1/3

Total ∑ = 3 ∑ = 1

Análisis de la distribución de muestreo para la media:

Se tiene que la media muestral y la poblacional son iguales a 3.

La desviación estándar poblacional es 1,632993162 y la muestral se calcula de la siguiente

manera;

Es decir, que la desviación muestral es menor a la poblacional.

Las medias muéstrales varían entre 2 y 4, mientras que los datos originales de la población

van de 1, 3 y 5.

Se tiene que la distribución de muestreo de los valores de las medias tiende a una

distribución Normal.

10. Teorema de Límite Central

El Teorema del Límite Central consiste en un conjunto de resultados acerca del

comportamiento de las distribuciones muestrales, en él se afirma, bajo ciertas hipótesis,

que la distribución de las medias de un número muy grande de muestras se aproxima a una

distribución normal. El término Central, debido a Polyá (1920), describe el rol que cumple

este teorema en la teoría de la probabilidad. Grandes matemáticos colaboraron para

desarrollar el teorema del límite central, sin embargo Laplace ocupa un lugar fundamental:

a pesar de que nunca enunció formalmente este resultado, ni lo demostró rigurosamente, a

él le debemos este importante descubrimiento. "Para una población con una media µ y una

varianza σ2, la distribución de las medias de todas las muestras posibles de tamaño “n”

generadas de la población estarán distribuidas de forma aproximadamente normal

asumiendo que el tamaño de la muestra es suficientemente grande."

Muestra 1, 3 1 , 5 3 , 5

Media 2 3 4

816496581,013

23

2

632993162.1

1

N

nN

nx

ix

Page 66: Material Estadística

66 Con relación al teorema del límite central debemos enfatizar en:

Si el tamaño de la muestra “n”, es suficientemente grande (n > 30) la distribución muestral

de las medias será aproximadamente normal. No importa si la población es normal, sesgada

o uniforme, si la muestra es grande el teorema se aplicará.

La media de la población y la media de todas las posibles muestras son iguales. Si la

población es grande y un gran número de muestras son seleccionadas de esa población

entonces la media de las medias muestrales se aproximará a la media poblacional.

La desviación estándar de la distribución muestral de las medias, a la que llamaremos error

estándar, es determinado por:

ACTIVIDAD DE AUTOAPRENDIZAJE N° 10

1. Una empresa industrial tiene 5 trabajadores de producción (considerados como la

población) La retribución (salario en horas) de cada empleado se presenta en seguida.

1.1 ¿Cuál es la media de la población?

1.2 ¿Cuál es la distribución muestral de medias para una muestra de tamaño 2, sin

remplazo?

1.3 ¿Cuál es la media de la distribución muestral y el error estándar de estimación?

2. Hay cuatro representantes de ventas en Mid-Motors Ford. A continuación se enlistan los

cuatro representantes y el número de automóviles que vendieron la semana pasada.

2.1 ¿Cuántas muestras diferentes de tamaño dos son posibles, con reemplazo?

Trabajador Salario ($)

Nelson 8

María 9

Kevin 6

Sofía 10

Marcelo 5

Representante

de ventas

Autos

vendidos

Ileana 6

Luis 4

Ramiro 10

César 8

1

N

nN

nx

Page 67: Material Estadística

67 2.2 Enliste todas las muestras posibles de tamaño dos y calcule la media de cada

muestra.

2.3 Compare la media de las medias muestrales con la de la población.

2.4 Calcule y x

.

11. Estimaciones 11.1 Estimación puntual

Estimar un parámetro es proponer un valor para el mismo a partir de la muestra; un

estimador del porcentaje poblacional sería la proporción de dispositivos electrónicos

que presentan falla a este tipo de estimación se le llama «estimación puntual». Es

bastante probable que el valor que se obtiene no sea realmente el valor del parámetro

en la población. Parámetro Estimador

Media (μ)

Desviación Estándar (σ) S

Proporción (P) p

Ej: 11 Suponga que un ingeniero se interesa en probar el sesgamiento de un medidor

de pH. Se reúnen datos de una sustancia neutra (pH =7,0), se toma una muestra de las

mediciones y los resultados son:

7,07 7,00 7,10 6,97 6,98 7,08 7,08 7,04

11.1 Determine e interprete y S.

11.2 ¿Cuál es la proporción de mediciones con pH superior a 7,0?

11.2 Estimación por intervalos

Una mejor alternativa es la estimación por intervalos; se da con ella un rango de valores

que contendrá el valor del parámetro con una cierta confianza o seguridad, que

habitualmente es del 95%. La afirmación hecha mediante un «intervalo de confianza»,

es preferible a la hecha por estimación puntual, ya que permite cuantificar la magnitud

del error asociado a la estimación. Un concepto importante al realizar estimaciones es el

«error estándar», que está relacionado con la calidad de la estimación. Se ha

estudiado una muestra de 100 neonatos que tienen una media de peso de 3200 g y una

desviación estándar de 80; si se estudia otra muestra de 100 se puede encontrar una

media de 3400 y una desviación estándar de 97; en otra muestra se pueden encontrar

valores de 3100 y 92, respectivamente, etc., y así se podrían estudiar muestras

diferentes hallando valores similares pero no iguales.

x

x

Page 68: Material Estadística

68 El error estándar mide la variabilidad entre las diferentes medias de las muestras; es

decir, mide la dispersión imaginaria que presentarían las distintas medias obtenidas en las

muestras estudiadas.

Se utilizarán fórmulas diferentes según se pretenda calcular el «error estándar de una

media» o el «error estándar de una proporción».

11.2.1 Intervalo de confianza para una media

De una población de media μ y desviación estándar o típica (σ) se pueden tomar

muestras de n elementos. Cada una de estas muestras tiene a su vez una media ( ). Se

puede demostrar que la media de todas las medias muestrales coincide con la media

poblacional:

Pero además, si el tamaño de las muestras es lo suficientemente grande, la distribución

de medias muestrales es, prácticamente, una distribución normal (o gaussiana) con

media μ y una desviación típica dada por la siguiente expresión:

Esto se representa como sigue: Si estandarizamos:

En una distribución Z ~ N (0, 1) puede calcularse fácilmente un intervalo dentro del cual caiga

un determinado porcentaje de las observaciones, esto es sencillo hallar z1 y z2 tales que P[z1 ≤

z ≤ z2] = 1 - α, donde (1 - α)·100% es el porcentaje deseado.

Se desea obtener una expresión tal que

En esta distribución normal de medias se puede calcular el intervalo de confianza donde se

encontrará la media poblacional si sólo se conoce una media muestral ( ), con una confianza

determinada. Habitualmente se manejan valores de confianza del 95 y del 99 por ciento. A

este valor se le llamará 1 − α (debido a que α es el error que se cometerá, un término opuesto).

Para ello se necesita calcular el punto o, mejor dicho, su versión estandarizada o,

<<valor crítico>> junto con su "opuesto en la distribución" Estos puntos delimitan la

probabilidad para el intervalo, como se muestra en la siguiente imagen:

Dicho punto es el número tal que:

Y en la versión estandarizada se cumple que: Así:

Haciendo operaciones es posible despejar μ para obtener el intervalo:

De lo cual se obtendrá el intervalo de confianza:

2X

2Z

2X

22 zz

nx

x

x

Page 69: Material Estadística

69 Obsérvese que el intervalo de confianza viene dado por la media muestral ( ) ± el producto

del valor crítico por el error estándar .

Si se conoce N debe verificar la fracción muestral

N

n , luego aplique

Si se conoce σ y n es grande (habitualmente se toma n ≥ 30). Aproximaciones para el valor

los niveles de confianza estándar son 1,96 para 1 – α = 95% y 2,575 para 1 − α = 99%.

En la siguiente tabla se detallan algunos niveles de confianza más comunes:

Nivel de confianza (1 – α) α Zα/2

90% 0,10 1,645

95% 0,05 1,96

99% 0,01 2,575

NOTA: Para un nivel de confianza del 90%, el valor se ubica en el cuerpo de la tabla y se

encuentra un valor aproximado o exacto del percentil de la distribución Normal. Luego,

2Z = 1.645.

Si no se conoce σ y n es grande (n ≥ 30) donde s es la

desviación típica de una muestra.

Ej: 12 Se encuentra que la concentración promedio de zinc que se extrae del agua a

partir de una muestra aleatoria en 36 sitios diferentes es de 2,6 gr por mililitro.

Encuentre e interprete un intervalo de confianza de 95% para la concentración

media de zinc. Suponga que la desviación estándar es 0,3.

Uso de la

~ Normal

Sustituyendo en la fórmula ) (

2xzx la información brindada,

Obtenemos: 36

0,31,962,6

0,0982,6

gr,μ , 69825022

Es decir si se extraen muestras repetidas de tamaño 36 del agua, se esperara que

aproximadamente el 95% de las veces la media estaría contenida entre

gr,μ , 69825022 y el 5% restante estará fuera de dicho intervalo.

n

96,1

025,02

05,0 %951

3,0 6,2

2

z

grx

2z

2z

x

. 05.0 1

l FCFse omite eN

n si

N

nN

nFCF

x

Page 70: Material Estadística

70 Si no se conoce σ y n es pequeña (habitualmente se toma n < 30)

Ej: 13 El contenido de 7 envases similares de ácido sulfúrico son: 10,8 11,2 11,4

10,8 11,0 11,2 10,6 litros. Encuentre e interprete un intervalo de confianza

del 95% para la media de todos los envases, si se supone una distribución

aproximadamente normal.

Usar calculadora

Buscar en la ~ t de Student.

Sustituimos en la fórmula:

7

20,282842712,4511

261916017,011

litrosμ 26,1174,10

Es decir si se extraen muestras repetidas de tamaño 7 de los envases conteniendo

ácido sulfúrico, se esperara que aproximadamente el 95% de las veces la media estaría contenida litrosμ 26,11 74,10 y el 5% restante estará fuera de dicho

intervalo.

11.2.2 Tamaño de muestra para estimar μ Con frecuencia deseamos saber que tan grande necesita ser una muestra para asegurar

que el error al estimar μ sea menor que una cantidad específica e, esto significa que

deseamos conocer n de modo que . Al resolver esta ecuación se obtiene la

siguiente fórmula para n.

Procedimiento para calcular n

glnconN

nN

n

ssdondestx xxn

1 1

) ( 1 ,

2

45,2

6171

025,02

05,0 %951

282842712,0

11

6 ,025,0

t

ngl

s

litrosx

en

z 2

2

2

e

zn

0

0

0

0

2

2

0

05,0

05,0

.2

1

nN

Nnn

nn

N

nSi

e

z

n.

) ( 1 ,

2xn

stx

Page 71: Material Estadística

71 Ej: 14 ¿Qué tan grande se requiere una muestra del Ejemplo 12, si queremos tener 95%

de confianza que nuestra estimación de μ difiere por más o menos 0.05.

Uso de la

~ Normal

Como no se conoce N, sustituimos en la fórmula,

Con estas características se deben muestrear 139 sitios para el estudio.

Cuando se resuelve para el tamaño de muestra, todos los valores fraccionarios se

redondean al siguiente número entero.

11.2.3 Intervalo de confianza para una proporción

El intervalo de confianza para estimar una proporción P, conocida una proporción

muestral p de una muestra de tamaño n, a un nivel de confianza del (1- α)100% es:

En la demostración de estas fórmulas está involucrado el Teorema Central de Límite como una

aproximación de una binomial por una normal.l

Ej: 15 Un fabricante de reproductores de discos compactos utiliza un conjunto de

pruebas para evaluar la función eléctrica de su producto. Todos los reproductores

deben pasar las pruebas antes de venderse. Una muestra de 500 reproductores tiene

como resultado 15 que fallan en una o más pruebas. Encuentre e interprete un intervalo

de confianza de 90% para la proporción de los reproductores de discos compactos de la

población que pasan todas las pruebas.

Uso de la

~ Normal

Sustituyendo en la fórmula: n

xpy

n

pp donde zpP p

ˆ

)ˆ1(ˆ ) ˆ( p̂ˆ

2

500

)03,0(97,0645,197,0 P

7628892)1,645(0,000,97P

012549528,097,0 P )982549528,0 ; 957450471,0(P

Si se extraen muestras repetidas de tamaño 500 de los reproductores DC, se espera

que aproximadamente el 90% de las veces la proporción de reproductores de discos

2976,138

05,0

3,096,122

2

e

zn

3,0 05,0

96,1

025,02

05,0%951

2

e

z

n = 139

= 139

n

xpy

n

pp donde zpP p

ˆ

)ˆ1(ˆ ) ˆ( p̂ˆ

2

645,1

05.02

10,0 90,01

97,0500

485ˆ

485 15 500

. # :

2

z

p

fallannofallanxn

pruebasmásounaenfallanqueDCderesreproductodex

Page 72: Material Estadística

72 compactos de la población que pasan todas las pruebas está contenida entre el 95,75%

y el 98,25% y el 10% restante se ubica fuera de ese intervalo.

11.2.4 Tamaño de muestra para estimar p

Determinemos que tan grande se requiere que sea una muestra para asegurar que el

error al estimar P sea menor que una cantidad e, esto significa que debemos

elegir n de modo que: . Al resolver esta ecuación para n, obtenemos:

Procedimiento para calcular n

NOTA: Si la proporción de la población no se conoce o bien no se cuenta con un valor estimado

de éste, se debe usar el valor de 0,5

Ej: 16 Se lleva a cabo un estudio para estimar el porcentaje de ciudadanos de una

comunidad que están a favor de tener agua fluorada. ¿Qué tan grande se requiere

que sea la muestra, si se desea tener una confianza de 95% y que nuestra

estimación este dentro del 1% del porcentaje real?

Uso de la

~ Normal

No se conoce N, sustituimos en la fórmula

La muestra debe ser de 9604 ciudadanos para llevar a cabo el estudio.

en

ppz

)1(2

2

2

0

)1(2

e

ppzn

)1( 05,0

05,0

.2

)1( 1

0

0

0

0

2

2

2

0

nN

Nnn

nn

N

nSi

e

ppzn.

5,0

01,0

96,1

025,02

05,0%951

2

p

e

z

604 9)01,0(

)5,0)(5,0()96,1()1(

2

2

2

2

0

2

e

ppzn

604 9n

Page 73: Material Estadística

73 ACTIVIDAD DE AUTOAPRENDIZAJE N° 11

1. La asociación de exalumnos de una universidad quiere estimar los salarios mensuales

promedios de los graduados en 2010. Una muestra aleatoria de 100 personas reveló un

salario promedio de $850 con una desviación estándar de $145. Establezca e

interprete una estimación por intervalo con una confiabilidad del 90%, del salario

promedio mensual de los graduados en 2010.

2. Un fabricante produce anillos para los pistones de un motor de automóvil. Se sabe que el

diámetro del anillo está distribuido aproximadamente normal, y que tiene una desviación

estándar de 0,1 mm. Una muestra aleatoria de 45 anillos tiene un diámetro promedio de

74,6mm. Construya e interprete un intervalo de confianza del 95% para el diámetro

promedio del anillo.

3. Se sabe que la duración, en horas, de un foco de 75 watts tiene una distribución

aproximadamente normal, con una desviación estándar de 25 horas. Se toma una muestra

aleatoria de 40 focos, la cual resulta tener una duración promedio de 1 014 horas.

Construya e interprete un intervalo de confianza del 99% para la duración promedio.

4. En el ejercicio # 3, Suponga que se desea una confianza del 95% en que el error en la

estimación de la duración sea de 5 horas. ¿Qué tamaño de muestra se necesita?

5. Un ingeniero analiza la resistencia a la compresión del concreto. La resistencia está

distribuida aproximadamente normal, con varianza 22 )(000 1 psi . Al tomar una

muestra aleatoria de 36 especímenes, se tiene que psix 250 3 . Construya e interprete

un intervalo de confianza del 95% para la resistencia a la compresión promedio.

6. Suponga que en el ejercicio # 5, se desea estimar la resistencia a la compresión con un

error menor de 15 psi para un nivel de confianza de 95% ¿Qué tamaño de muestra debe

emplearse para este fin?

7. En los resultados del censo de población y vivienda 2005, acerca de la cantidad total de

viviendas que conforman el distrito IV en Managua es de 29 920 y haciendo un supuesto

de que el 60% de las familias de ese distrito tiene casa propia con un margen de error del

4% y nivel de confianza del 90%. ¿Cuál es el tamaño de muestra para la proporción de

personas que tienen casa propia?

8. El gerente de control de calidad de una fábrica de lámparas eléctricas desea estimar la

duración promedio de un embarque de lámparas (focos). Los resultados indican que la

desviación estándar del proceso es de 100 horas y el gerente desea estimar la duración

promedio con aproximación de ± 20 horas del promedio real con una confiabilidad del 95%.

¿Qué tamaño de muestra se necesita?

9. Se va a vender un nuevo cereal para desayuno y se pone a prueba de mercado durante un mes

en las tiendas de una cadena de autoservicio, se desea estimar la suma promedio de venta

Page 74: Material Estadística

74 con aproximación de ± $100 con un 95% de confianza y se supone que la desviación estándar

es de $200. ¿Qué tamaño de muestra se necesita?

10. Un grupo de estudio quería estimar la facturación mensual promedio por luz eléctrica en el

mes de julio en casas unifamiliares en una ciudad. Con base en estudios efectuados en otras

ciudades, se supone que la desviación estándar es de $20. El grupo quiere estimar la

facturación promedio de julio con aproximación de ± $5 del promedio real con un 95% de

confianza. ¿Qué tamaño de muestra se necesita?

11. El gerente de una sucursal bancaria en una ciudad quiere determinar la proporción de su

cuenta habiente a los cuales se les paga el sueldo por semana, por experiencia previa en otras

áreas se sabe que sólo el 30% prefieren este sistema, si el gerente quiere tener 95% de

confianza de que esta en lo correcto con aproximación de ± 0.05 de la proporción de sus

clientes a quienes se les paga por semana. ¿Qué tamaño de muestra se necesita?

12. Se desea hacer una encuesta para determinar la proporción de familias que carecen de

medios económicos para atender los problemas de salud. Existe la impresión de que esta

proporción está próxima a 0,35. Se requiere de una confianza del 95% con un error de

estimación de 0,05. ¿De qué tamaño debe tomarse la muestra?

13. Determine el tamaño de muestra que se requiere para estimar la proporción verdadera de

los estudiantes de una universidad que tienen ojos azules, si se desea que la estimación

tenga un error máximo de 0,02 y una confianza del 95%. Suponga que la población

estudiantil es de 4 350.

14. Se desea realizar una encuesta entre la población juvenil de una determinada localidad

para determinar la proporción de jóvenes que estarían a favor de una nueva zona de ocio. El

número de jóvenes de dicha población es N = 2 000. Determinar el tamaño de muestra

necesario para estimar la proporción de estudiantes que están a favor con un error de

estimación de 0,05 y un nivel de confianza del 95%.

15. En un proceso químico se fabrica cierto polímero. Normalmente, se hacen mediciones de

viscosidad después de cada corrida, y la experiencia acumulada indica que la variabilidad

en el proceso es muy estable. Las siguientes son 15 mediciones de viscosidad por corrida:

Encuentre e interprete un intervalo de confianza del 95% para la viscosidad media

del polímetro.

16. Una máquina produce las varillas de metal usadas en el sistema de suspensión de un

automóvil. Se toma una muestra aleatoria de 12 varillas y se mide el diámetro (mm). Los

datos obtenidos aparecen abajo. Suponga que el diámetro de la varilla tiene una

distribución normal. Construya e interprete un intervalo de confianza del 95% para el

diámetro promedio de la varilla.

724 718 776 745 759 795 756 760

742 740 761 749 739 747 742

8,24 8,23 8,20 8,21 8,20 8,28 8,23 8,25 8,19 8,25 8,26 8,23

Page 75: Material Estadística

75 17. Una línea de autobuses piensa establecer una ruta desde un suburbio hasta el centro de la

ciudad. Se selecciona una muestra aleatoria de 50 posibles usuarios y 18 indicaron que

utilizarían esa ruta de autobuses. Establezca e interprete una estimación del intervalo con

95% de confianza de la proporción real de usuarios para esta nueva ruta de autobuses.

18. Un ingeniero hace pruebas con resistencia a la compresión del concreto. Para ello examina

12 especímenes y obtiene los siguientes datos.

2 212 2 237 2 249 2 204 2 225 2 301

2 281 2 263 2 318 2 255 2 275 2 295

Construya e interprete un intervalo de confianza del 99% para la resistencia promedio.

19. Un artículo publicado en Nuclear Ingineering Internacional describe varias características

de las varillas de combustibles utilizadas en un reactor propiedad de una empresa noruega

de electricidad. Las mediciones notificadas sobre el porcentaje de enriquecimiento de 12

varillas son las siguientes.

Encuentre e interprete un intervalo de confianza del 95% para el porcentaje promedio

de enriquecimiento.

20. Un artículo publicado en el Journal of Composite Materials describe el efecto de la

pérdida de láminas sobre la frecuencia natural, de vigas formadas por varias láminas. Se

sujetaron cinco vigas con pérdida de laminas a varias cargas, y las frecuencias resultantes

fueron las siguientes (en Hz)

Encuentre e interprete un intervalo de confianza del 95% para la frecuencia natural.

21. Los ingresos del impuesto sobre ventas en una comunidad particular se recaudan cada

trimestre. Los siguientes datos representan los ingresos (en miles de dólares) cobrados

durante el primer trimestre de una muestra de nueve establecimientos de menudeo de la

comunidad:

21.1 Establezca e interprete una estimación por intervalo con un 99% de confianza, de

los ingresos trimestrales del impuesto sobre ventas en los establecimientos de

menudeo.

21.2 Si hay un total de 300 establecimientos de menudeo en esa comunidad, estime e

interprete un intervalo con un 95% de confianza de los ingresos trimestrales del

impuesto sobre ventas en los establecimientos de menudeo.

22. Se realizó una investigación de mercadotecnia para estimar la proporción de amas de casa que

pueden reconocer la marca de un producto de limpieza con base en la forma y color del

recipiente. De las 1 400 amas de casa consultadas, 420 fueron capaces de identificar la marca

del producto. Use un grado de confianza del 95% para determinar e interpretar en que

intervalo se encuentra la proporción poblacional.

2,94 2,75 2,75 2,81 2,90 2,90 2,82 2,95 3,00 2,95 3,00 3,05

230,66 233,05 232,58 229,48 232,58

16 19 11 17 13 10 22 15 16

Page 76: Material Estadística

76 23. Un estudio muestral de 256 compañías industriales, determinó que el 23% habían señalado a

sus empleados como la decaída económica a principios de 2008 afectaría la organización.

Determine un intervalo de confianza de 95% para la proporción de todas las compañías que

explicarían a sus empleados los efectos de la decaída. Suponiendo que hay un total de 2 000

compañías.

24. El número de autos vendidos en “Casa Pellas” durante el primer semestre del 2012 fue de

800 automóviles de diversas marcas, en una muestra de 400 automóviles se observó que de

estos 47 eran de color Rojo.

24.1 Estime la proporción de compradores que prefirieron automóvil color Rojo.

24.2 Establezca el intervalo de confianza del 90% para la proporción de compradores

que prefirieron el color Rojo e interprete los resultados.

25. Un auditor de una dependencia gubernamental de protección al consumidor quiere

determinar la proporción de reclamos sobre pólizas de enfermedades que paga la compañía

de seguros en un plazo de dos meses de haber recibido el reclamo. Se selecciona una

muestra de 200 reclamos y se determina que 80 fueron pagadas en un plazo de dos meses

después de recibidos. Establezca e interprete una estimación del intervalo con 99% de

confianza de la proporción real de reclamos pagadas dentro de ese plazo de dos meses.

12. Prueba de hipótesis

La estadística inferencial es el proceso de usar la información de una muestra para

describir el estado de una población. Sin embargo es frecuente que usemos la información

de una muestra para probar un reclamo o conjetura sobre la población. El reclamo o

conjetura se refiere a una hipótesis. El proceso que corrobora si la información de una

muestra sostiene o refuta el reclamo se llama prueba de hipótesis.

Hipótesis: Afirmación acerca de los parámetros de la población.

Al realizar pruebas de hipótesis, se parte de un valor supuesto (hipotético) de un parámetro

poblacional, después de recolectar una muestra aleatoria, se compara la estadistica muestral (

), con el parámetro hipotético, de una supuesta media poblacional (μ). Luego se Rechaza o No

se rechaza el valor hipotético, según proceda. Se rechaza el valor hipotético sólo si el

resultado muestral resulta muy poco probable cuando la hipótesis es cierta. En el análisis

estadístico se hace una aseveración, es decir, se plantea una hipótesis, después se hacen las

pruebas para verificar la aseveración o para determinar que no es verdadera. Por tanto, la

prueba de hipótesis es un procedimiento basado en la evidencia muestral y la teoría de

probabilidad; se emplea para determinar si la hipótesis es una afirmación razonable.

Se realiza mediante un procedimiento sistemático de cinco paso:

Page 77: Material Estadística

77 Siguiendo este procedimiento sistemático, al llegar al paso cinco se puede o no rechazar la

hipótesis, pero debemos de tener cuidado con esta determinación. Analizaremos cada paso en

detalle.

Objetivo de la prueba de hipótesis

El propósito de la prueba de hipótesis no es cuestionar el valor calculado del estadístico

(muestral), sino hacer un juicio con respecto a la diferencia entre el estadístico de muestra y

un valor planteado del parámetro.

Procedimiento sistemático para una prueba de hipótesis de una muestra

PASO 1: Plantear la hipótesis nula H0 y la hipótesis alternativa H1

Cualquier investigación estadística implica la existencia de hipótesis o afirmaciones acerca de

las poblaciones que se estudian. La hipótesis nula (Ho) se refiere siempre a un valor específico

del parámetro de población, no a una estadística de muestra. La letra H significa hipótesis y el

subíndice cero no hay diferencia. Por lo general hay un "no" en la hipótesis nula que indica que

"no hay cambio" Podemos rechazar o no Ho, además la hipótesis nula (H0) es una afirmación que

no se rechaza a menos que los datos muestrales proporcionen evidencia convincente de que es

falsa. El planteamiento de la hipótesis nula siempre contiene un signo de igualdad con respecto

al valor especificado del parámetro.

La hipótesis alternativa (H1) es cualquier hipótesis que difiera de la hipótesis nula. Es una

afirmación que no se rechaza si los datos muestrales proporcionan evidencia suficiente de que

la hipótesis nula es falsa. Se le conoce también como la hipótesis de investigación. El

planteamiento de la hipótesis alternativa nunca contiene un signo de igualdad con respecto al

valor especificado del parámetro. Si queremos decidir entre dos hipótesis que afectan a un

cierto parámetro de la población, a partir de la información de la muestra usaremos el

contraste de hipótesis, cuando optemos por una de estas dos hipótesis, hemos de conocer una

medida del error cometido, es decir, cuantas veces de cada cien nos equivocamos.

En resumen: Veremos cómo se escribirían las hipótesis que queremos contrastar,

H0 se llama hipótesis nula y es lo contrario de lo que sospechamos que va a ocurrir (suele

llevar los signos igual, mayor o igual o menor o igual)

H1 se llama hipótesis alternativa y es lo que sospechamos que va a ser cierto (suele llevar

los signos distinto, mayor o menor)

Los contrastes de hipótesis pueden ser de dos tipos:

Bilateral: En la hipótesis alternativa aparece el signo distinto.

Ej: 17 H0 : µ = 200

H1 : µ ≠ 200

Unilateral: En la hipótesis alternativa aparece el signo > o el signo <. Ej: 18

H0 : µ ≥ 200 H0 : µ ≤ 200

H1 : µ < 200 H1 : µ > 200

/2

/2

/2

Page 78: Material Estadística

78 PASO 2: Seleccionar el nivel de significancia

Nivel de significancia: Probabilidad de rechazar la hipótesis nula cuando es verdadera. Se le

denota mediante la letra griega (α), también es denominada como nivel de riesgo, este término

es más adecuado ya que se corre el riesgo de rechazar la hipótesis nula, cuando en realidad es

verdadera. Este nivel esta bajo el control de la persona que realiza la prueba.

Si suponemos que la hipótesis planteada es verdadera, entonces, el nivel de significación

indicará la probabilidad de rechazar, es decir, esté fuera del área de No rechazo. El nivel de

confianza (1 - α), indica la probabilidad de No rechazar la hipótesis planteada, cuando es

verdadera en la población. La distribución de muestreo de la estadística de prueba se divide en

dos regiones, una región de rechazo (conocida como región crítica) y una región de no rechazo.

Si la estadística de prueba cae dentro de la región de No rechazo, no se puede rechazar la

hipótesis nula. La región de rechazo puede considerarse como el conjunto de valores de la

estadística de prueba que no tienen posibilidad de presentarse si la hipótesis nula es

verdadera. Por otro lado, estos valores no son tan improbables de presentarse si la hipótesis

nula es falsa. El valor crítico separa la región de rechazo con la de no rechazo.

Tipos de errores

Cualquiera sea la decisión tomada a partir de una prueba de hipótesis, ya sea de No rechazo de

Ho, puede incurrirse en error.

Un error tipo I se presenta si la hipótesis nula Ho es rechazada cuando es verdadera y

debía No rechazarse. La probabilidad de cometer un error tipo I se denomina con la letra

alfa (α). Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula No se

rechaza cuando de hecho es falsa y debía ser rechazada.

En cualquiera de los dos casos se comete un error al tomar una decisión equivocada. En la

siguiente tabla se muestran las decisiones que pueden tomar el investigador y las

consecuencias posibles.

Para que cualquier ensayo de hipótesis sea bueno, debe diseñarse de forma que minimice los

errores de decisión. En la práctica un tipo de error puede tener más importancia que el otro, y

se tiene que poner una limitación al error de mayor importancia. La única forma de reducir

ambos tipos de errores es incrementar el tamaño de la muestra, lo cual puede ser o no posible.

La probabilidad de cometer un error de tipo II denotada con la letra griega beta β, depende

de la diferencia entre los valores supuesto y real del parámetro de la población. Como es más

fácil encontrar diferencias grandes, si la diferencia entre la estadística de muestra y el

correspondiente parámetro de población es grande, la probabilidad de cometer un error de

tipo II, probablemente sea pequeña.

Page 79: Material Estadística

79 De los dos, el más importante es alfa que llamaremos nivel de significación y nos informa de la

probabilidad que tenemos de estar equivocados si aceptamos la hipótesis alternativa.

Debido a que los dos errores anteriores a la vez son imposibles de controlar, vamos a fijarnos

solamente en el nivel de significación, este es el que nos interesa ya que la hipótesis alternativa

que estamos interesados en probar y no queremos aceptarla si en realidad no es cierta, es

decir, si aceptamos la hipótesis alternativa queremos equivocarnos con un margen de error muy

pequeño. El nivel de significación lo marcamos nosotros. Si es grande es más fácil No rechazar

la hipótesis alternativa cuando en realidad es falsa. El valor del nivel de significación suele ser

un 5%, lo que significa que 5 de cada 100 veces No rechazamos la hipótesis alternativa cuando

la verdadera es la nula. El estudio y las conclusiones que obtengamos para una población

cualquiera, se habrán apoyado exclusivamente en el análisis de una parte de ésta. De la

probabilidad con la que estemos dispuestos a asumir estos errores, dependerá, por ejemplo, el

tamaño de la muestra requerida. Las contrastaciones se apoyan en que los datos de partida

siguen una distribución normal, existe una relación inversa entre la magnitud de los errores α y β: conforme α aumenta, β disminuye. Esto obliga a establecer con cuidado el valor de α para

las pruebas estadísticas. Lo ideal sería establecer α y β. En la práctica se establece el nivel α y

para disminuir el error β se incrementa el número de observaciones en la muestra, pues así se

acortan los limites de confianza respecto a la hipótesis planteada. La meta de las pruebas

estadísticas es rechazar la hipótesis planteada. En otras palabras, es deseable aumentar

cuando ésta es verdadera, o sea, incrementar lo que se llama poder de la prueba (1- β). La

aceptación de la hipótesis planteada debe interpretarse como que la información aleatoria de

la muestra disponible no permite detectar la falsedad de esta hipótesis.

PASO 3: Cálculo del estadístico de prueba

Valor determinado a partir de la información muestral, que se utiliza para determinar si se

rechaza la hipótesis nula, existen muchos estadísticos de prueba para nuestro caso

utilizaremos los estadísticos z o t. La elección de uno de estos depende de la cantidad de

muestras que se toman, si las muestras son iguales a 30 o más se utiliza el estadístico z, en

caso contrario se utiliza el estadístico t.

En las pruebas de hipótesis para la media (μ), cuando se conoce la desviación estándar (σ)

poblacional, o cuando el valor de la muestra es grande (30 o más), el valor del estadístico de

prueba es z y se determina a partir de:

El valor del estadístico z, para muestra grande y desviación estándar poblacional desconocida

se determina por la ecuación:

En la prueba para una media poblacional con muestra pequeña y desviación estándar poblacional

desconocida se utiliza el valor del estadístico t.

n

xz

ns

xz

libertaddegradosncon

ns

xt 1

Page 80: Material Estadística

80 Las pruebas de hipótesis a partir de proporciones se realizan casi en la misma forma utilizada

cuando nos referimos a las medias, cuando se cumplen las suposiciones necesarias para cada

caso. Pueden utilizarse pruebas unilaterales o bilaterales dependiendo de la situación

particular. En tal caso el estadístico de prueba es.

PASO 4: Formular la regla de decisión

Se establecen las condiciones específicas en la que se rechaza la hipótesis nula y las

condiciones en que No se rechaza la hipótesis nula. La región de rechazo define la ubicación de

todos los valores que son tan grandes o tan pequeños, que la probabilidad de que se presenten

bajo la suposición de que la hipótesis nula es verdadera, es muy remota.

Valor critico: Es el punto de división entre la región en la que se rechaza la hipótesis nula y la

región en la que No se rechaza.

Dado que ya se tiene la distribución normal, los valores críticos se pueden expresar en

unidades de desviación. Una región de rechazo de 0.025 en cada cola de la distribución

normal, da por resultado un área de .475 entre la media hipotética y el valor crítico. Si se

busca está área en la distribución normal, se encuentra que los valores críticos que dividen

las regiones de rechazo y no rechazo son + 1,96 y – 1,96

PASO 5: Tomar una decisión

En este último paso de la prueba de hipótesis, el estadístico de prueba se compara con el valor

crítico y se toma la decisión de rechazar o no la hipótesis nula. Tenga presente que en una

prueba de hipótesis sólo se puede tomar una de dos decisiones: Rechazar o No rechazar la

hipótesis nula. Debe subrayarse que siempre existe la posibilidad de rechazar la hipótesis nula

cuando no debería haberse rechazado (error tipo I). También existe la posibilidad de que la

hipótesis nula No se rechace cuando debería haberse Rechazado (error tipo II)

Valor p:

Es un planteamiento alternativo para la toma de una decisión de prueba de hipótesis.

Es la probabilidad de obtener una estadística de prueba igual o más exacta que el resultado

obtenido a partir de los datos de la muestra dado que la hipótesis nula, Ho, es realmente

verdadera.

A menudo el Valor p se conoce como nivel de significación observado, que es el mínimo nivel al

cual Ho puede ser rechazado para un conjunto de datos.

El procedimiento compara el Valor p con el nivel de significación α.

)1(

oo

o

pnp

npxz

Si el Valor p ≤ α Ho se Rechaza

Si el Valor p > α Ho no se Rechaza

Page 81: Material Estadística

81 Ej 19 Establezca las hipótesis nula y alterna.

19.1 En promedio, los estudiantes de una universidad viven a no más de 15 km de la

misma.

19.2 El consumo promedio de combustible de un nuevo modelo de auto es de 25km/litro.

19.3 Más del 65% de los empleados de un colegio aportan a Fondos Sociales.

19.4 Al menos un 60% de la población adulta de una comunidad votará en las próximas

elecciones municipales.

19.5 Se reclama que al menos el 60% de las compras realizadas en cierta tienda por

departamentos son artículos especiales.

19.6 Una nueva marca de computadora dura en promedio más de 3 años.

19.7 Se observa que el 20% de los graduados de cierto colegio privado solicitan

admisión a escuelas de medicina.

19.8 El balance promedio de una cuenta de cheques en el First State Bank es de al

menos $150

. 15:

. 15:

1

0

kmH

kmH

65,0:

65,0:

1

0

pH

pH

Page 82: Material Estadística

82 Ej: 20 Determine si la prueba es de cola derecha, izquierda o ambas, con el nivel de

significancia α = 0,05 encuentre el valor critico y dibuje la región de rechazo.

20.1 Uso de la ~ Normal

20.2

20.3

20.4

Ej: 21 Determine el valor crítico con las características indicadas.

21.1

Si = 0,01 z

21.2

21.3

645,1

05,0

z

z = 2,33

Para = 0,01 y n = 40

11:

11:

1

0

H

H

645,1z

8,5:

8,5:

1

0

H

H

110:

110:

1

0

H

H

3,0:

3,0:

1

0

pH

pH

/2 /2 Para = 0,05 y n = 16

Para = 0,01 y n = 10

Page 83: Material Estadística

83 21.4

Ej: 22 Un fabricante de cierta marca de cereal de arroz afirma que el contenido

promedio de grasa saturada no excede de 1,5 gramos, con una desviación estándar de

0,3 gramos. Se toma una muestra de 40 bolsas de cereal y se encuentra que el

contenido medio de grasa saturada es de 1,6 gramos. Pruebe la afirmación del

fabricante con un nivel de significación de 0,05. Determine el Valor p.

μo = 1,5 gramos. σ = 0,3 gramos

n = 40 bolsas = 1,6 gramos α = 0,05

1. Formulación de las Hipótesis (El contenido promedio de grasa saturada no excede de 1,5 gr en la marca de cereal)

(El contenido promedio de grasa saturada es superior a 1,5 gr en la marca de cereal)

2. Nivel de Significación.

α = 0,05

3. Calcular el Estadístico de Prueba

4. Regla de Decisión

Observe que este valor se ubica en la Región de Rechazo, es decir,

Por lo tanto Ho se Rechaza.

5. Toma de Decisión

Existe suficiente evidencia a un nivel de significación de 0,05 que el contenido

promedio de grasa saturada en la marca de cereal de arroz es superior a 1,5 gramos.

Valor p

x

grH

grH

5,1:

5,1:

1

0

645,1z

11,2

108185107,2

403,0

5,16,1

Calz

n

xz

11,2CalzzzCal

11,2Calz

Rechaza se Ho0,05α 0,0174p Como

0,0174p

0,9826-1 p

2,11)P(z-1 2,11)P(z p

/2

/2

/2

/2

Para = 0,05 y n = 36

Page 84: Material Estadística

84 Ej: 23 En el departamento de personal de una compañía de telecomunicaciones se quiere

estimar los gastos familiares en odontología de sus empleados. Para determinar la

factibilidad de proporcionarles un plan de seguro dental, el gerente del departamento

toma una muestra de 10 empleados y obtuvo la siguiente información de los gastos (en

dólares) durante el año anterior.

110 362 246 85 510 208 173 425 179 316

Con un nivel de significación de 0,01 ¿Existe evidencia que le permita al gerente de

personal llegar a la conclusión de que los gastos dentales familiares de los empleados

sean diferente de $320? Determine el Valor p.

n = 10 empleados α = 0,01 μo = $320

Con la calculadora

determine:

1. Formulación de las Hipótesis (Los gastos dentales familiares de los empleados son de $320)

(Los gastos dentales familiares de los empleados son diferentes de $320)

2. Nivel de Significación. α = 0,01 gl = n - 1 = 10 – 1 = 9

3. Calcular el Estadístico de Prueba

4. Regla de Decisión

Observe que este valor se ubica en la Región de No Rechazo, es decir,

. Por lo tanto Ho No se Rechaza.

5. Toma de Decisión

No Existe suficiente evidencia a un nivel de significación de 0,01 que el gasto promedio

durante el año pasado en odontología sea diferente a $320.

Valor p

El valor calculado de la estadística de prueba es . En la tabla de la distribución t

de Student observamos que debido a la simetría, sólo se muestran los valores críticos del

extremo superior. Pero si omitimos el signo con el propósito de usar la tabla, notamos que el

V.C. para un área de extremo superior de 0,25 y 9 gl. es 0,7029 y para un área de extremo

superior de 0,10 es 1,380; como se ubica entre estos dos valores y podemos

establecer que el Valor p para esta prueba está entre 0,25 y 0,10 cada uno de estos valores

8045789,138$

4,261$

s

x

320$:

320$:

1

0

H

H

005,02

34,1

335038601,1

108045789,138

3204,261

Calt

ns

xt

34,1Calt

25,334,125,3 Calt

25,3)9 , ( 2t

25,3)9 , ( 2t25,3

)9 , ( 2t

34,1Calt

34,1Calt

34,1Calt

Page 85: Material Estadística

85 son mayores ( > ) que el nivel escogido de significación. Por lo tanto, la hipótesis nula,

Ho, No se Rechaza.

Ej: 24 El director de personal de una compañía de seguros está interesado en reducir

la tasa de movimientos de los oficinistas encargados en procesar datos durante su

primer año de empleo. Registros anteriores indican que 25% del total de las nuevas

contrataciones de esta área ya no se encuentran en la compañía al final del primer año.

Se están aplicando programas de entrenamiento extensivos a una muestra de 150

nuevos oficinistas encargados del procesamiento de datos. Al final de un periodo de un

año, de los 150 individuos, 30 ya no se encuentran en la compañía. Al nivel de

significancia de 0,01 ¿Existe evidencia de que la proporción de oficinistas encargados

del procesamiento de datos que estuvieron en el nuevo programa de entrenamiento y

que ya no trabajan para la compañía es menor de 0,25? Calcule el Valor p.

po = 25%. n = 150 oficinistas x = 30 α = 0,01

1. Formulación de las Hipótesis (La proporción de oficinistas encargados del procesamiento de datos y que ya no

trabajan para la compañía es por lo menos del 25%)

(La proporción de oficinistas encargados del procesamiento de datos y que ya no

trabajan para la compañía es inferior al 25%)

2. Nivel de Significación

α = 0,01

3. Calcular el Estadístico de Prueba

4. Regla de Decisión

Observe que este valor se ubica en la Región de No Rechazo, es decir,

Por lo tanto Ho No se Rechaza.

5. Toma de Decisión

No existe suficiente evidencia a un nivel de significación de 0,01 que la proporción de

oficinistas encargados del procesamiento de datos y que ya no trabajan para la

compañía sea inferior al 25%.

Valor p

%25:

25:

1

0

pH

%pH

33,2z

41,1

414213562,1125,28

5,7

)25,01)(25,0(150

)25,0(15030

)1(

Cal

oo

o

z

pnp

npxz

41,1Calz

41,133,2 Calzz

41,1Calz Rechaza se No Ho 0,01α 0,0793p Como

0,0793 p

z(1,41) 1,41)P(z p

01,0

Page 86: Material Estadística

86 ACTIVIDAD DE AUTOAPRENDIZAJE N° 12

1. Se requiere que la tensión de ruptura de un hilo utilizado en la fabricación de material de

tapicería sea al menos de 100 psi. La experiencia ha indicado que la desviación estándar de

la tensión de ruptura es 6 psi. Se prueba una muestra aleatoria de 36 especímenes, y la

tensión de ruptura promedio observada es de 98 psi. Pruebe la hipótesis a un nivel de

significación de 0,05. Determine el valor p.

2. Se sabe que el diámetro de los agujeros para una montura de cable tiene una desviación

estándar de 0,01mm. Se obtiene una muestra aleatoria de 40 monturas, donde el diámetro

promedio resulta ser 1,5045mm. Pruebe la hipótesis que el diámetro promedio verdadero

del agujero es de 1,50mm, usando una significancia de 0.05. ¿Cuál es el valor de p en esta

prueba?

3. El Gerente de producción de una Compañía manufacturera estima que la edad media de sus

empleados es 22,8 años. El tesorero de la firma necesita una cifra de la edad media de los

empleados más exacta, a fin de estimar el costo de una prestación por antigüedad que se

considera para los empleados. El tesorero toma una muestra aleatoria de 70 trabajadores y

observa que la edad media de los empleados muestreados es de 26,2 años con una desviación

estándar de 4,6 años. Con un nivel de significación del 1%. ¿Qué puede concluir acerca de la

exactitud de la estimación del Gerente de producción?

4. La producción diaria de una planta industrial química registrada durante 50 días, tiene una

media muestral de 871 toneladas y una desviación estándar de 21kg. Pruebe la hipótesis de

que el promedio de la producción diaria del producto químico es de 880kg por día, contra la

alternativa de que es mayor o menor que 880 toneladas por día, usando una significación del

5%.

5. Una muestra aleatoria de 6 observaciones de una población normal, generó los siguientes

datos:

Proporcionan los datos suficiente evidencia que señale que < 7, a un nivel del 5%.

6. Tina Dennis es la jefa de contabilidad de Meck Industries (MI). Ella cree que los

problemas de flujo de efectivo en MI se deben a la cobranza lenta de cuentas pendientes.

Estima que más de 60% de las cuentas están en atraso más de tres meses. Una muestra de

200 cuentas señaló que 140 tenían más de tres meses de antigüedad. Al nivel de

significación de 0,01. ¿se puede concluir que más de 60% de las cuentas están en atraso

por más de tres meses?

7. Experiencias en la Wills Travel Agency indica que 44% de las personas desean que esa

agencia planee unas vacaciones para viajar a Europa. Durante la temporada más reciente,

una muestra de 1 000 fue seleccionada al azar de los archivos y se encontró que 480

querían ir a Europa de vacaciones. ¿Ha sido un cambio significativo hacia arriba en el

porcentaje de personas que desean ir a Europa? Pruebe a un nivel del 5%.

3,7 8,1 8,8 4,9 5,0 6,4

Page 87: Material Estadística

87 8. Se analiza una marca particular de margarina dietética para determinar el nivel de ácido

graso poliinsaturado (en porcentaje). Se toma una muestra de seis paquetes y se obtienen

los siguientes datos:

Pruebe la hipótesis 0,17:0 H contra 0,17:1 H Utilice 05,0 ¿Cuáles son

sus conclusiones? ¿Cuál es el valor de p en esta prueba?

9. Un ingeniero que trabaja para un fabricante de llantas investiga la duración promedio de un

compuesto nuevo de caucho. Para ello, construye 16 llantas y las prueba en una carretera

hasta alcanzar el fin de la vida útil de estas. Los datos, en Km., obtenidos son los

siguientes:

60 623 59 784 60 545 69 947 59 836 60 221 60 257 60 135

59 554 60 311 60 000 60 220 60 252 50 040 59 997 60 523

Al ingeniero le gustaría demostrar que la vida útil promedio de la nueva llanta excede los

60 mil km. Proponga y pruebe hipótesis apropiadas. Obtenga una conclusión con 05,0

Determine el valor p.

10. Se efectúa una prueba de impacto Izod sobre 20 muestras de tubería PVC. El estándar

ASTM para este material requiere que la resistencia al impacto Izod sea mayor que 1.0 ft-

lbs/in. El promedio y la desviación estándar muestrales son 25,1x y 25,0s

respectivamente. Realice la prueba a un nivel de significación de 0,01. Obtenga

conclusiones. Determine el valor p.

13. Prueba de Independencia

La estadística desempeña una función importante en muchos problemas en los que se

obtiene información a través del conteo o la enumeración y no por medio de la medición. En

tal caso la prueba que se aplica se llama prueba de independencia de una tabla de

contingencia. Es decir, las clasificaciones entre dos caracteres (A y B) de los mismos

individuos en estudio, en la cual las “r” filas representan los niveles de caracter “A” y las

“c” columnas los niveles de caracter “B”.

El procedimiento para el desarrollo de una prueba es similar al abordado anteriormente, las

hipótesis se planteara de la siguiente manera:

H0: La categoría A y la categoría B son independientes (es decir, No hay relación

entre ellas).

H1: La categoría A y la categoría B son dependientes (Hay relación entre ellas).

El estadístico de prueba es, con (r - 1)(c - 1) grados de libertad.

Donde, 0f representa las frecuencias observadas y

ef las frecuencias esperadas.

16,8 17,2 17,4 16,9 16,5 17,1

2

k

ie

e

f

ff1

2

02 )(

Page 88: Material Estadística

88 Las

ef se obtienen multiplicando el total de la fila a la cual pertenece por el total de la

columna al que pertenece dividiendo entre el gran total de la tabla.

La regla de decisión es Rechazar Ho si, en caso contrario No existe

suficiente evidencia para rechazar Ho

Ej: 25 En un experimento para estudiar la dependencia de la hipertensión con el hábito

de fumar, se tomaron los siguientes datos de 180 individuos.

¿Padece de

hipertensión?

Tipo de fumador

Total No fumador Fumador moderado Fumador

empedernido

Si 21 [33,35] 35 [29,48] 31 [24,17] 87

No 48 [35,65] 26 [31,52] 19 [25,83] 93

Total 69 61 50 180

Pruebe la hipótesis que la presencia o ausencia de hipertensión es independiente a los

hábitos de fumar. Use un nivel de significancia de 0,01. Determine el Valor p

1. Formulación de las Hipótesis

Ho: No existe relación entre la presencia o ausencia de hipertensión y los hábitos de

fumar.

H1: Existe relación entre la presencia o ausencia de hipertensión y los hábitos de

fumar.

2. Nivel de Significación

3. Calcular el Estadístico de Prueba

...59,14

85,25

)83,2519(.....

48,24

)48,2435(

35,33

)35,3321()( 222

1

2

02

k

ie

e

f

ff

n

columnasfilasf e

))((

22

TabCal

21,9

2)13)(1 2(

01,0

2

2,01,0

gl

35,33180

)69)(87(11

ef 48,29180

)61)(87(12

ef 17,24180

)50)(87(13

ef

65,35180

)69)(93(21

ef 52,31180

)61)(93(22

ef 83,25180

)50)(93(23

ef

Page 89: Material Estadística

89 4. Regla de decisión

Como 2

Cal se ubica en la región de Rechazo, por consiguiente Ho se rechaza. Es decir, 22

TabCal (14,59 > 9,21)

5. Toma de decisión

Existe suficiente evidencia al nivel de significación de 0,01 que nos muestre que hay

relación entre la presencia o ausencia de hipertensión y los hábitos de fumar.

Valor p

gl. 2 con 14,59)2P(χ

Rechaza. se Ho0,01α0,005p

ACTIVIDAD DE AUTOAPRENDIZAJE N° 13

1. Se efectúa un estudio sobre las fallas de un componente electrónico. Existen cuatro tipos

de fallas posibles y dos posiciones de montaje para el dispositivo. Se toman los datos

siguientes: Posición de

montaje

Tipo de falla

Total A B C D

1 22 46 18 9

2 4 17 6 12

Total

¿Puede concluir que el tipo de falla es independiente de la posición de montaje. Use

05,0 Determine el valor p.

2. Se realiza un análisis de datos sobre el tipo de accidente, para determinar la distribución

del número de accidentes automovilísticos según el tamaño del auto. Los datos para 346

accidentes son los siguientes,

Tipo de

accidente

Tamaño del auto

Total Pequeño Mediano Grande

Mortal 67 26 16

No mortal 128 63 46

Total

¿Indican los datos que el tipo de accidentes depende del tamaño del automóvil? α = 0,10

Page 90: Material Estadística

90 3. Se entrevistó a un grupo de 306 personas para determinar su opinión respecto a un tema

específico de política exterior. Al mismo tiempo, se registró su afiliación política. Los

datos son los siguientes:

De acuerdo con

la política

En desacuerdo con

la política

No opinaron Total

Partido de gobierno 114 53 17

Oposición 87 27 8

Total

Presentan los datos suficiente evidencia que indique que hay relación entre la afiliación

política y la opinión expresada. Use un nivel de 0,05.

4. De un grupo de estudiantes se toman al mismo tiempo las calificaciones que estos obtienen

en un curso de Estadística y en otro de Cálculo. Los resultados son los siguientes:

Calificaciones

de estadística

Calificaciones de Cálculo

Total A B C D

A 25 6 17 13

B 17 16 15 6

C 18 4 18 10

D 10 8 11 20

Total

¿Existe alguna relación entre las calificaciones de los cursos de estadística y Cálculo?

05,0 Determine el valor p.

5. La directiva de una compañía está interesada en determinar si existe una asociación entre

el tiempo de cambio de turno de sus empleados y el nivel de estrés relacionado con

problemas observados en el trabajo. En un estudio de 116 trabajadores de línea de

ensamblaje se reveló lo siguiente.

Tiempo de cambio

Estrés

Total Alto Moderado Bajo

Menos de 15 min. 9 5 18

15 a 45 min. 17 8 28

Más de 15 min. 18 6 7

Total

A un nivel de significancia de 0,01 ¿Existe evidencia de que haya alguna relación entre el

tiempo de cambio de turno y el estrés?

Page 91: Material Estadística

91 UNIDAD IV REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE

Introducción

En la práctica es frecuente que se requiera resolver problemas que implican conjuntos de

variables de las cuales se sabe que tienen alguna relación inherente entre sí. Podría ser de

interés desarrollar un método de pronóstico, es decir, un procedimiento de entrada a partir de

información experimental.

1. Diagrama de dispersión

Diagrama que refleja la relación entre dos variables.

Si X y Y denotan las dos variables, entonces un diagrama de dispersión muestra la

localización de los puntos (x, y) en un sistema de coordenadas rectangulares.

Definición de las variables

Variable dependiente (Y) Variable que se va a predecir o estimar.

Variable independiente (X) Variable que proporciona la base para el cálculo.

Ej: 1 Se dispone de una muestra de observaciones formadas por pares de variables: (x1, y1),

(x2, y2), .., (xn, yn) A través de esta muestra, se desea estudiar la relación existente

entre las variables X e Y. Es posible representar estas observaciones mediante un

gráfico de dispersión, como el siguiente:

Ej: 2 El gerente de una tienda de artículos informáticos está considerando contratar a una

compañía de publicidad para estimular el negocio. Para lo cual investigó el campo de la

publicidad y recolectó los siguientes datos de la Cantidad de ganancia (Y) que logra la

compañía y la Cantidad gastada en publicidad (X). Los datos se muestran a

continuación.

Cantidad en

publicidad

(cientos de $)

3,6

4,8

9,7

12,6

10,8

18,2

10,0

16,6

Ganancia

(en cientos de $)

12,2 14,4 22,6 28,4 27,6 40,2 25,8 34,5

Presente estos datos en un diagrama de dispersión.

Page 92: Material Estadística

92 2. Regresión Lineal

En primer lugar debemos realizar un gráfico de dispersión como el del Ej. 2 y estudiar

visualmente si la relación entre nuestra variable dependiente (Ganancia) y nuestra variable

independiente (Cantidad en publicidad) puede considerarse lineal. Por convenio, se coloca

la variable dependiente en el eje Y de las ordenadas y la variable independiente en el eje X

de las abscisas. Si no observamos un comportamiento lineal, debemos transformar la

variable dependiente o incluso replantearnos el tipo de análisis, ya que es posible que la

relación entre ambas variables en caso de existir, pueda no ser lineal. En nuestro ejemplo

2, si parece cumplirse una relación lineal entre la Ganancia y la Cantidad en publicidad.

El objetivo de la regresión lineal simple es encontrar la mejor recta de ajuste entre todas

las posibles, dentro de la nube de puntos. La mejor recta de ajuste será aquella que

minimice las distancias verticales entre cada punto y la recta, calculándose normalmente

por el método de “mínimos cuadrados”. De este modo conseguiremos una

ecuación para la recta de regresión de Y (variable dependiente) en función de X (variable

independiente) de la forma bXaY ˆ En nuestro ejemplo, el problema radica en

estimar a (constante de la recta) y b (pendiente de la recta) de modo que podamos

construir la ecuación o recta de regresión que minimice esas distancias.

Estimación de la ecuación de regresión muestral

Consiste en determinar los valores de "a" y "b " a partir de la muestra. El método de

estimación es el de Mínimos Cuadrados, mediante el cual se obtiene:

Luego, la ecuación de regresión muestral estimada es: bXaY ˆ , que se interpreta:

a es una constante y es el valor estimado de la variable Y cuando la variable X = 0 ,

b es el coeficiente de regresión. Indica el número de unidades en que varía Y cuando se

produce un cambio, en una unidad, en X (pendiente de la recta de regresión). Un valor negativo

de b sería interpretado como la magnitud del decremento en Y por cada unidad de aumento en

X.

)publicidad en b(Cantidada Ganancia

22

ii

iiii

XXn

YXYXn b y XbYa

Page 93: Material Estadística

93 Ej: 3 En el supuesto de una relación lineal, use el método de los mínimos cuadrados para

determinar los coeficientes de regresión del ejemplo 2.

Realice los cálculos necesarios o (use la calculadora Mode – REG – Lin)

X Y XY X2 Y2

3,6 12,2

4,8 14,4

9,7 22,6

12,.6 28,4

10,8 27,6

18,2 40,2

10,0 25,8

16,6 34,5

∑x = 86,3 ∑y = 205,7 ∑xy = 2550,52 ∑x2 = 1112,29 ∑y2 = 5907,21

Sustituyendo en las fórmulas correspondientes,

Por lo tanto la ecuación ajustada de regresión es:

El coeficiente estimado de regresión b se calculó en 1.83, lo que indica que por cada

incremento de una unidad en la Cantidad de publicidad (es decir por cada cien $), en

promedio la Ganancia del negocio aumenta en 1.83 cientos de dólares es decir en $183

aproximadamente. El valor de a se interpretaría como el valor obtenido, en promedio,

para la Ganancia, cuando la Cantidad en publicidad es cero.

Estimación de un valor esperado de Y para un valor de X.

Se utiliza la ecuación de regresión para estimar o predecir valores de Y, dado algún valor de X.

Ej: 4 ¿Cuánto se espera que sea la Ganancia del negocio (en promedio), si se invirtieron

20.5 (cientos de $) en publicidad?

Sustituyendo el valor de interés en la ecuación:

(cientos de $) Es decir la Ganancia esperada

en el negocio es de $4350,5

222 3,8629,11128

7,2053,8652,25508

ii

iiii

XXn

YXYXn b

828343547,163,1450

25,2652

69,744732,8898

91,1775116,20404

b

83,1 b

8

3,86828343547,1

8

7,205XbY a

989243984,572325602,197125,25 a

99,5 a

XY 83,199,5ˆ

XY 83,199,5ˆ

505,43)5,20(83,199,5ˆ Y

Page 94: Material Estadística

94 1. Error estándar de la estimación

Representa una medida de la variación en torno a la recta ajustada de regresión y se mide

en unidades de la variable dependiente.

Fórmula.

Ej: 5 Calcule e interprete el error estándar de estimación del Ejemplo 2.

Es decir si la Ganancia esperada en el negocio fue de $4350.5 cuando se invirtieron

$2050 con un error estándar de $141,40 aproximadamente.

2. Coeficiente de Correlación

Es la herramienta estadística que podemos usar para describir el grado en el que una

variable esta linealmente relacionada con otra. Al trabajar con dos variables cuantitativas

podemos estudiar la relación que existe entre ellas mediante la correlación y la regresión.

Aunque los cálculos de ambas técnicas pueden ser similares en algunos aspectos e incluso

dar resultados parecidos, no deben confundirse. En la correlación tan solo medimos la

dirección y la fuerza de la asociación de una variable frente a la otra, pero nunca una

relación de causalidad. Sólo cuando tenemos una variable que es causa o depende de otra,

podremos realizar una regresión. En esta unidad estudiaremos el coeficiente de correlación

más utilizado, como es el Coeficiente de Pearson. Abordamos un ejemplo de regresión lineal

simple y cómo se interpretan sus resultados.

El coeficiente de correlación de Pearson (r) puede tomar valores entre -1 y +1, de modo

que un valor de “r” positivo nos indica que al aumentar el valor de una variable también

aumenta el valor de la otra (Figura 1A), y por el contrario, “r” será negativo si al aumentar

el valor de una variable disminuye la otra (Figura 1B). La correlación será perfecta si r = ±1,

en este caso los puntos formarán todos una recta. Es importante a priori determinar qué

valor de “r” vamos a considerar como relevante, puesto que una correlación tan baja como r

= 0,07 sería significativa con un tamaño muestral de unas 1000 personas. Además es una

medida adimensional por lo que no posee unidades.

A

B

6

)52,2550(828343547,1)7,205(989243984,521,5907 YX S

41396183,1999288057,16

6154.995728347,11YX S

$) ( 41396,1 decientos SYX

2

2

n

YXbYaY S

iiii

YX

Page 95: Material Estadística

95 Fórmula,

Ej: 6 Determine e interprete el Coeficiente de Correlación del Ejemplo 2.

Sustituimos en la fórmula, los cálculos correspondientes.

8

7,20521,5907

8

3,8629,1112

8

7,2053,8652,2550

222

2

2

2

n

YY

n

XX

n

YXYX

r

i

i

i

i

ii

ii

990249517,07956693,334

53125,331

1402,112088

53125,331

14875,61832875,181

98875,221852,2550

r

La cercanía a +1 implica una asociación fuerte entre la Ganancia (en cientos de $) y la

Cantidad en publicidad (en cientos de $) del negocio.

El cálculo del coeficiente de correlación de Pearson dio como resultado 0,9902,

indicando que la asociación es positiva y por tanto valores altos en la Ganancia se

corresponden a su vez con valores altos en la Cantidad en publicidad. Sin embargo sólo

con la correlación no tendríamos la suficiente información si quisiéramos hacer

predicciones de los valores de la Ganancia en función de la Cantidad en publicidad del

negocio.

Coeficiente de Determinación ) ( 2r y No Determinación ) -(1 2r

Mide la proporción de variación que se explica con la variable independiente en el modelo.

En este ejemplo 9806,0980594107,0)990249517,0( 22 r

Significa que el 98.06% de la variación en la Ganancia (en cientos de $) del

negocio se explica por la variabilidad en la Cantidad en publicidad (en cientos de $).

Sólo el 1.94% de la variación en la Ganancia se puede explicar por otros factores

ajenos a la Cantidad en publicidad tales como…

3. Estimación del Intervalo de Confianza de la media de Y ( ) para un valor de X

Un examen de la ecuación indica que el ancho del intervalo de confianza depende de varios

factores. Para un nivel dado de confianza, el aumento en la variación alrededor de la recta

de regresión, medida con el error estándar de la estimación, da por resultado un intervalo

más ancho. Pero, como sería de esperar, el tamaño aumentado de la muestra reduce el

ancho del intervalo. Así, mismo, el ancho del intervalo varía también con diferentes valores

YX

n

YY

n

XX

n

YXYX

r

i

i

i

i

ii

ii

2

2

2

2

Page 96: Material Estadística

96 de X. Cuando se predice Y para los valores de X cercanos a , el intervalo es mucho más

estrecho que para las predicciones de valores de X más distantes de la media.

Ej: 7 Encuentre una estimación de intervalo con 95% de confianza, para la ganancia

promedio si se tuvo una inversión de $800 en publicidad.

Calculamos primero el valor de

Con la tabla de la distribución t de Student determinamos.

Sustituimos en la formula, los valores encontrados anteriormente.

Por lo tanto se estima que la ganancia promedio estará entre $1956 y $2170

aproximadamente, si se invirtieron $800 en publicidad, con una confianza de 95%.

4. Inferencia acerca de los parámetros de Regresión y Correlación.

Se puede determinar si existe o no relación significativa entre las variables X y Y al probar si 1 (la pendiente real) es o no igual a cero.

$) ( 8 ˆ decientosXparaYi

54,20)8(83,199,5 ˆ iY

2,45t 6282

025,02

05,095,01 0,025;6

ngl

n

XX

XX

nStY

i

i

i

YXni 2

2

2

2,2

1 ˆ

n

XX

XX

nStY

i

i

i

YXni 2

2

2

2,2

1 ˆ

07,163,20069430734,163,20

32875,181

77015625,7

8

113,145,263,20

8

3,8629,1112

)7875,108(

8

113.1.45,263,20

2

2

21,70 , 19,56 1,07 63,20 YXYX

Método 1: Para la Pendiente 1

Estadístico de prueba

1

1

bS

bt donde

2

2

1

n

XX

SS

i

i

YXb

Page 97: Material Estadística

97

Ej: 8 Con un nivel de significación de 0,05. ¿Hay relación lineal entre las variables en

estudio? (Aplique los tres métodos)

ACTIVIDAD DE AUTOAPRENDIZAJE N° 14

1. El gerente de marketing de una cadena de tiendas de autoservicio quiere determinar el

efecto del espacio en las estanterías, sobre las ventas de alimentos para animales

domésticos. Se seleccionó una muestra aleatoria de 9 tiendas de igual tamaño cuyos

resultados se muestran en seguida.

Espacio en estantería (m2) 5 6 8 4 9 8 10 12 15

Ventas semanales (miles de $) 1,6 2,2 1,4 1,9 2,4 2,8 2,6 3,1 4,5

1.1 Identifique las variables.

1.2 Presente estos datos en un diagrama de dispersión.

1.3 En el supuesto de una relación lineal, use el método de los mínimos cuadrados para

1.4 estimar los coeficientes de regresión e interprételos.

1.5 Prediga las ventas semanales (en miles de $) de alimentos para animales

domésticos para una tienda con 7m2 de estantería para esos alimentos.

1.6 Calcule e interprete el coeficiente de correlación, determinación y no

determinación.

1.7 Calcule e interprete el error estándar de la estimación.

1.8 Encuentre una estimación de intervalo con 95% de confianza en las ventas

semanales promedio de una tienda que tiene 8m2 de estantería.

1.9 Con un nivel de significación de 0,05. ¿Hay una relación lineal entre el espacio en

estantería y las ventas?

Método 2: Estimación del intervalo de confianza para: 12,

21 bn

Stb

Método 3: Para la Correlación

Estadístico de prueba

2

1 2

n

r

rt

Page 98: Material Estadística

98 2. El gerente de personal de una empresa considera que puede haber una relación entre el

ausentismo y la edad, y desea usar la edad de un empleado para predecir el número de días

de ausencia durante un año calendario. Para lo cual seleccionó una muestra aleatoria de 10

empleados, con los resultados que se muestran a continuación.

Edad 27 61 37 23 46 29 36 64 40 50

Días ausentes 15 6 10 18 9 14 11 5 8 9

2.1 Identifique las variables.

2.2 Presente estos datos en un diagrama de dispersión.

2.3 En el supuesto de una relación lineal, use el método de los mínimos cuadrados para

estimar los coeficientes de regresión e interprételos.

2.4 ¿Cuántos días en promedio predeciría usted que va a estar ausente un empleado de

45 años de edad?

2.5 Calcule e interprete el coeficiente de correlación, determinación y no

determinación.

2.6 Calcule e interprete el error estándar de la estimación.

2.7 Encuentre una estimación de intervalo con 95% de confianza del promedio de días

de ausencia de un empleado de 40 años de edad.

2.8 Con un nivel de significación de 0,05. ¿Hay una relación lineal entre la edad y el

ausentismo?

3. El contralor de una cadena de tiendas de departamentos quiere predecir el saldo de las

cuentas al final del período de facturación con base en el número de transacciones

efectuadas durante el período de facturación. Se seleccionó una muestra aleatoria de 12

cuentas, con los resultados dados a continuación.

N° de transacciones 1 2 3 4 5 6 5 7 8 9 11 12

Saldo de la cuenta ($) 15 36 40 69 78 84 75 100 175 120 150 198

3.1 Identifique las variables.

3.2 Presente estos datos en un diagrama de dispersión.

3.3 En el supuesto de una relación lineal, use el método de los mínimos cuadrados para

estimar los coeficientes de regresión e interprételos.

3.4 Prediga el saldo de la cuenta, para una cuenta que ha tenido 5 transacciones en el

último periodo de facturación.

3.5 Calcule e interprete el coeficiente de correlación, determinación y no

determinación.

3.6 Calcule e interprete el error estándar de la estimación.

3.7 Encuentre una estimación de intervalo con 95% de confianza del saldo promedio de

una cuenta en la cual hubo cinco transacciones en el último periodo de facturación.

3.8 Con un nivel de significación de 0,05. ¿Hay una relación lineal entre el número de

transacciones y el saldo de la cuenta?

Page 99: Material Estadística

99 4. Una mujer desea abrir una pequeña tienda de ropa. Antes de seleccionar un local, le

gustaría poder pronosticar la utilidad (en dólares) que se puede esperar que logre la tienda

por metro cuadrado de exhibición y venta. Ella recolecta la siguiente información de otros

propietarios de tiendas comparables.

Tamaño de la tienda (cientos de m2) 35 22 27 16 28 12 40 32

Utilidad (miles de $) 20 15 17 9 16 7 22 23

4.1 Identifique las variables.

4.2 Presente estos datos en un diagrama de dispersión.

4.3 En el supuesto de una regresión lineal, utilice el método de mínimos cuadrados para

encontrar e interprete los coeficientes de regresión a y b . ¿Cuál es la

ecuación de regresión estimada?

4.4 Dibuje en el diagrama de dispersión la ecuación de la recta estimada.

4.5 Calcule e interprete el coeficiente de correlación, determinación y no

determinación.

4.6 ¿Qué utilidad espera percibir de una tienda de tamaño 1 500m2?

4.7 ¿Qué porcentaje de la variación total en las utilidades se atribuye a diferencias en

el tamaño variable de las tiendas?

4.8 Calcule e interprete el error estándar de la estimación.

4.9 Encuentre una estimación de intervalo con 95% de confianza para la utilidad

promedio si se tiene una tienda de 1 500m2.

4.10 Con un nivel de significación de 0,05. ¿Hay una relación lineal entre el tamaño de la

tienda y la utilidad?

Guías de laboratorio Introducción

El software PASW Statistics 18 es un programa que posee las herramientas necesarias para

realizar los análisis estadísticos más frecuentes, tanto en un salón de clase como en el ámbito

profesional. A través de este programa es posible la descripción y tabulación de datos, la

realización de pruebas de hipótesis, el análisis de correlación y regresión entre otros.

Para realizar la práctica de laboratorio supongamos que se aplicaron las siguientes encuestas a

una muestra aleatoria simple de 16 trabajadores de una pequeña empresa.

ENCUESTAS.

I EDAD: 37 SEXO: 1. M 2. F

SALARIO EN C$ 3 250

ÁREA DE TRABAJO: 1. Producción 2. Recursos Humanos

3. Finanzas 4. Servicios Generales

QUE LUGARES VISTAS LOS FINES DE SEMANA:

1. Cines 2. Restaurantes 3. Bares

4. Parques 5. Centros Comerciales

Page 100: Material Estadística

100 II EDAD: 30

SEXO: 1. M 2. F

SALARIO EN C$ 4 600

ÁREA DE TRABAJO: 1. Producción 2. Recursos Humanos

3. Finanzas 4. Servicios Generales

QUE LUGARES VISITAS LOS FINES DE SEMANA:

1. Cines 2. Restaurantes 3. Bares

4. Parques 5. Centros Comerciales

III EDAD: 27

SEXO: 1. M 2. F

SALARIO EN C$ 5 205

ÁREA DE TRABAJO: 1. Producción 2. Recursos Humanos

3. Finanzas 4. Servicios Generales

QUE LUGARES VISITAS LOS FINES DE SEMANA:

1. Cines 2. Restaurantes 3. Bares

4. Parques 5. Centros Comerciales

IV EDAD: 21

SEXO: 1. M 2. F

SALARIO EN C$ 3 000

ÁREA DE TRABAJO: 1. Producción 2. Recursos Humanos

3. Finanzas 4. Servicios Generales

QUE LUGARES VISITAS LOS FINES DE SEMANA:

1. Cines 2. Restaurantes 3. Bares

4. Parques 5. Centros Comerciales

V EDAD: 25

SEXO: 1. M 2. F

SALARIO EN C$ 4 650

ÁREA DE TRABAJO: 1. Producción 2. Recursos Humanos

3. Finanzas 4. Servicios Generales

QUE LUGARES VISITAS LOS FINES DE SEMANA:

1. Cines 2. Restaurantes 3. Bares

4. Parques 5. Centros Comerciales

VI EDAD: 42 SEXO: 1. M 2. F

SALARIO EN C$ 6 800

ÁREA DE TRABAJO: 1. Producción 2. Recursos Humanos

3. Finanzas 4. Servicios Generales

QUE LUGARES VISITAS LOS FINES DE SEMANA:

1. Cines 2. Restaurantes 3. Bares

4. Parques 5. Centros Comerciales

VII EDAD: 31

SEXO: 1. M 2. F

SALARIO EN C$ 4 350

ÁREA DE TRABAJO: 1. Producción 2. Recursos Humanos

3. Finanzas 4. Servicios Generales

Page 101: Material Estadística

101 QUE LUGARES VISITAS LOS FINES DE SEMANA:

1. Cines 2. Restaurantes 3. Bares

4. Parques 5. Centros Comerciales

VIII EDAD: 26

SEXO: 1. M 2. F

SALARIO EN C$ 3 250

ÁREA DE TRABAJO: 1. Producción 2. Recursos Humanos

3. Finanzas 4. Servicios Generales

QUE LUGARES VISITAS LOS FINES DE SEMANA:

1. Cines 2. Restaurantes 3. Bares

4. Parques 5. Centros Comerciales

IX EDAD: 30

SEXO: 1. M 2. F

SALARIO EN C$ 5 100

ÁREA DE TRABAJO: 1. Producción 2. Recursos Humanos

3. Finanzas 4. Servicios Generales

QUE LUGARES VISITAS LOS FINES DE SEMANA:

1. Cines 2. Restaurantes 3. Bares

4. Parques 5. Centros Comerciales

X EDAD: 22

SEXO: 1. M 2. F

SALARIO EN C$ 3 650

ÁREA DE TRABAJO: 1. Producción 2. Recursos Humanos

3. Finanzas 4. Servicios Generales

QUE LUGARES VISITAS LOS FINES DE SEMANA:

1. Cines 2. Restaurantes 3. Bares

4. Parques 5. Centros Comerciales

XI EDAD: 37

SEXO: 1. M 2. F

SALARIO EN C$ 6 300

ÁREA DE TRABAJO: 1. Producción 2. Recursos Humanos

3. Finanzas 4. Servicios Generales

QUE LUGARES VISITAS LOS FINES DE SEMANA

1. Cines 2. Restaurantes 3. Bares

4. Parques 5. Centros Comerciales

XII EDAD: 51

SEXO: 1. M 2. F

SALARIO EN C$ 4 850

ÁREA DE TRABAJO: 1. Producción 2. Recursos Humanos

3. Finanzas 4. Servicios Generales

QUE LUGARES VISITAS LOS FINES DE SEMANA:

1. Cines 2. Restaurantes 3. Bares

4. Parques 5. Centros Comerciales

XIII EDAD: 47

SEXO: 1. M 2. F

SALARIO EN C$ 3 250

Page 102: Material Estadística

102 ÁREA DE TRABAJO: 1. Producción 2. Recursos Humanos

3. Finanzas 4. Servicios Generales

QUE LUGARES VISITAS LOS FINES DE SEMANA:

1. Cines 2. Restaurantes 3. Bares

4. Parques 5. Centros Comerciales

XIV EDAD: 23

SEXO: 1. M 2. F

SALARIO EN C$ 2 500

ÁREA DE TRABAJO: 1. Producción 2. Recursos Humanos

3. Finanzas 4. Servicios Generales

QUE LUGARES VISITAS LOS FINES DE SEMANA:

1. Cines 2. Restaurantes 3. Bares

4. Parques 5. Centros Comerciales

XV EDAD: 31

SEXO: 1. M 2. F

SALARIO EN C$ 5 400

ÁREA DE TRABAJO: 1. Producción 2. Recursos Humanos

3. Finanzas 4. Servicios Generales

QUE LUGARES VISITAS LOS FINES DE SEMANA:

1. Cines 2. Restaurantes 3. Bares

4. Parques 5. Centros Comerciales

XVI EDAD: 29

SEXO: 1. M 2. F

SALARIO EN C$ 4 600

ÁREA DE TRABAJO: 1. Producción 2. Recursos Humanos

3. Finanzas 4. Servicios Generales

QUE LUGARES VISITAS LOS FINES DE SEMANA:

1. Cines 2. Restaurantes 3. Bares

4. Parques 5. Centros Comerciales

INTRODUCCIÓN DE LOS RESULTADOS DE LA ENCUESTA

Para entrar en el programa: Inicio, Programas PASW Statistics 18. Use el Icono

o mire si en el escritorio está el acceso directo.

Al entrar en el programa obtendrá la siguiente vista. Observe que abajo hay dos pestañas

Para definir las variables entre en la

segunda pestaña:.

Ubíquese en la primera línea, donde va a definir la información de la primera variable Edad.

Vista de variables

Page 103: Material Estadística

103 En la primera opción Nombre tiene que dar nombre a su variable, tomando

en cuenta lo siguiente:

No se puede usar espacio vacío, ni los símbolos siguientes: , . - : ;? ¿ ¡ !

Puede usar letras mayúsculas o minúsculas, no habrá error, pero el programa al final

siempre dejará el nombre en minúsculas.

Al entrar en la opción Tipo aparece en la parte derecha un cuadrito gris con tres puntos ,

De clic en este cuadro y aparece lo siguiente:

Vamos a usar el tipo de variable numérica. Aunque la

variable sea cualitativa, también usaremos numérica

porque los valores que ella puede tomar vamos a

codificar con 1, 2,…, si los valores de variable no tienen

decimales en el lugar de decimal escriba 0. Si es una

variable cuyos valores quiere denotar con letras, use (Cadena).

Coma: Se usa como separador de miles y como separador de decimales punto.

Punto: Se usa como separador de miles y como separador de decimales coma.

Las siguientes celdas son indica la cantidad de caracteres que se

necesitarán para definir los valores de la variable y números decimales que ya lo habíamos

escrito en el cuadro anterior. (Vea cuadro anterior en la parte derecha.)

Etiqueta: en esta casilla se indica la etiqueta de variable, a diferencia del nombre, se

puede poner cualquier carácter y la cantidad de los caracteres no es restringida.

En el caso de la variable edad etiqueta y nombre serán iguales.

La siguiente columna es Valores.

Si das clic en el cuadrito gris aparecerá el siguiente cuadro de diálogo, la

variable edad es cuantitativa no vamos a poner nada en éste, lo usaremos

en el caso de las variables cualitativas.

Para introducir la segunda variable Sexo usamos las mismas opciones,

obtenemos lo siguiente:

En el caso de variables cualitativas, en opción Valores debemos definir los

valores de la variable.

Observe en el siguiente cuadro, que en Valor escribimos 1 (es el código

que asignaremos al sexo masculino) y en la parte Etiqueta de valor

Page 104: Material Estadística

104 escribimos Masculino. Posteriormente dar Añadir. De igual manera se digita el valor 2 con la

etiqueta de Femenino.

Si desea corregir algo en los valores introducidos, seleccione el valor, corrija y seleccione opción Cambiar. Cuando termine de introducir todos los valores dar Aceptar.

De la misma manera introduzca las variables: Salario y Área de Trabajo.

Insertar nueva variable Es recomendable tener como variable: Número de la encuesta

Ubíquese en la primera columna y Seleccione en el Menú: Edición, Insertar

variable. Se agregará una nueva columna. Posteriormente demos como

nombre de la variable número y en etiqueta Número de encuesta. Así

antes de introducir los resultados de la encuesta ponemos número a la

misma.

La pregunta ¿Qué lugares visitas los fines de semana? tiene

múltiples opciones de selección. En este caso en la base de datos se introduce tantas variables

cuantas opciones hay:

Cines

Restaurantes

Bares

Parques

Centros Comerciales.

En valores 0 representa No y 1 representa Si

Al final obtenemos.

En seguida seleccionamos la pestaña Vista de datos

y empezamos a introducir los resultados de la encuesta.

En la primera línea escribimos los resultados de la primera encuesta para cada una de las

variables

Page 105: Material Estadística

105

Observe lo siguiente: cuando el icono Etiqueta de valor está desactivado

aparecen valores de las variables y si está activado aparecen las etiquetas.

Al terminar de introducir los resultados de las encuestas obtenemos la siguiente vista:

PROCESAMIENTO DE DATOS: CUADROS Y GRÁFICOS

Para obtener cuadros de frecuencia de una variable y los gráficos

realizamos los siguientes pasos: Analizar, Estadísticos

descriptivos, Frecuencias.

Aparece el cuadro de diálogo:

Seleccione en la parte izquierda la variable

Sexo y dar clic en la flecha del centro,

arrastre esta variable a la derecha.

Después entre en la opción Gráficos…

seleccione Gráfico de barra,

Porcentajes y dar clic en Continuar,

Aceptar.

Obtenemos la tabla de frecuencia y el gráfico de la variable. Puede modificar los resultados

dando doble clic derecho sobre ésta. La tabla puede copiar como objeto y pasar a WORD.

Sexo de los trabajadores.

Frecuencia Porcentaje

Porcentaje

válido

Porcentaje

acumulado

Válidos Masculino 7 43.8 43.8 43.8

Femenino 9 56.3 56.3 100.0

Total 16 100.0 100.0

Page 106: Material Estadística

106 El gráfico que resulta es el siguiente:

Para modificar el gráfico dar doble clic sobre éste, se abre la

ventana Editor de gráficos. Si desea cambiar las barras (su

color, dimensión,…) tiene que dar doble clic sobre las barras y se

abre siguiente cuadro:

En opción Relleno y borde puede cambiar colores. En Profundidad y

Ángulo puede elegir gráfico en tres dimensiones.

Si desea solamente cambiar los colores de las barras, tiene que

seleccionar las barras una por una y elegir el color en la parte

señalada con flecha:

Al seleccionar todas las barras juntas y dar clic derecho

aparece el cuadro, donde pueden seleccionar Mostrar

etiquetas de datos.

También puede Transponer el Gráfico. Al terminar el uso

de Editor de gráficos debe cerrar esta ventana. Después

de haber modificado el gráfico el resultado es:

Para procesar la variable Área de trabajo, realice los siguientes pasos, solo que en opción

Page 107: Material Estadística

107

Edades

1 6,3 6,3 6,3

1 6,3 6,3 12,5

1 6,3 6,3 18,8

1 6,3 6,3 25,0

1 6,3 6,3 31,3

1 6,3 6,3 37,5

1 6,3 6,3 43,8

2 12,5 12,5 56,3

2 12,5 12,5 68,8

2 12,5 12,5 81,3

1 6,3 6,3 87,5

1 6,3 6,3 93,8

1 6,3 6,3 100,0

16 100,0 100,0

21

22

23

25

26

27

29

30

31

37

42

47

51

Total

Válidos

Frecuencia Porcentaje

Porcentaje

válido

Porcentaje

acumulado

Edades

51474237313029272625232221

Po

rcen

taje

12

10

8

6

4

2

0

Edades

Gráficos seleccione Gráfico de sectores con Porcentajes.

La modificación de este gráfico es similar al anterior.

Antes de modificar Después de modificar

PROCESAMIENTO DE VARIABLE CUANTITATIVA

Vamos a procesar la variable Edad. Los pasos son los mismos

Analizar, Estadísticos descriptivos, Frecuencias. Pero, además, entramos en la opción Estadísticos… y activamos

todas las opciones que aparecen en la figura siguiente. Después

dar Continuar y en la opción Gráficos… activamos el diagrama de

barras de porcentaje. Aceptar.

Como resultado se obtiene la tabla de distribución de frecuencia, gráficos (los cuales ya sabe

como modificar), además aparece el cuadro Estadísticos. En este cuadro están todas las

medidas que usted solicitó. Si observa la tabla de frecuencia y el gráfico, puede ver que

presentar de esta manera en el informe no es muy adecuado, lo mejor es agrupar estos datos.

Estadísticos

Edad de los trabajadores.

N Válidos 16

Perdidos 0

Media 31.81

Mediana 30.00

Moda 30a

Desv. típ. 8.818

Varianza 77.763

Rango 30

Mínimo 21

Máximo 51

Percentiles 70 36.40

a. Existen varias modas. Se mostrará

el menor de los valores.

Page 108: Material Estadística

108

Para esto primero diseñamos los intervalos de clase manualmente en una hoja de

papel. Realizamos los siguientes cálculos:

R= 30 (vea la tabla Estadísticos);

El ancho calculado nos dio 6, pero podemos variar un poco, dejemos el ancho 5 y

empezamos con el dato 20 (dato mínimo es 21) para que los intervalos de clase

quede bonitos.

Vamos a recodificar los datos de las edades con estos intervalos de clase.

Realice los siguientes pasos:

Transformar, Recodificar en distintas variables… Seleccione la variable que se desea recodificar y pase a la derecha, en el

cuadro de Nombre escribe el nuevo nombre de la variable por ejemplo

edad_ag (edades agrupadas), en Etiqueta escriba Edades de los

trabajadores, pulse Cambiar.

Posteriormente entre en opción Valores antiguos y nuevos…

Obtiene nuevo cuadro de diálogo. En la parte izquierda active la

posición Rango ubique en estos espacios los límites del primer

intervalo 20 -24 y en la parte derecha en opción Valor ubique 1

(es el primer intervalo de clase), después de Añadir. Así

sucesivamente se van introduciendo todos los intervalos de

clase. Continuar y Aceptar. En la base de datos se agregará una nueva variable, tiene que

dar etiquetas a los valores para esta variable. Al final la base de datos quedará así:

Después de esto puede, crear la tabla de frecuencia y el gráfico de los datos agrupados

de la edad.

20-24

25-29

30-34

35-39

40-44

45-49

50-54

Edades de los alumnos

3 18.8 18.8 18.8

4 25.0 25.0 43.8

4 25.0 25.0 68.8

2 12.5 12.5 81.3

1 6.3 6.3 87.5

1 6.3 6.3 93.8

1 6.3 6.3 100.0

16 100.0 100.0

20-24

25-29

30-34

35-39

40-44

45-49

50-54

Total

Valid

Frequency Percent Valid Percent

Cumulat iv e

Percent

Page 109: Material Estadística

109 OTRA OPCIÓN PARA RECODIFICAR VARIABLES NUMÉRICAS

Vamos a recodificar la variable Edad

Entrar en Opción: Transformar, Agrupación visual.

En el cuadro de diálogo que aparece, seleccione la

variable Edad y dando clic en la flecha, pase esta

variable a la parte derecha. Posteriormente dar clic en Continuar.

En el nuevo cuadro de diálogo,

en la parte de Nombre de

Variable agrupada se puede

repetir el mismo nombre de la

variable que se desea a

recodificar, agregando una

letra A, de Agrupada (EdadA).

Recuerde que no se puede

tener dos variables con el

mismo nombre. En el cuadro se

muestra información de

mínimo y máximo valores que

toma la variable. (21 y 51).

Podemos agrupar la variable edad por décadas, de 20 a 29, de 30 a 39,….

A continuación pulse opción Crear puntos de corte.

En esta opción aparecen tres espacios: Posición del primer punto de corte, Número de puntos

de corte, Anchura.

Page 110: Material Estadística

110 En el espacio de Posición del primer punto

de corte escribe el valor anterior al límite

inferior de su primera clase. La primera

clase empieza en 20, entonces escribe 19.

En el espacio de Anchura escribe 10, ya que

decidimos que las clases van a tener el

ancho 10. A continuación solamente dé clic

en espacio de Número de puntos de corte,

el sistema automáticamente ubica el valor

correspondiente. Después pulse Aplicar.

En el siguiente cuadro pulse Crear etiquetas y Aceptar.

El sistema muestra un cuadro, anunciando que se creará una nueva variable en la base de datos,

pulsa Aceptar.

Pueden revisar que en su base de datos

aparece una variable más, la edad

recodificada, observan que esta

variable tiene medida Ordinal y todas

sus etiquetas. Pueden hacer una tabla

de frecuencia y un gráfico con esta

variable agrupada, recuerde que los

estadísticos deben ser calculados con la variable original.

Page 111: Material Estadística

111

PROCESAMIENTO DE VARIABLES CON OPCIÓN MÚLTIPLE

La variable, ¿Qué lugares visitas los fines

de semana? Tiene varias opciones de

selección. Para determinar el gráfico de esta

variable realizamos los siguientes pasos:

Gráficos

Cuadros de diálogos antiguos

Barras…

Seleccione Gráfico de barras, Simple y en la opción Los datos del

gráfico son Resúmenes para distintas variables. Pulsar. Definir.

En el cuadro de diálogo que se presenta seleccionar las variables:

cine, restaurante, bares, parques, centros comerciales, y pasar a la derecha.

Después entrar en opción Cambiar estadístico. En esta ventana active la

opción Porcentaje por encima y en Valor ubique el valor mínimo que

tenía estas variables (“0“ que corresponde a la respuesta “No”). Pulse

Continuar.

Entre en la opción Títulos y escribe la pregunta que se planteó en la encuesta: ¿Qué lugares

visitas los fines de semana?

Después de Continuar y Aceptar.

Al modificar el gráfico se obtiene lo siguiente:

Page 112: Material Estadística

112 TABLAS DE CONTINGENCIA

Para ver las opciones de este procedimiento

seleccione del menú: Analizar, Estadísticos,

Descriptivos, Tablas de Contingencia. Cuando

se lleva a cabo tal acción, se abre una ventana como

la de la figura siguiente.

Aparece el cuadro de diálogo. Como se ve, a la izquierda aparece la típica caja con el conjunto

de las variables presentes en el fichero activo. De entre ellas se elegirán las que van por filas

(se colocarán en la caja Filas), las que irán por columnas (se

colocarán en la caja Columnas), El procedimiento obtendrá

una tabla de contingencia para cada combinación de dos

variables, una de filas y otra de columnas

Si escogemos las variables sexo (fila) y lugar de trabajo

(columna).

Pinchamos casillas y seleccionamos Porcentajes,

Totales. Dar Continuar. Aceptar.

Esperamos el resultado,

Tabla de contingencia Sexo de los trabajadores. * Área de trabajo.

Área de trabajo.

Total Producción

Recursos

Humanos Finanzas

Servicios

generales

Sexo de los

trabajadores.

Masculino Recuento 3 1 1 2 7

% del total 18.8% 6.3% 6.3% 12.5% 43.8%

Femenino Recuento 5 1 2 1 9

% del total 31.3% 6.3% 12.5% 6.3% 56.3%

Total Recuento 8 2 3 3 16

% del total 50.0% 12.5% 18.8% 18.8% 100.0%

Page 113: Material Estadística

113 Ejercicio de aplicación Se obtuvieron los siguientes datos a partir de una encuesta que se realizó en una Empresa en la

ciudad de Managua. (30 casos)

1. Defina las Variables

V1: Edad ________

V2: Sexo: 1. Femenino 2. Masculino.

V3: Estado Civil:

1 Casado (a) 2 Divorciado(a) 3 Soltero(a) 4 Otros

V4: Nivel Académico:

1 Licenciado(a) 2 Ingeniero(a) 3 Contador(a) 4 Mecánico

5 Conductor 6 Otros.

V5: Salario devengado: _______ (en C$)

V6: Años de trabajar en la Empresa: _______

V7: Está de acuerdo que se implante la dolarización en nuestro país.

1 Sí 2 No.

2. Recodifique la variable V1: Edad. (Presente un histograma)

1. 0 - 20 años 2. 21 - 30 años 3. 31 - 40 años 4. 41 - 60 años.

3. Aplique estadísticos a V1, V5, V6. Gráficos de Histograma,

4. Aplique frecuencias a V2, V3, V4, V7. Gráficos de Barras y Diagrama circular.

5. Aplique tabla de contingencia a las variables V2 y V4.

6. Recuerda que los resultados obtenidos deben ser analizados e interpretados.

Matriz de Datos

Casos V1 V2 V3 V4 V5 V6 V7

1 21 2 3 1 12 000 1 2

2 50 2 2 -5 15 500 20 2

3 22 1 1 2 13 500 1 1

4 40 1 1 1 18 000 15 2

5 28 -5 3 6 15 000 4 1

6 29 1 3 3 20 000 -5 2

7 25 2 3 5 17 000 2 2

8 20 1 3 6 22 000 1 2

9 31 2 1 5 32 000 2 1

10 25 2 -5 4 28 500 1 2

11 -5 2 1 6 -5 10 1

12 42 1 4 1 27 500 20 2

13 51 2 4 -5 10 500 27 2

14 26 2 1 2 36 000 4 2

15 38 1 2 6 34 500 8 2

16 36 2 1 2 35 000 10 2

17 43 2 1 3 23 800 24 2

Page 114: Material Estadística

114 18 48 1 2 6 44 200 19 -5

19 33 2 -5 1 36 200 7 1

20 38 2 4 5 27 000 15 1

21 53 2 4 4 41 500 30 2

22 44 1 1 3 32 500 15 2

23 49 2 2 5 43 000 -5 1

24 30 1 4 6 25 000 8 2

25 29 1 1 1 15 700 5 2

26 37 2 1 2 18 000 12 2

27 -5 2 2 3 16 800 10 1

28 43 2 4 4 15 000 12 -5

29 50 2 4 3 30 000 18 1

30 23 1 3 6 32 000 6 2

Inferencia Estadística Crear base de datos con la siguiente matriz

Defina las variables

Sexo 1: Masculino Tiene teléfono 1: Si Tiene casa propia 1: Si

2: Femenino 2: No 2: No

Caso V1

Sexo

V2

Edad

V3

Pago en energía

(C$)

V4

Pago de agua

(C$)

V5 Teléfono

V6

Casa propia

1 2 28 1250 450 1 2

2 2 21 920 320 2 2

3 1 40 680 350 1 1

4 1 22 450 -5 1 1

5 1 24 360 350 2 1

6 1 41 589 430 1 -5

7 2 25 1270 500 2 1

8 2 30 1590 290 2 1

9 1 19 1260 550 1 1

10 2 30 490 360 2 2

11 1 21 -5 130 2 2

12 2 25 950 220 2 2

13 2 26 620 351 1 2

14 1 28 700 456 1 1

15 2 21 552 452 1 2

16 2 22 468 -5 1 2

17 1 20 1220 554 1 1

18 1 30 580 350 2 2

19 1 35 450 260 -5 2

20 2 25 1256 -5 1 2

21 2 20 1128 620 1 1

22 2 24 -5 260 2 1

23 2 22 830 230 1 1

24 2 30 -5 190 2 1

25 1 22 525 520 2 1

Page 115: Material Estadística

115

Con el uso de PASW Statistics 18 podemos obtener Intervalos de Confianza que por

defecto establece una confiabilidad del 95%, puede ser modificado por el usuario.

Aplique el siguiente procedimiento.

Analizar, Estadísticos descriptivos, Explorar…, Clic

Arrastre la variable cuantitativa de interés a Lista de

Dependientes... Por ejemplo: Pago de Energía.

Pinche Estadísticos… Descriptivos, Continuar,

Aceptar. Espere resultados.

Interprete este intervalo de confianza

Descriptivos

Estadístico Error típ.

Energía (en C$) Media 824.45 76.552

Intervalo de confianza para la media al 95%

Límite inferior 665.26 Límite superior 983.65

Media recortada al 5% 808.89 Mediana 690.00 Varianza 128925.593 Desv. típ. 359.062 Mínimo 360 Máximo 1590 Rango 1230 Amplitud intercuartil 711 Asimetría .559 .491

Curtosis -.976 .953

Page 116: Material Estadística

116 Prueba de hipótesis para una muestra Suponga que se desea probar la hipótesis con un nivel de significación de 0,05 que el

pago promedio en energía (en C$) en el mes de junio C$1 000. Las hipótesis nula y alternativa son:

respectivamente. Siga el procedimiento.

Analizar, Compara medias, Prueba T para una muestra… , Dar clic.

Arrastre la variable Energía a Variables para contrastar.

Digite 1 000 en Valor de prueba. (Prueba T para una muestra)

Aceptar. Espere los resultados.

¿A qué conclusión llega?

Prueba para una muestra

Valor de prueba = 1000

t gl Sig. (bilateral) Diferencia de

medias

95% Intervalo de confianza para la diferencia

Inferior Superior

Energía (en C$) -2.293 21 .032 -175.545 -334.74 -16.35

El valor del estadístico es -2,293 y la significancia es 0,032, este valor es menor o

igual a α = 0,05, por lo tanto se rechazar , es decir existe suficiente evidencia a un

nivel de significación de 0,05 que el pago promedio en energía es diferente de C$1 000

en el mes de junio.

Prueba de independencia

Procedimiento.

Analizar, Estadísticos descriptivos, Tablas de

contingencia…, Dar clic.

Estadísticos para una muestra

N Media Desviación típ.

Error típ. de la media

Energía (en C$) 22 824.45 359.062 76.552

,032

Page 117: Material Estadística

117

Arrastre la variable Sexo a Filas y Teléfono

a Columnas. (Tablas de contingencia).

Pinche Estadísticos y marque Chi-cuadrado.

(Tablas de contingencia: Estadísticos).

Continuar. Aceptar. Espere resultados.

Pruebas de chi-cuadrado

Valor gl

Sig. asintótica (bilateral)

Sig. exacta (bilateral)

Sig. exacta (unilateral)

Chi-cuadrado de Pearson .235a 1 .628

Corrección por continuidadb .005 1 .945

Razón de verosimilitudes .236 1 .627 Estadístico exacto de Fisher .697 .473

Asociación lineal por lineal .225 1 .635 N de casos válidos 24

a. 1 casillas (25.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 4.58.

b. Calculado sólo para una tabla de 2x2.

Realice el correspondiente análisis

Regresión y Correlación Lineal Simple En este laboratorio trabajamos con dos variables, como medio para observar la relación existente entre

ellas. Se discutirán dos técnicas: REGRESIÓN y CORRELACION.

¿Cuál es la relación entre la cantidad gastada por semana en alimentos y el tamaño de una familia? ¿Las

familias grandes gastan más mensualmente? Una muestra de 10 familias en el área de una ciudad reveló

los siguientes tamaños de familia e importes en dinero gastados en alimentos, en cierto periodo.

Page 118: Material Estadística

118 Tamaño de la familia 3 6 5 6 6 3 4 4 5 3

Cantidad gastada en alimentos ($) 99 104 151 129 142 111 74 91 119 91

Entre al programa PASW Statistics 18.

Definir las variables en estudio y crear el

archivo.

DIAGRAMA DE DISPERSIÓN

Entre a Gráficos, Cuadros de diálogo antiguos, Dispersión/Puntos…

Haga clic en Dispersión/Puntos… Aparece el cuadro.

Dar clic en Dispersión Simple. Pulse Define. Espere.

Nos aparece el nuevo cuadro de diálogo Diagrama de Dispersión

Simple en el que entramos en el Eje Y: Cantidad gastada en

alimentos ($) y en el Eje X: Tamaño de familia. En Títulos escriba

algún comentario relacionado con las variables en estudio.

Pulse Aceptar.

Deje el resto de opciones por defecto, espere y obtiene el

gráfico deseado.

Page 119: Material Estadística

119 CURVA ESTIMADA DE REGRESIÓN Entre a Analizar, Regresión,

Estimación Curvilínea…

Haga clic en Estimación curvilínea

En el cuadro de diálogo Estimación Curvilínea, ingrese las variables, en Dependientes: Cantidad

gastada en alimentos ($) y en Independiente: Tamaño de familia. (Seleccione Modelo Lineal).

Aceptar.

El resultado es,

ECUACIÓN DE REGRESIÓN

Entre a Analizar, Regresión, Lineales…

Hacer clic en Lineales…

Page 120: Material Estadística

120 Obtiene el cuadro de diálogo Regresión Lineal.

En Dependiente Introduzca la variable: Cantidad

gastada en alimentos ($) y en Independientes la

variable: Tamaño de familia. (Seleccione Estadísticos

y en el nuevo cuadro de diálogo: Regresión Lineal

(Estadísticos) escoja Estimaciones. (Deje el resto de

opciones por defecto y ejecute el procedimiento para

obtener el resultado deseado).

Continuar. Aceptar.

Con este resultado se obtienen los coeficientes de regresión,

Coeficientesa

Modelo Coeficientes no

estandarizados

Coeficientes

tipificados

t Sig. B Error típ. Beta

1 (Constante) 60.359 25.468 2.370 .045

x: Tamaño de la familia 11.276 5.467 .589 2.062 .073

a. Variable dependiente: y: Cantidad gastada en alimentos ($)

Escriba la ecuación de regresión e interprete el coeficiente de regresión b1.

También se obtiene la tabla.

Interprete los coeficientes de determinación, no determinación y correlación para este

modelo. Además el error estándar de estimación.

Resumen del modelo

Modelo

R R cuadrado

R cuadrado

corregida Error típ. de la estimación

dimensión .589a .347 .266 20.81855

a. Variables predictoras: (Constante), x: Tamaño de la familia

Page 121: Material Estadística

121 CORRELACION BIVARIADA

Entre a Analizar, Correlaciones, Bivariadas…

y obtiene el cuadro de diálogo: Correlaciones Bivariadas.

Hacer clic en Bivariadas… y obtenemos.

Arrastramos a la lista de variables destinos

Cantidad gastada en alimentos y Tamaño

de familia) del archivo y dejamos todas las

opciones por defecto.

Aceptar y ejecutamos el procedimiento para

obtenemos lo buscado.

INTERVALO DE CONFIANZA PARA β1

Entre a Analizar, Regresión, Lineales…

Haga clic en Lineales…

Aparece el cuadro de diálogo Regresión Lineal

Traslade las variables en estudio a sus respectivas celdas.

Pinche estadísticos

Correlaciones

x: Tamaño de

la familia

y: Cantidad gastada

en alimentos ($)

x: Tamaño de la familia Correlación de

Pearson

1 .589

Sig. (bilateral) .073

N 10 10

y: Cantidad gastada en

alimentos ($)

Correlación de

Pearson

.589 1

Sig. (bilateral) .073

N 10 10

Page 122: Material Estadística

122 Seleccione Intervalos de Confianza.

Continuar. Aceptar.

El resultado es,

Coeficientesa

Modelo Intervalo de confianza de 95.0% para B

Límite inferior Límite superior

1 (Constante) 1.629 119.088

x: Tamaño de la familia -1.332 23.883

a. Variable dependiente: y: Cantidad gastada en alimentos ($)

Interprete este intervalo de confianza.

Referencias Walpole, Ronald E., Myers, Raymond H., y Myers, Sharon L. (1998).

Probabilidad y estadística para Ingenieros. (6ª. ed.). México: PrenticeHall.

Johnson, R. (1988). Estadística Elemental. (4ª. ed.). México: Iberoamérica.

Mason, R., y Lind, D. (1998). Estadística para Administración y

Economía. (8ª. ed.). México: Alfaomega.

Newbold, P., Carlson, W., y Thorne, B. (2008). Estadística para

Administración y Economía. (6ª. ed.). Madrid: Pearson Educación.

Conde, Carlos. (2010). Estadística Descriptiva. Recuperado el 24 de junio de 2012 de

http://www.es.crribd.ci/descriptiva/.pdf.

Navarro, Alfredo. (2010). Probabilidades. Recuperado el 2 de julio de 2012 de

http://www.profesorenlinea.cl/matematica/probabilidades.htm

Arroyo Cervantes, G. (2008). Inferencia Estadística. Recuperado el 12 de agosto de

2012 de http://es.scribd.com/doc/43058695/PRUEBA-DE-HIPOTESIS.

Becerra Espinoza, J.M. (2009). Regresión y Correlación Lineal simple. Recuperado

el 18 de agosto de 2012, de http://www.eumed.net/cursecon/medir/index.htm