virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · web viewposterior...

177
Universidad Salesiana de Bolivia Ingeniería de Sistemas DOSSIER DOSSIER TÉCNICAS DE ESTUDIO 0 Universidad Salesiana de Bolivia Ingeniería de Sistemas DOSSIER PROBABILIDAD Y ESTADÍSTICA DOCENTE: Lic. Rita Roxana Torrico II- 2012

Upload: others

Post on 29-Mar-2020

25 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Universidad Salesiana de Bolivia

Ingeniería de Sistemas

DOSSIER DOSSIER

TÉCNICAS DE ESTUDIODOCENTE: Lic. Rita R. Torrico

DOSSIERTÉCNICAS DE ESTUDIO

ÍNDICE

0

Universidad Salesiana de Bolivia

Ingeniería de Sistemas

DOSSIERPROBABILIDAD Y ESTADÍSTICA

DOCENTE: Lic. Rita Roxana Torrico

II- 2012

Page 2: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

PRESENTACIÓN

UNIDAD I FUNDAMENTOS DE LA ESTADÍSTICA1.1 Introducción…………………………………………………………………………..51.2 Historia de la estadística…..…………………………………………......………...61.3 Definición de estadística……………………………………………………………71.4 Clasificación de la estadística……………………………………………………...71.5 Fuentes de datos estadísticos……………………………………………………...81.6 Procedimiento para recolectar datos……..……………………...........................9

1.6.1Observación…………………………………………………………………91.6.2 La encuesta………………………………………………………………..101.6.3 Consideraciones generales para la elaboración del formulario……...111.6.4 Requisitos de un instrumento de medición…………………..…………12

1.7 Parámetro y estadígrafo… …………………………………...…………………...121.8 Etapas del método científico y estadístico…..………………………………......13

1.8.1 Etapas del método estadístico…………………………………………..131.9 Población y muestra ………………………………………………………………..16

UNIDAD II EJECUCIÓN DEL TRABAJO ESTADÍSTICO2.1Tabulación…………………………………………………………………………….222.2 ¿Qué es una distribución de frecuencia?.........................................................222.3 El elemento clase de la distribución de frecuencia………………………………23

2.3.1 Frecuencia de clase……………………………………………………….232.3.2 Distribución de frecuencia o tabla de frecuencia………………………232.3.3 Datos agrupados…………………………………………………………..232.3.4 Intervalos de clase y límites de clase…………………………………...232.3.5 Fronteras de clase……………………………………………………...…242.3.6 Tamaño o amplitud de un intervalo…………………………………..…242.3.7 Marca de clase…………………………………………………………….242.3.8 Rango………………………………………………………………………25

2.4 Reglas generales para construir distribución de frecuencias………………….25 2.5 Frecuencia absoluta simple………………………………………………………..26.2.6 Frecuencia relativa…………………………………………………………………..272.7 Representación gráfica de variables cuantitativas………………………………282.8 Representación gráfica de variables cualitativas………………………………..32

UNIDAD III ANÁLISIS ESTADÍSTICO DE VARIABLES CUALITATIVAS3.1 Concepto de variable cualitativa…………………………………………………..363.2 Razón…………………………………………………………………………………383.3. Proporción…………………………………………………………………………..393.4 Porcentajes………………………………………………………………………….403.5 Tasas…………………………………………………………………………………41UNIDAD IV ANÁLISIS ESTADÍSTICO DE VARIABLES CUANTITATIVAS4.1 Concepto de variable cuantitativa………………………………………………...434.2 Medidas de tendencia central……………………………………………………..45

4.2.1 Tipos de promedio………………………………………………….46

1

Page 3: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

4.2.2 Media aritmética – datos no agrupados…………………………464.2.3 Media aritmética – datos agrupados…………………………..…474.2.4 Propiedades de la media aritmética………………………………484.2.5 Media ponderada……………………………………………………514.2.6 Mediana………………………………………………………………524.2.7 Cuartiles………………………………………………………………554.2.8 Deciles………………………………………………………………..574.2.9 Percentiles……………………………………………………………584.2.10 La moda………………………………………………………….....594.2.11 Relación entre la media, mediana y moda……………………...624.2.12 Encogimiento entre la media, mediana y la moda……………..634.2.13 Media geométrica………………………………………………….634.2.14 Media armónica……………………………………………………664.2.15 Media cuadrática…………………………………………………..67

4.3 Medidas de dispersión o concentración………………………………………….674.3.1 Recorrido de la variable…………………………………………….694.3.2 Recorrido intercuartilitico……………………………………………694.3.3 Recorrido semi-cuartilitico…………………………………………..704.3.4 Desviación media o promedio……………………………………..704.3.5 Varianza y Desviación estándar…………………………………..72

4.4 Medidas de dispersión relativa…………………………………………………….774.4.1 Coeficiente de Variación……………………………………………784.4.2 Momentos………..…………………………………………………..79

4.5 Medidas de asimetría………………………………..……………………………..81 4.5.1 Coeficientes de asimetría………………………………………….82

4.6 Medidas de curtosis…………………………………………………………………83

UNIDAD V VARIABLE ESTADÍSTICA BIDIMENSIONAL5.1 Introducción…………………………………………………………………………..855.2 Representación de la información mediante tablas bidimensionales…………86 5.2.1 Distribuciones marginales………………………………………….88

5.2.2 Propiedades de la frecuencia……………………………………...91 5.2.3 Medias y Varianzas marginales……………………………………92

5.3 Distribuciones condicionales……………………………………………………….945.4 Medidas de dependencia entre variables nominales……………………………95

5.4.1 Independencia de variables………………………………………..96 5.4.2 Diagrama de dispersión o nubes de puntos…………………….100

5.5 Nociones de correlación y regresión lineal……………………………………...101 5.5.1 Cálculo del coeficiente de correlación…………………………..103 5.5.2 Regresión…………………………………………………………..104

UNIDAD VI ANÁLISIS COMBINATORIO6.1 Introducción…………………………………………………………………………1086.2 Principios básicos del proceso de contar……………………………………….1096.3 Arreglos……………………………………………………………………………..110

2

Page 4: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

6.3.1 Arreglos simples…………………………………………………..110 6.3.2 Arreglos con repetición…………………………………………...111

6.4 Permutaciones……………………………………………………………………..111 6.4.1Permutaciones simples……………………………………………111 6.4.2 Permutaciones circulares………………………………………...112 6.4.3 Permutaciones con repetición…………………………………...113

6.5 Combinaciones…………………………………………………………………….114

LECTURAS COMPLEMENTARIAS…………………………………………………120PRÁCTICAS………………………………………………………………………….…120BIBLIOGRAFÍA………………………………………………………………………..130GLOSARIO…………………………………………………………………………..…130

PRESENTACIÓN

El presente Dossier ha sido realizado como un instrumento de apoyo en la asignatura de probabilidad y estadística. Contiene todo lo necesario para llevar a

3

Page 5: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

cabo una investigación, desde la recolección, clasificación, análisis e interpretación de los datos.

Así mismo este documento se divide en seis unidades. La primera aborda los conceptos fundamentales de estadística y las etapas del método estadístico que consisten en una serie de procedimientos para el manejo de los datos cualitativos y cuantitativos de la  investigación.

Una vez expuestas las características generales de la estadística, en la unidad dos se desarrolla la ejecución del trabajo estadístico es decir la forma de realizar el recuento de las repeticiones de un mismo valor o modalidad; lo que conduce al concepto fundamental de frecuencia.

Luego, en la unidad tres se puede apreciar el análisis estadístico de las variables cualitativas y para ello se considera: razón, proporción, porcentajes y tasas.

A continuación, la unidad cuatro procede al análisis descriptivo de las variables cuantitativas a través de las medidas de tendencia central y de dispersión, que sintetizan la información sobre los datos que analizamos, facilitando su manejo. En lugar de trabajar con toda la tabla de frecuencias, las medidas resumen los valores que separan a los datos en grupos significativos.

Posterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir, se analizan al mismo tiempo dos variables de cada elemento de la población. Estas variables pueden ser cuantitativas o cualitativas; para ello se desarrollarán un conjunto de técnicas que permitan describir las relaciones que ligan a esas dos variables o atributos, para establecer el grado de dependencia o asociación entre ellos, así como para estimar a una de éstas a partir del comportamiento de la otra.

Finalmente la unidad seis desarrolla los principios para determinar el número de combinaciones de elementos de un conjunto finito, que es fundamental para establecer la tradicional conexión entre combinatoria y probabilidad.

4

Page 6: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

1.1 Introducción

¿Quién no se ha preguntado por qué hay diferencias entre padres e hijos? Ya sea en rasgos físicos, personalidad, gustos, etc. La respuesta es, a la luz de la ciencia, ¡La Variabilidad! que es la característica más relevante de todos los seres vivos. Se interpreta como las diferencias existentes entre individuos de un mismo grupo aún cuando tengan un estrecho vínculo de parentesco, incluso entre gemelos. La variabilidad es el atributo que caracteriza a la naturaleza así como el azar esta presente en los hechos biológicos. Esta variabilidad puede generarse por alguna o más de una de las siguientes causas.

a. El medio ambiente o efecto ecológico.b. La herencia o efecto genético.

La Variabilidad es la esencia misma de la estadística, ella estudia, analiza, explica los efectos de la primera a través de los métodos que se fundamentan en la matemática, la experimentación y la observación. Esta no puede estudiarse en un solo individuo, la formulación de un problema estadístico requiere de la presencia de un grupo de ellos, mejor si es un conjunto numeroso.

Originalmente estadística derivó del vocablo “estado”¿Por qué?

Porque la función tradicional de los gobiernos centrales es y ha sido llevar la cuenta de la cantidad de:

Habitantes Nacimientos Defunciones Empleo Desempleo Empresas

5

Genera muchas clases de datos

Page 7: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Costo de la vida Etc.

Aunque se tiene muchos años de experiencia en la recolección de este tipo de información, se continúa presentando complicaciones y oportunidades para la contribución científica en lo que respecta a:

recolectar procesar interpretar

Hoy en día muchas actividades están relacionadas con la estadística y muchas ocupaciones implican el uso del método científico.

1.2 Historia de la Estadística

La Estadística, tal como se la definió, se fundamenta en el cálculo de probabilidades y se desarrolló a partir de inicios del siglo pasado. A veces se denomina Estadística Matemática en oposición a la Estadística Estatal, cuya misión es el registro de las estadísticas de los estados: población, empleo, consumo, etc. La estadística estatal se remonta a las primeras civilizaciones conocidas (5000 A.d.C. Sumeria, Mesopotamia, Egipto). En los siglos XVII y XVIII a pedido de jugadores de azar, los matemáticos Bernoulli y De Moivre desarrollaron parte de la teoría de probabilidad, como también Laplace y Gauss en el siglo XIX.

Por la misma época, el religioso agustino y botánico austriaco, Gregori Mendel (1822 – 1884) se hizo célebre por sus experimentos acerca de la herencia de los caracteres en los guisantes, llevados a cabo entre 1856 a 1864 al cruzar sepas que diferían por un solo carácter ( grano liso o rugoso, flor blanca o amarilla, etc). Las leyes de reaparición del carácter en cuestión y su transmisión fueron publicadas en 1965 y redescubiertas recién en 1900 las cuales recibieron el nombre de Leyes de Mendel.

A finales del siglo XIX y comienzos del XX Quetelet, aplico la estadística a la investigación de problemas sociales y educativos. Francis Galton fue el que promovió su aplicación en colaboración con Pearson. En el siglo XX, Pearson, Fixher, Gosset introducen nuevas técnicas y métodos en muestras de pequeño tamaño. Hoy en día, es la principal herramienta metodológica en toda investigación de cualquier ciencia.

1.3 Definición de estadística

6

ESTADÍSTICA

Eficientemente tales datos

CIENCIA

Page 8: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

es la

que proporciona

destinados a

los

para la

1.4 Clasificación de la estadística

De acuerdo a la anterior definición la estadística se clasifica en:

Estadística descriptiva.-

Es otras palabras podemos expresar que un estudio estadístico se considera “descriptivo” cuando sólo se pretende analizar y describir los datos.

Estadística Inferencial.-

Proporciona la teoría necesaria para inferir o estimar las leyes de una población partiendo de los resultados o conclusiones del análisis de una muestra que atañen a una población y como estas conclusiones nunca pueden ser absolutamente ciertas, ellas estarán ligadas a cierto grado de incertidumbre o probabilidad.

7

Recolectar

Clasificar datos

Prestar datos

Tablas

GráficasAnálisis descript

MÉTODOS PROCEDIMIENTOS

CLASIFICAR ANALIZARRECOLECTAR INTERPRETAR

DATOS

TOMA DE DECISIONES

Page 9: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Modelización Estadística.-

Tiene por objetivo manejar la información para formar modelos aplicados a la realidad con capacidad para predecir. Trata de establecer relaciones lineales o no entre variables ajustándose a hipótesis probabilísticas. El insumo importante es proporcionado por muestras.

1.5 Fuentes de Datos Estadísticos

Son los lugares donde se obtienen informes, resúmenes, hechos, acontecimientos.

Fuente Primaria

Es la persona o acontecimiento que se estudia y al cual se tiene acceso directo, es decir se puede hablar u observar directamente a ese individuo o presenciar el acontecimiento. Fuente Secundaria

Es el documento que recoge en forma exhaustiva las características de la persona y/o del fenómeno que sufre como (una enfermedad, matrimonio, nacimiento) o simplemente sus características como el sexo, color de la piel, ojos, peso, estatura. Son conocidos también como fuentes secundarias los lugares donde estos documentos se encuentran almacenados como ser: Registro Civil, Instituto Nacional de Estadística, oficinas administrativas, hospitales, policlínicos, que guardan los documentos antes citados.

También pueden considerarse en esta fuente, los registros como son: tarjetas de ingreso de una institución, partes de asistencia, planillas de sueldos, Balances diarios, semestrales y anuales de los bancos, pólizas de importación, registros de la precipitación pluvial, etc.

Fuente Terciaria

Son documentos que procesan la información de la fuente primaria o de la secundaria, ubicando características similares, organizadas y presentadas al investigador, en un boletín que puede ser de una plana. Con mayor razón serían fuentes de investigación terciarias las revistas, periódicos, libros y cualquier otro tipo de publicación que presenta datos procesados.

Diseños Experimentales

Generan información como respuesta a estudios en los que el investigador esta en posibilidades de controlar variables independientes, buscando relaciones puras. Por Ejemplo, ¿Cuál es el rendimiento de una variedad de maíz sembrado en

8

Page 10: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

parcelas de iguales características de suelo que reciben 4 concentraciones de fertilizante? Se obtienen 4 posibles respuestas. Por otra parte si se quiere medir el rendimiento en 3 tipos de suelo, con 2 profundidades de sembrado y 4 fertilizantes se obtendrán 24 resultados. En estos 2 últimos ejemplos, ya sea por criterio propio o experiencia de otros, elige el terreno, decide las profundidades de sembrado y las dosis o variedades de fertilizante, y lo que llega al azar son los rendimientos (variables respuestas, efecto) sobre la que no tiene ningún tipo de acción.

1.6 Procedimiento para Recolectar Datos

Es necesario determinar el método de recolección de datos y tipo de instrumento que se utilizará siendo esto la base para etapas siguientes.

Método.-

Es el medio o camino a través del cual se establece la relación entre el investigador y el consultado para la recolección de datos y el logro de los objetivos; se citan la entrevista, la observación y el cuestionario.

Instrumento.-

Es el mecanismo que utiliza el investigador para recolectar y registrar la información; entre estos se encuentran los formularios, las pruebas psicológicas, las escalas de opinión y de actitudes, las listas u hojas de control y otros.

1.6.1 Observación

Es el registro visual de lo que ocurre en una situación real, clasificando y consignando los acontecimientos pertinentes de acuerdo con algún esquema previsto y según el problema que se estudia.Cuando se decide utilizarla se debe tomar en cuenta ciertas consideraciones. Como método de recolección de datos, debe ser planificado cuidadosamente para que reúna los requisitos de validez y confiabilidad.

También Quinteros comenta que “las condiciones de una investigación pueden ser seriamente objetables si en el diseño de la misma no se han tomado en cuenta los posibles errores de la observación”.Estos errores están relacionados con:

Los observadores. El instrumento utilizado para la observación. El fenómeno observado.

1.6.2 La Encuesta

9

Page 11: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Este método consiste en obtener información de los sujetos de estudio, proporcionada por ellos mismos, sobre opiniones, actitudes o sugerencias. Hay dos maneras de obtener información con este método: la entrevista y el cuestionario.

La Entrevista Es la comunicación interpersonal establecida entre el investigador y el sujeto de estudio a fin de obtener respuestas verbales a las interrogantes planteadas sobre el problema propuesto.

Esta técnica de recolección de datos tiene muchas ventajas; es aplicable a toda persona, siendo muy útil en los analfabetos, los niños o con aquellas personas que tienen alguna limitación física u orgánica que les dificulte proporcionar una respuesta escrita.

Hay dos tipos de entrevista: la estructurada y la no estructurada. La primera se caracteriza por estar rígidamente estandarizada; se plantean idénticas preguntas y en el mismo orden a cada uno de los participantes, quienes deben escoger la respuesta entre 2, 3 o más alternativas que se les ofrecen. Sin embargo el investigador tiene limitada libertad para formular preguntas independientes generadas por la interacción personal. Algunas ventajas que presenta este tipo de entrevista son:

La información es más fácil de procesar, simplificando el análisis comparativo.

El entrevistador no necesita ser entrenado arduamente en la técnica. Hay uniformidad en el tipo de información obtenida.

Pero también tiene desventajas, tales como: Es difícil obtener información confidencial. Se limita la posibilidad de profundizar en un tema que emerja durante la

entrevista.

La entrevista no estructurada es más flexible y abierta, aunque los objetivos de la investigación rigen a las preguntas; su contenido, orden, profundidad y formulación se encuentran por entero en manos del entrevistador. Es muy útil en los estudios descriptivos y en las fases de exploración para el diseño del instrumento de recolección de datos.Las ventajas de este método son:

Es adaptable y susceptible de aplicarse a toda clase de sujetos en situaciones diversas.

Permite profundizar en los temas de interés. Orienta a posibles hipótesis y variables cuando se exploran áreas nuevas.

Entre sus desventajas se cita: Se requiere más tiempo. Es más costoso por la inversión de tiempo de los entrevistadores.

10

Page 12: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Se dificulta la tabulación de los datos. Se requiere mucha habilidad técnica para obtener la información y mayor

conocimiento del tema.

Cuestionario

Es el método que utiliza un instrumento o formulario impreso, destinado a obtener respuestas sobre el problema en estudio y que el investigador o consultado llena por sí mismo.

Algunas ventajas del cuestionario son: su costo relativamente bajo, su capacidad para proporcionar información sobre un número mayor de personas en un período bastante breve y la facilidad de obtener, cuantificar y analizar e interpretar los datos.

Dentro de sus limitaciones figuran las siguientes: es poco flexible, la información no puede variar ni profundizarse; si el cuestionario se envía por correo se corre el riesgo de que no llegue al destinatario o no se obtenga respuesta de los encuestados; además, resulta difícil obtener una alta tasa de compleción del cuestionario. Debido a esta posible pérdida de información se recomienda que se seleccione una muestra más grande de sujetos de estudio.

1.6.3 Consideraciones generales para la elaboración del formulario

Si el investigador decide utilizar la observación regulada, la entrevista o el cuestionario u otra fuente de información secundaria como método de recolección de datos, debe elaborar un instrumento para obtener la información que requiere, siendo el formulario el que se emplea con más frecuencia. Para diseñar correctamente un formulario es necesario considerar algunos criterios relacionados con su organización, las preguntas a plantear según los objetivos propuestos en la investigación y las características físicas de los formularios.

1.6.4 Requisitos de un instrumento de medición

Las características de relevancia de los instrumentos de medición son:

Confiabilidad Validez

El término confiabilidad se refiere a la capacidad del instrumento para arrojar datos o mediciones que correspondan a la realidad que se pretende conocer, o sea, la exactitud de la medición, así como a la consistencia o estabilidad de la medición en diferentes momentos.Se dice que el instrumento es confiable si se obtienen medidas o datos que representen el valor real de la variable que se está midiendo y si estos datos o medidas son iguales al ser aplicados a los mismos sujetos u objetos en dos ocasiones diferentes, o al ser aplicados por diferentes personas.

11

Page 13: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

La validez es entendida como el grado en que un instrumento logra medir lo que se pretende medir.

1.7 Parámetro y estadígrafo

Parámetro

Medida que describe alguna característica de una población. Se necesita utilizar la información de la población completa. Las decisiones se toman con certidumbre total.

Las más usadas son:

i) Media poblacional ii) Proporción poblacional iii) Varianza poblacional

Estadígrafo

Medida que describe alguna característica de la muestra. La toma de decisiones contiene un grado de incertidumbre.

Las más usadas son:

i) Media muestral ii) Proporción muestral iii) Varianza muestral

1.8 Etapas del método científico y estadístico

La estadística ha tenido su origen paralelamente a la investigación comprendiéndose éste último concepto como el desarrollo sistematizado de la curiosidad. En las actividades cotidianas se utiliza el proceso de inducción es decir se analizan las partes para llegar a un todo, el de deducción que inicia en el todo hasta llegar al detalle; combinándose éstos se puede legitimar lo conocido como cierto y utilizarlo en ocasiones semejantes. El instrumento de validación de conocimientos o método científico tiene los siguientes pasos:

Observación del fenómeno Formulación de una hipótesis Verificación de la hipótesis

1.8.1 Etapas del método estadístico

12

Page 14: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

De acuerdo con el orden de aplicaciones de la estadística a un problema determinado, los métodos estadísticos se dividen en 4 etapas:

1. Planificación del estudio

Tiene por finalidad estudiar los detalles concernientes a la recolección, clasificación y análisis de la información, en base a la cual se describen las características de una determinada población o se confirmará o negará determinada hipótesis de trabajo.

Se esquematiza la planificación en los siguientes pasos:

Primer Paso: Planteamiento del problema

El planteamiento del problema responde a la delimitación y jerarquización del tema, lo que justifica el porqué se lo está investigando. Además debe ser delimitado en base al tiempo y el espacio, es decir en que lapso de tiempo, y en que límites geográficos ha de ser observado. Asimismo debe ser jerarquizado en base a tres criterios de magnitud, trascendencia y vulnerabilidad, es decir:

Definir la naturaleza e importancia del problema que se estudia.-

Naturaleza explicar ¿qué vamos a estudiar?Importancia cuantificar su extensión ¿por qué se va estudiar?

Segundo Paso: Elaboración del Marco Teórico

El marco teórico proporciona los conocimientos del tema que se está investigando, en este acápite se detallan las definiciones y explicaciones

pre-existentes, asimismo anteriores investigaciones y sobre todo las aclaraciones de los conceptos relativos al tema que se utiliza en el trabajo.

Proporciona información a través de una adecuada bibliografía, posibilita familiarizarse con el tema, preparando el terreno de conocimientos para acceder a la comprensión de la hipótesis de trabajo, de los objetivos que se plantearan, el análisis de los datos, de las técnicas de investigación que se utilizarán y el resultado obtenido a partir del cual se emitirán las conclusiones y recomendaciones respectivas.

Tercer Paso: Determinación de objetivos

a) Objetivo general explicar para que se realiza la investigaciónb) Objetivos específicos explicar cómo se realizará la investigación

Cuarto Paso: Formulación y Verificación de hipótesis

Hipótesis es una afirmación que está sujeta a verificación.

13

Page 15: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Se trata de probar una hipótesis de trabajo.

Su formulación debe hacerse claramente, ya que el diseño, planificación y desarrollo de la investigación dependerán de la hipótesis que se trata de probar.

La verificación de la hipótesis constituye la investigación propiamente dicha, en la cual se consideran 2 aspectos:

a) Diseños de la Investigación

Estudiar por adelantado cada una se sus diferentes etapas, recolección, organización, y análisis de los datos.

Determinar de antemano todo lo concerniente a las observaciones que se harán

El número de individuos que se estudiará El procedimiento a utilizar en su selección Investigar cuidadosamente si existen factores éticos Época en que hará el estudio Tiempo que durará Gastos que determinará Seleccionar y entrenar el personal que va colaborar

Definir la unidad que se observa, con el fin de incluir la totalidad de los individuos que presentan las características que se estudia y excluir aquellos que no las presentan

Definir lo que se va observar, para que todos los individuos sean estudiados uniformemente.

Hacer un balance de los recursos que se dispone y los que se necesitarán para ejecutar la investigación conforme lo planeado.

b) Ejecución de la Investigación

Es la recolección, clasificación y análisis de la información recogida, etapas que debe realizar de acuerdo a lo planificado.

2. Recolección de la información

Está en función a las características del problema abordado y dependiendo de la determinación de la población a ser estudiada, se tienen dos maneras de realizar un estudio de la población:

14

Page 16: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

En forma exhaustiva, global, total, completa, que significa estudiar todos y cada uno de los integrantes de la población, siendo el resultado un reflejo real y exacto de ella.

Mediante una muestra representativa de la población, que tiene las mismas características cuantitativas y cualitativas de la población total o universo, proporcionando los mismos datos que se obtiene al estudiar al total de la población.

Por otra parte se debe considerar, la información que se va a recoger y la precisión con la que debe ser obtenida, ello dependiendo del propósito de la investigación y del material estudiado, siendo conveniente limitarse a recoger tan sólo aquella información que va a utilizarse.

Los principales puntos que deben considerarse al recoger de la información son:

a) Los errores que pueden cometerse en la recolección de los datos y la manera de controlarse

b) Las ventajas y limitaciones de los diversos métodos empleados en la recolección de la información

c) Las condiciones que deben reunir los individuos que se estudian y los procedimientos más convenientes para su elección.

d) El diseño de los formularios que servirán para registrar la información que se recoja.

3. Tabulación, análisis e interpretación de los resultados

Tabular es contar y ordenar la información recabada, ello a partir de la confección de cuadros, gráficos, y toda ayuda posible para poder luego analizar la información disponible.

En el Análisis mediante formulas estadísticas y el uso de tablas específicamente diseñadas, se efectúa la comparación de las medidas de resumen previamente calculadas; por ejemplo, si antes se han calculado los promedios de peso de dos grupos de personas sometidas a diferentes dietas, el análisis estadístico de los datos consiste en la comparación de ambos promedios con el propósito de decidir si parece haber diferencias significativas entre tales  promedio.

En Interpretación se explica el sentido de todos los datos obtenidos.

4. Conclusiones y recomendaciones

15

Page 17: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Ejecutado el estudio, se considera si fue realizado conforme se había planificado y con los resultados a la vista se concluirá si la hipótesis a sido verificada o no, emitiéndose las conclusiones y recomendaciones pertinentes.

5. Presentación de resultados

Es la última actividad del proceso de investigación en la cual se dan a conocer los resultados y con ello se estará contribuyendo a incrementar los conocimientos existentes sobre el tema en estudio y se permitirá la aplicación de las soluciones encontradas a los problemas que motivaron la investigación.

1.9 Población y Muestra

Población o Universo

Ejemplos:a) Población de ventas anuales de los

supermercados de La Paz.b) Población de todos los posibles resultados cara y sello que se obtiene al

arrojar una moneda un número indefinido de veces.c) Población de puntajes de rendimiento en la lectura de todos los alumnos del

nivel primario es un sistema escolar.

La población puede ser finita o infinita, dependiendo del número de elementos que la conforman.

Población finita, es aquella que tiene un número determinado de elementos.Población infinita, es aquella que tiene un número infinito de elementos.

Muestra

16

La totalidad de individuos o elementos en los cuales puede

presentarse determinada característica susceptible de ser

estudiada

Parte o subconjunto de la población al cual se tiene acceso y sobre el que se realizan las observaciones (mediciones). Debe ser “representativa” Estar formada por miembros

“seleccionados” de la población (individuos, unidades experimentales).

Page 18: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Al número de electos de la muestra se denomina “tamaño de la muestra”.

Se llama unidad estadística o individuo a cada uno de los elementos que componen la población estadística. El individuo es un ente observable que no tiene por qué ser una persona, puede ser un objeto, un ser vivo, o incluso algo abstracto.

La investigación a partir de una muestra tiene muchas ventajas, entre las que se destacan las siguientes:

Permite que el estudio se realice en menos tiempo. Se incurre en menos gastos. Posibilita profundizar en las variables. Permite tener mayor control de las variables a estudiar.

Dato estadístico

Son números o medidas que han sido recopiladas como resultado de observaciones, que pueden ser comparadas, analizados e interpretados. Un número aislado que no puede compararse o que no muestre relación significativa con otros números no es un dato estadístico.

Tipos de Muestreo

Son técnicas o procedimientos que aseguran la representatividad muestral para que las unidades sean seleccionadas al azar; según la ley de probabilidades, al escoger la muestra al azar se puede tener casi la certeza de que esa muestra será representativa.

17

TIPOS DE MUESTREO

No ProbabilísticoProbabilístico

Page 19: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Según Pardinas, el muestreo consiste en:

Seguir un método, un procedimiento tal que al escoger un grupo pequeño de una población podamos tener un grado de probabilidad de que ese pequeño grupo efectivamente posee las características del universo y de la población que estamos estudiando.

Muestreo probabilístico

Aleatorio simple.-

Para que un muestreo sea aleatorio es requisito que todos y cada uno de los elementos de la población tengan la misma probabilidad de ser seleccionados. Existen varias modalidades, una de ellas es el procedimiento de tipo “sorteo” o “rifa” (por Ejemplo, colocando en un recipiente fichas o papeles que contengan nombre o números que correspondan a cada unidad del universo). Otra técnica utilizada es hacer uso de la tabla de números aleatorios, este método es más rápido y práctico

Estratificado.-

Este término proviene de la palabra “estrato” se caracteriza por la subdivisión de la población en subgrupos o estratos, debido a que las variables principales que deben

18

Aleatorio simple

Estratificado

Sistemático

Conglomerado

Por conveniencia

Por cuotas

Accidental

Page 20: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

someterse a estudio presentan cierta variabilidad o distribución conocida que puede afectar los resultados.

El número de elementos que deberá tomarse de cada estrato se determina proporcionalmente, según la cantidad de unidades que integra cada estrato y en base a la totalidad de la población muestral.

Sistemático.-

Es similar al aleatorio simple, en donde cada unidad del universo tiene igual probabilidad de ser seleccionada, variando en el proceso de selección de la muestra. Las etapas que deben seguirse son las siguientes:

o Determine el número de unidades que conformará su muestra (n).

o Asegúrese de la cantidad que integra su población y que todas las unidades estén enumeradas.

o Calcule el ”número de selección sistemática”.

Nn=500

100=5 intervalo de selecciónde launidadmuestral

o Determine la unidad muestral por la que se iniciará la selección de la muestra; se puede hacer al azar o por sorteo, definiendo de esas 5 primeras unidades la cifra por la cual se iniciará la selección.

o Proceda a conformar la muestra; si al realizar el sorteo le resulta el número 4 y dado que el “número de selección sistemática” es 5, la primera unidad será 4 y las siguientes 9, 14, 19, y así sucesivamente hasta completar los 100 elementos.

Conglomerado.-

Se utiliza cuando no se dispone de una lista detallada y enumerada de cada una de las unidades que conforman el universo y resulta muy compleja elaborarla. Se le denomina así debido a que en la selección de la muestra en lugar de escogerse cada unidad se procede a tomar los subgrupos o conjuntos de unidades, a los que se llama “conglomerados”.

19

Page 21: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Se tiende a creer que es lo mismo que el estratificado, ambos se diferencian en que en el primero los subconjuntos se dan en la vida real o ya están agrupados de esa manera; por Ejemplo: escuelas, tipos de industrias, bloques de casas y otros. En el de estratos el investigador decide las agrupaciones que utilizará según la posible variabilidad de los fenómenos a estudiar. Otra diferencia es que en el de estratos el investigador conoce la distribución de la variable, no así en el de conglomerado.

El proceso se inicia definiendo los conglomerados, después se seleccionan los subconjuntos a estudiar (o sea que se realiza un muestreo de conglomerado); de estos seleccionados se procede a hacer el listado de las unidades que componen cada conglomerado, continuando posteriormente con la selección de las unidades que integrarán la muestra, siguiendo alguno de los métodos aleatorios indicados.

Muestreo no probabilístico

Se caracteriza porque el investigador selecciona su muestra siguiendo algunos criterios identificados para los fines del estudio que le interesa realizar.

Por conveniencia o intencional.-

En el que el investigador decide, según sus objetivos, los elementos que integrarán la muestra, considerando aquellas unidades supuestamente “típicas” de la población que desea conocer.

Por cuotas.-

20

Unidad seleccionada

CiudadCalle

EdificioBarrios

Page 22: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Consiste en que el investigador selecciona la muestra considerando algunos fenómenos o variables a estudiar, como sexo, raza, religión, etc. El paso inicial consiste en determinar la cantidad o “cuota” de sujetos de estudio a incluirse y que poseen las características indicadas; un Ejemplo de esto son las encuestas de opinión pública, en las que los encuestadores proceden a buscar las personas hasta cubrir la cuota previamente fijada, sin preocuparse por áreas geográficas, zonas u otro criterio.

Accidental.-

Consiste en aprovechar o utilizar para el estudio las personas disponibles en un momento dado según lo que interese estudiar. Éste es el menos eficiente.

21

Page 23: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

VARIABLE: CONDUCTOR REFERIDO

CATEGORÍAS CÓDIGOS FRECUENCIAS

AMT 1 50LEM 2 88FGI 3 12MML 4 3

TOTAL 153

2.1 Tabulación

La palabra tabular significa expresar u ordenar unos datos en forma de tablas.

El proceso de tabulación consiste en el recuento de los datos que están contenidos en los cuestionarios. En este proceso incluimos todas aquellas operaciones encaminadas a la obtención de resultados numéricos relativos a los temas de estudio que se tratan en los cuestionarios. Se requiere una previa codificación de las respuestas obtenidas en los cuestionarios. Realizamos tabulación, codificación y diseño de gráficos con datos biográficos, de consumo o de opinión. Los resultados serán presentados en tablas y/o mapas gráficos que expliquen las relaciones existentes entre las diversas variables analizadas. Esta presentación se adecuará a la petición de nuestros clientes mediante análisis estadísticos de datos, grabados por nosotros o por terceros, análisis bivariantes, análisis multivariantes, tests de contraste de hipótesis

2.2 ¿Qué es una distribución de frecuencia?

Una distribución de frecuencias es un conjunto de puntuaciones ordenadas en sus respectivas categorías.

2.3 El elemento clase de la distribución de frecuencia.

2.3.1 Frecuencia de clase

Se llama frecuencia de clase a la reunión de grandes cantidades de datos sueltos distribuidos en clases o categorías, determinando el número de individuos que pertenecen a cada categoría.

Estatura Número de

22

Page 24: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

(pulg) estudiantes60 - 6263 - 6566 - 6869 - 7172 - 74

51842278

Total 100

2.3.2 Distribución de frecuencia o tabla de frecuencia

Se conoce como distribución de frecuencias o tablas de frecuencias a una disposición tabular de los datos por clases con su correspondiente frecuencias de clase.

2.3.3 Datos agrupados

A los datos así organizados y reunidos, como en la anterior distribución de frecuencias, se llama datos agrupados. Esto proporciona una visión amplia y clara, además de que se obtienen relacionados evidentes.

2.3.4 Intervalos de clase y límites de clase

Intervalo de clase Símbolo que define una claseEjemplo:

60 - 62 , 72 - 74

límite inferior límite superior

Aun intervalo de clase que, por lo menos teóricamente no tiene límite de clase inferior o superior se le llama intervalos abierto.

Ejemplo:

65 años o más

2.3.5 Fronteras de clase

En el ejemplo anterior el intervalo 60 – 52 incluye todas las medidas desde 59.5 pulg. y 62.5 pulg., a estos números se les llaman frontera de clase o límites verdaderos de clase.

De aquí:

59.5 es la frontera inferior de clase62.5 es la frontera superior de clase

23

Page 25: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

2.3.6 Tamaño o amplitud de un intervalo

Es la diferencia entre las fronteras de clase inferior y superior. Si todos los intervalos de una distribución de frecuencias son de las misma amplitud, a esta amplitud común se la denota por c.

Ejemplo:

62.5 - 59.5 = 365.5 – 62.5 = 3

2.3.7 Marca de clase

La marca de clase, que es el punto medio del intervalo de clase, se obtiene promediando los límites inferior y superior de la clase. De este modo:

Del ejemplo anterior tenemos el intervalo 60 - 62 Marca de la clase: (60 + 62)/2 = 61

La marca de clase es, en definitiva, el valor que representa a la información contenida en el intervalo.

2.3.8 Rango

Es la diferencia entre el número mayor y el número menor de os datos sueltos.

Ejemplo:

Supongamos que las alturas de plantas, en una clase de botánica son las siguientes:

64 73 68 68 76 70 62 67 71 6968 60 65 68 66 68 67 71 66 72

Luego el rango de estos datos es:

R = 76 – 60 = 16

2.4 Reglas generales para construir distribución de frecuencias

1. Determinación del Rango.- Es conveniente primero determinar el rango de los datos obtenidos.

2. Determinación del número de clase.- Cosiste en dividir el rango en un número conveniente de intervalos de clase, generalmente del mismo tamaño.

24

Page 26: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Es conveniente tener entre 5 y 20 intervalos de clase. Entre más datos se tengan, más intervalos de clase deben considerarse. No hay fórmula exacta para calcular el número de intervalos de clase. Este número es determinado por tentativas y aproximaciones. Sin embargo se puede, en principio tomar en cuenta lo siguiente:

a) Número de clases = K = 5, si n = tamaño de la muestra <= 5 y K = √n , si n > 20

b) Fórmula de Sturges:

K = 1 + 3.22 log(n)

Cuando los resultados para obtener K en a) y b) son números reales con decimales, entonces se redondearán al entero inmediato mayor.

3. Determinación del tamaño de los intervalos.- Como regla general para encontrar la longitud de los intervalos (del mismo tamaño), divídase el rango de las observaciones entre el número de intervalos de clase, esto es, Amplitud de clase = C = R/K.

4. Determinación de los límites de la clase.- Se debe tomar el resultado numérico más bajo de los datos originales como el límite inferior del primer intervalo de clase. Agregar C para obtener el límite superior de dicha clase.

5. Determinación de la frecuencia de clase.- Consiste en determinar el número de observaciones que caen en cada intervalo de clase.

Técnicas de recuento

El proceso manual de recuento se puede hacer por:

2.5 Frecuencia absoluta simple

Frecuencia absoluta de un dato (fi)

25

Page 27: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Llamaremos frecuencia absoluta de un valor x i de la variable estadística x, al número de veces que aparece repetido dicho valor en el conjunto de las observaciones realizadas.

Ejemplo

Se quiere saber el número de hijos por matrimonio de un pequeño poblado. Para este propósito, se elige una muestra representativa de  50  matrimonios de ella se obtienen los siguientes datos:

2 , 2 , 4 , 1 , 3 , 5 , 3 , 2 , 1 , 6 , 3 , 4 , 1 , 2 , 0 , 2 , 3 , 1 , 7 , 4 , 2 , 3 , 0 , 5 , 1 , 4 , 3 , 2 , 4 , 1 , 5, 2 , 1 , 2 , 4 , 0 , 3 , 3 , 2 , 6 , 1 , 5 , 4 , 2 , 0 , 3 , 2 , 4 , 3 , 1

x i f i

0 41 92 123 104 85 46 27 1

Frecuencia absoluta acumulada de un dato (Fi)

La frecuencia absoluta acumulada indica cuantos elementos de la lista de datos son menores o iguales a un valor dado. Es la suma de las frecuencias absolutas desde la primera fila hasta la fila elegida.

Por ejemplo anterior, sabemos que hay  25  matrimonios de la muestra que tienen 2 o más hijos.

x i f i F i

0 4 41 9 132 12 253 10 354 8 435 4 476 2 497 1 50

2.6 Frecuencia  relativa

26

Page 28: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Frecuencia relativa de un dato ( hi )

La frecuencia relativa es el cociente entre la frecuencia absoluta  ( fi )  y  el número total de datos ( n ).

hi = fi /nEn nuestro ejemplo:

 

x i f i F i h i

0 4 4 0,081 9 13 0,182 12 25 0,243 10 35 0,204 8 43 0,165 4 47 0,086 2 49 0,047 1 50 0,02

Frecuencia relativa acumulada de un dato ( Hi )

La frecuencia relativa acumulada es el cociente entre la frecuencia absoluta acumulada  ( F i )  y el número total de datos  ( n ).En nuestro ejemplo:

 x i f i F i h i H i

0 4 4 0,08 0,081 9 13 0,18 0,262 12 25 0,24 0,503 10 35 0,20 0,704 8 43 0,16 0,865 4 47 0,08 0,946 2 49 0,04 0,987 1 50 0,02 1,00

2.7 Representación grafica de variables cuantitativas

Las más usadas son:

1. Diagrama de barras.

Esta forma de representación gráfica es propia de las distribuciones que tienen muchas observaciones pero pocos valores distintos de la variables.

27

Page 29: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Dicho diagrama se elabora colocando en el eje de las abscisas los distintos valores de la variable y sobre cada una de ellas se levanta una línea perpendicular, cuya altura es la frecuencia (absoluta o relativa) de dicho valor.

2. Histogramas.

Es una representación gráfica de una distribución de frecuencia agrupaciones en intervalos de clase, mediante una serie de rectángulos contiguos que tienen:

28

Page 30: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

a) Sus bases sobre un eje horizontal (eje de las X) con centros en las marcas de clase y longitud igual al tamaño de los intervalos de clase.

b) Las alturas proporcionales a la frecuencia (absoluta o relativa) tomados sobre el eje de las Y.

A veces conviene más graficar en el histograma las frecuencias relativas en lugar de las frecuencias absolutas. En este caso, la altura correspondiente a cada rectángulo que habrá que levantar sobre el eje de ordenadas será el cociente entre la frecuencia relativa del mismo y la amplitud del intervalo. El único cuidado que debe tenerse es que el área total del histograma sea igual a 1, correspondiente a la suma total de áreas de cada rectángulo.

Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores continuos. En los casos en los que los datos son cualitativos (no-numéricos), como sexto grado de acuerdo o nivel de estudios, es preferible un diagrama de sectores.Los histogramas son más frecuentes en ciencias sociales, humanas y económicas que en ciencias naturales y exactas. Y permite la comparación de los resultados de un proceso.

PuntajesX

frecuencia absoluta Marca de Clase

11 – 17 6 1417 – 23 4 2023 – 29 15 2629 – 35 13 3235 – 41 1 3841 – 47 1 44

Total 40

29

Page 31: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

3. Polígono de frecuencia

a) Si la variable es discreta, el polígono de frecuencia se obtienen uniendo los extremos superiores de las barra en el diagrama de barras

b) Si la variable está agrupada en intervalos de clase, el polígono de frecuencia se obtiene uniendo los puntos medios de las bases superiores de cada rectángulo en el histograma.

30

Page 32: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

4. Polígono de frecuencia acumuladas u ojiva

Esta representación es válida para variables estadísticas agrupadas en intervalo clase.

En el eje de las abscisas representamos los distintos intervalos de clase que han de estar naturalmente traslapados. En el extremo superior de cada intervalo se levanta una vertical con altura igual a la frecuencia (absoluta y relativa) acumulada, luego se unen los extremos superiores de las verticales con segmentos rectilíneos. Así por ejemplo el polígono de frecuencia acumuladas absolutas alcanzará su máxima altura en el último intervalo.

31

Page 33: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

2.8 Representación de variables cualitativas

a) Diagrama de rectángulos o de Barras

Se representa en el eje de las abscisas los distintos caracteres cualitativos y se levantan sobre ellos rectángulos de bases iguales que no tiene porque estar traslapados y cuya altura será igual a la frecuencia absoluta correspondiente.

Ejemplo:

FACULTAD NUMERO DE ALUMNOSIngeniería Metalúrgica 200Economía 1500Ingeniería Industrial 3000Contabilidad 800Derecho 700Ciencias de la Comunicación 900Ingeniería de Sistemas 400Ciencias Administrativas 600

Ejemplo:

Causa del AccidenteSexo

TotalMasculino Femenino

Accidentes de transporte 1145 232 1377

Sumersión accidental 346 92 438

32

Page 34: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Caída 242 101 343Envenenamientos 58 43 101Otros accidentes 653 311 964

TOTAL 2444 779 3223

b)

Diagramas de sectores o Gráfico Sectorial

Es una representación de un conjunto de datos estadísticos, en un círculo, por medio de sectores circulares. Es utilizado principalmente cuando se pretende comparar cada valor de la variable con el total.

Causa del AccidenteSexo

TotalMasculino Femenino

Accidentes de transporte 1145 232 1377

Sumersión accidental 346 92 438

Caída 242 101 343Envenenamientos 58 43 101Otros accidentes 653 311 964

TOTAL 2444 779 3223

33

Page 35: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

c) Pictogramas

Es un gráfico con dibujos alusivos al carácter que se está estudiando y cuyo tamaño es proporcional a la frecuencia que representan; dicha frecuencia se suele indicar.

¿En qué mes se plantaron menos árboles?, ¿y en cuál se hicieron más plantaciones?

34

Page 36: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Una variable estadística es una característica de la población que interesa al investigador y que puede tomar diferentes valores.

La variables estadísticas generalmente se denotan con las letras x, y, z, etc.

Ejemplo

35

Page 37: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Peso, Coeficiente Intelectual (CI), Sexo, Edad, etc. y toman distintos valores cuando se observan diferentes individuos.

Importante: Si los valores numéricos que toma una variable, provienen de factores fortuitos (accidental) y si un determinado valor no se puede

predecir exactamente con anticipación, esa variable se denomina “variable aleatoria”.

3.1 Concepto de Variable Cualitativa

Sus valores consisten en categorías de clasificación, o sea se refiere a las cualidades que presenta la población, no lleva clasificación numérica.

Se refieren a propiedades de los objetos en estudio, sean éstos animados o inanimados. Lo que determina que una variable sea cualitativa es el hecho de que no puede ser medida en términos de la cantidad de la propiedad presente, sino que sólo se determina la presencia o ausencia de ella.Por ejemplo: las variables sexo, ocupación , religión, procedencia, estado civil, se consideran cualitativas en vista de que no se les puede asignar mayor o menor peso a las diferentes categorías; lo único que se puede hacer es clasificarlas. A su vez estas variables puede clasificarse en:

Variable Cualitativa Nominal.- Surge cuando se definen categorías y se cuenta el número de observaciones pertinentes a cada categoría y no lleva ninguna ordenación en las posibles modalidades.

Ejemplo:

36

Variable CategoríasEstado marital Soltero

CasadoDivorciado

ViudoUnión libre

Orientación en el tiempo PresentePasadoFuturo

Color de ojos CastañosAzules

Negros, etc.Partidos políticos UN

MASMSM, etc.

Page 38: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Variable Cualitativa Ordinal.-Cuando el investigador busca ordenar sus casos en términos del grado que poseen una determinada característica. Es decir se clasifican los objetos, hechos o fenómenos en forma jerárquica según el grado que posea una característica determinada, sin proporcionar información sobre la magnitud de las diferencias entre los casos así clasificados.

Ejemplo

3.2 Razón

La Razón es el cociente de dos cantidades entre sí, que representan dos variables sujetas a comparación de unidad vs. Unidad.

Ejemplo:

Se debe determinar que variable será la unidad, es decir el denominador.

37

Variable Categorías

Clase social Alta, media, baja. Nota de un examen Excelente, bueno, malo, pésimoPuesto en una prueba deportiva 1o, 2o, 3º,...Medallas en una prueba deportiva Oro, Plata, Bronce

Atención hospitalaria

Mujeres Hombres

15 10 25

Total

Page 39: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

a) En el caso de que la unidad corresponda a Mujeres, el denominador de las dos variables será el número de las 15 Mujeres, realizándose las operaciones de la siguiente manera:

15/15 = 1 10/15 = 0,67 1 : 0,67 Mujeres : Hombres

La interpretación de estas cifras no refiere que por cada mujer atendida se atendió un poco más de la mitad de un hombre, sino que hay menos hombres en la consulta que mujeres.

b) Si se decide que la unidad serán los hombres, el planteamiento es:

10/10 = 1 15/10 = 1,5 1 : 1,5 Hombres : Mujeres

Se aprecia que hay más mujeres atendidas que hombres.

Los resultados nos pueden dar las siguientes variaciones:

1 : 0,67 0,67 : 1 Mujeres : Hombres Hombres : Mujeres

1 : 1,5 1,5 : 1 Hombres : Mujeres Mujeres : Hombres

En todos los casos podemos inferir que hay más mujeres, aunque no sabremos cuántas mujeres u hombres hay en el universo estudiado. La razón es aplicada para valorar el crecimiento o la disminución de la población.

Ejemplo:

En el año 2002, según el Centro Nacional de Epidemiología se declararon los siguientes casos de legionelosis (enfermedad bacteriana ambiental):

Comunitario(adquirida en la comunidad)

Nosocomial(adquirida en centros de salud)

Total

Casos Defunciones Casos Defunciones Casos Defunciones

372 9 29 5 401 14

Casos de Legionelosis adquirida en la comunidad / casos de legionelosis nosocomiales

372 / 29 = 12,8

Por cada caso de legionelosis nosocomial hay 12,8 casos comunitarios

38

Page 40: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Defunciones por legionelosis comunitario / defunciones por legionelosis nosocomiales

9 / 5 = 1,8

Por cada defunción por legionelosis nosocomial hay 1,8 defunciones por legionelosis comunitario.

3.3 Proporción

Se utiliza como estimación de la probabilidad de un evento. Es la relación de dos cifras, cuando una de ellas es una parte que se divide por el total, lo que se puede explicar mejor, si tomamos las cifras del primer ejemplo

Total = 25 pacientesParte = 15 mujeresParte = 10 hombres

La proporción de las mujeres se obtiene dividiendo el número 15 entre el total de los pacientes atendidos.

Proporción de mujeres: 15/25 = 0,6

Para el caso de los varones tendremos:

Proporción de hombres: 10/25 = 0,4Si observamos en la siguiente tabla las proporciones serán:

Mediante estas medidas tenemos idea de la proporción, pero al igual que en las razones, ignoramos cuantas mujeres o varones existen en éste universo. En las proporciones la suma de todas las partes siempre alcanzará la Unidad, por tanto una proporción no excede la unidad.

Con el segundo ejemplo tendríamos:

39

Atención hospitalaria

Sexo

Proporción

Mujeres 0,6

Hombres 0,4Total 1,0

Page 41: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Legionelosis Casos Proporción Defunciones Proporción

Comunitario 372 0,93 9 0,64Nosocomial 29 0,07 5 0,36

Total 401 1,00 14 1,00

3.4 Porcentajes

El porciento es el resultado de multiplicar la proporción por 100, así siguiendo con el primer Ejemplo si tenemos las proporciones para mujeres y hombres.

Mujeres 0,6 le corresponde 60%Hombres 0,4 le corresponde 40%

Nótese que observando los porcentajes, tampoco se sabe “CUANTAS” personas existen, sólo sabemos que hay más mujeres que hombres. La suma de todos los porcentajes hacen mucho mas “manejables” las cifras de las proporciones, por qué se puede apreciar mejor un 40% que un 0,4%.

3.5 Tasas

Esta medida, indicador o número índice es una proporción en la que se relaciona como “parte” un hecho vital que frecuentemente tiene que ver con los nacimientos, muertes, migraciones, estado civil, enfermedades con un “total” que suele ser la población y cuyo cociente se multiplica por 100,1000, 10.000 o 100.000 de acuerdo a la magnitud de denominador para hacer comprables las tasas.

Las tasas tienen dos características importantes: Tiempo y lugar.

Tiempo.-

Es el hecho vital que se estudia durante un año determinado, un mes, semana o día, ejemplos: 1991, Diciembre, 2da semana de Octubre, el 3 de Febrero.

Lugar.-

Puede ser un país, una provincia, un Departamento, una ciudad o un barrio.

40

Atención hospitalaria

Sexo

Proporción Porcentaje

Mujeres 0,6 60%

Hombres 0,4 40%

Total 1,0 100%

Page 42: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Los dos componentes permiten que las tasas puedan ser utilizadas para comparar los hechos vitales entre dos zonas geográficas distintas o similares, así como también entre dos épocas distintas.

El resultado de una tasa tampoco indica que cantidad del hecho vital se dio, el numeral de la tasa lo mismo que las proporciones y las razones, nos ayudan a comparar eventos, casuística, comportamiento entre distintas poblaciones sin importar su totalidad. Así, si dos países, uno de 40 millones de habitantes y otro de 5 millones, tienen una tasa de natalidad del orden de 23 por 100.000, haciendo abstracción de la cantidad de habitantes, podemos concluir de que en ambos países, el comportamiento de los nacimientos es similar.

Ejemplo:

Según el Instituto Nacional de Estadística, en el año 2002 se encontraba censada en España una población de 41.837.894 personas.

a) Tasa de legionelosis en el año 2002 en España

Casosde LegionelosisPoblación(Universo)

x100.000

40141.837 .894

x100.000

= 0,96

Es decir que 0,96 personas padecieron legionelosis en el año 2002 en España por cada 100.000 habitantes.

b) Tasa de mortalidad por legionelosis en España en 2002

Defunciones por LegionelosisPoblación(Universo)

x100.000

1441.837 .894

x100.000

= 0,033

Es decir que 0,033 personas fallecieron por legionelosis en España en 2002 por cada 100.000 habitantes.

41

Page 43: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

42

Page 44: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

4.1 Concepto de Variables Cuantitativas

Son aquellas cuya magnitud puede ser medida en términos numéricos, esto es, que los valores de los fenómenos se encuentran distribuidos a lo largo de una escala.Por ejemplo, las variables edad, peso, talla, escolaridad, son cuantitativas debido a que se les puede asignar mayor o menor peso a cada una de ellas; tomando por ejemplo la edad, se puede afirmar que una persona que tiene 50 años representa en doble en edad de una que tiene 25 años.

Las variables cuantitativas se clasifican en:

Variables Continuas.- Son aquellas cuya unidad de medición utilizada en la escala puede ser subdividida en forma infinita.

Ejemplo:

- Estatura de los estudiantes de la U.S.B.Si la unidad de medición es el metro éste puede ser subdividido en centímetros y milímetros.

- Nivel de colesterol de ciertos pacientes del hospital Obrero Variables Discontinuas o Discretas.- Son aquellas que pueden tomar

solamente un número finito de valores, debido a que la unidad de medición no puede ser fraccionada.

Ejemplo:

- Número de hijos (los hijos no pueden fraccionarse).- Número de monedas que una persona lleva en su bolsillo.- Número de admisiones en un hospital durante un día determinado.- Número de accidentes automovilísticos que se producen en una

ciudad.

Sumatorias

La suma de los valores de la variable x: x1 , x2 ,. .. , xn , se define mediante la notación ∑ e indica que han de sumarse los elementos de la sucesión desde el subíndice i = 1 hasta el subíndice n, esto es:

∑i=1

n

xi=x1+x2+. ..+xn

43

Page 45: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Tarea

Tarea

Ejemplo:

∑i=1

4

(i−1 )=(1−1 )+(2−1 )+ (3−1 )+( 4−1 )=6

¡Hazlo tú!

∑i=1

5

6i=

Nótese que el elemento típico de la sumatoria es una función únicamente del índice de la sumatoria. Si algún otro símbolo aparece en la fórmula del

elemento típico, debe considerarse constante.

Suponga que se seleccionan n = 5 compañías cerveceras del total en el país. Sus tasas de ganancia, como porcentaje de precio de venta, son respectivamente 12.2, 10.8, 12.1 y 11.3. Represente simbólicamente estas cantidades como

x1=12 . 2 x2=10.8 x3=10. 4 x4=12 .1 x5=11.3

a) Hallar ∑i=1

5

xi

b) Hallar

∑i=1

5

x i

5

c) Hallar ∑i=1

5

x2i

Propiedades de la Sumatoria

44

Page 46: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

1.∑i=1

n

C=C+C+C+. ..+C=nC, donde C es una constante

2.∑i=1

n

Cx i=C∑i=1

n

x i

3.

a )∑i=1

n

(x i+ y i )=∑i=1

n

x i+∑i=1

n

y i

b )∑ (x i+ y i+zi )=∑i=1

n

x i+∑i=1

n

y i+∑i=1

n

zi

4.∑i=1

n

( xi+Cyi )=∑i=1

n

xi2+2C∑

i=1

n

xi y i+C2∑i=1

n

yi2

4.2 Medidas de tendencia central

Clasificados los datos originales se debe Calcular un conjunto de indicadores

Caracterizan en forma algo mas precisa la distribución que se estudia. Para esto se dispone de estadígrafos

- Representan valores centrales en torno de los cuales se agrupen las observaciones, llamadas usualmente promedios.

- Utilidad: análisis y comparación de una distribución.Medida de tendencia central

Es un índice de localización central empleado en la descripción de las distribuciones de frecuencias.

…también sirve como una base para medir y evaluar valores anormalmente altos o anormalmente bajos (o valores extremos),

Características del valor central

1. Debe estar definido en forma objetiva.2. debe depender de toda la información obtenida en lo posible.3. debe ser fácil de comprender (no debe tener un carácter abstracto) y de

interpretar.4. Debe ser fácil de calcular.5. Debe ser estable (no debe se sensible a fluctuaciones). 6. Debe ser adecuado a cálculos algebraicos posteriores.

4.2.1 Tipos de Promedio

Los promedios más usuales son:

45

Page 47: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Tarea

n

xX

n

ii

1

a) La media aritmética o mediab) La medianac) La modad) La media geométricae) La media cuadráticaf) La media armónica

4.2.2 Media Aritmética – Datos no agrupados

Sea x1 , x2 ,. .. , xn , valores de la variable X. La media aritmética simple de X representada por X es dada por:

donde n es el tamaño de la muestra o número de elementos del conjunto de observaciones.

Ejemplo:

Consideremos 10 pacientes de edades 21 años, 32, 15, 59, 60, 61, 64, 60, 71, y 80.

La media de edad de estos sujetos será de:

Encuentre la medida aritmética de las observaciones: 3, 4, 7, 8, 2

4.2.3 Media Aritmética – Datos agrupados

Sean x1 , x2 ,. .. , xk valores de la variable X ponderados por sus respectivas

frecuencias absolutas: f 1 , f 2 , . .. , f k . La media de la variable X es dado por:

46

Page 48: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

X=∑i=1

k

f i x i

n o X=

∑i=1

k

hi xi

n

donde n=∑

i=1

k

f i y h1 ,h2 ,. . ., hk son las frecuencias relativas respectivas.

Ejemplo

Si tenemos la siguiente distribución, se pide hallar la media aritmética, de los siguientes datos expresados en kg.

xi fi xi fi

54596364

2341

10817725264

Total 10 601

X=∑i=1

k

f i x i

n=601

10=60. 1kg

Ejemplo

Clases fi Marca de clase

Xi

fixi

[30,40] 3 35 105(40,50] 2 45 90(50,60] 5 55 275Total 10 470

X=∑i=1

k

f i x i

n=470

10=47

4.2.4 Propiedades de la media Aritmética

47

Page 49: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

1. La suma de las desviaciones (diferencias) entre los valores de la variable X y su media aritmética X es ceros, esto es:

∑ f i (x i−x)=0

2. Para un conjunto dado de observaciones, la media es única.

3. La media es sensible ( o afectada) por los valores del conjunto. Así, si un valore se modifica, la media aritmética X también se modifica.

4. La suma de los cuadrados de las desviaciones entre los valores de la variable X y de su mediad aritmética X es mínima, esto es:

∑i=1

k

f i (x i−x)2≤∑ f i (x i−B )2, para cualquier constante B

5. Si a los valores de una valores de una variable X se resuma o se le resta una constante C, entonces la media aritmética X quedará aumentada o disminuida en la constante C, esto es:

Y=X±C⇒Y=X±C

6. Si fueran multiplicados o divididos los valores de una variable X por una constante C, entonces la media de X, X , quedará multiplicada o dividida por esta constante, esto es:

Y=CX⇒Y=C X

7. En general, si Y=bX±C⇒Y=b X±C

Ventajas e inconvenientes:

- La media aritmética viene expresada en las mismas unidades que la variable.

- En su cálculo intervienen todos los valores de la distribución.- Es el centro de gravedad de toda la distribución, representando a

todos los valores observados.- Es única.- Su principal inconveniente es que se ve afectada por los valores

extremadamente grandes o pequeños de la distribución.

Ejemplo

48

Page 50: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

En una empresa donde los salarios tienen una media de 100000 el sindicato solicita que cada salario X, se transforma en Y, mediante la siguiente.

Y=2. 5 X+100

El directorio acoge parcialmente la petición rebajando los salarios propuestos por el sindicato en un 10%, lo que es aceptado. Se pide calcular la media aritmética de la nueva distribución de salarios.

Solución

Tenemos: X=100000

Si Y=2. 5 X+100⇒Y=2. 5 X+100=2 . 5 (100000 )+100=250100

El salario propuesto por el directorio es:

Z=Y−10%Y=0 .9Y ⇒Z=0.9Y= (0.9 ) (250100 )=225090

Luego, la media de la nueva distribución de salarios es: 225090

A) Primer proceso abreviado para el calculo de la media

Sea Ot (el origen de trabajo) el valore más frecuente de la variable de X o que

está hacia el centro de la distribución de frecuencias, y sea d i=x i−Ot (∀ i=1,2, . .. , k ) las desviaciones de x i respecto a Ot entonces

x i=d i+OtLuego

X=∑i=1

k

f i x i

n=1n∑ f i (d i+Oi )=

1n∑ [ f id i+Ot f i ]

49

X=Ot+∑i=|

k

f id i

n

Page 51: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

nf

COX iit

nf

COX iit

B) Segundo proceso abreviado para el de la media

Este procedimiento es particularmente útil para ser aplicado cuando los valores de X son grandes y la amplitud de clase constante. Como veremos, el uso de éste proceso nos ofrece rapidez y facilidad en los cálculos.

Primer Paso: Se efectúa el cambio de variable de X a μ , utilizando la siguiente fórmula:

μ=

x i−O t

C 1)

donde: x i=valores de la variable Ot = origen de trabajo

μi =Valores transformados C = amplitud del intervalo de clase

Segundo Paso: Cálculo de la mediana X

Tenemos: de 1): x i=Ot+Cμi

Entonces X=1

n∑ f i xi=1nf i (O t +Cμi )=

1n [∑ f iOt+C∑ f i μi ]

Por tanto:

4.2.5 Medida Ponderada

Hay ocasiones en que se requiere expresar en una sola cifra los resultados de varios grupos de datos, cada uno de los cuales ha sido resumido previamente mediante un promedio. Tal es el caso de las muestras estratificadas, en las cuales se calcula un promedio para cada estrato. En dichas ocasiones, el promedio general para los diferentes grupos no se obtiene promediando los promedios parciales, sino que es necesario tener en cuenta el numero de observaciones en que se basa cada promedio. Tal promedio recibe el nombre de medida ponderada y es definida como sigue:

50

Page 52: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Me = Mediana

r

ii

r

iii

p

p

xpX

1

1

Sean X1 , X2 ,. . . ,X r , las medias aritméticas de r subconjuntos menores, cada uno

con n1 ,n2 ,. . ., nr observaciones respectivamente. La media aritmética del conjunto formado por los términos de los r subconjuntos es dado por la fórmula:

X p=n1 X1+n2 X2+. ..+nr Xr

n1+n2+. ..+n3=∑j=1

r

n j X j

n

donde: n=∑

i=1

r

n j

En general, si p1 , p2 , .. . , pr son los pesos asociados a los valores de la variable X : x1 , x2 ,. .. , xr respectivamente, entonces la media ponderada será:

Ejemplo:

Supongamos que en una ciudad en particular hay dos precios de pan, 0.80 centavos en los supermercados que vende 10000 unidades, y un centavo en las panaderías que venden 1000 unidades. Hallar el promedio ponderado del precio del pan:

Solución

Tenemos: X p=

(0 . 80 ) (10000 )+(1. 00 ) (1000 )10000+1000

=900011000

=0 . 8182

Por tanto, el precio promedio del pan es de 0.8182.

4.2.6 Mediana

La mediana es un valor que divide a un conjunto de observaciones ordenadas en forma ascendente o descendente en dos grupos de igual número de

observaciones. La notación que vamos a emplear será:

51

Page 53: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

En el cálculo de la mediana, podemos considerar los 3 casos siguientes:

La variable en estudio es discreta y n (numero de observaciones) es impar.

Me=n+12

Ejemplo:

En un estudio que se realizó en un asilo de ancianos, se tomó las edades de los envejecí entes que pueden caminar sin dificultades. Buscar la mediana de las siguientes edades. 

69   73   65   70   71   74  60   62 78

Solución

Ordenando estos valores de acuerdo a la magnitud que tenemos:

60

62

65

69

70

71

73

74

78

donde n = 9

entonces Me= n+1

2=9+1

2=5

to, ⇒ Me = 70

La edad de 70, que es la mediana, ocupa el lugar central de la distribución, que deja el 50% de observaciones hacia la izquierda y el 50% a la derecha.

La variable en estudio es discreta y n (numero de observaciones) es par.

En este caso no, no existe e la ordenación un valor de la variable que ocupe la posición central, esto es, la mediana es indeterminada, pues cualquier valor

comprendido entre los valores que ocupan la posición

n2y n

2+1

Por tanto por convención la mediana es:

Me=

x n2

+x n2+1

2

52

Caso

Caso

Page 54: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Ejemplo

Buscar la mediana de los siguientes números:

25   15   28   29   25   26   21   26Solución

Arreglando estos valores en orden creciente tenemos:

15 21 25 25 26 26 28 29

Calculamos los valores que ocupan las posiciones:

n2y n

2+1

, esto es:n2=8

2=4 to

n2+1=8

2+1=5 to

Luego:

Me=

x n2

+x n2+1

2=25+26

2=25. 5

E valor 25.5, que es la mediana, ocupa el lugar central de la distribución, que deja el 50% de observaciones hacia la izquierda y el 50% a la derecha.

La variable es continua.

En este caso el problema consiste en determinar un punto dentro del intervalo en que está comprendido la mediana.

Procedimiento

1er Paso. Calcular la posición de orden

n2 . Como la variable es continua,

no se debe preocuparse si n es par o impar

2do paso. Por las frecuencias acumuladas se identifica la clase que contiene a la mediana, esto es, la clase para el cual se cumple:

Fk−1≤n2<Fk

53

Caso

Page 55: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Con lo cual la mediana estará en la clase que tiene como frecuencia

acumulada Fk .

3er Paso. Utilizar la fórmula:

Me=lmed+( n2−Fk−1

Fk−Fk−1)∗Cmed

donde:lmed=Límite inferior de la clase que contiene a la mediana.n = Tamaño de la muestra.Cme=Amplitud de la clase que contiene a la mediana.Fk=Frecuencia acumulada de la clase que contiene la mediana.Fk−1=Frecuencia acumulada de la clase inmediatamente anterior a la

clase que contiene a la mediana

Ejemplo:

Clases [35 , 45>¿ ¿ [ 45 ,55>¿ ¿ [55 ,65>¿ ¿ [65 ,75>¿ ¿ [75 ,85>¿ ¿ [ 85 ,95>¿ ¿f i 5 12 18 14 6 3

Hallar la mediana.

Solución

Clases f i F i

[35 , 45>¿ ¿ 5 5

[ 45 ,55>¿ ¿ 12 17

[55 ,65>¿ ¿ 18 35

[65 ,75>¿ ¿ 14 49

[75 ,85>¿ ¿ 6 55

[ 85 ,95>¿ ¿ 3 58Total 58

Paso 1:

n2=58

2=29vo

posición

54

Page 56: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

0% 25% 50% 75% 100%

Q1 Q2 Q3

Paso 2: Fk−1≤

n2<Fk

⇒ F2=17≤29vo<F3=35

Paso 3:

Me=lmed+( n2−Fk−1

Fk−Fk−1)∗Cmed=55+(29−17

35−17 )∗10=61.67

4.2.7 Cuartiles

Los cuartiles son valores que dividen a un conjunto de datos ordenados en forma ascendente o descendente en cuatro partes iguales.

Q1 = 1er cuartil, deja 25% de las observaciones menores o iguales a él y el 75% superiores a él.Q2 = 2do cuartil, coincide con la medianaQ3 = 3er cuatil, deja 75% de las observaciones inferiores o iguales a él y el 25% de éstas superiores a él.Utilizaremos los cuartiles solamente para datos agrupados en intervalos de clase.

Determinación de Q1:

1er Paso: Se calcula

n4

2do Paso: Se identifica la clase que contiene a Q1 por medio de las frecuencias acumuladas, esto es, por la desigualdad.

Fk−1≤n4<Fk

3er Paso: Se aplica la fórmula

Q1=lQ1+( n

4−Fk−1

F k−F k−1)¿CQ1

o

55

Page 57: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Q1=lQ1+( 1

4−H k−1

H k−H k−1)¿CQ1

(Cuando se usa frecuencias acumuladas relativas)

donde:

lQ1=

Límite inferior de la clase que contiene a Q1.n = Tamaño de la muestra.CQ1

=Amplitud de la clase que contiene al primer cuartil.

Fk=Frecuencia acumulada de la clase que contiene al primer cuartil.Fk−1=Frecuencia acumulada de la clase inmediatamente anterior a la

clase que contiene al primer cuartil.

Determinación de Q3:

1er Paso: Se calcula

3n4

2do Paso: Se identifica la clase que contiene a Q3 por medio de las frecuencias acumuladas, esto es, por la desigualdad.

F j−1≤3n4

<F j

3er Paso: Se aplica la fórmula

Q3=lQ3+( 3n

4−F j−1

F j−F j−1)¿CQ3

o

Q3=lQ3+( 3

4−H j−1

H j−H j−1)¿CQ3

(Cuando se usa frecuencias acumuladas relativas)

donde:

lQ3=

Límite inferior de la clase que contiene a Q3.

56

Page 58: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

D1 D2 D3 D4 D5 D6 D7 D8 D9

n = Tamaño de la muestra.CQ3

=Amplitud de la clase que contiene a Q3.

F j=Frecuencia acumulada de la clase que contiene a Q3.F j−1=Frecuencia acumulada de la clase inmediatamente anterior a la

clase que contiene Q3.

4.2.8 Deciles

Los deciles son valores que dividen a un conjunto de datos ordenados en forma ascendente o descendente en 10 partes iguales.

D1 = 1er decil, deja 10% de las observaciones menores o iguales a él. D2 = 2do decil, deja 20% de las observaciones menores o iguales a él . . . . D9 = 9no decil, deja el 90% de las observaciones menores o iguales a él.

Para determinar los deciles seguimos los siguientes pasos:

1er Paso: Se calcula

i∗n4 , donde i = 1,2,…,9

2do Paso: Se identifica la clase que contiene los deciles por medio de las frecuencias acumuladas, esto es, por la desigualdad.

Fk−1≤i∗n

4<Fk

3er Paso: Se aplica la fórmula

Di=lDi+( i∗n10

−F k−1

Fk−F k−1)¿CD i

donde:

57

Page 59: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

lDi=

Límite inferior de la clase que contiene a Di, i = 1,2,…,9n = Tamaño de la muestra.CDi

=Amplitud de la clase que contiene a Di.

Fk=Frecuencia acumulada de la clase que contiene a Di.Fk−1=Frecuencia acumulada de la clase inmediatamente anterior a la

clase que contiene Di.

4.2.9 Percentiles

Son valores que dividen la muestra ordenada en forma ascendente o descendente en 100 partes iguales.

P1 = 1er percentil, deja 1% de las observaciones menores o iguales a él y el 99% superiores a él . . . P99 = 99avo percentil, deja el 99% de las observaciones menores o iguales a

él y el 1% superiores a él

Para calcular los percentiles se siguen los siguientes pasos:

1er Paso: Se calcula

i∗n100 , donde i = 1,2,…,98,99.

2do Paso: Se identifica la clase que contiene los Pi por la frecuencia acumulada, esto es, por la desigualdad.

Fk−1≤i∗n100

<Fk

3er Paso: Se aplica la fórmula

58

1% 2% 50% 98% 99% 100%

P1 P2 P50 P98 P99

Page 60: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Pi=lPi+( i∗n100

−F k−1

Fk−F k−1)¿C Pi

donde:

lPi=Límite inferior de la clase que contiene a Pi, i = 1,2,…,99n = Tamaño de la muestra.CPi

=Amplitud de la clase que contiene a Pi.

Fk=Frecuencia acumulada de la clase que contiene a Pi.Fk−1=Frecuencia acumulada de la clase inmediatamente anterior a la

clase que contiene Pi.

4.2.10 La Moda

Es un valor de la variable que tiene la más alta frecuencia, esto es, es el valor más frecuente de la distribución.

Nota.- La moda no siempre existe y no siempre es única

Ejemplo

Considere los pesos (en kilos) de 9 adultos

82, 65, 59, 74, 60, 67, 71, 73 y 70

Estas nueve medidas no definen una moda.

Ejemplo

Considere la distribución de los pesos de 15 adultos

63, 67, 70, 69, 81, 57, 63, 73, 68, 63, 71, 71, 71, 83

El valor 63 y 71 ocurren 3 veces, y el resto ocurre una vez cada uno. Luego la moda de estas observaciones es:

Mo = 63 Kilos y Mo = 71 Kilos

En este caso la distribución se llamará bimodal.

En general, se tiene lo siguiente:

59

Page 61: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

i) La distribución que tiene una sola moda se llama unimodalii) La distribución que tiene dos modas se llama bimodaliii) La distribución que tiene más de dos modas se llama multimodal

Propiedades del moda

1) El valor de la moda es totalmente independiente de los valores extremos.2) La moda es una medida inestable porque varía si se cambia el intervalo de

clase.3) Su significado es imitado cuando no se dispone de un gran número de

valores.4) Es el valor típico y por ello el promedio más descriptivo.5) La moda no se presta a manipulaciones algebraicas posteriores.

Cálculo de la Moda: caso de datos agrupados en intervalos de clase

Para datos agrupados en intervalos de clase, tenemos diversas fórmulas para el cálculo de la moda. Aquí presentamos dos procesos:

1er Proceso: Fórmula Czuber

1er Paso: Se identifica la clase modal (la clase con mayor frecuencia)

2do Paso: se aplica la fórmula:

Mo=lMo+( Δ1

Δ1+Δ2)∗CMo

donde:

lMo = límite inferior de la clase modalΔ1 = fMo−f 1 (f 1 = frecuencia de la clase inmediatamente anterior a

la clase modal)

fMo = frecuencia de la clase modalΔ2 = f Mo− f 2 (f 2 = frecuencia de la clase inmediatamente posterior

a la clase modal)

CMo= amplitud de la clase modal

Ejemplo

Intervalo de fi

60

Page 62: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

ClaseMo

clase[ 0,1>¿ ¿ 3

[1,2>¿ ¿ 10

[2,3>¿ ¿ 17

[3,4>¿ ¿ 8

[ 4,5>¿ ¿ 5TOTAL 43

Solución

1er Paso.- El intervalo de clase de mayor frecuencia absoluta es 17 es el

tercer [2,3>¿ ¿2do Paso.- Aplicando la fórmula:

Mo=lMo+( Δ1

Δ1+Δ2)∗CMo

Δ1 = f Mo−f 1=17−10=7

Mo=2+( 77+9 )∗1 Δ2 = fMo− f 2=17−8=9

Mo=2 .44 CMo=1

2do Proceso: Determinación gráfica de la moda. En este caso, es necesario construir el histograma de la distribución, identificar la clase modal (aquella clase con mayor altura) y hacer la construcción que a continuación se indica.

4.2.11 Relación entre la Media, Mediana y Moda

61

Page 63: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

1. Distribución Simétrica. Se dice que una distribución de frecuencias es simétrica cuando valores de la variable equidistantes de una valor central tienen las mismas frecuencias. Es importante destacar es este caso que.

X=Me=Mo

2. Para un distribución sesgada hacia la derecha (si la cola mayor se presenta a la derecha de la curva)

X>Me>Mo

Para una distribución sesgada hacia la izquierda tenemos:

X<Me<Mo

4.2.12 Encogimiento entre la Media, Mediana y la Moda.

De las tres medidas de posición central, la media aritmética suele ser más frecuentemente utilizado, quizá por la facilidad de su cálculo a pesar de que en muchas ocasiones la mediana o la moda resultan de mayor interés.

a. La media aritmética como medida de resumen tiene la ventaja de tomar en cuenta la totalidad de los valores de la serie, aumentando o disminuyendo de acuerdo con ellos, pero a causa de esta propiedad, puede ser desventajosamente afectado por la existencia de valores anormalmente altos o anormalmente bajos. Por regla general, sin embargo, puede decirse que cuando la serie es más o menos simétrica, el promedio debe ser preferido a cualquier otra medida de resumen.

62

Page 64: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

n fk

ffG

kxxxX **** 2121

b. La mediana por su parte debe ser utilizada cuando entre los valores que se estudian, hay alguno muy diferente de los otros. Si por ejemplo, el tiempo de hospitalización, de 5 niños con gastroenteritis fuera respectivamente 2,3,4,6, y 30 días; el valor último, debido tal vez a alguna complicación de la enfermedad, hace aparecer la permanencia en el hospital mucho más larga de lo que generalmente es. El promedio:

X=2+3+4+6+305

455

=9 días, es engañoso, pero en cambio la mediana, que

es x = 4 días, tiene la ventaja de no tomar en cuenta los valores extremos, dando una impresión más acorde con lo usual.

Hay además ocasiones en que debe usarse la mediana por no ser posible el cálculo del promedio. Tal sucede en aquellas distribuciones en las cuales la primera o la última clase no tienen limites precisos. Exceptuando estas aplicaciones, la mediana no tiene ninguna ventaja sobre la media aritmética, pues su valor depende solamente del número de términos sin tomar en cuenta los valores numéricos de estos.

c. La moda no es una medida de tendencia central muy usual, pero se emplea cuando el interés se centra en conocer el valor que se presenta más frecuentemente. Por ejemplo en los negocios, sirve para determinar qué tamaño del producto es el de mayor demanda. Similarmente para programar la producción de un medicamento el fabricante estará interesado en ¿cuál es la dosis más comúnmente recetada por los médicos?.

4.2.13 Media Geométrica

Se define como la raíz de índice de la frecuencia total cuyo radicando es el producto de las potencias de cada valor de la variable elevado a sus respectivas frecuencias absolutas, se denota por G; suele utilizarse cuando los valores de la variable siguen una progresión geométrica. También para promediar porcentajes, tasas, nº índices, etc. siempre que nos vengan dados en porcentajes y se calcula mediante la siguiente fórmula:

Fórmula que algunas veces es conveniente expresarla en forma logarítmica. El logaritmo de la media geométrica es la media aritmética de los logaritmos de los

valores de la variable. El problema se presenta cuando algún valor es 0 ó negativo y exponente de la raíz par ya que no exista raíz par de un número negativo, entonces la fórmula anterior se presenta de la siguiente manera.

63

Page 65: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

log10 (XG )= log10 (G )=f 1 log10 x1+ f 2 log10 x2+. ..+ f k log10 xk

n=∑n

k

f i log10 x i

n

Luego, XG=G=Anti log.(∑n

k

f i log10 xi

n )Ejemplo:

Calcule la media geométrica de las observaciones maestrales: 3, 6, 12, 24, 48

Solución

Propiedades de la media geométrica

Si se define una variable Zi=

x iy i⇒G z=

G x

G y

Es única Utiliza todos los elementos Sólo se puede calcular con variables cuantitativas positivas Su logaritmo es la media aritmética de la variable log X Es el centro de gravedad de la distribución en términos

multiplicativos Es más robusta que la media a valores grandes pero no a los

pequeños y siempre toma valores mas pequeños que la media aritmética

No es invariante por cambios de origen y escala Es útil para promediar tasas, porcentajes, tipos de interés y, en

general, en todas aquellas situaciones en las que la variable analizada presente variaciones acumulativas

En demografía, para estimar la población de una determinada localidad en un año t, cuando se supone crecimiento geométrico

entre dos censos, se usa la fórmula:

64

XG=n√ x

1f 1∗x

2f 2*** x

kf k=5√3∗6∗12∗24∗48= 5√248832=12

Page 66: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Donde P0 es la población en el primer censo, realizado en la fecha t0; P1 es la población en el segundo censo, realizado en la fecha t1 y Px es la población que se quiere determinar en la fecha tx.

Si se quiere determinar la población en el centro de período (t 0 , t 1) esto es, para

t x=t1+ t0

2⇒t x−t 0=

t1+t 0

2−t0=

t1−t 0

2

Luego, t x− t0t 1−t0

=12⇒ px=p0( p1

p0)1/2

=√ p0 p1

esto es,px es la media geométrica de p0 y p1

Ejemplo:

Un país tiene en 1970 una población de 6.5 millones lo que sube en 1980 a 8 millones. ¿Cuál es la población media del período?

Solución:

Aplicando la última fórmula para Px tenemos

px=√ p0 p1=√6 .5∗8=7 .21

4.2.14 Media Armónica

Sean x1,,x2,..., xk, valores de la variable X, asociadas a las frecuencias absolutas f1,f2,…,fk respectivamente. La media armónica de X es dado por:

XH=H= nf 1

x1+f 2

x2+.. .+

f kxk

= n

∑i=1

k f ix i

65

Page 67: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Donde:

n = ∑i=1

k

f i

Esta media, como la media geométrica, solo es aplicable a ciertos tipos de problemas. Se utiliza para promediar velocidades, tiempos, rendimiento, etc.

(cuando influyen los valores pequeños). Su problema: cuando algún valor de la variable es ó próximo a cero no se puede calcular

Ejemplo:

Un automóvil recorre los primeros 10 kilómetros a razón de 30 km/h, y los 10 kilómetros siguientes a razón de 60 km/h. Determinar la velocidad media durante todo el trayecto.

SoluciónA primera vista muchos pensarían que la velocidad media sería igual a

X=30+602

=45km/h .

Sin embargo, al recordar que la velocidad definida como la distancia total recorrida multiplicado por el tiempo gastado en el trayecto, es fácil percibir que el resultado anterior incorrecto.

A la razón de 30 km/h, el automóvil gastó 20 minutos para primeros 10 kilómetros, y a razón de 60 km/h, gastó 10 minutos. Por lo tanto el carro recorrió un total de 20 km en 20 + 10 = 30 minutos = 0.5 horas, a una velocidad media de:

20 .5

=40km/h

Este resultado puede ser obtenido directamente calculando media armónica entre las dos velocidades. Así tenemos:

H= 21

30+ 1

60

= 23

30

=1203

=40km /h

Propiedades de la media armónica

La media armónica se basa en todas las observaciones por lo que está afectada por todos los valores de la variable. Da a los valores

66

Page 68: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

extremadamente grandes un peso menor que el que les da la media geométrica, mientras que a los valores pequeños les da un peso mayor que el que les da tanto la media aritmética como la media geométrica.

La media armónica esta indeterminada si alguno de los valores es cero, pues hallar el recíproco de cero implica dividir entre cero, lo cual no es válido. La media armónica está rígidamente definida y siempre es definitiva, excepto cuando uno de los valores es cero.

La media armónica es el promedio que se ha de usar, cuando lo que se va a promediar son proporciones donde los numeradores de las razones son los mismos para todas las proporciones.

La media armónica se presta a manipulaciones algebraicas posteriores

H<G<X , siempre que se trate de lamisca serie y cuando los términos son iguales.

4.2.15 Media Cuadrática

Cuando se observa una distribución hay veces que no nos interesa tener en cuenta la influencia del signo de los valores de la variable. Es típico en el caso de los errores, ya que el error es error tanto en más como en menos. Este problema

se resuelve utilizando la media cuadrática.

X c=√ f 1 x12+ f 2 x22+.. .+ f k xk2

n=[∑i=1

k

f i xi2

n ]4.3 Medidas de dispersión o concentración

En las secciones precedentes, se ha centrado la atención en un método básico para describir un conjunto de datos, el promedio que resume los da tos en un solo valor.

En este aparado se describiremos otras medidas estadísticas necesarias para mostrar como varían los datos alrededor del promedio, ya que esta variación es a veces tan importante como el mismo promedio.

Por ejemplo, si consideramos dos ciudades A y B que tienen el mismo ingreso me-dio por habitante. ¿Este simple hecho de igualdad de las dos medias permite concluir que la situación económica de las dos ciudades es la misma?. Evidentemente que no, pues, esta igualdad podría existir aún cuando los ingresos en A fuese perfectamente estabilizado en el sentido de que todos sus habitantes

67

Page 69: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

tuviesen prácticamente el mismo ingreso (igual al ingreso medio por habitante) y en B tuviese unos pocos individuos con ingresos extraordinariamente altos y la mayoría con ingresos bajos. Así, el conocimiento de los valores de posición central de una distribución, no es suficiente para su completa caracterización.

El hecho de que en la ciudad A todos los individuos tuvieran el mismo ingreso puede ser traducido diciendo que en A los ingresos no varían de individuo a individuo, o sea, la distribución de los ingresos no presentan variabilidad. Análogamente, el hecho de que en B algunos individuos tuvieran ingresos muy elevados en detrimento de la gran mayoría, que tiene ingresos muy bajos, puede ser expresado diciendo que en B los ingresos varían o que la distribución de ingresos presentan variabilidad. Así tenemos la siguiente definición.

Definición

Las medidas de dispersión son los que cuantifican el grado de concentración o de dispersión de los valores de la variable en torno de un promedio o valor central de

la distribución. Las medí das de dispersión se necesitan para dos propósitos básicos:

a) Para verificar la confiabilidad de los promedios yb) Para que sirva come base para el control de la variación misma.

También podemos decir que los términos concentración y dispersión pueden ser utilizados indistintamente, pues se da la relación.

alta dispersión baja concentraciónbaja dispersión alta concentración

Las medidas de dispersión que se utilizan con mayor frecuencia son:

1) Recorrido o rango2) Recorrido Intercuartilico3) Recorrido semi-intercuartilico4) Desviación media5) Varianza y desviación estándar

4.3.1 Recorrido de la Variable

El recorrido de una variable estadística es simplemente la diferencia entre su valor máximo y su valor mínimo y se denota por:

R = máx {X} - mín {X}

Desventaja

68

Page 70: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

La utilización del rango como medida de dispersión es muy limitado, si bien brinda una primera idea acerca de la heterogeneidad de los datos, tiene el inconveniente que sólo toma en cuenta los valores extremos descuidando el conjunto de valores intermedios. Puede suceder que uno de los valores extremos esté accidentalmente desplazado y no constituye por tanto un valor representativo; en este caso el recorrido sería exagerado y la dispersión aparecería distorsionado.

Ejemplo

Serie 1: 1 5 7 7 8 9 9 10 17Serie 2: 2 4 6 8 10 12 14 16 18

Ambas series tienen rango 16, pero están desigualmente agrupadas, pues mientras la primera tiene una mayor concentración en el centro, la segunda se distribuye uniformemente a lo largo de todo el recorrido.

4.3.2 Recorrido Intercuartilico

Como los cuartiles son tres puntos (valores) que dividen un ordenamiento de datos o una distribución de frecuencias en 4 grupos aproximadamente iguales. Entonces

la medida dada por:

Q I=Q3−Q1

llamada recorrido o amplitud intercuartílico, incluye la mitad central de los valores.

Desventaja

Si bien es cierto que este indicador representa un adelanto respecto del rango, sin embargo, también depende de dos valores de la variable, dejando de lado el resto, y en consecuencia la influencia de valores extremos puede, aunque en menor medida, originar algún tipo de deformación en cuanto al grado de dispersión.

4.3.3 Recorrido Semi-Intercuartilico

Esta medida, que se basa en la posición ocupada por los 50% de los valores centrales de la distribución, es dada por:

69

Page 71: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

QS I=Q3−Q1

2

4.3.4 Desviación Media o Promedio

En teoría, la desviación puede referirse a cada una de las medidas de tendencia central: media, mediana o moda; pero el interés se suele centrar en la medida de

la desviación con respecto a la media, que llamaremos desviación media.

Puede definirse como la media aritmética de las desviaciones de cada uno de los valores con respecto a la media aritmética de la distribución, y de indica así:

DM=∑|xi−x|

n

Nótese que se toman las desviaciones en valor absoluto, es decir, que la fórmula no distingue si la diferencia de cada valor de la variable con la media es en más o en menos.

Ya se habrá advertido que esta expresión sirve para calcular la desviación media en el caso de datos sin agrupar.

Ejemplo:

Se tiene los valores 2, 2, 4, 4, 5, 6, 7, 8, 8. Averiguar la desviación media de estos valores.

x x−x |x|2 -3 32 3 34 -1 14 -1 14 -1 15 0 06 1 17 2 28 3 38 3 3

DM = 1,8

70

Page 72: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Veamos ahora cómo se calcula la desviación media en el caso de datos agrupados en intervalos.

DM=∑ f i|x i|

ndonde observamos que ahora las desviaciones van multiplicadas por las frecuencias de los intervalos correspondientes.

Además, las desviaciones son de cada centro, o marca de clase, a la media aritmética.

Es decir,

DM=∑ f i|( xm−x )|

nEjemplo:

Para hallar la desviación media de la siguiente tabla referida a las edades de los 100 empleados de una cierta empresa:

Clase fi

16-20 220-24 824-28 828-32 1832-36 2036-40 1840-44 1544-48 848-52 3

veamos cómo se procede:

Clase fi xm ni * xm |x−x| fi |x−x|16-20 2 18 36 16,72 33,4420-24 8 22 17624-28 828-32 1832-36 2036-40 1840-44 1844-48 848-52 3

100

DM = 6,09

71

Page 73: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Propiedades de la Desviación Media

1. Como medida de dispersión, la desviación media es superior al recorrido y la desviación cuartílica, pues toma en cuenta cada elemento, y es más simple y se ve menos afectada por la presencia de valores extremos. Por lo tanto, se usa a menudo en muestras pequeñas que incluyen valores extremos.

2. La principal deficiencia de la desviación promedio surge del hecho de que promedia los valores absolutos de las desviaciones, esto es, que no reconoce el signo de las desviaciones. Esto hace que sea menos conveniente que la desviación estándar (que se describirá en la siguiente apartado) cuando se requiere una medida de dispersión para ser usada en cálculos posteriores.

4.3.5 Varianza y Desviación Estándar

Sean x1,x2,…,xk valores de la variable X, con frecuencias absolutas f1,f2,…,fk, respectivamente. La varianza muestral de x es dado por:

Var [X ]=S2=∑i=1

k

f i ( xi−X 2)n−1

Fórmula alternativa

Var [X ]=S2=∑i=1

k

f i ( xi−X 2)n

Si S2 = 0, entendemos que todos los xi coinciden con la media X , esto es, todas las observaciones están concentradas en un mismo punto, por lo que la dispersión es mínima (nula).

La desviación estándar o típica de los valores de la variable X se define como la raíz cuadrada positiva de la varianza.

72

Page 74: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

σ=√∑i=1

k

f i (x i−X )

n−1

El valor numérico de σ cuantifica el grado de dispersión de los

valores de una variable con respecto a su media. Mientras mayor es la dispersión de las observaciones, mayor es la magnitud de sus desviaciones respecto a la media y por ende, más alto el valor numérico de la desviación estándar.

Propiedades de la Varianza y Desviación Estándar

1. Var[X] = S2 ≥ 0; la varianza de una variable X es siempre positiva y es igual a cero cuando la variable X toma el valor constante C, esto es, Var[C] = 0

2. Var[X ± C] = Var[X]

3. Var[CX] = C2 Var[X] , C constante

4. Var[CX+b] = C2 Var[X] , C constante

5. Sean X1 y X 2 las medias de dos submuestras de tamaño n1 y n2

respectivamente y sean S12

y S22

las varianzas correspondientes. La varianza de la muestra de tamaño n = n1 + n2 es dada por:

S2= 1n−1 [ (n1−1 ) S1

2+ (n2−1 )S22+n1 (X1−X p)2+n2 (X2−X p )2 ]

donde X p es la media ponderada de X1 y X 2

6. El hecho de que la desviación estándar es matemáticamente lógica significa que puede ser satisfactoriamente utilizada en cálculos posteriores. Esta característica es la que da a la desviación estándar su gran superioridad sobre las demás medidas de dispersión.

7. La desviación estándar es de la misma naturaleza que la variable X y depende de su magnitud.

8. Para distribuciones simétricas resulta que:

a) El 68.27% de los casos están comprendidos entre X - S y X + S.

73

Page 75: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

b) El 95.45% de los casos están comprendidos entre X - 2S y X + 2S, esto es aproximadamente 95% de los casos están situados dentro de dos unidades de desviación estándar de la media.

c) El 99.73% de los casos están comprendidos entre X - 3S y X + 3S

A) Primer método abreviado

Con la finalidad de reducir el volumen de operaciones en el cálculo de la varianza y desviación típica, podemos usar las fórmulas.

S2= 1n−1 [∑ f i xi

2−n X2 ] y

74

Page 76: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

σ=√ 1n−1 [∑ f i x i

2−n X2]Ejemplo

Calcular la varianza y la desviación estándar de la siguiente distribución muestral.

xi 5 7 8 9 11fi 2 3 5 4 2

Solución

Completando la distribución de frecuencias tenemos.

xi fi fi xi fi xi2

5 2 10 507 3 21 1478 5 40 3209 4 36 32411 2 22 242TOTAL 16 129 1083

Aplicando las fórmulas respectivas se tiene:

X=∑i=1

k

f i x i

n=129

16=8 .1

S2= 1n−1 [∑ f i x i

2−n X2 ]= 115

[1083−1049 . 76 ]= 115

[33 .24 ]=2 .22

Entoncesσ=√2. 22=1 . 49

b) Segundo método abreviado

Sea Ot (origen de trabajo) el valor más frecuente de la variable X o que está hacia el centro de la distribución de frecuencias, y sea:

d i=x i−Ot (∀ i=1,2, . .. , k )

las desviaciones de xi respecto a Ot . Entonces se tiene:

75

Page 77: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

x i=d i+Ot

Luego:

S2=∑i=1

k

f i( xi−X2)n−1

=1n−1 ∑i=1

k

f i (d i+Ot−Ot−d )2=1n−1 ∑i=1

k

f i (d i−d )2=1n−1 [∑i=1

k

f id i2−nd2]

Por tanto:

S2=1n−1 [∑i=1

k

f i di2−n d]

y

σ=√ 1n−1 [∑i=1

k

f id i2−nd2 ]

c) Tercer método abreviado

Este procedimiento es particularmente usado cuando los datos agrupados en distribuciones de frecuencias con intervalos de clase de igual amplitud C. Para calcular la varianza por este método se siguen los siguientes:

Primer Paso.

Se efectúa el cambio de variable de X a μ , utilizando la fórmula:

μ=x i−O t

C

donde: x i=valores de la variable Ot = origen de trabajo

μi =Valores transformados C = amplitud del intervalo de clase

Segundo Paso

Se calcula la media aritmética X , usando la fórmula

76

X=Ot+∑i=|

k

f id i

n=Ot+d

Page 78: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Tarea

X=Ot+C(∑i=1

k

f iμ i

n )=Ot+C μ

Tercer Paso

Se calcula la varianza S2:

S2= C2

n−1 [∑ f i μi2−n μ2 ]

y

σ=C√ 1n−1 [∑ f i μi

2−n μ2 ]

Dada la distribución de frecuencias de 150 personas según su edad, calcule la desviación estándar.

Edad [20 ,30>¿ ¿ [30 , 40>¿ ¿ [ 40 ,50>¿ ¿ [50 ,60>¿ ¿ [60 ,70>¿ ¿N° de personas

15 22 48 40 25

4.4 Medidas de Dispersión Relativa

Las medidas de dispersión que se han descrito en la sección anterior se expresan en las unidades originales de medida, tales como estaturas, kilos, etc. Se pueden utilizar para comparar la variación de dos distribuciones siempre que las variables se expresen en las mismas unidades de medida y sean aproximadamente del mismo tamaño promedio. Sin embargo, a veces es necesario comparar dos conjuntos de datos expresados en unidades diferentes (tales como toneladas de azúcar y metros cúbicos de kerosene). En estos casos las medidas de dispersión absoluta no son comparables y deben utilizar utilizarse medidas de dispersión relativa.

La medida relativa de dispersión, útil para la comparación en términos relativos del grado de concentración en torno a la media de dos distribuciones distintas es dado por el coeficiente de Variación.

77

Page 79: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

4.4.1 Coeficiente de Variación

Coeficiente de Variación = C.V =

SX

Algunas veces se llama coeficiente de dispersión porque "coeficiente" significa una razón o un número puro independiente de la unidad de medición. Generalmente el coeficiente de variación se expresa como un porcentaje.

En la práctica, se acostumbra considerar que C.V. superior a 50% indica alto grado de dispersión y, consecuentemente, pequeña representatividad de la media aritmética. En cuanto para valores inferiores a 50%, la media será tanto más representativa, cuanto menor sea el C.V.

Ejemplo:

En una empresa, el salario medio de los hombres es de 4000 con una desviación estándar de 1500, y el de las mujeres es un promedio de 3000 con desviación estándar de 1200. Hallar el coeficiente de variación de los salarios de los hombres y mujeres.

Solución

Aplicando la fórmula de coeficiente de variación tenemos

Para hombres: C.V =

SX=1500

4000=0 . 375

Para hombres: C.V =

SX=1500

4000=0 . 375

Para hombres: C.V = 37.5% Para mujeres: C.V. = 40%

4.4.2 Momentos

Sean x1,x2,…,xk valores de la variable X, asociados a las frecuencias absolutas f1,f2,…,fk, respectivamente.

El momento de orden r respecto al parámetro C es dado por:

78

Page 80: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

M r (C )=∑i=1

k

f i ( x i−C )r

n, n=∑

i=1

k

f i

En particular nos interesan dos casos:

A) Momentos de respecto al origen

Cuando C = 0 se tiene los momentos respecto al origen denotado por

M r'=∑i=1

k

f i xr

n, n=∑

i=1

k

f i

B) Momentos respecto a la media

En el caso en que C = X tenemos los momentos respecto a la media o momentos centrales

M r=∑i=1

k

f i ( xi−X )r

n, n=∑

i=1

k

f i

Algunos momentos particulares son:

M 0' =∑i=1

k

f i x i0

n=1, M 0=

∑i=1

k

f i (xi−X )0

n=1

M 1' =∑i=1

k

f i x i

n=X , M 1=

∑i=1

k

f i (x i−X )

n=0

M 2' =∑i=1

k

f i x i2

n, M 2=

∑i=1

k

f i (x i−X )2

n=S2

79

Page 81: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Siempre se pueden encontrar relaciones que liguen los momentos centrales con los momentos respecto al origen. Para esto bastará usar el binomio de Newton.

Ejemplo:

En una clínica infantil se han anotado, durante un mes, el número de metros que el niño anda, seguido y sin cesar, el primer día que comienza a caminar. Obteniéndose así la tabla de información adjunta.

Número de niños

2 6 10 5 10 3 2 2

Número de metros

1 2 3 4 5 6 7 8

Se pide:

a) Momentos respecto al origen de primero, segundo y tercer orden.b) Momentos centrales de orden primero y tercero

Solución

Para hallar los momentos hacemos los cálculos en la siguiente tabla

80

Page 82: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

4.5 Medidas de Asimetría

Hay ocasiones en que es deseable calcular una medida que muestre la dirección de la dispersión con respecto al centro de la distribución. Las medidas de dispersión solamente indican la magnitud de las variaciones, pero no proveen información acerca de la dirección hacia donde tienden a ocurrir las variaciones.

Las medidas asimétricas indican la deformación horizontal de las curvas de frecuencias. Cuando la curva de frecuencia está inclinada o alargada hacia la derecha (Ver fig. 1), se llama a la derecha o positiva, y si está alargada o inclinada hacia el lado izquierdo (Ver fig. 2), se denomina asimetría a la izquierda o

negativa.

fig 1 fig. 2

4.5.1Coeficientes de Asimetría

Cuando disponemos de los valores de la media, moda, mediana, cuartiles y desviación estándar debemos utilizar:

81

Page 83: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

I) Primer Coeficiente de Pearson

Si AS = 0, la distribución es simétrica

Si AS > 0, la distribución es sesgada hacia la derecha

Si AS < 0, la distribución es sesgada hacia el lado izquierdo

Es razonable pensar que tiene sentido obtener este coeficiente en distribuciones unimodales.

II) Segundo Coeficiente de PearsonEste coeficiente, generalmente se usa cuando no se puede calcular la media y la desviación estándar

III) Coeficientes de asimetría de Fisher

Este coeficiente es dado por:

4.6 Medidas de Curtosis.

Se entiende por curtosis el grado de deformación vertical (apuntamiento) de una distribución de frecuencias. Con relación al grado de apuntamiento, podemos tener las siguientes curvas.

82

AS=Media−ModaDesviación estándar

=X−Moσ

=3 (X−Me )σ

A S=Q3+Q1−2 MeQ3−Q1

AS=M 3

S3 =∑i=1

k

f i (x i−X )

nS3

Page 84: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Para el grado de apuntamiento (deformación vertical) utilizaremos el coeficiente denotado por:

K=Q3−Q1

2 (P90−P10 )donde:

P90 = percentil 90; Q1 = primer cuartilP10 = percentil 10; Q3 = tercer cuatil

Si K = 0.263, diremos que la curva correspondiente a la distribución de frecuencias es mesocúrtica (tiene igual apuntamiento que el anormal o campana de Gaus).Si K > 0.263, diremos que la curva correspondiente a la distribución de frecuencias es platicúrtica.

Si K < 0.263, diremos que la curva correspondiente a la distribución de frecuencias es leptocúrtica.

83

Page 85: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

84

Page 86: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

5.1 Introducción Hasta ahora, hemos visto como organizar y resumir informaciones corres-pondientes a una única característica o variable de una población. Sin embargo, en la práctica muchas veces estamos interesados en analizar el comportamiento conjunto de dos o más variables. Aquí consideraremos aquellas situaciones en las que el investigador realiza la observación simultánea de dos caracteres en el individuo, obteniéndose, de esta manera, pares de resultados. Tal es el caso, de observar en una persona su peso y su altura.

Los distintos valores que pueden adoptar estos caracteres en estudio forman un conjunto de pares, que denotaremos por (X , Y) , y llamaremos variable estadística bidimensional.

La variable estadística bidimensional (X, Y) puede representar las situaciones siguientes:

i) Dos caracteres cualitativos. La educación y región de procedencia de una persona.

ii) Dos caracteres cuantitativos. El peso y altura de una persona.

iii) Uno cualitativo y el otro cuantitativo . La profesión y la edad de una persona.

Si las componentes de la variable bidimensional (X, Y) son caracteres cuantitativas, puede a su vez clasificarse en:

85

Page 87: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

a. X discreta e Y discreta. Número de admisiones y número de Médicos en un hospital durante un mes.

b. X continua e Y continua. Peso y altura de una personac. X discreta e Y continua. Número de accidentes

automovilísticos que se producen dentro de los límites de una ciudad y la edad del conductor.

d. X continua e Y discreta. Estatura del padre de familia y número de hijos

Organizando las ideas:

5.2 Representación de la información mediante tablas bidimensionales

Sea una población de n individuos donde estudiamos, simultáneamente, dos variables X e Y. Sean x1, x2, . . . ,xk las modalidades de X e y1, y2, . . . , yp las modalidades de Y. La distribución de frecuencias bidimensional de estas dos

variables se presenta mediante una tabla de doble entrada

X / Y y 1 y 2 ............. ye Totalx 1 f11 f12 f1e f1

x 2 f21 f22 f2e f2

:xk fk1 fk2 fki fk

Total f1 f2 fe n=

86

Page 88: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

∑i=1

k

∑j=1

j

f ij

Donde:f ij= número de veces que aparece repetido el par (Xi , Yj) y se llama frecuencia absoluta del par (Xi , Yj).

f i=

∑j=1

e

f ij

=total de pares con primera componente Xi (i = 1,…,k)

f j =

∑j=1

k

f ij

= total de pares con segundo componente Yj (j = 1,…,e) y se llama frecuencia marginal del valor Yj

n = ∑i=1

k

∑j=1

j

f ij = número total de pares observados

Las distribuciones de frecuencias de las variables bidimensionales también pueden ser representadas gráficamente. Al igual que en el caso unidimensional existen diferentes tipos de representaciones gráficas, aunque estas resultan a ser más complicadas

5.2.1 Distribuciones Marginales

Las distribuciones marginales corresponden al estudio, por separado, de cada una de las dos variables que

componen una variable estadística bidimensional. Cada distribución marginal será, por tanto, una distribución unidimensional y, consecuentemente, se le podrá aplicar cualquiera de los resultados estudiados en el tema 3.

87

Page 89: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Distribución marginal X Distribución marginal Y

EjemploSupongamos que queremos analizar el comportamiento conjunto de las variables: Grado de instrucción (X) y región de procedencia (Y) del os empleados del Ministerio de Agricultura. Los datos están en la siguiente tabla:

X Y

PrimariaCompleta

SecundariaCompleta

Superior Total

Costa 40 30 20 90Sierra 35 15 10 60Selva 30 15 5 50Total 105 60 35 n =

200

En muchas situaciones en vez de trabajar con las frecuencias absolutas, podemos construir tablas con las frecuencias relativas (proporciones), como se hizo en el caso unidimensional. Sin embargo, aquí existen 3 posibilidades de expresar la proporción de elementos de cada celda.

i) Con relación al total general y se llama frecuencia relativa. Así la frecuencia relativa correspondiente al par (xi , yj) es dado por:

hij=f ijn

Las frecuencias relativas marginales de las variables X e Y son dadas, respectivamente.

hi=f in , frecuencia marginal del valor xi

h j=f j

n , frecuencia marginal del valor yj

88

X fi

x1 f1

x2 f2

. . . . . .xk fk

Totaln=∑

i=1

k

f i

Y fj

y1 f1

Y2 f2

. .

. .

. .yk Fe

Totaln=∑

i=1

e

f j

Page 90: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

ii) Con relación al total de cada fila ( f ijf i )

iii) Con relación al total de cada columna ( f ijf j

)De acuerdo con el objetivo de la investigación una de estas proporciones será la más conveniente para ser usada.

Ejemplo

La distribución conjunta de las proporciones de los datos de la anterior tabla con relación al total de las observaciones (n = 200) está dada por:

X Y

PrimariaCompleta

SecundariaCompleta

Superior Total

Costa 20% 15% 10% 45%Sierra 17.5% 7.5% 5% 30%Selva 15% 7.5% 2.5% 25%Total 52.5% 30% 17.5% 100%

EjemploLa distribución de las proporciones de los datos de la tabla anterior del ejemplo 1 con relación al total de cada columna esta dado por:

X Y

PrimariaCompleta

SecundariaCompleta

Superior Total

Costa 38.1% 50% 57.1% 45%Sierra 33.3% 25% 28.6% 30%Selva 28.6% 25% 14.3% 25%Total 100% 100% 100% 100%

Cada elemento del cuerpo de la tabla representa la frecuencia observada de las realizaciones simultáneas de X e Y. Así observamos que, 40 empleados con primaria completa son de la costa, 30 empleados con secundaria completa son de la costa etc.

Los totales de las filas nos dan la distribución marginal de la variable X(grado de instrucción), y los totales de las columnas nos dan la distribución marginal de la variable Y(región de procedencia).

En muchas situaciones en vez de trabajar con las frecuencias absolutas, podemos construir tablas con las frecuencias relativas (proporciones), como se hizo en el

89

Page 91: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

caso unidimensional. Sin embargo, aquí existen 3 posibilidades de expresar la proporción de elementos en cada celda.

i) Con relación al total general y se llama frecuencia relativa. Así, la frecuencia relativa correspondiente al par (xi, yj), i = 1,2,…,k y j = 1,2,…,e es dad por:

hij=f ijn, ∀ i=1,2 ,. . , k , j=1,2 .. . , e

Las frecuencias relativas marginales de las variables X e Y son dadas, respectivamente por:

hi=f in

, i=1,2 ,. . , k (frecuencia marginal de x i )

h j=f j

n, j=1,2 ,. . ., e (frecuencia marginal de y j)

ii) Con relación al total de cada fila

( f ijf i ) ,i=1,2. .. , k ; j=1,2, . .. , e

iii) Con relación al total de cada columna

( f ijf j) , j=1,2 , .. . ,e ; i=1,2. . ., k

De acuerdo con el objetivo de cada investigación, una de estas proporciones será la más conveniente para ser usada.

Ejemplo

La distribución de las proporciones (frecuencias relativas) de los datos del ejemplo anterior con relación al total de las observaciones (n = 200) está dado por:

X Y

PrimariaCompleta

SecundariaCompleta

Superior Total

Costa 20% 15% 10% 45%Sierra 17.5% 7.5% 5% 30%Selva 15% 7.5% 2.5% 25%Total 52% 30% 17.5% 100%

90

Page 92: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Ejemplo

La distribución de las proporciones (frecuencias relativas) de los datos del ejemplo anterior con relación al total de cada columna está dado por:

X Y

PrimariaCompleta

SecundariaCompleta

Superior Total

Costa 38.1% 50% 57.1% 45%Sierra 33.3% 25% 28.6% 30%Selva 28.6% 25% 14.3% 25%Total 100% 100% 100% 100%

Este tipo de distribución sirve para comparar la distribución de la procedencia de los individuos conforme a su grado de instrucción. En forma análoga, podemos construir la distribución conjunta de las proporciones con relación al total de cada fila.

5.2.2 Propiedades de la Frecuencia

Sea n el número total de pares observados de la variable bidimensional (X, Y). Son de destacar las propiedades siguientes:

1. La suma de las frecuencias absolutas es igual al número de pares observados, esto es:

∑i=1

k

∑j=1

e

f ij=n

2. La suma de las frecuencias relativas es igual a la unidad, es decir:

∑i=1

k

∑j=1

e

hij=∑i=1

k

∑j=1

e f ijn= 1

n∑i=1

k

∑j=1

e

f ij=1n∗n=1

3.∑i=1

k

f i=f 1+f 2+.. .+ f k=n

4.∑j=1

e

f j= f 1+ f 2+. . .+ f e=n

5.∑i=1

k

hi=1 y ∑j=1

e

h j=1

6.∑i=1

k

∑j=1

e

f ij x i=∑i=1

k

f i x i

91

Page 93: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

7.∑i=1

k

∑j=1

e

f ij y j=∑j=1

e

f j y j

5.2.3 Medias y Varianzas Marginales

Sea ((x1 , y2) , (x1 , y2) ,. .. , (x1 , ye ) , (x2 , y1) , .. . ,( xk , ye ) valores distintos de la variables

bidimensional (X, Y), con frecuencia absoluta f 11 , f 12 ,. .. , f ke , respectivamente. Las medidas y varianzas marginales de X e Y son dadas por:

x=∑i=1

k

f ixi

n, y=

∑j=1

e

f j y j

n

Sx2=

∑i=1

k

f i (x i−x )2

n−1, Sy

2=∑j=1

e

f j ( y j− y )2

n−1

Por tanto las desviaciones típicas marginales de X e Y son:

Sx=√∑i=1

k

f i ( x i−x )2

n−1, S y=√∑j=1

e

f j ( y j− y )2

n−1

Sea ((x1 , y2) , (x1 , y2) ,. .. , (x1 , ye ) , (x2 , y1) , .. . ,( xk , ye ) valores distintos de la variables

bidimensional (X, Y), con frecuencia absoluta f 11 , f 12 ,. .. , f ke , respectivamente. La covarianza entre las variables X e Y es dado por:

Sxy=Cov [x , y ]=∑i=1

k

∑j=1

e

f ij (x i−x ) ( y j− y )

n

donde n=∑

i=1

k

∑j=1

e

f ij

Formula abreviada de la covarianza:

92

Page 94: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Sxy=Cov [x , y ]=1n∑i=1

k

∑j=1

e

f ij xi y j−x y

EjemploCalcula la covarianza de la distribución del número de años de antigüedad en una empresa y el salario diario que tienen 40 trabajadores.

Aplica la teoría !!!Calcula la covarianza de la siguiente distribución bidimensional:

93

Page 95: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

5.3 Distribuciones condicionales

Sean (X , Y) una variable estadística bidimensional tal que el carácter X presenta k modalidades y el carácter Y e modalidades mutuamente excluyentes, esto es:

X : x1 , x2 ,. .. , xkY : y1 , y2 ,. . ., ye

Así, la tabla de frecuencias (tabla de contingencia) para la variable bidimensional es:

X / Y y 1 y 2 ............. Yj ………. ye Totalx 1 f11 f12 f1j f1e f1

x 2 f21 f22 f2j f2e f2

xi fi1 fi2 fij fie fi

:xk fk1 fk2 fkj fki fk

Total(frec.

marginal

f1 f2 fj fe n=

∑i=1

k

∑j=1

j

f ij

La distribución de la variable condicional a que la variable X tome el valor fijo x i

está dada en la a continuación

Valores de Y y 1 y 2 ............. Yj ………. ye TotalFrecuencia absoluta de Y

condicional a

fi1 fi2 fij fie fi

94

Page 96: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

X=x if y / x=x i

Frecuencia relativa de Y

condicional a

X=x ih y /x=x i

f i 1

f i

f i 2

f i

f ijf i

f ief i

1

Análogamente, la distribución de la variable X condicional a que la variable Y tome el valor fijo yj está dada por:

Valores de X x 1 x 2 ............. Xj ………. Xk TotalFrecuencia absoluta de X

condicional a

Y= y if x / y= y j

f1j f2j fij fjk fi

Frecuencia relativa de X

condicional a

Y= y ihx / y= y j

f 1 j

f j

f 2 j

f j

f ijf j

f kjf j

1

5.4 Medidas de dependencia entre variables nominales

Uno de los principales objetivos del estudio de una distribución conjunta, es describir la asociación existente entre las variables en estudio, esto es, queremos conocer el grado de dependencia que existe entre ellas, de modo que podamos predecir mejor el resultado de una de ellas en base a la ocurrencia de la otra.

Por ejemplo, si queremos estimar lo renta media de una familia que vive en la ciudad de La Paz, la información adicional sobre la clase social a la que ella pertenece nos permite estimar con mejor precisión esa renta, pues sabemos de la dependencia existente entre las dos variables: Renta familiar (x) y la clase social (Y ).

5.4.1 Independencia de Variables

Supongamos que la distribución conjunta de la variable X con modalidades x1 , x2 ,. .. , xk y la variable Y con modalidades y1 , y2 , .. . , y e esta dada en la siguiente tabla:

95

Page 97: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Y

X

y1 y2 … yj … ye Total

x1 f11 f12 … f1j f1e f1

x2 f21 f22 … f2j … f2e f2

.

...

.

...

.

...

.

. ..

xj fi1 fi2 fij fie fi

.

.… … … … … …

xk fk1 fk2 fkj … fke fk

Total f1 f2 … fj … fe n=∑∑ f ij

Definición.

Se dice que las variables X e Y son independientes (no asociadas), si en la tabla de contingencia k x e se verifican la igualdad:

f il=f i× f j

n (para todo i=1,2,…., k y j =1,2,….,e)

Caso contrario las variables X e Y son dependientes o están asociadas.

Ejemplo

Verificar si existe o no dependencia entre el sexo y carrera profesional escogida por 400 alumnos de .Economía y Administración de la Universidad.

Los datos están dados en la tabla siguiente:

TABLA Distribución conjunta de los alumnos según el sexo (x) y carrera escogida (y).

96

Page 98: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Solución

Tenemos:

Estos resultados parecen indicar que no hay Independencia entre las dos variables.

Para aclarar mejor, debemos construir las proporciones según las filas o columnas de la tabla anterior para así poder hacer las comparaciones. Fijando los totales de las columnas, la distribución resultante está en la tabla siguiente.

TABLA Distribución conjunta de las proporciones (en porcentajes) de alumnos según sexo (X) y carrera escogida (Y)

97

Page 99: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

De esta tabla podemos observar que, independientemente del sexo, 60% de las personas prefieren Economía y 40% Administración. Si no hubiera dependencia entre las variables, esperaríamos las mismas proporciones para cada sexo. Observando en la tabla, vemos que las proporciones están muy próximas a las proporciones totales de las filas, esto es, del sexo masculino 60% prefieren Economía y 40% Administración, del sexo femenino, 59% prefieren Economía y 41% Administración

Por tanto, podemos concluir que las variables sexo y carrera profesional tienden a ser independientes.

Para descubrir el grado de dependencia entre dos variables, es necesario cuantificaría en un único número. De un modo general, la cuantificación del grado de dependencia de dos variables es dado por las llamadas coeficientes de asociación o correlación.

Existen muchas medidas que cuantifican la dependencia entre variables nominales; aquí presentamos solamente una de ellas, llamada coeficiente de contingencia, debido a Karl Pearson. Para definir este coeficiente, Karl

Pearson introduce un estadígrafo denotado por (Chi-cuadrado) y dado por:

En caso general la expresión es dada por

Donde Oij representan las frecuencias observadas (fij) y eij representa las

frecuencias esperadas ( f i f j

n ).

Es fácil ver que, las dos variables son independientes si = 0

y dependiente si bastante mayor que cero, cuanto mayor sea el valor de chi-

cuadrado , mayor será el grado de asociación existente entre las dos variables.

98

Page 100: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Sin embargo, es muy difícil juzgar si la asociación es alta o no, basándose

solamente en ch-cuadrado. Por eso, Karl Pearson, propuso el llamado coeficiente

de contingencia definido por:

C=√ X2

X2+n

Donde n es el número de observaciones. Este coeficiente será siempre un número comprendido entre 0 y 1. si las dos variables son independientes entonces:

= 0 , y lo mismo sucede con C.

Observación:

El uso del estadígrafo chi-cuadrado en tablas de k x e está sujeto, por razones teóricas, a las siguientes restricciones:

1. Para emplear correctamente el estadígrafo chi-cuadrado, es necesario que por lo menos el 80% de las frecuencias esperadas de las distintas

modalidades, en el caso de independencia, esto es, ( f i f j

n ) sean

mayores o iguales que 5 y ninguno menor que 1.

2. Si hay alguna modalidad que tenga una frecuencia esperada menor que cinco, antes de calcular chi-cuadrado, debemos agrupar dos o más modalidades contiguas en una sola hasta lograr la condición anterior.

5.4.2 Diagrama de dispersión o nubes de puntos

Un diagrama de dispersión es la representación gráfica de los distintos valores de la variable estadística bidimensional (X,Y) en le sistema cartesiano .

99

Page 101: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

El diagrama de dispersión representa el grado (intendiad9 y naturaleza (forma) de la relación entre las variables X e Y, si es que existe alguna.

Ejemplo

En la tabla siguiente se presenta la información obtenida sobe el número de años de servicios (x) y el número de clientes (y) de 5 agentes de una compañía de seguros.

TABLA Números de clientes (Y), por número de años de servido (X) de 5 agentes de una compañía de seguros.

Agente Años de servicio (X)

Número de clientes (Y)A 4 58

B 6 66C 7 74D 8 70E 10 82Total 35 350

Trazar el diagrama de dispersión de estos datos.

Solución

Graficando el conjunto de los pares ordenados (X,Y) de la tabla tenemos la figura 3.2.

Observando la posición de los puntos en el sistema cartesiano, en la siguiente figura, concluimos que parece que hay una dependencia lineal entre las variables X e Y, pues vemos en el conjunto, que a medida que aumenta el tiempo de servicio, aumenta el número de clientes.

100

Page 102: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

5.5 Nociones de correlación y regresión lineal

La covarianza indica cómo es la relación entre dos variables, es decir, cómo se orienta la nube de puntos, pero este parámetro no indica de una forma concreta la medida de esa relación. Para resolver este problema se definen los conceptos de correlación y coeficiente de correlación.

Correlación es la relación que existe entre las dos variables que intervienen en una variable bidimensional.

a) Correlación funcional: todos los puntos están situados sobre una recta o una curva. Existe una relación funcional entre las variables X e Y

Ejemplo

El precio de las fotocopias de una copistería es:

La función y = 3x da la relación entre las variables.

b) Correlación directa: al aumentar una variable aumenta la otra.

101

Nº copias: xi 1 2 3 4 5 6

Precio (cts): yi

3 6 9 12 15 18

Page 103: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Ejemplo

El número de pedidos que sirve un almacén y el número de vendedores que tiene contratados dicho almacén es:

c) Correlación inversa: al aumentar una variable la otra disminuye.

Ejemplo

El número de gérmenes por cm3 y el tiempo transcurrido con un tratamiento específico es:

d) Correlación nula: no existe relación entre las variables.

Ejemplo

El número de libros vendidos en una librería y la temperatura del día es:

102

Nº de vendedores: xi

2 4 5 6 7 9 10

Nº de pedidos: yi 70 90 110 150 170

190 210

Tiempo (h): xi 0 1 2 3 4 5Nº de gérmenes: yi 55 42 40 35 25 20

Page 104: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

5.5.1 Cálculo del Coeficiente de Correlación.

El coeficiente de correlación de Pearson es:

r=Sxy

SxS y

Interpretación.-

El coeficiente indica la correlación que existe entre las dos variables, es decir, si los puntos están muy próximos o alejados del centro de gravedad.

Propiedades del coeficiente de correlación

a) El coeficiente es un número. No depende de las unidades en las que están expresadas las variables x e y

b) Está comprendido entre – 1 y 1

Si r = – 1 o r = 1, la correlación es perfecta o correlación funcional. Si r está próximo a – 1 o a 1, la correlación es fuerte. Si r está próximo a cero, la correlación es débil. El signo, r > 0 o r < 0, indica si la correlación es directa o inversa,

respectivamente.

Correlación fuerte

Se considera que la correlación es fuerte si |r| > 0,85

Ejemplo

103

Temperatura (°C): xi

20 21 22 23 24 25

Nº de libros: yi 10 40 30 15 50 10

Page 105: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Calcula el coeficiente de correlación entre el número de pedidos que sirve un almacén y el número de vendedores que tiene contratados dicho almacén.

El coeficiente de correlación es:

r=Sxy

SxS y=124 . 8

2 ,5897∗48 ,823=0 ,982

La correlación es fuerte y directa.

5.5.2 Regresión.

La ecuación de la recta de regresión de y sobre x es:

y− y=Sxy

Sx2 (x−x )

La ecuación de la recta de regresión de x sobre y es:

x−x=Sxy

S y2 ( y− y )

Estas rectas se pueden expresar de la forma y = Bx + A. Las letras A y B son las que usan, generalmente, las calculadoras.

Estas rectas se determinan haciendo que se cumplan las siguientes condiciones:

a) Tienen que pasar por el centro de gravedad G(x–, y–).

b) La suma de los cuadrados de las distancias, ∑ d i2 debe ser mínima.

Siendo di = y – yi, y ordenada de la recta, yi ordenada de cada punto.

Coeficientes de regresión

Los coeficientes de regresión son las pendientes de las rectas de regresión:

Pendiente de la recta de y sobre x:

104

Nº de vendedores: xi

2 4 5 6 7 9 10

Nº de pedidos: yi 70 90 110 150 170

190 210

Page 106: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

m yx=Sxy

Sx2

Pendiente de la recta de x sobre y:

m xy=Sxy

S y2

Ejemplo

Calcula la recta de regresión de la altura sobre el peso en la distribución que se obtiene al estudiar la estatura y el peso de 10 personas.

Se tiene:

Medias marginales: x=72 .5 , y=170 ,5Desviaciones típicas marginales: Sx = 9,55, Sy = 9,6Covarianza: Sxy = 83,75

Pendiente:

Sxy

Sx2 =83 ,65

9 ,552 =0 . 92

La recta de regresión de y sobre x es:

y – 170,5 = 0,92(x – 72,5) ⇒y = 0,92x + 103,96

Estimaciones con la recta de regresión

La recta de regresión se ajusta a la nube de puntos y describe, de una forma genérica, su tendencia. Se pueden hacer estimaciones con la recta de regresión sin olvidar que la estimación será fiable siempre que:

a) El coeficiente de correlación esté próximo a 1 o a – 1. Es decir, los puntos están muy cerca de la recta.

105

Peso (kg): xi 70 65 85 60 70 75 90 80 60 70Altura (cm): yi

175 160 180 155 165

180 185 175 160 170

Page 107: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

b) Los valores sobre los que se hacen las estimaciones no deben estar muy alejados de los datos utilizados.

Ejemplo

Se han recogido los datos de la temperatura en °C y la presión en mm en distintas ciudades. Estima la presión que habría para una temperatura de 23°. Si la presión fuese de 830 mm, estima la temperatura.

El coeficiente de correlación es: r = 0,98

La correlación es fuerte y directa. Para hacer la estimación se calcula la recta de regresión:

y = 6,5x + 675,5y con ella se calcula el valor de y para x = 23

y = 6,5 · 23 + 675,5 = 825

Es decir, aproximadamente 825 mm de presión.

Si y = 830 ⇒830 = 6,5x + 675,5

Se obtiene: x = 23,77 °C

106

Temperatura (°C): xi

18 19 20 18 22 21

Presión (mm): yi 790

800 805 795 820

810

Page 108: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

107

Page 109: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

6.1 Introducción

Las técnicas de conteo son aquellas para enumerar los elementos de un conjunto particular o evento, difíciles de cuantificar.

Por ejemplo:

“El password” de un usuario de un ordenador consiste de ocho (o siete o seis) caracteres. Cada uno de estos caracteres debe ser un dígito decimal o una letra del alfabeto. Cada password debe contener al menos un dígito.

¿Cuántos de éstas claves de acceso diferentes pueden existir?

Los problemas de conteo surgen de las matemáticas y de las ciencias de la computación, pero también de otras muchas disciplinas científicas como la química o de situaciones de la actividad cotidiana en la industria, la gestión, etc. Por ejemplo tendremos que contar los resultados positivos de un experimento y enumerar todos los resultados para determinar probabilidades. También necesitaremos contar el número de operaciones realizadas por un algoritmo para analizar su costo computacional.

6.2 Principios básicos del proceso de contar

Principio de Multiplicación

Si un evento puede realizarse de n1 maneras diferentes, y si, continuando el procedimiento, un segundo evento puede realizarse de n2 maneras diferentes, y si, después de efectuado un tercer evento puede realizarse de n3 maneras diferentes, y así sucesivamente, entonces el número de maneras en que los eventos pueden

realizarse en el orden indicado es el producto n1⋅n2⋅n3⋅.. .

Escribe todas las palabras de dos letras (que tengan o no-sentido) que empiecen con consonantes y terminen en vocal.

ba, be, bi, bo, buca, ce, ci, co, cuda, de, di, do, du

108

Page 110: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

...

xa, xe, xi, xo, xuza, ze, zi, zo, zu

¿Cuántas de estas palabras escribiste?

21 x 5 = 105 palabras de dos letras que empiezan con constantes y terminan en vocal.

Notación Factorial

El producto de los enteros positivos desde 1 hasta n inclusive, se emplea con mucha frecuencia en matemáticas y aquí lo denotamos por el símbolo n ! (que se lee “n factorial”):

n !=1⋅2⋅3⋅.. .⋅(n−2 )⋅(n−1 )⋅n ; n≥0

Conviene definir 0! = 1.

Principio de Adición

Si dos decisiones son mutuamente excluyentes (es decir disjuntos), la primera se puede tomar de m maneras y la segunda de n maneras, entonces una o la otra se puede tomar de m + n maneras.

La biblioteca de la USB tiene 40 libros de Base de Datos y 50 de Matemática Discreta. Por la regla de la suma, un estudiante puede elegir entre 40 + 50 = 90 libros para aprender de alguno de estos libros.

6.3 Arreglos

6.3.1 Arreglos simples

Un arreglo simple de n objetos diferentes tomados de k en k es una ordenación de k objetos entre los n dados, de tal manera que estos grupos de k elementos difieren en algún elemento o en el orden de colocación.

109

Ejemplo

Page 111: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Teorema

El número de todos los arreglos a formarse con n objetos tomados de k en k es obtenida por la fórmula.

Akn= n !

(n−k ) !=n (n−1 ) (n−2 ) .. . (n−k+1 )

Donde n !=n (n−1 ) (n−2 ) . . .2 .1 y 0! = 1

Ejemplo

¿De cuántas maneras diferentes se pueden sentar 8 persona en una banca, con capacidad para 5 personas?

Solución

Como n = 8 y k = 5, el número total de maneras diferentes que pueden sentarse 8 personas en una banca, con capacidad para 5 personas es

A58= 8 !

(8−5 )!= 8 !(8−5)!

=6720

6.3.2 Arreglos con Repetición

Son aquellos arreglos en que un elemento cualquiera de los dados, puede repetirse en el mismo grupo, el número de veces que se indica.

Teorema

El número de todos los arreglos con repetición a formarse con n objetos tomados de k en k es obtenido por la fórmula

( AR )kn=nk

Ejemplo:

Un ómnibus parte de su paradero inicial con 6 personas a bordo y se detiene en 10 paraderos diferentes. ¿De cuántas maneras pueden bajar las 6 personas en los 10 paraderos, si en unos paraderos pueden bajar cualquier número de personas?

Solución

110

Page 112: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

La primera persona puede bajar en cualquier de los 10 paraderos, la segunda lo mismo y la sexta de igual forma, entonces, el número total de maneras es:

( AR )610=106=1000000

6.4 Permutaciones

Una ordenación de un conjunto de n objetos en un orden dado se llama una permutación de los objetos (tomados todos a la vez). Una ordenación de un número dichos objetos r≤n , en un orden dado se llama una permutación r o una permutación de los n objetos tomados r a la vez.

6.4.1 Permutaciones simples (n objetos tomados todos a la vez)

El número de permutaciones que pueden formarse con n objetos distintos está dado por:

Pn=n !

los n objetos tomados todos a la vez

Ejemplo:

¿Cuántas permutaciones de 3 elementos se forman con 3 objetos a, b, y c?

Solución

Tenemos 3 objetos entonces n = 3

Por lo tanto P3=3 !=6 permutaciones

En detalle

Primera Posición

Segunda Posición

Tercera Posición

A b cB a cB c aC b aC a b

111

Page 113: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

A c b

6.4.2 Permutaciones Circulares

Son las diferentes permutaciones que pueden formarse con n objetos dados, de modo que no hay ni primero ni último objeto, pues todos se hallan en un círculo cerrado. Para determinar el número de permutaciones circulares que pueden formarse con los n objetos distintos de un conjunto, basta observar que considerando fija la posición de cualquiera de los n objetos, los n-1 restantes podrán cambiar de lugar de (n-1)! formas diferentes tomando todas las posiciones sobre la circunferencia relativa al primer punto.

Luego:

Ejemplo

¿De cuántas formas diferentes pueden sentarse alrededor de una mesa 6 personas? Si la mesa fuese circular:

P6−1c =(6−1 )!=5 !=120

6.4.3 Permutaciones con Repetición

Con frecuencia se desea saber el número de permutaciones de objetos de los cuales algunos son iguales.

El número de permutaciones de n objetos de los cuales n1 son iguales, n2 son iguales, ..., nr son iguales es:

n!n1 !⋅n2 !⋅. . .⋅n3 !

Ejemplo

Supongamos que deseamos formar todas las posibles palabras de 5 letras usando las letras empleadas en la palabra DADDY.

112

Pn−1c =(n−1 )!

Teorema

Page 114: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

20!1!1!3!345

!1!1!3!5

Existen 5 objetos de los cuales el objeto D se repite 3 veces, el objeto A, 1 vez, el objeto Y una vez.

Entonces:

n = 5 n1=3 , n2=1 , n3=1Luego:

Se pueden formar 20 palabras diferentes de 5 letras

Permutaciones de n Objetos tomados r a la vez

El número de permutaciones de n objetos tomados r a al vez lo denotamos por:

P (n , r )Cuya fórmula es:

Ejemplo

Hallar el número de permutaciones de 6 objetos, a saber, a, b, c, d, e, f, tomados tres a la vez. En otras palabras, hallar el número de “palabras de tres letras diferentes” que pueden formarse con las seis letras mencionadas.

Representamos las palabras de tres letras por tres cajas:

La primera letra puede escogerse de 6 formas diferentes; luego, la segunda letra se puede escoger de 5 formas diferentes; y después, la última letra se puede escoger de 4 formas diferentes.

6⋅5⋅4=120 posibles palabras de tres letras sin repetición, o hay 120 permutaciones de 6 objetos tomados 3 a la vez.

113

46 5

P (n , r )= n !(n−r )!

Page 115: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

120!3

!3456!3!6

!36!63,6

P

4!1!3!34

!34!3!43,4

4

3

C

Aplicando la fórmula P (n , r )= n !

(n−r )! tenemos:

6.5 Combinaciones

Supongamos que tenemos una colección de n objetos. Una combinación de estos n objetos tomados de r a la vez, o una, combinación r, es un subconjunto de r elementos. En otras palabras, una combinación r es una selección de r o de n objetos donde el orden no se tiene en cuenta.

El número de combinaciones de n objetos tomados r a la vez lo denotamos por:

C (n , r )

Cuya fórmula es:

C (n , r )=( rn)= n !

r ! (n−r ) !

(0

n)=1; (0

0)=1

Ejemplo:

Las combinaciones de las letras a, b, c, d tomados 3 a la vez son:

A b cA c dA b dB c d

Aplicamos la fórmula:

Analizando el siguiente esquema:

114

Page 116: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Combinación Permutacióna b c abc, acb, cab, cba, bca,

baca c d adc, dac, dca, cda, cad,

acda b d abd, adb, dab, dba, bda,

badb c d bcd, bdc, dbc, dcb, cdb,

cbd

Combinaciones con repetición

Al regresar a casa después de una práctica de carrera en pista, siete estudiantes de bachillerato se detienen en un restaurante de comida rápida, donde cada uno puede comer lo siguiente:

- una hamburguesa con queso- un hot dog- un taco - un sándwich de atún

¿Cuántas compras diferentes son posibles?

Sean q, h, t y p las hamburguesas con queso, el hot dog, el taco y el sándwich de atún, respectivamente. Aquí nos interesa el número de artículos comprados y no el orden en que son adquiridos, de modo que el problema es de selecciones o combinaciones con repetición.

q q h h t t pq q q q h t Pq q q q q q Ph t t p p p Pt t t t t p Pt t t t t t Tp p p p p p P

El número de combinaciones de r objetos tomados de los n objetos dados, de manera que estos objetos pueden repetirse, está dado por:

C (n+r−1 , r )=( r

n+r−1)Ejemplo

115

Page 117: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Una pastelería ofrece cinco tipos distintos de pasteles. Si se supone que hay al menos una docena de cada tipo, al entrar en al pastelería, ¿de cuántas formas se podrá seleccionar una docena de pasteles?

Solución

De los cinco tipos de pasteles se pueden elegir una docena, puesto que cada tipo tiene al menos una docena entonces:

C (5+12−1 ,12 )=( 12

5+12−1)=(12

16)=16 !4 !⋅12 !

=16⋅15⋅14⋅1324

=1820

Binomio de Newton

Si a y b son números reales diferentes de cero, se puede establecer que:

(a+b )0=1(a+b )1=a+b(a+b )2=a2+2ab+b2

(a+b )3=a3+3a2b+3ab2+b3

(a+b )4=a4+4 a3b+6a2 b2+4ab3+b4

(a+b )5=a5+5a4b+10a3b2+10a2b3+5ab4+b5

Los coeficientes en este producto siguen una regla que es mostrada en e siguiente esquema, conocida como el triángulo de pascal.

(a+b )0

(a+b )1

(a+b )2

(a+b )3

(a+b )4

(a+b )5

11 1

1 2 11 3 3 1

1 4 6 4 11 5 10 10 5 1

..................

Expresando (a+b )nen una fórmula a partir de:

116

n = 5 tipos

r = 12 selecciones

Page 118: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Sea el símbolo ( rn)

, léase “n C r” (coeficiente combinatoria), donde r y n son enteros positivos r≤n , se define como sigue:

( rn)= n !

r ! (n−r ) !

La conexión entre estos símbolos entre estos símbolos y los coeficientes de las

expresiones (a+b )n se ve claramente del hecho que el triángulo de pascal puede escribirse ahora así:

(a+b )0

(a+b )1

(a+b )2

(a+b )3

(a+b )4

(a+b )5

(0

0)(0

1) (1

1)(0

2) (1

2) (2

2)(0

3) (1

3) (2

3) (3

3)(0

4) (1

4) (2

4) (3

4) (4

4)(0

5) (1

5) (2

5) (3

5) (4

5) (5

5)..................

(a+b )n=an+(1

n)⋅an−1⋅b+(2

n)⋅an−2⋅b2+.. .+(n−2

n )⋅a2⋅bn−2+(n−1

n )⋅a⋅bn−1+bn

=∑r=0

n

( rn)⋅an−r⋅br

117

Page 119: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

A esta expresión se le denomina el teorema del binomio.

Donde:

t r+1=( rn)⋅an−r⋅br

donde r = 0,1,2,...,n Propiedades

1. Es un polinomio entero, ya que sus coeficientes son enteros por ser números combinatorios.

2. Es un polinomio homogéneo del grado n respecto de las letras a y b

3. es un polinomio completo de n +1 términos, ya que los exponentes de a van disminuyendo sucesivamente desde n a 0

4. Los coeficientes de los términos equidistantes de los extremos son iguales, lo cual es evidente por ser números combinatorios de grados complementarios.

5. El exponente de a en cada término es igual al número de términos que le siguen, y el de b al de los que le preceden

6. Los términos centrales en el desarrollo de un binomio (a+b )n , son:

t n2+1

, si n es par

t n+12

o tn+32

si n es imapar

Consecuencias Prácticas

1. Si los términos del binomio tienen signos contrarios, los términos del desarrollo serán alternativamente positivos y negativos, siendo negativos los que contengan potencias impares del término negativo del binomio. Basta sustituir en el desarrollo a por –a

2. Si los dos términos del binomio son negativos, todos los términos del desarrollo serán positivos o negativos, según que el exponente sea par o impar. Se tiene en efecto.

118

Page 120: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

(−a−b )n=[−1 (a+b ) ]n=(−1 )n (a+b )n

LECTURAS COMPLEMENTARIAS

Los respectivos contenidos se encuentran en Prácticas

REFERENCIAS ELECTRÓNICAS

Introducción a la estadística descriptiva http://www.slideshare.net/lissethperez/estadistica-5357736

Estadística conceptos básicoshttp://www.slideshare.net/ysraelchavez2010/presentacion-estadistica

¿Qué es la Estadística?http://www.ceibal.edu.uy/contenidos/areas_conocimiento/mat/estadistica/qu_es_la_estadstica.html

DITUTOR Variables cualitativas http://www.ditutor.com/estadistica/variable_cualitativa.html

Gráficos para variables cualitativashttp://www.bioestadistica.uma.es/libro/node9.htm

Tipos de gráficos disponibles Office 2007http://office.microsoft.com/es-es/help/tipos-de-graficos-disponibles-HA001233737.aspx

Razón, Proporción y Tasahttp://sameens.dia.uned.es/Trabajos7/Trabajos_Publicos/Trab_3/Gaspar_Garcia_3/razon.html

119

Page 121: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Muestreo 2 Clasificación Slide Sharehttp://www.slideshare.net/yovannygon/muestreo-2-clasificacion

Gráficos para variables cuantitativashttp://www.bioestadistica.uma.es/libro/node10.htm

Ejercicios resueltos para variables cuantitativas y cualitativashttp://www.vitutor.com/estadistica/descriptiva/b_1.html

Estadística y Probabilidadhttp://www.vitutor.com/estadistica.html

PROBABILIDAD Y ESTADÍSTICA

INGENIERÍA DE SISTEMAS TERCER SEMESTRE

LIC. RITA TORRICO

FUNDAMENTOS DE LA ESTADÍSTICAPRACTICA No

APELLIDOS Y NOMBRE …………....................................................................................................................

PARALELO ............................................ FECHA………………….………...........

EJERCICIOS 1. Defina estadística2. ¿Cuál es la diferencia entre muestra y población?3. ¿Qué es un dato estadístico?4. ¿Qué es una variable estadística?5. Explique la diferencia entre parámetro y estadígrafo6. ¿Cuál es la clasificación de la estadística?7. Busque un tema de investigación y declare el problema y los objetivos8. Indica que variables son cualitativas y cuales cuantitativas:

a. Comida Favorita.b. Profesión que te gustac. Número de goles marcados por tu equipo favorito en la última

temporada

120

Page 122: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

d. Número de alumnos de tu Institutoe. El color de los ojos de tus compañeros de clasef. Coeficiente intelectual de tus compañeros de clase

9. Clasificar si es muestra o población

a. Las elecciones en Bolivia.b. El salario de 20 empleados de una gran compañía.c. Realizar una encuesta a 100 personas que ingresaron a una tienda

del total de 896 personas que accedieron a está en un día. d. Realizar un estudio que incluya a todos los miembros de un asilo.

10.Clasificar las siguientes variables en cualitativas y cuantitativas discretas o continuas.

a. La nacionalidad de una persona.b. Número de litros de agua contenidos en un depósito.c. Número de libros en un estante de librería.d. Suma de puntos obtenidos en el lanzamiento de un par de dados.e. La profesión de una persona.f. El área de las distintas baldosas de un edificio.

REFERENCIAS BIBLIOGRÁFICASMitacc Meza, M. Tópicos de estadística descriptiva probabilidades. San Marcos.PROBABILIDAD Y ESTADÍSTICA

INGENIERÍA DE SISTEMAS TERCER SEMESTRE

LIC. RITA TORRICO

EJECUCIÓN DEL TRABAJO ESTADÍSTICO PRACTICA No

APELLIDOS Y NOMBRE …………....................................................................................................................

PARALELO ............................................ FECHA………………….………...........

EJERCICIOS1. Se ha determinado en 30 enfermos el contenido de calcio en sangre,

obteniéndose los siguientes valores:

8.4

9.2

9.5

8.8 9.8 8.

79.8 9.2 9.

89.9

9.3

9.5

8.5

9.7 8.6 9.

69.1

10.1

9.2

9.4

8.9 9 9.

79.4

10.2

9.6

8.8 10 9.

48.7

Agrupa los resultados en intervalos y represéntalos gráficamente.

121

Page 123: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

2. Las puntuaciones obtenidas por grupo en una prueba han sido:

15, 20, 15, 18, 22, 13, 13, 16, 15, 19, 18, 15, 16, 20, 16, 15, 18, 16, 14, 13.

Construya la tabla de distribución de frecuencias y dibuje el polígono de frecuencias respectivo.

3. El director del programa de honores en la Western Universty tiene 25 solicitudes para su admisión el próximo otoño. Las calificaciones de la prueba ACT de los solicitantes son:

27, 27, 27, 28, 27, 25, 25, 28, 26, 28, 26, 28, 31, 20, 26, 26, 28, 24, 24, 23, 29, 30, 25, 25, 30

a) ¿Cuántas clases recomienda?b) ¿Qué intervalo de clase sugiere?c) ¿Cuál es el límite inferior que recomendaría para la primera clase?d) Organice las calificaciones en una distribución de frecuencias y

determine la distribución de frecuencias relativas.

4. Se realizo una encuesta en 30 hogares en la cual se pregunto el nº de individuos que habitualmente conviven en el domicilio. Las respuestas obtenidas han sido las siguientes: 4, 4, 1, 3, 5, 3, 2, 4, 1, 6, 2, 3, 4, 5, 5, 6, 2, 3, 3, 2, 2, 1, 8, 3, 5, 3, 4, 7, 2, 3.a) Calcule la distribución de frecuencias de la variable obteniendo las

frecuencias absolutas, relativas y sus correspondientes acumuladas.b) ¿Qué proporción de hogares está compuesto por tres o menos

personas? ¿Qué proporción de individuos vive en hogares con tres o menos miembros?

c) Dibuje el diagrama de barras de frecuencias.d) Agrupe por intervalos de amplitud 2 los valores de la variable, calcule su

distribución de frecuencias y represente el histograma correspondient

REFERENCIAS BIBLIOGRÁFICASMitacc Meza, M. Tópicos de estadística descriptiva probabilidades. San Marcos.Colecciones Shaum, (1998) Estadística y probabilidades, McGraw- Hill,

PROBABILIDAD Y ESTADÍSTICA

INGENIERÍA DE SISTEMAS TERCER SEMESTRE

LIC. RITA TORRICO

ANÁLISIS ESTADÍSTICO DE VARIABLES CUANTITATIVASPRACTICA No

122

Page 124: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

APELLIDOS Y NOMBRE …………....................................................................................................................

PARALELO ............................................ FECHA………………….………...........

EJERCICIOS 1. Determine el salario medio por hora pagado a carpinteros que obtuvieron los siguientes pagos por hora: $15.40, $20.10, $18.75, $22.76, $30.67, $18.00.Para las cuestiones de a 7 a la 10.a) calcule la media aritmética, b) indique si es un dato estadístico de

muestra o un parámetro de población.

2.El bufete de abogados Andrews y Asociados se especializa en derecho

corporativo. Cobra un cargo por hora de $100 (dólares) por la investigación de un caso, uno de $75 por consultas y uno de $200 por la redacción de un informe La semana pasada uno de los socios dedicó 10 horas a consulta con un cliente, 10 horas a la investigación del caso y 20 horas a la elaboración del informe. ¿Cuál fue el valor medio ponderado de los servicios legales?

3. Determine la media geométrica de los siguientes valores que siguen: 8, 12, 14, 26, 5.

4. A continuación se enlista el aumento porcentual en ventas para la Corporación MG en los últimos 5 años. Determine la media geométrica del aumento porcentual en ventas durante el período.

9.4 13.8 11.7 11.9 14.7

5. Se ha realizado un estudio entre 100 mujeres mayores de 15 años y el número de hijos de las mismas. El resultado ha sido:

Se pide:a. Calcular el número medio de hijos, la mediana y la moda.b. Calcular los cuartiles y el decil 7.

123

Page 125: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

c. Analizar la dispersión de la distribución, interpretando los resultados.d. Analizar la forma de la distribución calculando los coeficientes

correspondientes. e. Comente los resultados.

6. El Departamento de Comercio -Oficina del Censo, informó acerca del número de personas preceptoras de ingreso en familias estadounidenses:

Número de personas Ingreso (en miles)

0 70831 186212 224143 55334 o más 2797

a) ¿Cuál es el valor modal del número de tales personas?b) ¿Y cuál es la mediana?c) Explique por qué no puede calcularse la media aritmética del número de preceptores de ingreso.7. La distribución del importe de las facturas por reparación de carrocería de una muestra de 80 vehículos en un taller, viene dada por la tabla siguiente:

Se pide:a) Calcular el importe medio. Estudiar la representatividad de esta media.b) Calcular el importe mediano y el importe más frecuente.c) Calcular el tercer decil. ¿Qué interpretación tiene?d) ¿Cuál es el importe máximo pagado por las 60 reparaciones más baratas?8. Calcula la desviación típica y la media de la siguiente distribución:

9. En una población de 20 la suma de los datos obtenidos en un estudio vale 50, y la suma de los cuadrados de esos datos vale 200. ¿Cuánto vale la desviación típica?

10. Dada la variable X , que toma los valores 2, 4, 20 y 24.

124

xi 2 4 6 8 10 12 14fi 10 20 25 35 40 15 5

Page 126: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

a. Hallar la media y la varianza de los valores de esa variable tipificados.

b. Hallar la media y la varianza de la variable Y= 2X + 5c. Hallar el coeficiente de variación de la variable X y de la variable Y e

interpretar el resultado.d. Si a todos los valores de la variable X se les resta 2¿Cuál sería la

media y la varianza de la nueva variable?

11. Calcular los tres cuartiles de las dos distribuciones siguientes:

Xi fi2 83 108 1212 615 3

Li-1-Li fi 5-10 610-15 715-20 1020-30 9

Calcular también estas medidas gráficamente en ambos casosCalcula la Moda en la segunda distribución.

REFERENCIAS BIBLIOGRÁFICASMitacc Meza, M. Tópicos de estadística descriptiva probabilidades. San Marcos.

PROBABILIDAD Y ESTADÍSTICA

INGENIERÍA DE SISTEMAS TERCER SEMESTRE

LIC. RITA TORRICO

VARIABLE ESTADÍSTICA BIDIMENSIONALPRACTICA No

APELLIDOS Y NOMBRE …………....................................................................................................................

PARALELO ............................................ FECHA………………….………...........

EJERCICIOS 1. A partir de la encuesta realizada sobre 480 familias residentes en una

determinada ciudad, se han obtenido los siguientes datos sobre ingresos mensuales (X) y depósitos a la vista en bancos y cajas de ahorros (Y), en miles de pesetas:

125

Page 127: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

Suponiendo que las marcas de clase son representativas de cada intervalo, determine:

a) Las frecuencias absolutas de las distribuciones marginales de las variables X e Y.

b) Las frecuencias relativas de la distribución conjunta y de las distribuciones marginales de X y de Y.

c) Las frecuencias relativas, expresadas en términos porcentuales, f13, f21, f32, f44, f1·, f3·, f·3, f4·.

d) Los valores que alcanzan las siguientes frecuencias relativas para distribuciones condicionadas: f(X1/Y=350), f(X2/Y=1250), f(Y1/X=375), f(Y2/X=200).

e) Las medias de las distribuciones marginales de X y de Y.f) Verificar si X e Y son independientes. En caso de que no sean

independientes, cuantificar el tipo y grado de dependencia lineal.

2. Sobre un conjunto de conductores se ha realizado una encuesta para analizar su edad (Y) y el número de accidentes que han sufrido (X). A partir de la misma, se obtuvieron los siguientes resultados:

A partir de estos datos, se le pide que determine para este conjunto de conductores:

a) Las medias y varianzas de las distribuciones marginales.b) El número medio de accidentes que tienen los conductores con edades

comprendidas entre los 40 y los 50 años.c) La covarianza entre las dos variables.d) ¿Qué edad tendría como mucho un conductor con un solo accidente para

encontrarse en el grupo del 20 % de los más jóvenes?

3. Como es bien sabido, se puede establecer una dependencia entre el consumo de una familia (variable X1, en miles ptas./mes) y su renta (variable X2, en miles ptas./mes). Con el objeto de concretar tal relación en una determinada economía, se recogieron datos referentes a 200 familias, obteniéndose los siguientes resultados:

126

Page 128: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

A partir de ellos, se desea conocer:a) Para las familias con un consumo mensual entre 50.000 y 300.000 ptas.,

¿cuál sería la renta más frecuente?b) ¿Qué porcentaje de las 200 familias tiene una renta superior a 163.000

ptas. mensuales?c) Para las dos variables consideradas, ¿qué media sería la más

representativa? d) ¿Son X1 e X2 independientes?e) ¿Se puede decir con estos datos que existe una relación lineal entre las

variables anteriores?4. Un grupo de 10 amigos se ha presentado a una prueba de oposición. Anotaron

el número de horas que dedicaron a estudiar la semana antes del examen y la nota obtenida en la prueba. La información se recoge en la siguiente tabla:

Representa los datos mediante una nube de puntos e indica cuál de estos valores te parece más apropiado para el coeficiente de correlación: 0,92; 0,44; 0,92; 0,44.

5. Se ha realizado una encuesta preguntando por el número de personas que habitan el hogar familiar y el número de habitaciones que tiene la casa. La tabla siguiente recoge la información obtenida:

Hallar la covarianza y el coeficiente de correlación. ¿Cómo es la relación entre las dos variables?

REFERENCIAS BIBLIOGRÁFICASMitacc Meza,M. Tópicos de estadística descriptiva probabilidades, San Marcos.

127

Page 129: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

PROBABILIDAD Y ESTADÍSTICA

INGENIERÍA DE SISTEMAS TERCER SEMESTRE

LIC. RITA TORRICO

ANÁLISIS COMBINATORIOPRACTICA No

APELLIDOS Y NOMBRE …………....................................................................................................................

PARALELO ............................................ FECHA………………….………...........

EJERCICIOS 1. ¿Cuántas parejas diferentes compuestas por una mujer y un hombre se

podrían formar a partir de 6 hombres y 5 mujeres?2. ¿Cuántos tríos diferentes compuestos por un hombre, una mujer y un niño se

pueden formar a partir de 4 hombres, 5 mujeres y 3 niños?3. En una canasta hay 5 frutas diferentes y en otra canasta hay 3 verduras

distintas. ¿De cuántas maneras se puede elegir una fruta y una verdura?4. ¿Cuántas palabras diferentes, con o sin significado, se pueden formar con las

letras: A, L, E y C, sin que ninguna letra se repita ni falte?5. ¿Cuántas permutaciones simples pueden hacerse con las letras de la palabra

LEGAR?6. ¿Cuántas de esas permutaciones comenzarán con una consonante?7. ¿Cuántas comenzarán con una vocal?8. ¿Cuántas comenzarán con la letra A?9. Se tienen 10 bolitas de igual tamaño, 3 son de color rojo, 2 de color azul y 5 de

color verde. ¿De cuántas maneras diferentes se pueden ordenar en fila esas 10 bolitas?

10.¿Cuántas de esas permutaciones comenzarán con una bolita verde?11.¿Cuántas terminarán con una bolita roja?12.¿Cuántas comenzarán con una bolita azul y terminarán con una bolita verde?13.¿Cuántos números de 3 cifras diferentes pueden formarse con los dígitos: 1, 2,

3, 4 y 5?14.¿Cuántas palabras de 3 letras, con o sin significado, pueden formarse con las

letras de la palabra COMA?15.Una empresa ferroviaria tiene 6 estaciones. ¿Cuántos tipos diferentes de

boletos, donde se indique la estación de salida y de llegada, deben imprimirse?16.¿Cuántos números de 3 cifras pueden formarse con los dígitos: 5, 6, 7, 8 y 9?17.¿Cuántos números de dos cifras pueden formarse con los diez dígitos?18.¿De cuántas maneras diferentes se puede elegir una comisión de 5 miembros

a partir de 8 personas?19.¿Si una persona determinada debe estar siempre incluida?20.¿Si una persona determinada debe estar siempre excluida?21.¿Si una persona determinada debe estar siempre incluida y otra siempre

excluida?22.¿Si dos personas determinadas nunca deben estar juntas en esa comisión?23.¿Cuántas diagonales pueden trazarse en un polígono convexo de n lados?

128

Page 130: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

24.¿Cuántas comisiones diferentes, compuestas por 2 hombres y 3 mujeres, pueden formarse, a partir de 10 hombres y 12 mujeres?

25.¿Cuántas palabras de 7 letras distintas (4 consonantes y 3 vocales), con o sin significado, pueden formarse a partir de 6 consonantes y 5 vocales, todas diferentes?

REFERENCIAS BIBLIOGRÁFICASMitacc Meza,M. Tópicos de estadística descriptiva probabilidades, San Marcos.

BIBLIOGRAFÍA

1. Canales F.H., Alvarado E.L. y Pineda E.B.(1989) Metodología de la Investigación. México.OPS.

2. Chungara Castro, V. (2011) Estadística y Probabilidades. La Paz, Bolivia: Leonardo.

3. De la Quintana G., Hugo M.(1995) Introducción a la Estadística Descriptiva. La Paz, Bolivia: Stilo Publicidad Gráfica.

4. Mitacc Meza, M. Tópicos de Estadística Descriptiva y Probabilidad. San Marcos.

5. Universidad Salesiana de Bolivia (1999-2000) Estadística Social. Bolivia.

6. Zapata Escobar, L.(2003) Curso de Estadística Descriptiva. La Paz, Bolivia.

129

Page 131: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

GLOSARIO

A

AMPLITUD O RANGO La diferencia entre el valor máximo y mínimo de los valores de una variable. En la amplitud de una variable se encuentran comprendidos el 100% de los valores muestrales

ANACOVA o ANCOVA Análisis de la covarianza. Es una técnica estadística que combina ANOVA (pues compara medias entre grupos) y análisis de regresión (ajusta las comparaciones de las medias entres los grupos por variables continuas o covariables)

ANOVA Análisis de la varianza. Es una técnica estadística que sirve para decidir/determinar si las diferencias que existen entre las medias de tres o más grupos (niveles de clasificación) son estadísticamente significativas. Las técnicas de ANOVA se basan en la partición de la varianza para establecer si la varianza explicada por los grupos formados es suficientemente mayor que la varianza residual o no explicada

C

COEFICIENTE DE CORRELACIÓN Estadístico que cuantifica la correlación. Sus valores están comprendidos entre -1 y 1

COEFICIENTE DE DETERMINACIÓN Es el cuadrado del coeficiente de correlación. Expresado en tanto por ciento mide el grado de información compartida entre dos variables continuas

COEFICIENTES DE REGRESIÓN En un modelo de regresión lineal son los valores de a y b que determinan la expresión de la recta de regresión y=a + b·x

COEFICIENTE DE VARIACIÓN Es una medida de dispersión relativa. No tiene unidades y se calcula dividiendo la cuasi-desviación típica entre la media muestral. Se suele expresar en tanto por ciento

CORRELACIÓN Expresa la concordancia entre dos variables según el sentido de la relación de estas en términos de aumento ó disminución. COVARIANZA Representa la media del producto de las desviaciones de dos variables en relación a su media.

130

Page 132: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

CUARTILES Existen tres cuartiles: Q!, Q2 y Q3. Estos números dividen a los valores muestrales , una vez ordenados, en cuatro partes homogéneas en cuanto a número de observaciones. Así Q1 determina el valor que hace que haya un 25% de valores muestrales por debajo de éste, y un 75% por encima de éste. Q2 es la mediana

CUASIVARIANZA Característica de una muestra o población que cuantifica su dispersión o variabilidad. La cuasivarianza se obtiene multiplicando la varianza por n / (n-1). La cuasivarianza muestral es un estimador centrado (no sesgado) de la varianza poblacional.

D

DECILES Corresponden a los percentiles 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80% , 90% y 100%

DESCRIPTIVA Parte de la estadística que resume la información de la muestra. La información recogida y resumida en los estadísticos se usa para la estimación de parámetros poblacionales

DESVIACIÓN ESTÁNDAR (TÍPICA) Característica de una muestra o población que cuantifica su dispersión o variabilidad. Tiene las mismas unidades que la variable. la desviación típica es invariante con respecto al origen de la distribución. Su cuadrado es la varianza

DIAGRAMA DE PUNTOS(scatter plot) ES un gráfico bidimensional o tridimensional que muestra la variación de los valores muestrales de dos o tres variables.

DIAGRAMAS DE BARRASRepresentación gráfica para las variables discretas

DISTRIBUCIÓN DE DATOS En la realización de un experimento, corresponde a la recogida de los datos experimentales para cada individuo y cada variable

DISTRIBUCIÓN NORMAL O DE GAUSSEs una distribución teórica de probabilidad que se usa tanto en la estadística aplicada como en la teórica. Aparece en la práctica con mucha frecuencia como consecuencia del importante resultado que establece el teorema central del límite. Tiene una forma en forma de campana, y viene caracterizada por únicamente dos valores: la media y la varianza.

131

Page 133: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

DISTRIBUCIÓN T STUDENT Distribución teórica de probabilidad. Se usa para la comparación de dos medias en poblaciones independientes y normales

E

ERROR ESTÁNDAR DE LOS RESIDUOS Estadístico de dispersión de los valores de los residuos después de la regresión.

ESCALA La distribución de datos puede recogerse en distintas escalas: nominal, dicotómica, discreta o continua

ESTADÍSTICOS Son funciones de la muestra. Su valor variará según la muestra, pero nos permite hacer estimaciones de parámetro poblacionales o construir estadísticos experimentales para tomar decisiones acerca de la

ESTADÍSTICOS DE CENTRALIZACIÓN Son estadísticos que nos resumen la información de la muestra dándonos información acerca del valor donde parece concentrarse la distribución de datos

ESTADÍSTICOS DE DISPERSIÓNSon estadísticos que nos resumen la información de la muestra dándonos información acerca de la magnitud del alejamiento de la distribución de datos en relación a un valor central o de concentración de los datos

F

FRECUENCIAS: ABSOLUTAS, RELATIVASLas frecuencias absolutas representan el recuento de los valores de una variable discreta de forma que su suma nos da el tamaño muestral .Las relativas son las absolutas divididas por el tamaño muestral .Las frecuencias relativas sumarán 1 ó 100 según se expresen en tanto por uno o en tanto por ciento

FUNCIÓN Función matemática. Expresión que liga dos o mas variables de forma determinística

H

HISTOGRAMAS Es un gráfico en forma de barras de una variable continua que se ha discretizado en intervalos, de forma que la altura de las barras en cada intervalo indica la frecuencia relativa en éste.

HOMOCEDASTICIDAD Hipótesis de igualdad de varianzas poblacionales en distintos grupos

132

Page 134: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

I

INDEPENDENCIA Son datos que no están ligados entre si

L

LIMITES CONFIDENCIALES Extremos de los intervalos confidenciales

M

MÁXIMO Es un valor muestral de forma que por encima de este no hay valores muestrales

MEDIANA Corresponde al percentil 50%. Es decir, la mediana hace que haya un 50% de valores muestrales inferiores a ella y un 50% de valores muestrales superiores a ella.

MEDIA Es una medida de centralización para una variable continua. Se obtiene sumado todos los valores muestrales y dividiendo por el tamaño muestral

MÍNIMO Es un valor muestral de forma que por debajo de este no hay valores muestrales

MODA Es el valor que más se repite en una variable nominal

MODELO Intento matemático / estadístico para explicar una variable respuesta por medio de una o más variables explicativas o factores

MUESTRAS Subgrupos de observaciones de la población de estudio.

N

NIVEL DE CONFIANZA Se define como 1 menos el nivel de significación. Se suele expresar en tanto por ciento

NIVEL DE SIGNIFICACIÓN La probabilidad de rechazar una hipótesis nula verdadera; es decir, la probabilidad de cometer un error de tipo I

133

Page 135: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

O

OBSERVACIÓNSinónimo de caso registro e individuo

P

PARÁMETROS Son valores desconocidos de características de una distribución teórica. El objetivo de la estadística es estimarlos bien dando un valor concreto, bien dado un intervalo confidencial

PERCENTILES Un percentil 90% corresponde a un valor que divide a la muestra en dos, de forma que hay un 90% de valores muestrales inferiores a éste, y un 10% de valores muestrales superiores a éste. Los percentiles 25%, 50%, 75% son el primer, segundo y tercer cuartil respectivamente

POBLACIONES Conjunto de individuos de interés. Normalmente no se dispone de información de toda la población y se recurre a muestras

PORCENTAJES Proporciones expresadas en tanto por ciento

PROBABILIDAD Asignación de un número entre cero y uno a cada resultado experimental.

PROPORCIÓN Número de individuos que verifican una condición entre el total del tamaño muestral. Se puede expresar en tanto por uno o en tanto por cien

PRUEBA CHI CUADRADO Se utiliza  para analizar tablas de contingencia y comparación de proporciones en datos independientes

PRUEBA DE FISHEREs la prueba estadística de elección cuando la prueba de chi.cuadrado no puede ser empleada por tamaño muestral insuficiente.

PRUEBA T DE STUDENTSe utiliza  para la comparación de dos medias de poblaciones independientes y normales

134

Page 136: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

R

RANGO Diferencia entre el valor máximo y mínimo de un muestra o población. Solo es válido en variables continuas. Es una mala traducción de inglés "range". Amplitud

RANGO INTERCUARTILICO La diferencia entre el percentil 75% y el percentil 25%

RAZÓN DE VEROSIMILITUDESCombina resultados de varios tests diagnósticos dando una probabilidad de enfermedad en base a ese conjunto de resultados en forma global

RECTA DE REGRESIÓN Es el modelo que sirve para explicar una variable respuesta continua en términos de un único factor o variable explicativa

REGRESIÓN Técnica estadística que relaciona una variable dependiente (y) con la información suministrada por otra variable independiente (x).ambas variables deben ser continuas. Si asumimos relación lineal, utilizaremos la regresión lineal simple. Entre las restriciones de la RLS se incluyen: Los residuos deben ser normales Las observaciones independientes La dispersión de los residuos debe mantenerse a lo largo de la recta de regresión

REGRESIÓN LINEAL MÚLTIPLEEl modelo de regresión lineal múltiple sirve para explicar una variable respuesta continua en términos de varios factores o variables explicativas continuas

S

SECTORES CIRCULARESForma de representación en forma de tarta de variables discretas nominales

SENSIBILIDAD DE UN TEST DIAGNÓSTICORepresenta la probabilidad de que un individuo esté enfermo habiendo dado positivo en el test diagnóstico

SESGO La diferencia entre el valor del parámetro y su valor esperado. También se utiliza en contraposición de aleatorio, así una muestra sesgada es no aleatoria

SIMETRÍA Es una medida que refleja si los valores muestrales se extienden o no de igual forma a ambos lados de la media.

135

Page 137: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

SUMATORIO Estadístico descriptivo que suma los valores numéricos de los datos muestrales de distribuciones continuas

T

TABLAS DE CONTINGENCIATablas de 2 o más variables, donde en cada celda se contabilizan los individuos que pertenecen a cada combinación de los posibles niveles de estas variables

TAMAÑO MUESTRALNúmero de individuos u observaciones que componen la muestra

U

UNIDADConcepto primario relacionado con los componentes elementales de las muestras estadísticas. Sinónimo, pero no esencialmente idéntico,  de caso , observación , registro o individuo

UNIVERSOConjunto infinito de elementos o unidades generado por un modelo teórico. Conjunto real de todos los elemento que comparten unas condiciones de admisión en el conjunto

VALORES NUMÉRICOSResultados de las variables para cada individuo en la muestra de estudio. Su naturaleza puede ser nominal, dicotómica, ordinal o continua

V

VALORES NUMÉRICOSResultados de las variables para cada individuo en la muestra de estudio. Su naturaleza puede ser nominal, dicotómica, ordinal o continua

VARIABLE Objeto matemático que puede tomar diferentes valores. Generalmente asociado a propiedades o características de las unidades de la muestra. Lo contrario de variable es constante.

VARIABLE ALEATORIA Variable cuyo resultado varía según la muestra según una distribución de probabilidad.

VARIABLE CONTINUA Aquella que puede tomar una infinidad de valores, de forma que dados dos valores cualesquiera, también pueda tomar cualquier valor entre dichos valores

136

Page 138: virtual.usalesiana.edu.bovirtual.usalesiana.edu.bo/.../dossier/22012/1806.docx · Web viewPosterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir,

VARIABLE DISCRETAVariable que toma un número finito o infinito de valores, de forma que no cubre todos los posibles valores numéricos entre dos dados, en contraposición de las continuas

VARIABLES Describen características en las observaciones realizadas

VARIANZA Característica de una muestra o población que cuantifica su dispersión o variabilidad. La varianza tiene unidades al cuadrado de la variable. Su raíz cuadrada positiva es la desviación típica. La varianza muestral es un estimador sesgado de la varianza poblacional

137