estad istica y probabilidad

73
ESTAD ´ ISTICA Y PROBABILIDAD Prof. Gualberto E. Ruiz Diaz Profesorado en Matem´ atica Facultad de Humanidades Universidad Nacional de Formosa 20 de febrero de 2019

Upload: others

Post on 10-Jul-2022

11 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ESTAD ISTICA Y PROBABILIDAD

ESTADISTICA YPROBABILIDAD

Prof. Gualberto E. Ruiz DiazProfesorado en MatematicaFacultad de Humanidades

Universidad Nacional de Formosa

20 de febrero de 2019

Page 2: ESTAD ISTICA Y PROBABILIDAD
Page 3: ESTAD ISTICA Y PROBABILIDAD

Capıtulo 1

Recoleccion, organizacion ypresentacion de datos

Introduccion

En el trabajo cotidiano nos enfrentamos a situaciones en las cuales se debentomar decisiones basadas en la observacion de fenomenos. Ası, por ejemplo, unproductor debe establecer una programacion televisiva basadas en una seriede mediciones de rating, el psicologo debe recomendar cierta terapia despuesde un estudio minucioso del caso en particular, el ingeniero mecanico debesolucionar problemas tecnicos de un vehıculo de competicion en base a lastelemetrıas efectuadas sobre una serie de pruebas en pista realizadas por elvehıculo, etc.

Estas decisiones generalmente estan apoyadas por una teorıa pertinente enel campo especıfico y, a su vez, en la experiencia acumulada por el profesionalen base a la observacion de hechos con caracterısticas similares.

El comun de las personas concibe la estadıstica como columnas de cifras ograficos, sin embargo, podemos decir que la estadıstica llega a tener un sentidomas amplio. La funcion principal de la estadıstica es elaborar principios ymetodos que nos ayuden a tomar decisiones frente a la incertidumbre.

La estadıstica se emplea hoy en toda clase de estudios cientıficos, en todasituacion en la cual deba tomarse una decision basada en datos empıricos.

1

Page 4: ESTAD ISTICA Y PROBABILIDAD

2 1.1. Concepto de Estadıstica

1.1. Concepto de Estadıstica

Iniciaremos nuestro estudio de la estadıstica senalando, como lo hicimosen la introduccion, que la palabra tiene dos significados basicos. En el primersentido, el termino se utiliza para referirse a numeros que derivan de datosobtenidos, como se muestran en los siguientes ejemplos:

En la Copa Mundial FIFA Rusia 2018 hubo un promedio de 2,6goles por partido, superado por la Copa Mundial FIFA Brasil 2014donde la media fue de 2,7 goles por partido.

En 2016 se realizaron un total de 126.670 trasplantes de organosen todo el mundo, un 5,8 % mas que el ano anterior, segun los datospublicados por el Registro Mundial de Trasplantes. De estos trasplantes,entre otros, 84.347 fueron de rinon (41 % de donante vivo), 27.759fueron de hıgado (21 % de donante vivo), 7.023 fueron de corazon.

Segun la Bolsa de Cereales de Buenos Aires, la campana agrıcola2017/18 sufrira una merma de mas de 3 millones de toneladas de sojaen relacion al ciclo anterior, al estimarse una cosecha de 54 millones detoneladas, aunque contara con 2 millones de toneladas mas de maız, cuyaproduccion se proyecta en 41 millones de toneladas.

El segundo significado, en un sentido mas amplio, se refiere a la estadısticacomo metodo de analisis.

Estadıstica: La estadıstica es el estudio de los metodos y procedimientospara recoger, clasificar, resumir y analizar datos y para hacer inferenciascientıficas partiendo de tales datos que nos permitira tomar decisiones endeterminados ambitos.

Esta definicion cubre gran parte de la actividad del cientıfico. Es impor-tante observar que el objeto sobre el que se realiza el analisis estadıstico sonlos datos y las observaciones cientıficas son por sı mismos, mas que el materialquımico que interviene en el estudio.

Claramente, la estadıstica implica mucho mas que simplemente trazargraficas y calcular promedios.

Page 5: ESTAD ISTICA Y PROBABILIDAD

1. Recoleccion, organizacion y presentacion de datos 3

1.2. Estadıstica descriptiva y Estadıstica

inferencial

La estadıstica se puede dividir en 2 categorıas, la estadıstica descriptiva yla estadıstica inferencial o inductiva. La estadıstica descriptiva es una cienciaque sirve como metodo para organizar, analizar series de datos (por ejemplo,edad de una poblacion, altura de los estudiantes de una escuela, temperaturaen los meses de verano, etc.) y poner de manifiesto sus caracterısticas esencialescon el proposito de llegar a conclusiones.

La estadıstica inferencial se basa en las conclusiones a la que se llega porla ciencia experimental basandose en la utilizacion de datos muestrales.

En la terminologıa estadıstica, el procedimiento inductivo implica el hacerinferencias acerca de una poblacion adecuada o universo a la luz de lo averi-guado en un subconjunto aparte o muestra. La inferencia estadıstica se refierea los procedimientos mediante los cuales se pueden hacer tales generalizacioneso inducciones.

Es importante por todo lo dicho anteriormente, que el proceso de la inferen-cia cientıfica, implica el grado mas elevado de cooperacion entre la estadısticay el estudio experimental.

Las causas por las cuales se recurre al muestreo son:

Analizar a la poblacion resulta muy costoso por la relacion costo/beneficio.

Analizar a la poblacion completa lleva mucho tiempo.

Al analizar el objeto de estudio se lo destruye, por lo cual si analizamosa toda la poblacion nos quedamos sin unidades.

La poblacion a analizar es infinita, por lo cual es imposible analizarla ensu totalidad.

La poblacion a analizar es inaccesible.

1.3. Etapas del Metodo estadıstico

El metodo estadıstico consiste en una secuencia de procedimientos para elmanejo de los datos cualitativos y cuantitativos de la investigacion. Dicho

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 6: ESTAD ISTICA Y PROBABILIDAD

4 1.3. Etapas del Metodo estadıstico

manejo de datos tiene por proposito la comprobacion, en una parte de larealidad, de una o varias consecuencias verificables deducidas de la hipotesisgeneral de la investigacion.

Las caracterısticas que adoptan los procedimientos propios del metodoestadıstico dependen del diseno de investigacion seleccionado para la compro-bacion de la consecuencia verificable en cuestion.

El metodo estadıstico tiene las siguientes etapas:

1. Recoleccion

2. Organizacion

3. Presentacion

4. Sıntesis

5. Analisis

6. Interpretacion

Tales etapas siempre se encuentran en el orden descrito y cada una de ellasconsiste, de manera resumida, en lo siguiente:

1. Recoleccion (medicion). En esta etapa se recoge la informacion cuali-tativa y cuantitativa senalada en el diseno de la investigacion. En vistade que los datos recogidos suelen tener diferentes magnitudes o intensi-dades en cada elemento observado (por ejemplo el peso o la talla de ungrupo de personas), a dicha informacion o datos tambien se les conocecomo variables. Por lo anterior, puede decirse que esta etapa del metodoestadıstico consiste en la medicion de las variables.

La recoleccion o medicion puede realizarse de diferentes maneras, a vecesocurre por simple observacion y en otras ocasiones se requiere de comple-jos procedimientos de medicion, en algunas ocasiones basta con una solamedicion y en otras se requiere una serie de ellas a lo largo de ampliosperıodos de tiempo.

La calidad tecnica de esta etapa es fundamental ya que de ella dependeque se disponga de datos exactos y confiables en los cuales se fundamen-ten las conclusiones de toda la investigacion.

Es tan grande la importancia de esta etapa que algunas clasificaciones delas investigaciones se basan en la forma en que ocurre la medicion; por

Page 7: ESTAD ISTICA Y PROBABILIDAD

1. Recoleccion, organizacion y presentacion de datos 5

ejemplo si la informacion es recogida en una sola ocasion suele decirse quela investigacion es transversal ; en cambio, si la informacion es recogidaa lo largo del tiempo se denomina longitudinal a la investigacion.

En ocasiones, la recoleccion de la informacion debe ocurrir en grupostan grandes de individuos que se hace impractico tratar de abarcar atodos ellos, entonces es cuando se ponen en practica procedimientos demuestreo. Tales procedimientos de muestreo estan subordinados a la con-secuencia verificable que se desea comprobar y al diseno de investigacionseleccionado.

2. Organizacion. En esta etapa del metodo estadıstico la informacion re-colectada es sometida a revision realizando correcciones, clasificacion ycomputo numerico.

En ocasiones la organizacion es muy simple, por ejemplo con rayas opalotes, otras veces se requiere el empleo de tarjetas con los datos y, eninvestigaciones con mucha informacion y muchos casos puede requerirseel empleo de computadoras y programas especiales para el manejo debases de datos.

En terminos generales puede decirse que la organizacion consiste en lacuantificacion de la frecuencia con que aparecen las diversas caracterısti-cas medidas en los elementos en estudio; por ejemplo: el numero de per-sonas de sexo femenino y el de personas de sexo masculino, o el numerode ninos con peso menor a 3 kilos y el numero de ninos con peso igual omayor a dicha cifra.

3. Presentacion. En esta etapa del metodo estadıstico se elaboran loscuadros y los graficos que permiten una inspeccion precisa y rapida delos datos.

La elaboracion de cuadros, que tambien suelen llamarse tablas, tienepor proposito acomodar los datos de manera que se pueda efectuar unarevision numerica precisa de los mismos.

La elaboracion de graficos tiene por proposito facilitar la inspeccion visualrapida de la informacion.

Casi siempre a cada cuadro con datos le puede corresponder una graficapertinente que represente la misma informacion.

Presentar la misma informacion tanto en un cuadro como en su corres-pondiente grafico permite obtener una clara idea de la distribucion delas frecuencias de las caracterısticas estudiadas.

4. Sıntesis. En esta etapa la informacion es resumida en forma de medidasque permiten expresar de manera sintetica las principales propiedades

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 8: ESTAD ISTICA Y PROBABILIDAD

6 1.3. Etapas del Metodo estadıstico

numericas de grandes series o agrupamientos de datos.

La condensacion de la informacion, en forma de medidas llamadas deresumen, tiene por proposito facilitar la comprension global de las carac-terısticas fundamentales de los agrupamientos de datos.

Tales medidas de resumen, al ser comunicadas, permiten a los interlocu-tores evocar de una misma manera la esencia de los datos; por ejemplo,cuando alguien informa que el promedio de calificaciones de un grupo dealumnos es 9.6, en una escala que va del 0 al 10, la imagen que se trans-mite es la de un grupo con buen aprovechamiento escolar; igualmente,cuando se dice que el porcentaje de defunciones con una cierta tecnicaquirurgica es de 80 %, las personas que escuchan se imaginan que se tratade un procedimiento peligroso.

La informacion cualitativa, como el sexo, la ocupacion o los tipos deenfermedades, requiere ser condensada a traves de medidas de resumendiferentes a la que se usan para sintetizar la informacion cuantitativa onumerica como el peso, la talla o la concentracion de glucosa.

Entre las principales medidas de resumen para sintetizar a los datoscualitativos se encuentran las razones, las proporciones y las tasas.

Entre las principales medidas para sintetizar los datos cuantitativos seencuentran la moda y la amplitud, la mediana y los percentiles, y elpromedio y la desviacion estandar.

5. Analisis. En esta etapa, mediante formulas estadısticas apropiadas y eluso de tablas especıficamente disenadas, se efectua la comparacion delas medidas de resumen previamente calculadas: por ejemplo, si antes sehan calculado los promedios de peso de dos grupos de personas someti-das a diferentes dietas, el analisis estadıstico de los datos consiste en lacomparacion de ambos promedios con el proposito de decidir si parecehaber diferencias significativas entre tales promedios.

Existen procedimientos bien establecidos para la comparacion de las me-didas de resumen que se hayan calculado en la etapa de descripcion. Talesprocedimientos, conocidos como pruebas de analisis estadıstico cuentancon sus formulas y procedimientos propios.

Cada prueba de analisis estadıstico debe utilizarse siempre en funcion deltipo de diseno de investigacion que se haya seleccionado para la compro-bacion de cada consecuencia verificable deducida a partir de la hipotesisgeneral de investigacion.

6. Interpretacion. Es una etapa que esta presente en todo trabajo es-tadıstico y esta ligada a una apreciacion subjetiva de los resultados deltrabajo.

Page 9: ESTAD ISTICA Y PROBABILIDAD

1. Recoleccion, organizacion y presentacion de datos 7

1.4. Conceptos basicos

En estadıstica es comun utilizar los terminos poblacion, muestra y variableentre otros. Estos terminos son centrales en la estadıstica, ası que los definimosa continuacion.

Individuo: es cualquier elemento que porte informacion sobre el fenomenoque se estudia. Ası, si estudiamos la altura de los ninos de una clase, cadaalumno es un individuo; si estudiamos la salud de mujeres embarazadasen un centro de salud, cada mujer embarazada es un individuo.

Al individuo tambien se lo conoce como unidad de observacion o unidadexperimental.

Poblacion: es el conjunto de todos los individuos (personas, objetos, ani-males, etc.) que porten informacion sobre el fenomeno que se estudia.Por ejemplo, si estudiamos la alfabetizacion en una ciudad, la poblacionsera el total de los individuos mayores de 10 anos de dicha ciudad.

Una poblacion es finita cuando todos los elementos que la constituyenpueden ser fısicamente listados e individualizados, en caso contrario sedira que la poblacion es infinita. Una forma de simbolizar a la poblacionsera mediante la letra N .

Muestra: es un subconjunto representativo de la poblacion que se selec-ciona para ser estudiado ya que la poblacion es demasiado grande comopara analizarla en su totalidad. Ası, si se estudia la desercion escolarde una ciudad, lo normal sera no recoger informacion sobre todas lasescuelas de la ciudad (serıa una labor muy compleja), sino que se sueleseleccionar un subgrupo (muestra) que se entienda que es suficientemen-te representativo. Una forma de simbolizar a una muestra sera mediantela letra n.

Parametro: es una medicion numerica que describe alguna caracterısticade una poblacion.

Estadıstico: es una medicion numerica que describe alguna caracterısticade una muestra.

Censo: es el estudio realizado sobre la totalidad de la poblacion.

Encuesta o muestreo: es el estudio realizado sobre una muestra.

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 10: ESTAD ISTICA Y PROBABILIDAD

8 1.4. Conceptos basicos

Dato: es la informacion o caracterıstica que se registra en el proceso deobservacion de un individuo. Ejemplos de datos son la edad, el peso y laestatura de un nino.

Variable: es cualquier caracterıstica que varıa de individuo a individuo enla muestra o poblacion. Ejemplos de variables son los diferentes gradosde desnutricion en que se puede clasificar a un nino segun su edad, pesoy estatura. Otro ejemplo de variable es la nacionalidad de los turistasque ingresan al paıs durante temporada de vacaciones.

Las variables se clasifican en:

• Variable cualitativa o categorica: son aquellas que clasifican a lasunidades de observacion o individuos en clases o categorıas. Si lascategorıas tienen un orden propio (por ejemplo: nunca, a veces,siempre), se dice que la variable es ordenable. Si las categorıas notienen un orden (por ejemplo: mujer, varon), se dice que la variablees no ordenable. Las observaciones hechas sobre variable cualitativasse denominan datos categoricos y muchas veces son codificados.

• Variable cuantitativa o numerica: son aquellas cuyas observacionesprovienen de procesos de medicion o conteo (finito, infinito nume-rable). Las operaciones aritmeticas definidas sobre tales variablestienen significado. Son datos mensurables. Ejemplos son edad, pe-so, altura, ingreso salarial, cantidad de autos, etc. Por su parte, lasvariables cuantitativas se pueden clasificar en discretas y continuas:

Discreta: solo puede tomar valores enteros (1, 2, 8, –4, etc.). Unejemplo es el numero de hermanos de un alumno de la escuelaprimaria (puede ser 1, 2, 3, . . . , etc., pero nunca podra ser 3,45).Estos valores se obtienen mediante el conteo.

Continua: puede tomar cualquier valor real dentro de un inter-valo. Un ejemplo es la estatura de un adolescente del colegiosecundario (puede ser 1, 83m, 1, 51m, 1, 79m, . . . , etc.). Estosvalores se obtienen mediante una medicion.

Escala de medicion: la recoleccion de datos requiere una escala de medi-cion. Esta puede ser nominal, ordinal, de intervalo o de razon.

• Escala nominal. Sus valores solo se pueden clasificar en clases (ocategorıas), no se pueden ordenar de pequeno a grande o de menosa mas. Ejemplos: sexo, estado civil, profesion, ocupacion. En oca-ciones estos valores se codifican asignandoles un sımbolo alfabeticoo numerico.

Page 11: ESTAD ISTICA Y PROBABILIDAD

1. Recoleccion, organizacion y presentacion de datos 9

• Escala ordinal. Sus valores se pueden clasificar en categorıas y sepueden ordenar en jerarquıas con respecto a la caracterıstica que seevalua. Ejemplos: nivel de estudio (primario, secundario, terciario,universitario), calidad de un producto (malo, regular, bueno, muybueno), clase social (baja, media, alta), lugar en la clase (primero,..., ultimo).

• Escala de intervalo. Sus valores no solo tienen un orden natural,ademas es posible cuantificar la diferencia entre dos valores de in-tervalo. Generalmente tienen unidad de medida. Una variable deintervalo es discreta cuando solo puede tomar un valor entero (porejemplo: numero de hijos, veces que se consulto al establecimientode salud); o bien es continua si puede tomar cualquier valor en unintervalo (por ejemplo: peso, talla, ındice de masa corporal, etc).

• Escala de razon. Cuando una escala tiene todas las caracterısticasde una escala de intervalo y ademas un punto cero real en su origen,se llama escala de razon. Ademas de distincion, orden y distancia,esta es una escala que permite establecer en que proporcion es ma-yor una categorıa de una escala que otra. El cero absoluto o naturalrepresenta la nulidad de lo que se estudia. Ejemplos: en el deporte,por la escala de razones, se miden la distancia, la fuerza, la veloci-dad y otras decenas de variables. Por la escala de razones tambiense miden aquellas magnitudes que se forman como resultado de ladiferencia entre numeros calculados por la escala de intervalos. Asıel tiempo calendario se cuenta por la escala de intervalos, mientrasque los intervalos de tiempo se calculan por la escala de razones.

1.5. Organizacion y presentacion de la

informacion

Un conjunto de datos puede ser resumido y clasificado de acuerdo concriterios convenientes, de modo de facilitar su analisis y poder extraer conclu-siones.

Los datos se pueden organizar, reuniendo todos los valores observados, enforma bruta, en un arreglo ordenado, en exhibicion de tallo y hoja o en tablasde distribucion de frecuencias.

Forma bruta: es decir, en el orden aleatorio que se han recolectado. Seutiliza cuando el numero de observaciones es pequeno.

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 12: ESTAD ISTICA Y PROBABILIDAD

10 1.5. Organizacion y presentacion de la informacion

Arreglo ordenado: se colocan los datos brutos en forma ordenada, de lamenor observacion a la mayor observacion. Esto facilita la evaluacion porparte del investigador.

Exhibicion de tallo y hoja: esta es una tecnica sencilla de gran utilidadpara explorar y describir gran numero de datos.

Distribucion de frecuencias : estas asocian cada valor de la variable conla cantidad de veces que se observa dicho valor.

Ejemplo 1.5.1 En la siguiente lista se presentan en forma bruta las preci-pitaciones durante un mes en 50 localidades del interior de la provincia enmm.

112 72 69 97 10773 92 76 86 73

126 128 118 127 12482 104 132 134 8392 108 96 100 92

115 76 91 102 8195 149 81 80 10684 119 113 98 7568 98 115 106 95

100 85 94 106 119

Para desarrollar un diagrama de tallo y hoja, primero se colocan los dıgitosprincipales de cada valor a la izquierda de una lınea vertical. A la derecha dedicha lınea se registra el ultimo dıgito de cada valor de datos.

Ejemplo 1.5.2 A continuacion se presenta los datos del ejemplo anterior entallo y hoja.

Primero se colocan el ultimo dıgito de cada valor en la lınea que corres-ponde segun el orden en que aparecen los datos.

Page 13: ESTAD ISTICA Y PROBABILIDAD

1. Recoleccion, organizacion y presentacion de datos 11

6 9 87 2 3 6 3 6 58 6 2 3 1 1 0 4 59 7 2 2 6 2 1 5 8 8 5 4

10 7 4 8 0 2 6 6 0 611 2 8 5 9 3 5 912 6 8 7 413 2 414 9

Con esta organizacion de los datos, la colocacion de los dıgitos en cada lıneaen el orden de clasificacion es simple. Hacerlo ası proporciona el diagrama detallo y hoja.

6 8 97 2 3 3 5 6 68 0 1 1 2 3 4 5 69 1 2 2 2 4 5 5 6 7 8 8

10 0 0 2 4 6 6 6 7 811 2 3 5 5 8 9 912 4 6 7 813 2 414 9

Los numeros a la izquierda de la lınea vertical forman el tallo, y cada dıgitoa la derecha de la lınea es una hoja.

Una vez organizados los datos, estos deben ser presentados. La informacionpuede ser presentada en forma textual, en cuadros o tablas, y mediante graficos.

Textual. Los datos se presentan en forma literal. Entre las ventajas de estapresentacion podemos encontrar que los datos de importancia se puedenresaltar mediante subrayados, palabras o cifras en negrita, palabras encursiva o entre comillas. Entre las desventajas podemos nombrar quesolo se puede utilizar esta forma cuando los datos a presentar son pocoso reducidos.

Tabular. Cuando los datos a presentar son abundantes, estos se presen-tan mediante cuadros estadısticos. Como ventaja encontramos que loscuadros son mas breves, claros y faciles de leer. Ademas facilita las com-paraciones. Un cuadro consta de las siguientes partes:

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 14: ESTAD ISTICA Y PROBABILIDAD

12 1.6. Graficos y tablas. Principios generales. Tipos

• Tıtulo: debe dar una descripcion del contenido del cuadro. Ademas,debe responder a las preguntas: ¿Que datos son los incluidos en elcuerpo de la tabla? ¿Donde esta el area representada por los datos?¿Como estan clasificados los datos? ¿Cuando ocurrieron los datos?

• Encabezado: es el tıtulo de la parte superior de las columnas. Unatabla puede tener subencabezado.

• Cuerpo o columna matriz : son las descripciones en hileras colocadasen el lado izquierdo de la tabla. Representan las clasificaciones delas cifras incluidas en el cuerpo de la tabla. Pueden ser divididos ensubconceptos.

• Cuerpo: es el contenido de los datos estadısticos.

• Nota de encabezado: es usado para expresar ciertos puntos relacio-nados con el cuadro total y que no han sido incluidos en el tıtulo nien el encabezado ni en los conceptos.

• Nota de pie: se utiliza para clasificar algunas partes incluidas en elcuadro que no son explicados en otras partes.

• Fuente: debe ser declarada al pie del cuadro. Es el dato en el cualse informa de donde o a quien corresponde la informacion.

Graficos. Los datos se presentan en graficos circulares, de barras, delıneas, etc., esto dependera de lo que se quiera informar. Las partes prin-cipales de una grafica son:

• Tıtulo: es la descripcion del contenido de la grafica. Puede encon-trarse en la parte superior o en la parte inferior.

• Diagrama: representa, al igual que en un cuadro, los datos mostra-dos en la grafica.

• Escala: frecuentemente se coloca en el eje de las abscisas la clasifi-cacion y en el eje de las ordenadas las magnitudes.

• Fuente: debe ser colocada al pie de la grafica e indicar cual fue elorigen de los datos a partir de los cuales la grafica fue construida.

1.6. Graficos y tablas. Principios generales.

Tipos

Los graficos se han de explicar enteramente por sı mismos. El contenidode un grafico debera ser tan completo como sea posible.

Page 15: ESTAD ISTICA Y PROBABILIDAD

1. Recoleccion, organizacion y presentacion de datos 13

Las escalas vertical y horizontal estaran rotuladas con claridad dando lasunidades pertinentes. La mayorıa de los graficos presentan informacion numeri-ca con escalas, que deben rotularse para describir completamente la variablepresentada en la escala y para variables de medida se diran las unidades demedicion.

No se debe tratar de abarcar demasiada informacion en un solo grafico. Esmejor hacer varios graficos, que comprimir toda la informacion en uno solo.Una regla practica segura es evitar graficos que contengan mas de 3 curvas.Los graficos tienen que dar una vision general y no una imagen detallada deun conjunto de datos. Las presentaciones detalladas se deben reservar para lastablas.

Las tablas se explicaran por sı mismas enteramente. Como los graficos,se ha de dar suficiente informacion en el tıtulo y en los encabezamientos decolumnas y filas de la tabla para permitir que el lector identifique facilmentesu contenido.

Como el tıtulo sera por lo general lo primero que se lee en detalle, deberasuministrar toda la informacion esencial sobre el contenido de la tabla y deberaespecificar el tiempo, lugar, material o estudio experimental y relaciones quese presentan en la tabla.

A continuacion se muestran algunos ejemplos de cuadros generales y es-pecıficos, y ejemplos de graficos.

Cuadro general

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 16: ESTAD ISTICA Y PROBABILIDAD

14 1.6. Graficos y tablas. Principios generales. Tipos

Cuadro especıfico

Empleados publicos en las provincias argentinas

Grafico de lıneas

Page 17: ESTAD ISTICA Y PROBABILIDAD

1. Recoleccion, organizacion y presentacion de datos 15

Grafico de barras simples

Grafico de barras multiples

Grafico de sectores circulares

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 18: ESTAD ISTICA Y PROBABILIDAD

16 1.6. Graficos y tablas. Principios generales. Tipos

1.6.1. Tablas de distribucion de frecuencias

Una tabla de distribucion de frecuencias puede ser simple o con intervalosde clase. La primera se utiliza cuando la variable es discreta de corto recorridoy la segunda cuando la variable es continua o discreta de amplio recorrido.

Tabla de distribucion de frecuencias simple

xi (1) fi (2) Fi (3) hi (4) Hi (5) hi % (6) Hi % (7)x1 f1 F1 = f1 h1 H1 = h1 h1 × 100 H1 × 100x2 f2 F2 = f1 + f2 h2 H2 = h1 + h2 h2 × 100 H2 × 100...

......

......

......

xk fk Fk =k∑

i=1

fi hk Hk =k∑

i=1

hi hk × 100 Hk × 100

(1) Campo de variabilidad : son todos los valores que puede tomar la variable.Tambien se lo conoce como dominio.

(2) Frecuencia absoluta: indica la cantidad de veces que se presenta un valorobservado de la variable. La suma de las frecuencias absolutas es igual

al numero de observaciones, es decir,k∑

i=1

fi = n.

(3) Frecuencia acumulada: es la suma de las frecuencias absolutas de los va-lores de la variable inferior o igual a un determinado valor de la variable.

Es decir, para un cierto j ≤ k se tiene que Fj =

j∑i=1

fi ≤ n.

(4) Frecuencia relativa: es el cociente entre la frecuencia absoluta de un valorde la variable y el numero total de observaciones. La frecuencia relativaes un numero fraccionario positivo comprendido entre 0 y 1. La suma delas frecuencias relativas es igual a 1.

hi =fin

; 0 ≤ hi < 1 ;k∑

i=1

hi =k∑

i=1

fin

=1

n

k∑i=1

fi =1

nn = 1

(5) Frecuencia relativa acumulada: es la suma de las frecuencias relativas delos valores de la variable inferior o igual a un determinado valor de lavariable. Si j ≤ k se tiene

Hj =

j∑i=1

hi ≤ 1

Page 19: ESTAD ISTICA Y PROBABILIDAD

1. Recoleccion, organizacion y presentacion de datos 17

(6) Frecuencia relativa porcentual : es la frecuencia relativa de un valor de lavariable expresada en porcentaje, es decir, multiplicada por 100.

(7) Frecuencia relativa acumulada porcentual : es la frecuencia relativa acu-mulada de un valor de la variable expresada en porcentaje.

Tabla de distribucion de frecuencias con intervalos de clase

Intervalo (8) fi Fi xi (9) hi Hi hi % Hi %1 f1 F1 x1 h1 H1 h1 × 100 H1 × 1002 f2 F2 x2 h2 H2 h2 × 100 H2 × 100...

......

......

......

...k fk Fk xk hk Hk hk × 100 Hk × 100

(8) Intervalo de clase: es cada una de las subdivisiones o intervalos en quese ha dividido al campo de variabilidad de una variable.

Lımite de clase: son los valores que definen los extremos de una clase. Sellaman Lımite inferior (Li) y Lımite superior (Ls).

(9) Marca de clase: es el punto medio o centro de una clase. Se obtienemediante la semisuma de los lımites superior e inferior de un intervalo oclase.

xi =Ls+ Li

2

Amplitud del intervalo: es la diferencia entre el lımite superior y el lımiteinferior de una clase.

h = Ls–Li

En el caso de una distribucion de frecuencias para datos agrupados esnecesario determinar los intervalos de clase para llegar a un resumen efectivode la informacion original que se presenta en la tabla. El problema fundamentales pensar en una amplitud adecuada del intervalo y una cantidad razonablede intervalos. Se aconseja no menos de 5 y no mas de 20, de modo que nosean tantas y la tabla resulte inmanejable, ni tampoco que la amplitud de losmismos haga perder informacion. Para calcular la amplitud de un intervalo ola cantidad de ellos que tendra una tabla se busca primero el rango o recorridode la variable.

Rango (R): es la diferencia entre el mayor valor(xM) y el menor valor(xm) que toma la variable en las observaciones.

R = xM–xm

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 20: ESTAD ISTICA Y PROBABILIDAD

18 1.6. Graficos y tablas. Principios generales. Tipos

Puede ser que se ha decidido agrupar la informacion en una cierta canti-dad de intervalos, entonces es necesario fijar la amplitud de cada uno de losintervalos.

h =R

Cantidad de intervalos

O puede ocurrir que se necesite la informacion agrupada en clases con unadeterminada amplitud, entonces es necesario fijar la cantidad de intervalos.

Cantidad de intervalos =R

h

Ejemplo 1.6.1 Con los datos del Ejemplo 1.5.1 construimos una tabla conintervalos.

intervalo fi Fi hi Hi hi % Hi %[60− 70) 2 2 0,04 0,04 4 % 4 %[70− 80) 6 8 0,12 0,16 12 % 16 %[80− 90) 8 16 0,16 0,32 16 % 32 %

[90− 100) 11 27 0,22 0,54 22 % 54 %[100− 110) 9 36 0,18 0,72 18 % 72 %[110− 120) 7 43 0,14 0,86 14 % 86 %[120− 130) 4 47 0,08 0,94 8 % 94 %[130− 140) 2 49 0,04 0,98 4 % 98 %[140− 150] 1 50 0,02 1,00 2 % 100 %

Tabla 1.1

1.6.2. Representacion grafica

La representacion grafica de una tabla de distribucion de frecuencias per-mite percibir con mayor claridad algunas caracterısticas del conjunto de datosque se investiga.

Grafico de Bastones: es la representacion grafica de las frecuencias ab-solutas o relativas de una variable discreta mediante un grafico de puntos en elsistema de coordenadas cartesianas ortogonal (perpendicular) cuyas abscisasson los valores de la variable y cuyas ordenadas son las frecuencias absolutaso relativas del valor de la variable.

Page 21: ESTAD ISTICA Y PROBABILIDAD

1. Recoleccion, organizacion y presentacion de datos 19

xi

fi

xi

hi

x1 x2 x3 · · · xk x1 x2 x3 · · · xk

f1

f2

f3

fkh1

h2

h3

hk

Grafico de Escalones: es la representacion grafica de las frecuencias acu-muladas o relativas acumuladas de una variable discreta mediante segmentosparalelos al eje de las abscisas. Cada segmento se extiende entre dos valoresconsecutivos de la variable, siendo las respectivas ordenadas las frecuenciasacumuladas correspondientes al valor de la variable que es la abscisa del puntoinicial del segmento.

xi

fi

xi

hi

x1 x2 · · · xk x1 x2 · · · xk

F1

F2

...

Fk

H1

H2

...

Hk

Histograma: es la representacion en un sistema de coordenadas cartesia-nas de las frecuencias absolutas o relativas de una variable agrupada en clasesmediante un grafico de superficie. Sobre el eje de las abscisas se representanlas clases y se levanta sobre cada una de ellas un rectangulo cuya superficie esproporcional a la frecuencia del intervalo respectivo.

Polıgono de frecuencias: es una lınea poligonal obtenida en un histogra-ma de frecuencias absolutas uniendo los puntos medios de los lados superioresde cada rectangulo.

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 22: ESTAD ISTICA Y PROBABILIDAD

20 1.6. Graficos y tablas. Principios generales. Tipos

xi

fi

Ojiva o Polıgono de frecuencias acumuladas: es la representaciongrafica de las frecuencias acumuladas (absolutas o relativas) de una variableagrupada en clases mediante una curva uniendo los puntos que tienen porabscisa los lımites superiores de cada clase y por ordenadas las respectivasfrecuencias acumuladas.

xi

Fi

Clasificacion de las distribuciones de frecuencias

Algunas de las curvas de frecuencias que aparecen en la practica adoptanciertas formas caracterısticas como se muestran a continuacion.

Page 23: ESTAD ISTICA Y PROBABILIDAD

1. Recoleccion, organizacion y presentacion de datos 21

Ejemplo 1.6.2 Construimos a continuacion el polıgono de frecuencias corres-pondiente a la Tabla 1.1.

xi

fi

2

6

8

11

9

7

4

2

1

2

4

6

8

10

12

60 70 80 90 100 110 120 130 140 150

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 24: ESTAD ISTICA Y PROBABILIDAD
Page 25: ESTAD ISTICA Y PROBABILIDAD

Capıtulo 2

Analisis exploratorio de datos

Al describir grupos de observaciones, con frecuencia se desea describir elgrupo con un solo numero. Para tal fin, desde luego, no se usara el valormas elevado ni el valor mas pequeno como unico representante, ya que solorepresentan los extremos mas bien que valores tıpicos. Entonces serıa adecuadobuscar un valor central.

2.1. Medidas de tendencia central

Las medidas de posicion que describen un valor tıpico en un grupo de ob-servaciones suelen llamarse medidas de tendencia central. Es importante teneren cuenta que estas medidas se aplican a grupos mas bien que a individuos.Un promedio es una caracterıstica de grupo, no individual.

Entre las medidas de tendencia central encontramos la media aritmetica,la mediana y la moda, que por el momento vamos a suponer que representana un conjunto de datos muestrales.

2.1.1. Media aritmetica

La medida de tendencia central mas obvia que se puede elegir, es el simplepromedio de las observaciones del grupo.

23

Page 26: ESTAD ISTICA Y PROBABILIDAD

24 2.1. Medidas de tendencia central

Media aritmetica: es la medida x que se obtiene sumando el valor de cadauna de las observaciones y dividiendo esta suma por el numero de observa-ciones que hay en el grupo.

Hay muchas clases de promedios y a esta se la llama media aritmetica paradenotar la suma de un grupo de observaciones dividida por su numero.

En las formulas estadısticas se acostumbra a denotar el valor de la primeraobservacion de la variable X mediante x1, el valor de la segunda observacionde la variable X por medio de x2, en general, el valor de la i-esima observacionde la variable X es denotada por xi.

Su calculo difiere de acuerdo al tipo de variable con que se trabaja ypresenta algunas modificaciones segun se trabaja con datos agrupados o no.

Si se tiene una muestra con n observaciones, la formula para la mediamuestral de una distribucion de datos sin agrupar es

x =

n∑i=1

xi

n

Cuando los datos estan agrupados en una tabla simple, la media aritmeticase calcula dividiendo la suma de los productos entre cada valor de la variabley su frecuencia absoluta por el numero de observaciones.

x =

n∑i=1

xi · fi

n

Si la tabla es con intervalos, fi es la frecuencia absoluta de la clase i-esimay xi es el punto medio de dicha clase.

Lo mas positivo de la media aritmetica es que en su calculo se utilizan todoslos valores de la serie o grupo de observaciones, por lo que no se pierde ningunainformacion. Sin embargo, presenta el problema de que su valor se puede vermuy influido por valores extremos, que se aparten en exceso del resto de laserie. Estos valores anomalos podrıan condicionar en gran medida el valor dela media, perdiendo representatividad. Otro problema que presenta su calculoes que en tablas abiertas no se puede calcular, pues queda indeterminado elpunto medio del intervalo abierto.

Page 27: ESTAD ISTICA Y PROBABILIDAD

2. Analisis exploratorio de datos 25

Ejemplo 2.1.1 Con los datos de la Tabla 1.1 calculamos la media aritmetica.

x =65 · 2 + 75 · 6 + 85 · 8 + 95 · 11 + 105 · 9 + 115 · 7 + 125 · 4 + 135 · 2 + 145 · 1

50

x =4970

50∼= 99

Propiedades de la media aritmetica

Desviacion: Una desviacion o variacion con respecto a una medida de po-sicion es la diferencia entre un valor de la variable y la medida de posicion.El desvıo puede ser positivo o negativo.

Antes de continuar, si c es una constante, conviene mencionar algunaspropiedades del sımbolo sumatoria como ser:

1.k∑

i=1

(xi + yi) =k∑

i=1

xi +k∑

i=1

yi

2.k∑

i=1

(c · xi) = c ·k∑

i=1

xi

3. Si xi = c con i = 1, 2, . . . , k, entoncesk∑

i=1

xi = k · c

Propiedad 1. La suma de las desviaciones con respecto a la mediaaritmetica es nula. Significa que la media aritmetica compensa las des-viaciones positivas con las negativas. Si n es el numero de observaciones

Datos sin agrupar bressssssssss Datos agrupadosn∑

i=1

(xi − x) = 0n∑

i=1

(xi − x) · fi = 0

En efecto, si los datos de una muestra estan sin agrupar, se tiene quen∑

i=1

(xi − x) =n∑

i=1

xi −n∑

i=1

x =n∑

i=1

xi − n · x =n∑

i=1

xi −n∑

i=1

xi = 0

Por otra parte, si los datos estan agrupados, se tiene que

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 28: ESTAD ISTICA Y PROBABILIDAD

26 2.1. Medidas de tendencia central

n∑i=1

(xi − x) · fi =n∑

i=1

(xi · fi − x · fi) =n∑

i=1

xi · fi −n∑

i=1

x · fi

= x · n− x ·n∑

i=1

fi = x · n− x · n = 0

Propiedad 2. La suma de los cuadrados de las desviaciones es igual a unmınimo. Es decir, que cualquier suma de los cuadrados de las desviacionesrespecto de un valor c (distinto de la media aritmetica) siempre seramayor.

Datos sin agrupar Datos agrupadosn∑

i=1

(xi − x)2 <n∑

i=1

(xi − c)2n∑

i=1

(xi − x)2fi <n∑

i=1

(xi − c)2fi

Propiedad 3. La media aritmetica de una constante c es igual a laconstante.

x =

n∑i=1

c

n=n · cn

= c

Propiedad 4. Si sumamos a cada valor de la variable una constante c,la media aritmetica queda afectada por dicha constante.

Datos sin agrupar

x+ c =

n∑i=1

(xi + c)

n=

n∑i=1

xi

n+

n∑i=1

c

n= x+ c

Datos agrupados

x+ c =

n∑i=1

(xi + c) · fi

n=

n∑i=1

xi · fi

n+

n∑i=1

c · fi

n= x+

c ·n∑

i=1

fi

n= x+ c

Propiedad 5. Si multiplicamos cada valor de la variable por una cons-tante c, la media aritmetica queda multiplicada por dicha constante.

Page 29: ESTAD ISTICA Y PROBABILIDAD

2. Analisis exploratorio de datos 27

Datos sin agrupar

c · x =

n∑i=1

(c · xi)

n= c ·

n∑i=1

xi

n= c · x

Datos agrupados

c · x =

n∑i=1

(c · xi) · fi

n= c ·

n∑i=1

xi · fi

n= c · x

2.1.2. Mediana

Otra medida de tendencia central utilizada con frecuencia es la mediana.

Mediana: la mediana es el valor situado justamente en el centro de un con-junto de observaciones ordenado por magnitud (un 50 % de valores de lavariable son inferiores a ella y el otro 50 % son superiores).

La mediana suele denotarse por x y para calcularla, se procede segun losdatos esten agrupados o no. En una tabla simple se ordenan los datos y, si lacantidad de observaciones es impar, se toma como mediana el valor central

x = xn+12

;

en caso contrario, se calcula el promedio de los dos valores centrales

x =xn

2+ xn

2+1

2.

En una tabla de distribucion con intervalos, solamente se obtiene el inter-valo de la mediana, que sera aquel que contenga a la mitad del numero deobservaciones en la columna de las frecuencias acumuladas.

Si se pretende obtener un valor de la mediana en tabla con intervalos, luegode obtener el intervalo de la mediana, se utiliza la siguiente formula:

x = Li+

n

2− Fi−1

fi· h

Li: lımite inferior de la clase de la medianan: numero de observacionesFi−1: frecuencia acumulada de la clase anteriorfi: frecuencia absoluta de la clase de la medianah: amplitud de la clase de la mediana

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 30: ESTAD ISTICA Y PROBABILIDAD

28 2.1. Medidas de tendencia central

Ejemplo 2.1.2 De la Tabla 1.1 hallamos la mediana.

x = 90 +25− 16

11· 10 ∼= 90 + 8 = 98

Esta medida de posicion no presenta el problema de estar influido por losvalores extremos, pero en cambio no utiliza en su calculo toda la informacionde la serie de datos.

Representacion grafica de la mediana

Para representar la mediana de manera grafica vamos a utilizar el histo-grama de frecuencias acumuladas.

xi

h

a

c

b

Li x0

Fi−1

Fi

n

n

2

Trazamos una proyeccion perpendicular al eje de las frecuencias acumu-

ladas pasando porn

2hasta intersectar a la ojiva, y desde dicha interseccion

trazamos una proyeccion perpendicular al eje de la variable hasta intersectarlaen x0. Vamos a probar, mediante el teorema de Thales, que x = x0.

En el rectangulo, cuya base contiene a la mediana, se han formado dos

triangulos semejantes de manera tal quen2− Fi−1

fi=ab

ac.

Por otro lado, tambien tenemos dos trapecios de bases paralelas tales quex0 − Li

h=ab

ac. Entonces, se deduce que

n2− Fi−1

fi=x0 − Li

h, luego, despejando

se tiene que x0 = Li+n2− Fi−1

fih.

Page 31: ESTAD ISTICA Y PROBABILIDAD

2. Analisis exploratorio de datos 29

2.1.3. Moda

Otra medida de tendencia central es la moda o modo.

Moda: la moda es el valor que ocurre con mas frecuencia en un conjunto deobservaciones, o sea, es el valor de la variable que tiene la frecuencia absolutamas alta entre todas las observaciones.

La moda suele denotarse por x y la distribucion es unimodal si tiene unasola moda, si hay dos modas se llama bimodal y si la distribucion tiene masde 2 modas se llama multimodal.

A veces la moda no es usada como medida de centro dado que el valor masfrecuente podrıa estar lejos del centro de la distribucion sin embargo se tieneen cuenta para datos cualitativos.

Su calculo en tabla con datos agrupados requiere la determinacion delintervalo modal, que sera aquella clase que tiene la mayor frecuencia absoluta.La moda se encontrara en este intervalo utilizando la formula que se presentaa continuacion:

x = Li+∆1

∆1 + ∆2

· h

Li: lımite inferior de la clase de la moda.∆1: diferencia entre la frecuencia absoluta de laclase modal y la clase anterior. ∆1 = fi − fi−1∆2: diferencia entre la frecuencia absoluta de laclase modal y la clase posterior. ∆2 = fi − fi+1

h: amplitud de la clase de la moda.

Ejemplo 2.1.3 De los datos de la Tabla 1.1 calculamos la moda.

x = 90 +3

3 + 2· 10 = 90 + 6 = 96

Representacion grafica de la moda

Para representar la mediana de manera grafica vamos a utilizar el histo-grama de frecuencias absolutas.

En este caso, para demostrar que x0 es el valor de la moda, vamos a utilizarun sistema de dos ecuaciones con dos incognitas, pues x0 resulta ser la abscisadel punto de interseccion de dos rectas secantes.

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 32: ESTAD ISTICA Y PROBABILIDAD

30 2.1. Medidas de tendencia central

xi

fi

o

xLi x0

∆1

∆2

Para no utilizar la ecuacion de la recta que pasa por dos puntos, vamos atrasladar el origen del sistema cartesiano al punto o, de esta manera se tienenlas ecuaciones de las dos rectas secantes, cuyo punto de interseccion se hallararesolviendo el sistema de dos ecuaciones que se muestra a continuacion:

y =∆1

hx

y = ∆1 −∆2

hx

Sea x la abscisa del punto de interseccion, dado el metodo de iguala-

cion se tiene que∆1

hx = ∆1 −

∆2

hx. Si agrupamos los terminos semejantes

y sacamos factor comun, se obtiene la igualdad∆1 + ∆2

hx = ∆1, con lo cual

x =∆1

∆1 + ∆2

h.

Recordemos ahora que, para hacer mas sencilla la obtencion del valor dex0, hemos trasladado el origen del sistema al punto o, siendo x0 = Li + x, es

decir, x0 = Li+∆1

∆1 + ∆2

h.

2.1.4. Relacion empırica entre la media, la mediana yla moda

¿Cual medida de tendencia central es mejor? Desafortunadamente, estapregunta no tiene una sola respuesta optima porque no existen criterios ob-jetivos para determinar cual es la medida mas representativa para todos losconjuntos de datos.

Una distribucion se dice que es sesgada, si no es simetrica y se extiendemas hacia un lado que hacia el otro. Una comparacion de la media, la mediana

Page 33: ESTAD ISTICA Y PROBABILIDAD

2. Analisis exploratorio de datos 31

y la moda puede revelar informacion acerca de la caracterıstica del sesgo quese define e ilustra a continuacion.

a) Sesgada a la izquierda

(sesgo negativo): La media y

la mediana estan a la izquier-

da de la moda.

b) Simetrica (sesgo cero): La

media, la mediana y la moda

son iguales.

c) Sesgada a la derecha (ses-

go positivo): La media y la

mediana estan a la derecha

de la moda.

Para curvas de frecuencias unimodales, que sean moderadamente sesgadas,se tiene la siguiente relacion empırica.

x− x = 3(x− x)

Ejemplo 2.1.4 Si hacemos el calculo con los valores centrales que obtuvimosde la Tabla 1.1 vemos como en este caso particular:

99− 96 = 3(99− 98)

2.1.5. Otras medidas de tendencia central

Media geometrica. La media geometrica de un conjunto de n observa-ciones es la raız n-esima de su producto. El calculo de la media geometricaexige que todas las observaciones sean positivas.

Datos sin agrupar Datos agrupados

xG = n

√n∏

i=1

xi xG = n

√n∏

i=1

xi fi

La media geometrica se suele utilizar en series de datos como tipos deinteres anuales, inflacion, etc., donde el valor de cada ano tiene un efectomultiplicativo sobre el de los anos anteriores.

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 34: ESTAD ISTICA Y PROBABILIDAD

32 2.2. Medidas de orden

Media armonica. Es el inverso de la media aritmetica de los inversosde las n observaciones.

Datos sin agrupar Datos agrupados

xA =n

n∑i=1

1

xi

xA =n

n∑i=1

1

xifi

2.2. Medidas de orden

Las medidas de orden o de posicion no centrales permiten conocer otrospuntos caracterısticos de la distribucion que no son los valores centrales. Entreotros indicadores, se suelen utilizar una serie de valores que dividen la muestraen tramos iguales. Tambien se las conocen como fractilas.

2.2.1. Cuartiles (Q1, Q2, Q3)

Son 3 valores que distribuyen la serie, ordenada de forma creciente, encuatro tramos con igual cantidad de datos, cada uno de ellos concentra el 25 %de los resultados.

Primer cuartil (Q1). Es un valor tal que el 25 % de las observacionesson menores o iguales que dicho cuartil y el 75 % de las observacionesson mayores o iguales.

En una tabla simple se ordenan los datos y se toma como Q1 el valor queacumula el 25 % de los datos.

Para calcularlo en una tabla con intervalos se debe utilizar una formulasimilar a la de la mediana.

Segundo cuartil (Q2). Coincide con la mediana.

Tercer cuartil (Q3). Es un valor tal que el 75 % de las observacionesson menores o iguales a dicho cuartil y el 25 % son mayores o iguales. Enuna tabla simple se ordenan los datos y se toma como Q3 el valor queacumula el 75 % de los datos. Para calcularlo en una tabla con intervalosse debe utilizar la formula similar a la del primer cuartil.

Page 35: ESTAD ISTICA Y PROBABILIDAD

2. Analisis exploratorio de datos 33

FORMULA GENERAL Qi = Li+

i

4n− Fi−1

fih i = 1, 2, 3

Li: lımite inferior de la clase del cuartil Qi

fi: frecuencia absoluta de la clase del cuartil Qi

Fi−1: frecuencia acumulada de la clase anterior del cuartil Qi

Ejemplo 2.2.1 De los datos de la Tabla 1.1 calculamos los cuartiles Q1 y Q3.

Q1 = 80 +13− 8

810 = 80 +

50

8∼= 86

Q3 = 110 +38− 36

710 = 110 +

20

7∼= 113

2.2.2. Deciles

Son 9 valores que distribuyen la serie, ordenada en forma creciente, en dieztramos iguales en cantidad de datos, cada uno de ellos concentra el 10 % delos resultados. Los deciles se denotan D1, D2, . . . , D9.

FORMULA GENERAL Di = Li+

i

10n− Fi−1

fih i = 1, 2, . . . , 9

Li: lımite inferior de la clase del decil Di

fi: frecuencia absoluta de la clase del decil Di

Fi−1: frecuencia acumulada de la clase anterior del decil Di

Ejemplo 2.2.2 De los datos de la Tabla 1.1 calculamos el decil D7.

D7 = 100 +35− 27

910 = 100 +

80

9∼= 109

2.2.3. Percentiles

Son 99 valores que distribuyen la serie, ordenada en forma creciente, encien tramos iguales en cantidad de datos, en los que cada uno de ellos concentra

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 36: ESTAD ISTICA Y PROBABILIDAD

34 2.3. Medidas de variabilidad

el 1 % de los resultados.

FORMULA GENERAL Pi = Li+

i

100n− Fi−1

fih i = 1, 2, . . . , 99

Li: lımite inferior de la clase del percentil Pi

fi: frecuencia absoluta de la clase del percentil Pi

Fi−1: frecuencia acumulada de la clase anterior del percentil Pi

Ejemplo 2.2.3 De los datos de la Tabla 1.1 calculamos el percentil P66.

P66 = 100 +33− 27

910 = 100 +

60

9∼= 107

2.3. Medidas de variabilidad

Con estas medidas se estudia la distribucion de los valores de la serie,analizando si estos se encuentran mas o menos concentrados, o mas o menosdispersos.

Existen dos tipos de medidas de dispersion, las absolutas y las relativas.Las primeras llevan unidad de medida y las ultimas no. Entre las mas utilizadaspodemos destacar las siguientes: el rango, el rango intercuartılico, la varianza,el desvıo estandar (absolutas) y el coeficiente de variacion (relativa).

Rango. Es la diferencia entre el mayor valor y el menor valor en unconjunto de observaciones. El rango que denotamos por R tiene la ventajade que es facil de calcular y sus unidades son las mismas que las de lavariable que se mide. El rango no toma en consideracion el numero deobservaciones de la muestra estadıstica, sino solamente la observaciondel valor maximo y la del valor mınimo. Serıa deseable utilizar tambienlos valores intermedios del conjunto de observaciones.

Ya hemos llamado xM al maximo valor que toma la variable X y xm almınimo valor, entonces

R = xM − xm

Page 37: ESTAD ISTICA Y PROBABILIDAD

2. Analisis exploratorio de datos 35

Rango intercuartılico. Es la diferencia entre el tercer cuartil y el pri-mero. Es una medida de variabilidad que supera la dependencia sobrelos valores extremos y lo denotaremos por RIC.

RIC = Q3 −Q1

Rango semi-intercuartılico. Se define como Q =RIC

2, es decir, el

rango semi-intercuartılico es igual a

Q =Q3 −Q1

2

Rango percentilar. Es la diferencia entre los percentiles 90 y 10.

Rango percentilar 10-90 = P90 − P10

Desviacion Media. Esta medida es mas acorde que la de amplitud,ya que involucra a todos los valores del conjunto de observaciones co-rrigiendo la desviacion. Esta medida que denotamos por DM se obtienecalculando la media de la muestra, y luego realizando la sumatoria de lasdiferencias (positivas, para evitar la anulacion de los desvıos) de todoslos valores de la variable X con respecto de la media. Luego se dividepor el numero de observaciones.

Datos sin agrupar Datos agrupados

DM =

n∑i=1

|xi − x|

nDM =

n∑i=1

|xi − x|fi

n

Una medida como esta tiene la ventaja de utilizar cada observacion ycorregir la variacion en el numero de observaciones al hacer la divisionfinal. Y por ultimo tambien se expresa en las mismas unidades que lasobservaciones mismas.

Varianza, desvıo estandar y coeficiente de variacion

Varianza. Existe otro mecanismo para solucionar el efecto de cancela-cion entre diferencias positivas y negativas. Si elevamos al cuadrado cadadiferencia antes de sumar, desaparece la cancelacion. Si denotamos pors2X

la varianza muestral (sesgada)1 de la variable X tenemos las formulas:

1La varianza muestral presenta un sesgo que mas adelante sera corregida.

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 38: ESTAD ISTICA Y PROBABILIDAD

36 2.3. Medidas de variabilidad

Datos sin agrupar Datos agrupados

s2X =1

n

n∑i=1

(xi − x)2 s2X =1

n

n∑i=1

(xi − x)2fi

Mediante el desarrollo del cuadrado del binomio se obtienen formulasmuy utiles que llamaremos “formulas de trabajo”. Utilizaremos la formu-la de la varianza sesgada que luego sera corregida. Si no hay confusiones,simbolizaremos a la varianza mediante s2 y si el numero de observacioneses n, ahorraremos en escritura denotando al sımbolo sumatoria solamen-te∑

, ası se tiene la formula de trabajo para datos sin agrupar de lasiguiente forma.

s2 =

∑(xi − x)2

n=

∑(x2i − 2xi x+ x2)

n=

∑x2in− 2x

∑xin

+

∑x2

n

=

∑x2in− 2x2 + x2 =

∑x2in− x2 =

n∑x2i − (

∑xi)

2

n2

Si los datos estan agrupados, dada la propiedad distributiva y propie-dades mencionadas o demostradas previamente, se tiene la formula detrabajo que sigue.

s2 =

∑x2i fin

− x2

Estas formulas tienen una desventaja, y es que sus unidades no son lasmismas que las de las observaciones, ya que son unidades elevadas alcuadrado.

Propiedades de la varianza

I. s2X ≥ 0

II. s2a = 0

III. s2a+bX = b2 s2X .

En efecto, haremos la demostracion utilizando la formula de la va-rianza sesgada.

Page 39: ESTAD ISTICA Y PROBABILIDAD

2. Analisis exploratorio de datos 37

s2a+bX =

∑(a+ bxi)

2

n− (a+ bx)2 =

∑(a+ bxi)

2 − n(a+ bx)2

n

=

∑(a2 + 2abxi + b2x2i )− n(a2 + 2abx+ b2x2)

n

=na2 + 2ab

∑xi + b2

∑x2i − na2 − 2abnx− nb2x2

n=

= b2(∑

x2i − nx2

n

)= b2 s2X

Desvıo estandar. La dificultad anterior se soluciona, tomando la raızcuadrada de la ecuacion anterior. Dada la variable X, su desvıo estandarsX es la raız cuadrada de la varianza s2X .

Datos sin agrupar Datos agrupados

sX =

√1

n

n∑i=1

(xi − x)2 sX =

√1

n

n∑i=1

(xi − x)2fi

El desvıo estandar es una medida de dispersion absoluta porque su valornumerico esta expresado en la misma unidad de medida de la variable.Esta medida ademas, es la adecuada para establecer la variabilidad delos valores observados con respecto a la media aritmetica.

En distribuciones normales, resulta que:

a) El 68 % de los datos estan entre un desvıo estandar a la izquierdade la media y un desvıo estandar a la derecha.

b) El 95 % de los datos estan entre dos desvıo estandar a la izquierdade la media y dos desvıo estandar a la derecha.

c) El 99 % de los datos estan entre tres desvıo estandar a la izquierdade la media y tres desvıo estandar a la derecha.

Coeficiente de variacion. Se calcula como cociente entre el desvıoestandar y la media, y lo denotamos por CV . El coeficiente de variaciones un numero puro desprovisto de magnitud. Es una medida de dispersionrelativa. Su valor numerico permite establecer criterios generales acercade la homogeneidad de los datos, de la representatividad de la mediaaritmetica y la comparacion de variabilidad de otras variables, aunquelas unidades de medidas o las magnitudes sean distintas.

CV % =sXx

100

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 40: ESTAD ISTICA Y PROBABILIDAD

38 2.3. Medidas de variabilidad

Hemos visto que las medidas de centralizacion y dispersion nos dan infor-macion sobre una muestra. Nos podemos preguntar si tiene sentido usarestas magnitudes para comparar dos poblaciones. Por ejemplo, si nos pi-den comparar la dispersion de los pesos de las poblaciones de estudiantesde dos escuelas diferentes, los desvıo estandar nos dara informacion util.

¿Pero que ocurre si lo que comparamos es la altura de unos estudiantescon respecto a su peso? Tanto la media como la desviacion estandar, x ysX , se expresan en las mismas unidades que la variable. Por ejemplo, enla variable altura podemos usar como unidad de longitud el metro y enla variable peso, el kilogramo. Comparar una desviacion (con respectoa la media) medida en metros con otra en kilogramos no tiene ningunsentido.

El problema no deriva solo en que una de las medidas sea de longitudy la otra sea de masa. El mismo problema se plantea si medimos ciertacantidad, por ejemplo, la masa de dos poblaciones, pero con distintasunidades. Por ejemplo, es el caso en que comparamos el peso en toneladasde una poblacion de 100 elefantes con el correspondiente en miligramosde una poblacion de 50 hormigas.

El problema no se resuelve tomando las mismas escalas para ambas po-blaciones. Por ejemplo, se nos puede ocurrir medir a las hormigas con lasmismas unidades que los elefantes (toneladas). Si la ingenierıa geneticano nos sorprende con alguna barbaridad, lo logico es que la dispersion dela variable peso de las hormigas sea practicamente nula (¡Aunque hayaalgunas que sean 1.000 veces mayores que otras!).

En los dos primeros casos mencionados anteriormente, el problema vie-ne de la dimensionalidad de las variables, y en el tercero de la diferenciaenorme entre las medias de ambas poblaciones. El coeficiente de variaciones lo que nos permite evitar estos problemas, pues elimina la dimensio-nalidad de las variables y tiene en cuenta la proporcion existente entremedia y desviacion estandar.

Ejemplo 2.3.1 De los datos de la Tabla 1.1 calculamos:

R = 149− 68 = 81

RIC = 113− 86 = 27

s2X =17040

50= 340, 8

sX =

√17040

50=√

340, 8 = 18, 46

Page 41: ESTAD ISTICA Y PROBABILIDAD

2. Analisis exploratorio de datos 39

CV =18, 46

99100 = 18, 64 %

2.4. Medidas de asimetrıa y curtosis

Estas medidas informan sobre dos aspectos importantes de la forma dela distribucion: su grado de asimetrıa y su grado de homogeneidad. Al sermedidas de forma, no dependen de las unidades de medida de los datos.

Coeficiente de asimetrıa. En un conjunto de datos simetricos respectoa su media x, la suma

∑(xi − x)3 sera nula, mientras que con datos

asimetricos esta suma crecera con la asimetrıa. Para obtener una medidaadimensional, se define el coeficiente de asimetrıa mediante:

Datos sin agrupar Datos agrupados

CA =

∑(xi − x)3

ns3XCA =

∑(xi − x)3fins3X

donde sX es el desvıo estandar de la variable X. El signo del coeficien-te indica la forma de la distribucion. Si es negativo, la distribucion sealarga para valores inferiores a la media. Si el coeficiente es positivo, ladistribucion se extiende para valores superiores a la media.

Ejemplo 2.4.1 De los datos de la Tabla 1.1 calculamos el coeficiente deasimetrıa.

CA =

∑(xi − x)3fins3X

=107360

50 · 18, 463= 0, 34

Otra medida de asimetrıa poco utilizada es:

x− xsX

que tambien es adimensional.

Coeficiente de curtosis. El coeficiente de curtosis nos informa respectoa la heterogeneidad de la distribucion. Se define el coeficiente de curtosiscomo

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 42: ESTAD ISTICA Y PROBABILIDAD

40 2.5. Datos atıpicos y diagramas de cajas

Datos sin agrupar Datos agrupados

CAP =

∑(xi − x)4

ns4XCAP =

∑(xi − x)4fins4X

El valor mınimo que puede tomar el coeficiente de curtosis es 1; si esmuy bajo (menor de 2), indica una distribucion mezclada; si es muy alto(mayor de 6), indica la presencia de valores atıpicos.

Ejemplo 2.4.2 De los datos de la Tabla 1.1 calculamos el coeficiente decurtosis.

CAP =

∑(xi − x)4fins4X

=15108480

50 · 18, 464= 2, 6

2.5. Datos atıpicos y diagramas de cajas

Es muy frecuente que los datos presenten observaciones que contienen erro-res de medida o de transcripcion o que son heterogeneas con el resto porquese han obtenido en circunstancias distintas. Llamaremos datos atıpicos a estasobservaciones generadas en forma distinta del resto de los datos. Cuando losdatos son recogidos con especial control es frecuente que aparezcan entre un 1 y3 % de observaciones atıpicas; si los datos se han recogido sin cuidado especial,la proporcion de datos atıpicos puede llegar al 5 % e incluso ser mayor.

Los datos atıpicos se identifican facilmente con un histograma o diagramade barras de los datos, porque apareceran separados del resto de la distribucion.

Un criterio simple para identificar datos atıpicos es considerar sospechosasaquellas medidas que estan alejadas de la media tres desvıos estandar, peropuede ocurrir que existan varios valores atıpicos muy grandes que distorsionenla media y el desvıo estandar no pudiendo identificarse los valores atıpicos.

Un criterio mas elaborado en utilizar es, considerar dos valores extremosque se obtienen a partir del rango intercuartılico (Q3 − Q1). Se consideranvalores atıpicos aquellos x tales que

x < Q1 − 1, 5(Q3 −Q1)

x > Q3 + 1, 5(Q3 −Q1)

Un diagrama de caja es una representacion semigrafica de una distribucionconstruida para mostrar sus caracterısticas principales y senalar los posibles

Page 43: ESTAD ISTICA Y PROBABILIDAD

2. Analisis exploratorio de datos 41

datos atıpicos. Se diferencia de las representaciones graficas anteriores en queesta especialmente pensada para identificar los valores atıpicos.

Se construye de la siguiente manera:

1. Ordenar los datos de la muestra y obtener el valor maximo, el mınimo ylos tres cuartiles.

2. Dibujar un rectangulo cuyos extremos sean Q1 y Q3 e indicar la posicionde la mediana (Q2) mediante una lınea.

3. Calcular los lımites admisibles superior e inferior que van a servir paraidentificar los valores atıpicos. Estos lımites se calculan con:

Li = Q1 − 1, 5(Q3 −Q1)Ls = Q3 + 1, 5(Q3 −Q1)

4. Considerar como valores atıpicos los situados fuera del intervalo (Li, Ls).

5. Dibujar una lınea que vaya desde cada extremo del rectangulo centralhasta el valor mas alejado no atıpico.

6. Identificar todos los datos que estan fuera del intervalo (Li, Ls) marcando-los como atıpicos.

Dato atípico

1,5(RIC)1,5(RIC)

Li LsQ3Q1 ~x

x i

RIC

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 44: ESTAD ISTICA Y PROBABILIDAD
Page 45: ESTAD ISTICA Y PROBABILIDAD

Capıtulo 3

Analisis de correlacion yregresion

A menudo se observa en la practica que existe una relacion entre dos o masvariables en un conjunto de observaciones. En una distribucion bidimensionalpuede ocurrir que las dos variables guarden algun tipo de relacion entre si.Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase esmuy posible que exista relacion entre ambas variables: mientras mas alto seael alumno, mayor sera su peso; observamos tambien que el perımetro de unacircunferencia depende de su radio; y ası, podrıamos enumerar varios ejemplosmas.

El objetivo principal del Analisis de correlacion y regresion es estimar elvalor de una de las variables conociendo el valor de la otra, es decir, estable-cer una ecuacion matematica que relacione estas variables de la distribucionbidimensional.

3.1. Diagrama de dispersion y ajuste

de curvas

Un primer paso es recolectar datos que muestren los valores correspon-dientes de las variables en consideracion. Por ejemplo, supongamos que X eY denotan, respectivamente, la estatura y peso de los alumnos de una clase.Recordemos que el peso de la persona depende de su estatura, podrıamos decirque a mayor estatura del alumno mayor sera su peso; X es una variable inde-

43

Page 46: ESTAD ISTICA Y PROBABILIDAD

44 3.1. Diagrama de dispersion y ajuste de curvas

pendiente, mientras que Y es una variable dependiente. Ası, una muestra den individuos revelarıa las estaturas x1, x2, . . . , xn y los correspondientes pesosy1, y2, . . . , yn.

El siguiente paso es graficar los puntos (x1, y1), (x2, y2), . . . , (xn, yn) en unsistema de coordenadas cartesianas ortogonal. El valor de la variable inde-pendiente se grafica con respecto al eje horizontal o eje de las abscisas (X)y el valor de la variable dependiente con respecto al eje vertical o eje de lasordenadas (Y ).

Definicion 3.1.1 Un diagrama de dispersion es una grafica en el que setrazan cada uno de los puntos que representan un par de valores para lasvariables independiente y dependiente observados en una muestra.

A partir del diagrama de dispersion es posible visualizar una curva suaveque se aproxima a los datos. Tal curva se denomina curva de aproximacion.Si los datos parecen aproximarse bien a una lınea recta, se dice que hay unarelacion lineal ; en cambio, si los datos parecen ajustarse a una lınea curva, sedice que existe una relacion no lineal.

Y

XXX

Y Y

Relación lineal Relación no lineal No existe relación lineal

El problema general para encontrar ecuaciones de curvas de aproximacionque se ajusten a conjuntos de datos se denomina ajuste de curvas.

Definicion 3.1.2 La ecuacion de regresion es la formula algebraica mediantela cual se estima el valor una variable dependiente en funcion de la variableindependiente.

Esta ecuacion puede ser, dependiendo de la relacion entre las variables,la ecuacion de una recta, una parabola, una curva de grado n, una curvaexponencial, una curva logarıtmica, etcetera.

Page 47: ESTAD ISTICA Y PROBABILIDAD

3. Analisis de correlacion y regresion 45

3.1.1. Ajuste de curvas a mano

Con frecuencia puede utilizarse el juicio personal para dibujar una curvade aproximacion que ajuste un conjunto de datos. Este se denomina metodode ajuste de curvas a mano.

Una vez representados los datos en el diagrama de dispersion, habiendouna relacion entre las variables, es cuestion de trazar la curva que el observa-dor considere que ajusta los datos representados y a partir de allı obtener laecuacion de la curva.

Este metodo es subjetivo, tiene la desventaja de que diferentes observado-res trazaran distintas curvas de ajuste y obtendran diferentes ecuaciones.

3.2. Correlacion

En esta seccion abordaremos el problema de determinar si hay algunarelacion aparente entre dos variables.

Definicion 3.2.1 Existe una correlacion entre dos variables si una de ellasesta relacionada con la otra de alguna manera.

Supongamos que tenemos una coleccion de datos apareados que contieneel punto especıfico (x, y), que y es el valor esperado para y (que se obtieneusando la ecuacion de regresion) y que la media de los valores muestrales de yes y.

La desviacion total (respecto a la media) del punto especıfico (x, y) esla distancia vertical y − y, que es la distancia entre el punto (x, y) y lalınea horizontal que pasa por la media muestral y.

La desviacion explicada es la distancia vertical y−y, que es la distanciaentre el valor esperado o predicho para y y la lınea horizontal que pasapor la media muestral y.

La desviacion no explicada es la distancia vertical y − y, que es ladistancia vertical entre el punto (x, y) y la lınea de regresion. La distanciay − y tambien se llama residual.

La desviacion total es igual a la suma de la desviacion explicada con la

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 48: ESTAD ISTICA Y PROBABILIDAD

46 3.2. Correlacion

desviacion no explicada o residuo.

(y − y) = (y − y) + (y − y)

Esta ultima expresion aplica a un punto especıfico (x, y), pero se puedegeneralizar aun mas y modificarse para incluir todos los pares de datos de lamuestra.

Definicion 3.2.2 La variacion total se expresa como la suma de los cuadra-dos de los valores de desviacion total, la variacion explicada es la suma de loscuadrados de los valores de desviacion explicada y la variacion no explicadaes la suma de los cuadrados de los valores de desviacion no explicada.∑

(yi − y)2 =∑

(yi − y)2 +∑

(yi − yi)2

Los componentes de esta ultima expresion se usan en la definicion siguiente:

Definicion 3.2.3 El coeficiente de determinacion r2 es la cantidad de lavariacion en y que se explica con la lınea de regresion, y se calcula ası.

r2 =variacion explicada

variacion total

Este coeficiente mide el porcentaje de variacion en la variable respuesta odependiente, explicada por la variable independiente.

Definicion 3.2.4 La covarianza de una variable bidimensional es la mediaaritmetica de los productos de las desviaciones de cada una de las variablesrespecto de sus medias respectivas y lo simbolizamos sXY .

sXY =

∑(xi − x)(yi − y)

n

Una expresion que utilizaremos mas adelante se obtiene como sigue:

sXY =

∑(xi − x)(yi − y)

n=n∑

(xiyi − xiy − xyi + x y)

n2

=n∑xiyi − ny

∑xi − nx

∑yi + n

∑x y

n2

=n∑xiyi −

∑xi∑yi −

∑xi∑yi + n2x y

n2=n∑xiyi −

∑xi∑yi

n2

Page 49: ESTAD ISTICA Y PROBABILIDAD

3. Analisis de correlacion y regresion 47

La covarianza indica el sentido de la correlacion entre las variables. SisXY > 0 la correlacion es directa, en cambio, si sXY < 0 la correlacion esinversa.

Definicion 3.2.5 El coeficiente de correlacion lineal r mide el grado de in-tensidad de esta posible relacion entre las variables.

Este coeficiente se aplica cuando la relacion que puede existir entre lasvariables es lineal (es decir, si representaramos en un grafico los pares de valoresde las dos variables la nube de puntos se aproximarıa a una recta).

No obstante, puede que exista una relacion que no sea lineal, sino expo-nencial, parabolica, etcetera. En estos casos, el coeficiente de correlacion linealmedirıa mal la intensidad de la relacion entre las variables, por lo que con-vendrıa utilizar un tipo de coeficiente mas apropiado.

Para determinar si se puede utilizar el coeficiente de correlacion lineal, lomejor es representar los pares de valores en un sistema de coordenadas y verque forma describe.

El coeficiente de correlacion lineal se calcula hallando la raız cuadrada delcoeficiente de determinacion o mediante el uso de la covarianza y los desvıosestandar de ambas variables:

r =sXY

sXsY=

n∑xiyi −

∑xi∑yi√

n∑x2i − (

∑xi)2

√n∑y2i − (

∑yi)2

Los valores que puede tomar el coeficiente de correlacion lineal “r” son:−1 ≤ r ≤ 1.

Si r > 0, la correlacion lineal es positiva (si sube el valor de una variablesube el de la otra). La correlacion es tanto mas fuerte cuanto mas se aproximea 1. Por ejemplo, altura y peso de personas, las mas altas suelen pesar mas.

Si r < 0, la correlacion lineal es negativa (si sube el valor de una variabledisminuye el de la otra). La correlacion negativa es tanto mas fuerte cuantomas se aproxime a −1.

Si r = 0, no existe correlacion lineal entre las variables. Aunque podrıaexistir otro tipo de correlacion (parabolica, exponencial, etcetera). Ahora bien,si no existe ningun tipo de relacion entre las variables, sin discusion alguna,r = 0.

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 50: ESTAD ISTICA Y PROBABILIDAD

48 3.2. Correlacion

Definicion 3.2.6 El error estandar de estimacion, denotado por se es unamedida de las diferencias (o distancias) entre los valores yi de muestra ob-servados y los valores yi predichos que se obtienen usando la ecuacion deregresion; esta dada por

se =

√∑(yi − yi)2

n− 2

La deduccion del error estandar de estimado se es muy similar a la de ladesviacion estandar que se presento en el Capıtulo 2.

3.2.1. Metodo de los mınimos cuadrados

Para evitar el juicio personal en la construccion de rectas, parabolas u otrascurvas de aproximacion para ajustar los conjuntos de datos, es necesario teneruna definicion de una “recta de mejor ajuste”, “parabola de mejor ajuste”,etcetera.

Para lograr tal definicion, considerese la Figura 3.1, en donde los datosestan dados por los puntos (x1, y1), (x2, y2), . . . , (xn, yn). Para un valor deter-minado de x, por ejemplo x1 habra una diferencia D1 (desviacion o error) entreel valor y1 y el valor correspondiente y1 deducido a partir de la curva de ajus-te. De manera similar se obtienen las desviaciones D2, . . . , Dn para los valoresx2, . . . , xn.

Y

X

Dn

D1D2

(x1,y1)

(x2,y2)

(xn,yn)

Figura 3.1: Curva de ajuste optimo

Una medida de la “bondad de ajuste” de la curva de los datos esta pro-porcionada por la cantidad D2

1 + D22 + . . . + D2

n. Si esta es pequena, el ajustees bueno; si es grande, el ajuste es malo.

Page 51: ESTAD ISTICA Y PROBABILIDAD

3. Analisis de correlacion y regresion 49

Definicion 3.2.7 De todas las curvas que se aproximan a un conjunto dedatos definidos por puntos, la curva que tiene la propiedad de que D2

1 +D22 +

. . .+D2n es un mınimo se denomina curva de ajuste optimo.

Se dice que una curva con esta propiedad se ajusta a los datos en el sen-tido de mınimos cuadrados y se le llama curva de mınimos cuadrados. Enton-ces, una recta con esta propiedad se denomina recta de mınimos cuadrados,una parabola con esta propiedad se denomina parabola de mınimos cuadrados,etcetera.

Recta de mınimos cuadrados

La recta de mınimos cuadrados que se aproxima al conjunto de puntos(x1, y1), (x2, y2), . . . , (xn, yn) tiene por ecuacion

y = a+ bx

donde y es un valor estimado (o esperado) de la variable dependiente.

Si la relacion lineal es perfecta, todos los puntos quedan alineados en eldiagrama de dispersion y los valores de a y b se obtienen de la ecuacion derecta que pasa por los puntos (x1, y1), (x2, y2).

b =y2 − y1x2 − x1

a = y1 − bx1

Es poco probable que la relacion entre las variables sea perfecta, es decir,no todos los puntos en el diagrama estan alineados. Entonces, para cada parde puntos, en la ecuacion de la recta determinada varıan a y b.

En la recta de los mınimos cuadrados, los valores de a y b deben ser talesque D2

1 +D22 + . . .+D2

n sea un mınimo. Entonces,∑D2

i =∑

(yi − yi)2 =∑

(yi − a− bxi)2

Si igualamos a 0 la derivada de la suma respecto de a, obtendremos el valorde a que minimice la suma.

0 =∑−2(yi − a− bxi) = −2

∑(yi − a− bxi)

0 =∑

(yi − a− bxi) =∑yi − na− b

∑xi

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 52: ESTAD ISTICA Y PROBABILIDAD

50 3.2. Correlacion

a =

∑yi − b

∑xi

n= y − bx

De la misma manera, si igualamos a 0 la derivada de la suma respecto deb, obtendremos el valor de b que haga mınima la suma.

0 =∑−2(yi − a− bxi)xi = −2

∑(yi − a− bxi)xi

0 =∑

(yi − a− bxi)xi =∑

(xiyi − axi − bx2i ) =∑xiyi − a

∑xi − b

∑x2i

Luego, despejamos b de la siguiente manera

b∑x2i =

∑xiyi − a

∑xi =

∑xiyi −

(∑yin− b∑xin

)∑xi

=n∑xiyi −

∑xi∑yi + b(

∑xi)

2

n

Agrupando los terminos que contienen a b y sacando factor comun logramosdespejar b.

b (n∑x2i − (

∑xi)

2) = n∑xiyi −

∑xi∑yi

b =n∑xiyi −

∑xi∑yi

n∑x2i − (

∑xi)2

Parabola de mınimos cuadrados

La parabola de mınimos cuadrados que se aproxima al conjunto de puntos(x1, y1), (x2, y2), . . . , (xn, yn) tiene por ecuacion

y = a+ bx+ cx2

donde las constantes a, b y c se determinan resolviendo el sistema de ecuaciones∑yi = an+ b

∑xi + c

∑x2i∑

xiyi = a∑xi + b

∑x2i + c

∑x3i∑

x2i yi = a∑x2i + b

∑x3i + c

∑x4i

Page 53: ESTAD ISTICA Y PROBABILIDAD

Capıtulo 4

Probabilidad y Variablealeatoria

En el Capıtulo 1, al clasificar la estadıstica, definimos la estadıstica descrip-tiva como aquella que, mediante el analisis exploratorio, realiza la descripcionde un conjunto de datos; y la estadıstica inductiva como el metodo que, me-diante los indicios obtenidos de muestras, realiza inferencias sobre la poblacion.

La Probabilidad es la teorıa que nos permite unir ambas estadısticascuantificando la incertidumbre asociada a la inferencia.

4.1. Experimentos determinısticos

y experimentos aleatorios

Previo al desarrollo de conceptos basicos de probabilidad, estableceremosla diferencia entre los tipos de fenomenos con los que nos podemos encontrar,pues al hablar de probabilidad tratamos con experimentos y resultados.

Un experimento es un proceso que genera resultados bien definidos. Encada vez que se repite el experimento, ocurre uno y solo uno de los resultadosposibles de dicho experimento. Un experimento se puede clasificar en:

Experimento determinıstico: es aquel fenomeno cuyo resultado se conocede antemano, es decir, se trata de situaciones donde existe completa certi-dumbre.

51

Page 54: ESTAD ISTICA Y PROBABILIDAD

52 4.2. Espacio muestral y evento

Ejemplo 4.1.1 Si soltamos una bolilla de acero en un vaso con agua, este sehundira en el fondo del vaso. El resultado se debe a que el peso especıfico delacero es mayor al del agua.

Experimento aleatorio: es aquel fenomeno que, repetido bajo las mismascondiciones, puede arrojar diferentes resultados sin poder predecir con exac-titud cual de ellos se dara, se trata de situaciones donde existe incertidumbre.

Ejemplo 4.1.2 Si se enfrentan Boca y River en un superclasico, tres son losresultados posibles, o gana Boca o gana River o terminan empatados.

4.2. Espacio muestral y evento

A cada uno de los resultados posibles de un experimento lo llamaremossuceso o evento. Llamaremos evento simple a aquel que no puede desglosarsey evento compuesto a aquel que puede descomponerse en eventos simples. Porultimo, llamaremos espacio muestral al conjunto Ω de todos los eventos posiblesdel experimento.

Ejemplo 4.2.1 El lanzamiento de un dado en una mesa de juegos es un ex-perimento aleatorio, el resultado 3 es un evento simple y el espacio muestrales Ω = 1, 2, 3, 4, 5, 6.

Los resultados 3 y 5 son eventos mutuamente excluyentes, pues la ocurren-cia de uno impide la ocurrencia del otro.

Ejemplo 4.2.2 Si el experimento fuera el lanzamiento de un par de dados yel resultado la suma del resultado de cada dado; el resultado 7 es un eventocompuesto, pues se puede desglosar en eventos simples, como 1 − 6, 2 − 5 y3− 4; mientras que el resultado 12 es el evento simple 6− 6.

Si prestaramos atencion al ultimo ejemplo, el lanzamiento de dos dados,es posible aquı definir mas de un espacio muestral.

Si tuvieramos en cuenta cada uno de los eventos compuestos, deberıa serΩ = 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, el resultado 1 es un evento imposible y elresultado “mayor que 1” es una certeza.

Page 55: ESTAD ISTICA Y PROBABILIDAD

4. Probabilidad y Variable aleatoria 53

En cambio, si tuvieramos en cuenta los eventos simples, el espacio deberıaser Ω = 11, 12, 13, 14, 15, 16, 22, 23, 24, 25, 26, 33, 34, 35, 36, 44, 45, 46, 55, 56, 66donde los dıgitos de cada evento simple son los resultados de cada uno de losdados. Es decir, lo que en el Ejemplo 4.2.2 se escribio 1 − 6, aquı se escribio16.

4.3. Teorıas de la probabilidad

Dado un experimento, nos interesa asociar un valor numerico a la ocurren-cia de un resultado. Seguramente estamos familiarizados con esta idea, en masde una ocasion habremos escuchado: “la probabilidad de lluvia para el luneses del 30 %”, “es poco probable que el trasplantado rechace el organo”, “existeel 0,25 % de probabilidad de reprobar un examen de admision”.

Probabilidad: es una medida numerica entre 0 y 1 asociado a la posibilidadde que un evento suceda, es 0 cuando el evento es imposible y 1 cuando setrata de una certeza.

Ante la incertidumbre, entre estos valores extremos, existe una gama devalores asociados a la ocurrencia de un resultado. A continuacion se presentarandiferentes teorıas que permiten calcular la probabilidad de ocurrencia de unevento.

4.3.1. Teorıa clasica

Sea el experimento aleatorio de lanzar un dado, sabemos que su espaciomuestral es Ω = 1, 2, 3, 4, 5, 6 y cada uno de los eventos del espacio muestralson igualmente posibles. Si llamamos A al suceso “aparece el 3” y P (A) a laprobabilidad de ocurrencia del evento A, entonces

P (A) =1

6

Si expresamos este resultado, mediante una formula matematica, tendre-mos

P (A) =Numero de casos favorables al evento A

Numero de casos igualmente posibles

Mediante esta teorıa tambien se puede calcular la probabilidad de eventoscompuestos, por ejemplo, si llamamos B al suceso “aparece un numero par” y

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 56: ESTAD ISTICA Y PROBABILIDAD

54 4.3. Teorıas de la probabilidad

C al evento “aparece un numero menor que 3”, entonces

P (B) =3

6

P (C) =2

6

4.3.2. Teorıa frecuencial

Si una clınica de maternidad desea conocer la probabilidad que un reciennacido sea varon, no podra utilizar la teorıa clasica para calcularla, pues losdos unicos resultados en un nacimiento (varon o mujer) no son igualmenteposibles. La clınica podra consultar el registro de los nacimientos durante elultimo dıa y observar que de 10 recien nacidos 4 fueron varones, la frecuencia

relativa4

10se aproximara a dicha probabilidad. Un nacimiento mas a ultima

hora hara que la frecuencia relativa sea4

11o

5

11. Si se consultara el registro

de la ultimas semanas, el numero de nacimientos sera mayor, mas aun si seconsultara el registro de los ultimos meses.

Empıricamente podemos afirmar que, cuando el numero n de veces que serepite un experimento es suficientemente grande, la frecuencia relativa de unevento A tiende a la probabilidad de ocurrencia de dicho evento. Simbolica-mente

P (A) = lımn→∞

m

n

donde m es la frecuencia absoluta del evento A.

4.3.3. Teorıa axiomatica

Una teorıa axiomatica es aquella que se sustenta en ciertos axiomas (leyesbasicas que no requieren ser demostradas) y con ellos se deducen ciertos teo-remas. A continuacion presentamos un conjunto de axiomas que dan origen ala Teorıa axiomatica de la probabilidad.

Axioma 1. La probabilidad de un suceso A es un numero mayor o igual que 0.

P (A) ≥ 0

Page 57: ESTAD ISTICA Y PROBABILIDAD

4. Probabilidad y Variable aleatoria 55

Axioma 2. La probabilidad del espacio muestral, o evento cierto es igual a 1.

P (Ω) = 1

Axioma 3. (Regla especial de adicion) Si A y B son dos sucesos mutuamenteexcluyentes, la probabilidad de su union es igual a la suma de las proba-bilidades de cada uno de ellos.

P (A ∪B) = P (A) + P (B)

Debemos notar que la union de los sucesos A y B expresa la condicionque suceda A o que suceda B o que sucedan ambos. Como en el Axioma 3los eventos A y B son mutuamente excluyentes, la union A ∪ B expresa lacondicion que suceda A o B, pero no ambos.

El complemento de un evento A, que lo simbolizaremos A, es el eventocierto menos dicho evento A, es decir, A = Ω− A.

Teorema 4.3.1 La probabilidad de un evento imposible ∅ es igual a 0, esdecir, P (∅) = 0.

Demostracion: Dado un evento A cualquiera, el suceso imposible ∅ y A sonmutuamente excluyentes, por el Axioma 3 se tiene que P (A) = P (A ∪ ∅) =P (A) +P (∅), con lo cual, P (A) = P (A) +P (∅); debe ser entonces P (∅) = 0.

Teorema 4.3.2 La probabilidad del complemento de A es igual a 1 menos laprobabilidad de A, es decir, P (A) = 1− P (A).

Demostracion: El espacio muestral se divide en dos eventos exclusivos A yΩ−A, es decir, los eventos A y A son mutuamente excluyentes. Entonces, dadoel Axioma 3 se tiene que P (Ω) = P (A∪ (Ω−A)) = P (A∪A) = P (A) +P (A),por lo tanto, P (A) = P (Ω) − P (A). Luego, por el Axioma 2 se tiene queP (A) = 1− P (A).

Teorema 4.3.3 Si A, B son sucesos tal que A ⊂ B, entonces P (A) ≤ P (B).

Demostracion: Como A ⊂ B, se tiene que B = (B − A) ∪ A. Ademas,B − A y A son mutuamente excluyentes, entonces, por el Axioma 3 se tieneque P (B) = P ((B − A) ∪ A) = P (B − A) + P (A), con lo cual P (B) =P (B −A) + P (A). Ahora, por el Axioma 1 se tiene que 0 ≤ P (B −A), lo queimplica que 0 + P (A) ≤ P (B − A) + P (A). Por lo tanto, de la desigualdadanterior se deduce que P (A) ≤ P (B).

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 58: ESTAD ISTICA Y PROBABILIDAD

56 4.3. Teorıas de la probabilidad

Corolario 4.3.4 Dado un evento A, entonces P (A) ≤ 1.

Teorema 4.3.5 Regla general de adicion. Si A y B son sucesos, entoncesP (A ∪B) = P (A) + P (B)− P (A ∩B).

Demostracion: Si A y B son dos eventos cuales quiera de un espacio muestral,entonces A ∪ B = (A − B) ∪ (B − A) ∪ (A ∩ B), siendo los conjuntos delsegundo miembro de la igualdad disjuntos de a dos, es decir, (A−B), (B−A)y (A ∩ B) son sucesos mutuamente excluyentes, por el Axioma 3 se tiene queP (A ∪B) = P (A−B) + P (B − A) + P (A ∩B).

Ademas se tiene que A = (A− B) ∪ (A ∩ B) y B = (B − A) ∪ (A ∩ B) ynuevamente por el Axioma 3, se tiene que P (A) = P (A − B) + P (A ∩ B) yP (B) = P (B − A) + P (A ∩ B), con lo cual P (A− B) = P (A)− P (A ∩ B) yP (B −A) = P (B)− P (A∩B). Si reemplazamos estas dos ultimas igualdadesen la ultima igualdad obtenida en el parrafo anterior se tiene la tesis, en efecto,P (A ∪B) = P (A) + P (B)− P (A ∩B).

4.3.4. Probabilidad conjunta y condicional

Comenzaremos diciendo que la ocurrencia de un evento conjunto es cuandoocurre simultaneamente dos o mas eventos. Si queremos calcular la probabi-lidad de un evento conjunto, estamos en busca de una probabilidad conjunta,esto implica que las frases se unen con “y”, mientras que los conjuntos seoperan con ∩.

Ejemplo 4.3.1 Si dado el experimento de arrojar una moneda tres veces, sequiere calcular la probabilidad que aparezca sello (A) y dos caras (B), entoncesestamos queriendo calcular P (A ∩B).

Si “s” significa que aparezca sello y “c” que aparezca cara, el espaciomuestral del ejemplo anterior es Ω = ccc, ccs, csc, scc, css, scs, ssc, sss. Sinos apoyamos en la teorıa clasica, la probabilidad buscada se calcula como

P (A ∩B) =Numero de casos favorables al evento conjunto A y B

Numero de casos igualmente posibles=

3

8

Pero si lo que se quiere es calcular la probabilidad de ocurrencia de unevento, ya “habiendo ocurrido otro suceso”, lo que se pretende conocer es unaprobabilidad condicional.

Page 59: ESTAD ISTICA Y PROBABILIDAD

4. Probabilidad y Variable aleatoria 57

Si recurrimos al Ejemplo 4.3.1 podemos observar que, si llamamos A alsuceso “que aparezca 1 sello” y B al suceso “que aparezca al menos 2 caras”,

entonces se tienen las probabilidades P (A) =7

8y P (B) =

4

8.

Ahora, si queremos calcular la probabilidad P (A/B) “que aparezca 1 se-llo, dado que aparecen al menos 2 caras”, el espacio muestral se reduce a

ccc, ccs, csc, scc y P (A/B) =3

4. Si este es el caso, diremos que A y B son

eventos dependientes.

Si nos basamos en la teorıa clasica de la probabilidad tendremos la formula

P (A/B) =P (A ∩B)

P (B)=

Probabilidad conjunta de A y B

Probabilidad de B

o tambien

P (A/B) =Numero de casos favorables al evento conjunto A y B

Numero de casos favorables al evento B

4.3.5. Eventos independientes

Se dice que dos eventos son independientes si la ocurrencia de uno nodepende de la ocurrencia del otro, es decir, el que uno de ellos ocurra no alterala probabilidad simple del otro suceso.

Ejemplo 4.3.2 El experimento de lanzar un dado y una moneda es tal queel resultado del dado (1, 2, 3, 4, 5, 6) no afecta el resultado de la moneda (selloo cara). Por cada una de las seis caras del dado, tenemos dos posibilidadespara el resultado de la moneda, cara o sello, es decir, existen doce resultadosdistintos. Si queremos calcular la probabilidad que el resultado del primero sea3 y el resultado de la moneda sea cara, de los doce resultados posibles, unosolo es el resultado al cual se le quiere asignar su probabilidad. La probabilidad

buscada es1

12.

Busquemos una regla que nos permita calcular la probabilidad conjuntade eventos independientes. Por un lado sabemos que

P (A/B) =P (A ∩B)

P (B)

lo que nos conduce a la siguiente igualdad: P (A ∩B) = P (A/B) · P (B).

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 60: ESTAD ISTICA Y PROBABILIDAD

58 4.3. Teorıas de la probabilidad

Pero el evento A no depende de la ocurrencia del evento B, es decir, laprobabilidad de A no se ve afectada por B, por lo tanto P (A/B) = P (A).Si reemplazamos esta igualdad en la ultima del parrafo anterior, tenemos laRegla especial de multiplicacion

P (A ∩B) = P (A) · P (B).

4.3.6. Teorema de Bayes

El analisis bayesiano consiste en, aplicando la idea de probabilidad condi-cional, calcular una probabilidad a posteriori despues que se han observadosdeterminados resultados.

A continuacion se presenta una version simple de la aplicacion del Teoremade Bayes.

Ejemplo 4.3.3 Se realizo un congreso en la UNaF registrandose en la siguien-te tabla los porcentajes de los alumnos participantes, teniendose en cuenta lafacultad a la que pertenecen y el sexo de cada uno de ellos.

Facultad Porcentaje de alumnos Porcentaje de mujeres de los alumnosFRN 20 % 30 %FAEN 40 % 60 %FCS 10 % 80 %FH 30 % 90 %

Si se elije una mujer entre los participantes del congreso, ¿cual es la pro-babilidad que esta mujer sea alumna de la FAEN?

Para todos los resultados posibles del experimento aleatorio,A1 = estudiante de FRNA2 = estudiante de FAENA3 = estudiante de FCSA4 = estudiante de FHexisten dos escenarios antagonicos y complementarios, es decir, puede ocurrirB = mujer o B = varon tal que

P (B) + P (B) = 1

.

Page 61: ESTAD ISTICA Y PROBABILIDAD

4. Probabilidad y Variable aleatoria 59

La probabilidad que el participante sea de la FAEN y mujer es

P (B ∩ A2) = P (B/A2) · P (A2) = 0, 6 · 0, 4 = 0, 24

Si el participante elegido es mujer, podra ser estudiante de la FRN, FAEN,FCS o FH; estos eventos son excluyentes, por lo tanto podemos sumar susprobabilidades y obtener la probabilidad de los participantes que son mujeres:

P (B) = P (B/A1)P (A1) + P (B/A2)P (A2) + P (B/A3)P (A3) + P (B/A4)P (A4)

= 0, 65

A esta probabilidad se la llama probabilidad total, es la probabilidad que unparticipante sea mujer, pero de ellas solo nos interesan las que estudian en laFAEN, por lo tanto:

P (A2/B) =P (B ∩ A2)

P (B)=P (B/A2) · P (A2)

P (B)=

0, 24

0, 65= 0, 369

Teorema: Sea el espacio probabilıstico Ω = Ai con i = 1, 2, . . . , k tal queP (Ai) es conocida para todo Ai. Sea B un suceso de manera tal que las pro-babilidades condicionales P (B/Ai) tambien se conocen. Entonces

P (Ai/B) =P (B/Ai) · P (Ai)k∑

i=1

P (B/Ai) · P (Ai)

Demostracion: Dado que P (Ai/B) =P (Ai ∩B)

P (B)y como P (Ai ∩ B) =

P (B/Ai) · P (Ai), entonces P (Ai/B) =P (B/Ai) · P (Ai)

P (B).

Ademas, P (B) =k∑

i=1

P (B/Ai) · P (Ai), en efecto, los eventos (Ai ∩ B) y

(Aj ∩B) son excluyentes si i 6= j, con lo cual

k∑i=1

P (B/Ai) · P (Ai) =k∑

i=1

P (Ai ∩B) = P

(k⋃

i=1

(Ai ∩B)

)= P

((k⋃

i=1

Ai

)∩B

)= P (Ω ∩B) = P (Ω) · P (B) = 1 · P (B) = P (B)

y concluimos que

P (Ai/B) =P (B/Ai) · P (Ai)k∑

i=1

P (B/Ai) · P (Ai)

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 62: ESTAD ISTICA Y PROBABILIDAD

60 4.4. Variable aleatoria

4.4. Variable aleatoria

Consideremos el experimento del Ejemplo 4.3.1 de lanzar una moneda tresveces, cuyo espacio muestral es Ω = ccc, ccs, csc, scc, css, scs, ssc, sss, donde

la probabilidad de cada evento es1

8. A los “numeros de caras” 0, 1, 2, 3 le

vamos asignar la probabilidad que le corresponde; hemos definido un nuevoconjunto X= 0, 1, 2, 3.

Ası, de esta manera, por ejemplo se tiene, P (X = 0) = P (sss) = 0, 125 yP (X = 2) = P (csc) + P (ccs) + P (scc) = 0, 125 + 0, 125 + 0, 125 = 0, 375.

Dada la variable X y las probabilidades de sus elementos, definimos lafuncion de probabilidad P (X) en la siguiente tabla.

X P (X)0 0,1251 0,3752 0,3753 0,125∑P (X) 1

La probabilidad de cada elemento de X es mayor o igual que cero y la sumade estas probabilidades es igual a 1, por lo tanto X es una variable aleatoria.

Variable aleatoria: es una funcion X : Ω −→ R que asigna a cada elementodel espacio muestral un numero real tal que X = x es un evento aleatorio.

Page 63: ESTAD ISTICA Y PROBABILIDAD

4. Probabilidad y Variable aleatoria 61

Acumulando los valores de probabilidad, se obtiene la funcion de distribu-cion F (X) como se muestra en la siguiente tabla.

X F (X)0 0,1251 0,52 0,8753 1

Donde F (2) = 0, 875 es la probabilidad que en el lanzamiento de tresmonedas se obtengan dos caras como maximo F (2) = P (X ≤ 2)

Funcion de distribucion: es una funcion F (X) que asigna a cada valor deX un numero real que es la probabilidad que X ≤ x.

F (X = x) = P (X ≤ x)

4.4.1. Variable aleatoria discreta

Una variable aleatoria es discreta cuando los valores que asume surgen deun proceso de conteo que puede ser finito o infinito. La funcion de probabilidadse denomina funcion de cuantıa e indica la probabilidad para cada valor posiblede la variable aleatoria

P (x) = P (X = x)

y generalizando para los k (conteo finito) valores de la variable aleatoria secumple

k∑i=1

P (xi) = 1

de donde se deduce la funcion de distribucion

F (xj) =

j∑i=1

P (xi) j ≤ k

Podemos determinar ası, las condiciones que deben cumplir ambas funcio-nes si X= xi con i = 1, 2, . . . , k.

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 64: ESTAD ISTICA Y PROBABILIDAD

62 4.4. Variable aleatoria

Estas funciones pueden ser representadas graficamente mediante los grafi-cos abordados en el Capıtulo 1. Continuando con el experimento del Ejemplo4.3.1 se tiene

X

P (X)

X

F (X)

0 1 2 3 0 1 2 3

0,125

0,375

0,125

0,5

0,8751

La grafica de F (X) es escalonada dado que la funcion de distribucionsolamente se incrementa en un conjunto numerable de puntos.

Propiedades de la funcion de cuantıa:

1. P (xi) ≥ 0

2.k∑

i=1

P (xi) = 1

Propiedades de la funcion de distribucion:

1. F (xi) ≥ 0

2. F (xk) = 1

3. F (xj) ≥ F (xi) si j > i.

Ejemplo 4.4.1 Se sabe que P (x) = α +x

10con x = 0, 1, 2, 3 es una funcion

de probabilidad, entonces es necesario hallar el valor de la constante α tal queP (x) cumpla con las propiedades.

Entonces, 1 =3∑

x=0

P (x) = P (0) + P (1) + P (2) + P (3) = 4α +1

10

3∑x=0

x =

4α +6

10. Por lo tanto, 4α = 1− 6

10=

4

10, con lo cual α =

1

10.

Page 65: ESTAD ISTICA Y PROBABILIDAD

4. Probabilidad y Variable aleatoria 63

Con el valor de α obtenido construimos la tabla.

X P (X) F (X)0 0,1 0,11 0,2 0,32 0,3 0,63 0,4 1,0

4.4.2. Variable aleatoria continua

Recordamos el Ejemplo 1.5.1 presentado en el Capıtulo 1, las precipita-ciones durante un mes en 50 localidades del interior en mm. Las medicionespueden originar infinitos resultados no numerables, la variable es continua eneste caso.

Para una variable aleatoria discreta se definio la funcion de probabilidadtal que la suma de probabilidades de todos los valores de la variable aleatoria esigual a 1. Pero para cada valor de los infinitos que toma la variable continua enun intervalo real, su probabilidad es nula y no se puede satisfacer la propiedadque la suma de las probabilidades de todos los valores de la variable sea iguala 1. La distribucion de probabilidad de una variable aleatoria continua sedescribe de forma diferente.

En este capıtulo ya hemos abordado la teorıa frecuencial de probabilidad,donde se considera a la frecuencia relativa como medida de probabilidad.

Ejemplo 4.4.2 A continuacion, representamos graficamente las frecuenciasrelativas de las clases de la Tabla 1.1 del Ejemplo 1.6.1.

xi

hi

60 100 150

0,06

0,12

0,18

0,24

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 66: ESTAD ISTICA Y PROBABILIDAD

64 4.4. Variable aleatoria

La superficie de cada rectangulo representa la frecuencia relativa de la clasecorrespondiente, por lo que la superficie total es igual a 1. Si hacemos crecer elnumero de observaciones y el numero de intervalos, esto ultimo disminuyendola amplitud de cada clase, el histograma tiende a ser una curva suave similar alpolıgono de frecuencias. A dicho histograma lo llamaremos funcion de densidaddenotandolo f(x).

Variable aleatoria continua: Se dice que X es una variable aleatoria con-tinua si existe una funcion de densidad de X que satisface:

1. f(x) ≥ 0 para todo x

2.

∫ ∞−∞

f(x)dx = 1

La funcion f(x) da el valor de las ordenadas que forman la curva. Lasprobabilidades estan dadas por la superficie bajo la curva entre valores dela variable, es por ello que la integracion de f(x) entre −∞ y ∞ debe serigual a 1 para que la funcion sea de densidad. Entonces, por integracion se

puede calcular la probabilidad P (a ≤ x ≤ b) =

∫ b

a

f(x)dx. Cabe destacar que,

como se trata de una variable continua, la integral definida incluyendo o no losextremos del intervalo dan el mismo resultado. Simbolicamente, esto se escribe

P (a ≤ x ≤ b) = P (a < x ≤ b) = P (a ≤ x < b) = P (a < x < b)

Ejemplo 4.4.3 Teniendo en cuenta el Ejemplo 4.4.2, si f(x) es la funcion de

densidad, se tiene que P (100 ≤ x ≤ 120) =

∫ 120

100

f(x)dx y dicha probabilidad

es la superficie sombreada en el siguiente grafico.

xi

hi

100 120

0,06

0,12

0,18

0,24

Page 67: ESTAD ISTICA Y PROBABILIDAD

4. Probabilidad y Variable aleatoria 65

Dado que la funcion de distribucion es la que proporciona la probabilidadacumulada para cierto valor de la variable, para variables continuas la funcionde distribucion es la superficie bajo la curva de la funcion de densidad del ladoizquierdo de un valor de x. Simbolicamente, esto es

F (x) = P (X ≤ x) =

∫ x

−∞f(x)dx

Propiedades de la funcion de acumulacion

1. F (x) ≥ 0

2. lımx→∞

F (x) = 1

3. lımx→−∞

F (x) = 0

4. F (a) ≤ F (b) para todo a < b (F (x) es monotona creciente)

P (a ≤ x ≤ b) = F (b)− F (a) =

∫ b

−∞f(x)dx−

∫ a

−∞f(x)dx

4.4.3. Esperanza matematica y varianza

Ya hemos expuesto en el Capıtulo 2 que la media aritmetica es el pro-medio de todos los valores que toma una variable. A esta medida, para unavariable aleatoria, la llamaremos esperanza matematica o valor esperado y losimbolizaremos E(X).

Para una variable aleatoria discreta X, que toma k valores, con una dis-tribucion de probabilidad P (X), la esperanza matematica se calcula como

E(X) = µ =k∑

i=1

xi P (xi)

Ejemplo 4.4.4 Recordamos el Ejemplo 4.3.1 y agregamos informacion a latabla ya construida.

X P (X) X P (X)0 0,125 01 0,375 0,3752 0,375 0,7503 0,125 0,375∑

X P (X) = 1, 5

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 68: ESTAD ISTICA Y PROBABILIDAD

66 4.4. Variable aleatoria

Por lo tanto, E(X) = 1, 5. Es decir, el numero de caras esperado al arrojaruna moneda tres veces es 1,5.

Si se trata de una variable aleatoria continua x con funcion de densidadf(x), la suma se obtiene integrando el producto x f(x) sobre el recorrido de x

E(X) = µ =

∫ ∞−∞

x f(x)dx

Propiedades de la esperanza matematica

Si X, Y son dos variables aleatorias y c es una constante:

1. E(c) = c

2. E(c+X) = c+ E(X)

3. E(c X) = c E(X)

4. E(X + Y ) = E(X) + E(Y ) (las variables deben estar expresadas en lamisma unidad de medida)

5. E(X Y ) = E(X)E(Y )

La varianza nos indica la concentracion de los datos alrededor de la mediaaritmetica segun estudios en el Capıtulo 2. Como aquı estamos tratando convariables aleatorias, podemos definir el desvıo de un valor x de la variable Xrespecto de la esperanza como:

x− E(X) = x− µ

La varianza de una variable aleatoria X se define como la esperanza delos desvıos al cuadrado de los valores de la variable aleatoria respecto a laesperanza matematica y lo simbolizamos σ2

X

σ2X = E(x− µ)2

y su forma de calculo es:

Para una variable discreta: σ2X =

k∑i=1

(xi − µ)2 P (xi)

Para una variable continua: σ2X =

∫ ∞−∞

(x− µ)2 f(x)dx

Page 69: ESTAD ISTICA Y PROBABILIDAD

4. Probabilidad y Variable aleatoria 67

Propiedades de la varianza

Si X, Y son variables aleatorias y c una constante cualquiera, entonces setiene las siguientes propiedades:

1. σ2X ≥ 0

2. σ2c = 0

3. σ2c+X = σ2

X

4. σ2cX = c2σ2

X

5. σ2X+Y = σ2

X + σ2Y

Ejemplo 4.4.5 Continuando con el experimento de arrojar una moneda tresveces, si X es la variable aleatoria “numero de caras”, entonces la varianzasera

σ2X = (−1, 5)2 · 0, 125 + (−0, 5)2 · 0, 375 + 0, 52 · 0, 375 + 1, 52 · 0, 125 = 0, 75

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica

Page 70: ESTAD ISTICA Y PROBABILIDAD
Page 71: ESTAD ISTICA Y PROBABILIDAD

Indice general

1. Recoleccion, organizacion y presentacion de datos 1

1.1. Concepto de Estadıstica . . . . . . . . . . . . . . . . . . . . . . 2

1.2. Estadıstica descriptiva y Estadıstica inferencial . . . . . . . . . . 3

1.3. Etapas del Metodo estadıstico . . . . . . . . . . . . . . . . . . . 3

1.4. Conceptos basicos . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.5. Organizacion y presentacion de la informacion . . . . . . . . . . 9

1.6. Graficos y tablas. Principios generales. Tipos . . . . . . . . . . . 12

1.6.1. Tablas de distribucion de frecuencias . . . . . . . . . . . 16

1.6.2. Representacion grafica . . . . . . . . . . . . . . . . . . . 18

2. Analisis exploratorio de datos 23

2.1. Medidas de tendencia central . . . . . . . . . . . . . . . . . . . 23

2.1.1. Media aritmetica . . . . . . . . . . . . . . . . . . . . . . 23

2.1.2. Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.1.3. Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.1.4. Relacion empırica entre la media, la mediana y la moda . 30

2.1.5. Otras medidas de tendencia central . . . . . . . . . . . . 31

2.2. Medidas de orden . . . . . . . . . . . . . . . . . . . . . . . . . . 32

69

Page 72: ESTAD ISTICA Y PROBABILIDAD

70 INDICE GENERAL

2.2.1. Cuartiles (Q1, Q2, Q3) . . . . . . . . . . . . . . . . . . . 32

2.2.2. Deciles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.2.3. Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.3. Medidas de variabilidad . . . . . . . . . . . . . . . . . . . . . . 34

2.4. Medidas de asimetrıa y curtosis . . . . . . . . . . . . . . . . . . 39

2.5. Datos atıpicos y diagramas de cajas . . . . . . . . . . . . . . . . 40

3. Analisis de correlacion y regresion 43

3.1. Diagrama de dispersion y ajuste de curvas . . . . . . . . . . . . 43

3.1.1. Ajuste de curvas a mano . . . . . . . . . . . . . . . . . . 45

3.2. Correlacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.2.1. Metodo de los mınimos cuadrados . . . . . . . . . . . . . 48

4. Probabilidad y Variable aleatoria 51

4.1. Experimentos determinısticos y experimentos aleatorios . . . . . 51

4.2. Espacio muestral y evento . . . . . . . . . . . . . . . . . . . . . 52

4.3. Teorıas de la probabilidad . . . . . . . . . . . . . . . . . . . . . 53

4.3.1. Teorıa clasica . . . . . . . . . . . . . . . . . . . . . . . . 53

4.3.2. Teorıa frecuencial . . . . . . . . . . . . . . . . . . . . . . 54

4.3.3. Teorıa axiomatica . . . . . . . . . . . . . . . . . . . . . . 54

4.3.4. Probabilidad conjunta y condicional . . . . . . . . . . . . 56

4.3.5. Eventos independientes . . . . . . . . . . . . . . . . . . . 57

4.3.6. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . 58

4.4. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4.4.1. Variable aleatoria discreta . . . . . . . . . . . . . . . . . 61

Page 73: ESTAD ISTICA Y PROBABILIDAD

INDICE GENERAL 71

4.4.2. Variable aleatoria continua . . . . . . . . . . . . . . . . . 63

4.4.3. Esperanza matematica y varianza . . . . . . . . . . . . . 65

Indice alfabetico 71

Prof. Gualberto Ruiz Diaz Apuntes de Estadıstica