tema 1. an´alisis de datos univariantes -...

79
1 Tema 1. An´ alisis de datos univariantes Los contenidos a desarrollar en este tema son los siguientes: Representaciones y gr´ aficos: Tablas de frecuencias. Diagrama de barras. Pictogramas. Histograma. Diagrama de tallo y hojas. Pol´ ıgono de frecuencias. Diagrama de caja. Frequency Table for GRUPOEMPR ------------------------------------------------------------------------ Relative Cumulative Cum. Rel. Class Value Frequency Frequency Frequency Frequency ------------------------------------------------------------------------ 1 GE 66 0.5238 66 0.5238 2 GOTROS 2 0.0159 68 0.5397 3 GUE 3 0.0238 71 0.5635 4 NO 55 0.4365 126 1.0000 ------------------------------------------------------------------------ Barchart for GRUPOEMPR 0 20 40 60 80 frequency GE GOTROS GUE NO Box-and-Whisker Plot 0 1 2 3 4 5 (X 1.E7) VENTAS Histogram for VENTAS VENTAS frequency -3 7 17 27 37 47 57 (X 1.E6) 0 10 20 30 40 Histogram for VENTAS VENTAS percentage -3 7 17 27 37 47 57 (X 1.E6) 0 5 10 15 20 25 30 Piechart for GRUPOEMPR GRUPOEMPR GE GOTROS GUE NO 52.38% 1.59% 2.38% 43.65% Introducci´ on a la Estad´ ıstica Andr´ es M. Alonso

Upload: ngokhue

Post on 14-Oct-2018

241 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

1

Tema 1. Analisis de datos univariantes

Los contenidos a desarrollar en este tema son los siguientes:

Representaciones y graficos:

• Tablas de frecuencias.• Diagrama de barras.• Pictogramas.• Histograma.• Diagrama de tallo y hojas.• Polıgono de frecuencias.• Diagrama de caja.

Frequency Table for GRUPOEMPR ------------------------------------------------------------------------ Relative Cumulative Cum. Rel. Class Value Frequency Frequency Frequency Frequency ------------------------------------------------------------------------ 1 GE 66 0.5238 66 0.5238 2 GOTROS 2 0.0159 68 0.5397 3 GUE 3 0.0238 71 0.5635 4 NO 55 0.4365 126 1.0000 ------------------------------------------------------------------------

Barchart for GRUPOEMPR

0 20 40 60 80

frequency

GE

GOTROS

GUE

NO

Box-and-Whisker Plot

0 1 2 3 4 5(X 1.E7)

VENTAS

Histogram for VENTAS

VENTAS

freq

uenc

y

-3 7 17 27 37 47 57(X 1.E6)

0

10

20

30

40

Histogram for VENTAS

VENTASpe

rcen

tage

-3 7 17 27 37 47 57(X 1.E6)

0

5

10

15

20

25

30

Piechart for GRUPOEMPR

GRUPOEMPRGEGOTROSGUENO

52.38%

1.59%2.38%

43.65%

Introduccion a la Estadıstica Andres M. Alonso

Page 2: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

2

Los contenidos a desarrollar en este tema son los siguientes (continuacion):

Resumen numerico:

• Medidas de localizacion.• Sensibilidad de la media a datos atıpicos, versiones robustas.• Medidas de dispersion.• Coeficiente de variacion.• Otras medidas: Asimetrıa, curtosis y concentracion.

Transformacion de variables:

• Uso de transformaciones.• Transformaciones lineales y no lineales.• Media y varianza de una transformacion lineal.

Lecturas recomendadas: Capıtulos 2 al 6 del libro de Pena y Romo (1997), yCapıtulo 2 de Newbold (2001).

Introduccion a la Estadıstica Andres M. Alonso

Page 3: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

3

Conjuntos de datos reales

HOGARES: 18 variables medidas en 75 hogares o unidades de gastos mediantela Encuesta de Presupuestos Familiares realizada por el I.N.E. en 1974–1975.

Disponible como material adicional al libro de Pena y Romo (1997).

Variable Descripcion Variable Descripcion

TMUN Tamano del municipio ITOTAL Suma de ingresos

CAPITAS Numero de personas AHRR Ahorro

L14 Numero de menores de 14 anos GTINE Gasto total (INE)

SOC Categorıa socioeconomica CAR Gasto en transporte

SITPROF Situacion profesional G1 Gasto en alimentacion, bebidas

y tabaco

EDC Nivel educativo G2 Gasto en vestido y calzado

NPER Numero de perceptores G4 Gasto en menaje

M2V m2 de la vivienda G6 Gasto en comunicaciones

IT Ingreso total (INE) G7 Gasto en esparcimiento y

ensenanza

Introduccion a la Estadıstica Andres M. Alonso

Page 4: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

4

Conjuntos de datos reales

PAISES: 8 variables socioeconomicas correspondientes a 132 paıses.

Disponible como material adicional al libro de Pena y Romo (1997).

Variable DescripcionPOB Numero de habitantes en 1992AREA Superficie en miles de km2

ESPERANZ Esperanza de vida al nacer (en anos) estimada en 1992AGRICUL Porcentaje del PIB que representa la agriculturaLAB Fuerza laboral (en millones) en 1992MORT INF Tasa de mortalidad infantil (por 1000 nacidos vivos) en

1992ESP M EVN (en anos) de las mujeres estimada en 1992ESP H EVN (en anos) de los hombres estimada en 1992

Introduccion a la Estadıstica Andres M. Alonso

Page 5: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

5

Conjuntos de datos reales

ESTUDIANTES: 8 variables medidas en 199 estudiantes.

Disponible como material adicional al libro de Levin, R.I. y Rubin, D.S. (1997) Estadısticapara Administracion y Economıa, Editorial Prentice Hall, Mexico.

Variable DescripcionSECTION Seccion de matriculacionNSTRUCT Tipo de profesorEXAM 1 Resultado del primer examen parcial (Maximo 75 puntos)EXAM 2 Resultado del segundo examen parcial (Maximo 75 puntos)HWK Resultado en tareas extra-clase (Maximo 137 puntos)FINAL Resultado del examen final (Maximo 75 puntos)TOTAL 20*(EXAM1 + EXAM2 + 2*FINAL)/75 + 20*HWK/137GRADE A, A-, . . . , F

Introduccion a la Estadıstica Andres M. Alonso

Page 6: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

6

Conjuntos de datos reales

INGRESOS: 6 variables medidas en 224 empresas cuyos ingresos del ultimotrimestre de 1989 fueron publicados en The Wall Street Journal.

Disponible como material adicional al libro de Levin, R.I. y Rubin, D.S. (1997) Estadısticapara Administracion y Economıa, Editorial Prentice Hall, Mexico.

Variable DescripcionEXCHANGE Bolsa de valores donde se negocian las acciones de la

empresaLQ89 Ingresos del ultimo trimestre de 1989LQ88 Ingresos del ultimo trimestre de 1988CHANGE Cambio en los ingresos (LQ89 - LQ88)GRLQ89 Ingresos agrupados del ultimo trimestre de 1989 (el valor

del ingreso se redondea al cuarto de dolar mas cercano)GRLQ89 Ingresos agrupados del ultimo trimestre de 1988

Introduccion a la Estadıstica Andres M. Alonso

Page 7: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

7

Conjuntos de datos reales

INNOVA2000: 150 variables medidas en 11778 empresas espanolas mediantela Encuesta sobre Innovacion Tecnologica realizada por el I.N.E. en el ano2000.

Disponible en http://www.ine.es

Empresas agrupadas en 52 ramas tecnologicas52 conjuntos

diferentes

Otra informaci ón en INEbase

Encuesta sobre Innovación Tecnológica en las EmpresasAño 2000 Formato fichero Tamaño ficheroDiseño de registro y valores v álidos de las variables WORD comprimido ZIP 15 Kb Fichero de microdatos ASCII comprimido ZIP 468 Kb Cuestionario PDF 124 Kb

Aviso Legal

Buscar

Productos y servicios Ficheros de microdatos

Introduccion a la Estadıstica Andres M. Alonso

Page 8: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

8

INNOVA2000: Grupos de variables incluidas en la Encuesta sobre InnovacionTecnologica.

Objetivos de las empresas innovadoras.La estructura del proceso de innovacion.La accion de los poderes publicos en la innovacion industrial.Origen de ideas innovadoras y obstaculos a la innovacion.Productos y efectos de la innovacion.Ventas debidas a los productos en fase de introduccion en el mercado.Informacion descriptiva de los resultados de la innovacion.Difusion de las innovaciones.Cooperacion en I+D.

Patentes. 11 grupos diferentes

Balanza de pagos tecnologicos.

Documentos entregados: (A) Metodologıa de la encuesta; (B) Diseno de registro de la encuesta.

Introduccion a la Estadıstica Andres M. Alonso

Page 9: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

9

Tema 1. Analisis de datos univariantes

Representaciones y graficos :

• Tablas de frecuencias.• Diagrama de barras.• Pictogramas.• Histograma.• Diagrama de tallo y hojas.• Polıgono de frecuencias.• Diagrama de caja.

Resumen numerico.

Transformacion de variables.

Introduccion a la Estadıstica Andres M. Alonso

Page 10: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

10

Tablas de frecuencia

Ejemplo 1. Se desea estudiar la estructura de las empresas de produccion ydistribucion de electricidad, gas y agua en cuanto a la pertenencia a un grupoempresarial. Las categorıas definidas son:

NO: La empresa no pertenece a un grupo.GE: La empresa pertenece a un grupo con sede en Espana.GUE: La empresa pertenece a un grupo con sede en otro paıs de la UE.GOTROS: La empresa pertenece a un grupo con sede en un paıs nocomunitario.

La siguiente lista muestra los valores para algunas empresas seleccionadas: NO,GE, GE, GE, GE, NO, NO, NO, GE, GE, . . . , GE, GE, GE, NO, GE, GUE,NO, GE, GE, GE.

¿Que tipo de variable es la pertenencia a un grupo empresarial?

¿Como resumir la informacion?

Introduccion a la Estadıstica Andres M. Alonso

Page 11: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

11

Tablas de frecuencia

Ejemplo 1.

Frequency Table for GRUPOEMPR

------------------------------------------------------------------------ Relative Cumulative Cum. Rel.Class Value Frequency Frequency Frequency Frequency------------------------------------------------------------------------ 1 GE 66 0.5238 66 0.5238 2 GOTROS 2 0.0159 68 0.5397 3 GUE 3 0.0238 71 0.5635 4 NO 55 0.4365 126 1.0000------------------------------------------------------------------------

B Observamos que el orden de las categorıas es alfabetico. ¿Variable medida en escala ordinal?

B Frecuencia absoluta ≡ Frecuencia. Por ejemplo, 55 empresas de EGA no pertenecen a un

grupo empresarial.

B Frecuencia relativa = Frecuencia absolutan . En el ejemplo, n = 126. La frecuencia relativa

de empresas que no pertenecen a un grupo empresarial es 0.4365 = 43.65 %.

Introduccion a la Estadıstica Andres M. Alonso

Page 12: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

12

Tablas de frecuencia

Ejemplo 1.

Frequency Table for GRUPOEMPR

------------------------------------------------------------------------ Relative Cumulative Cum. Rel.Class Value Frequency Frequency Frequency Frequency------------------------------------------------------------------------ 1 GE 66 0.5238 66 0.5238 2 GOTROS 2 0.0159 68 0.5397 3 GUE 3 0.0238 71 0.5635 4 NO 55 0.4365 126 1.0000------------------------------------------------------------------------

B Frecuencia absoluta acumulada ≡ Frecuencia acumulada =∑

i Frecuencia absolutai.

Por ejemplo, 71 = 68 + 2 + 3 empresas pertenecen a algun grupo empresarial.

I Recordar que la variable GRUPOEMPR se mide en escala nominal.

B Frecuencia relativa acumulada= Frecuencia acumuladan . La frecuencia acumulada relativa

de empresas que pertenecen a algun grupo empresarial es 0.5635 = 56.35%.

Introduccion a la Estadıstica Andres M. Alonso

Page 13: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

13

Construccion de tablas de frecuencia

Para una variable con k categorıas, c1, c2, . . . , ck, sea nk el numero de obser-vaciones en cada categorıa:

Categorıa Frecuencia Frecuenciaabsoluta relativa

c1 n1 f1 = n1n

c2 n2 f2 = n2n... ... ...

ck nk fk = nkn

Total n =∑k

i=1 ni 1

Definicion 1. La tabla que presenta las clases o categorıas de las variables ysus respectivas frecuencias se denomina distribucion de frecuencias.

Introduccion a la Estadıstica Andres M. Alonso

Page 14: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

14

Ejemplo 2. El Departamento de Estadıstica imparte docencia en las licen-ciaturas en (Economıa, Economıa de la Empresa o Estudios Conjuntos) y leinteresa conocer las caracterısticas de los alumnos matriculados en Introduc-cion a la Estadıstica. Toman una muestra aleatoria de 40 estudiantes con lossiguientes resultados:

Ec Emp Ec Ec C Emp Emp EcC Ec Ec Emp Emp Emp Ec Ec

Ec Ec C C Emp Emp Emp EcC C Ec Ec Emp Emp Ec Emp

Ec Ec Emp Emp C Ec Ec Emp

Categorıa Frecuencia Frecuenciaabsoluta relativa

C 7 0,175Ec 18 0,450

Emp 15 0,375Total 40 1

Introduccion a la Estadıstica Andres M. Alonso

Page 15: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

15

Diagramas de barras

El diagrama de barras permite visualizar los datos resumidos en las tablas defrecuencias.

Ejemplo 3. Utilizando los datos del Ejemplo 1:

Barchart for GRUPOEMPR

0

20

40

60

80

frequency

GE GOTROS GUE NO

Barchart for GRUPOEMPR

perc

en

tag

e

0

10

20

30

40

50

60

GE GOTROS GUE NO

Introduccion a la Estadıstica Andres M. Alonso

Page 16: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

16

Diagramas de barras

Los rasgos importantes de un diagrama de

barras

Tıtulo

Etiqueta ¾ Flecha

Sin Flecha¾

6

Frecuencias -

¸

º

U

W

Espacios entre barras

ª

Altura ∝ ni

-¾-¾

Anchuras iguales

6i :1

Etiquetas

Clave

27

Introduccion a la Estadıstica Andres M. Alonso

Page 17: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

17

Ejemplo 4. Con los datos del Ejemplo 2 obtenga el diagrama de barrasutilizando las frecuencias relativas:

Ejemplo 16 Construimos un diagrama de bar-

ras para los datos del Ejemplo 14.

Programas de licenciatura de estudiantes de Estadıstica

6

0

0,1

0,2

0,3

0,4

0,5

frecuenciarelativa

C Ec Emp

Clave

C = Estudios ConjuntosEc = Economıa

Emp = Economıa de la Empresa

26Introduccion a la Estadıstica Andres M. Alonso

Page 18: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

18

Diagramas de Pareto

Si se ordenan las categorıas de mas a menos frecuentes y se dibuja undiagrama de barras de frecuencias absolutas, anadiendo una linea para mostrarlas frecuencias relativas acumuladas, se tiene un diagrama de Pareto.

Ejemplo 5. Utilizando los datos del Ejemplo 2. Ordenamos las categorıas enterminos de frecuencia y calculamos las frecuencias acumuladas.

Categorıa Frecuencia Frecuencia Frecuencia relativaabsoluta relativa acumulada

Ec 18 0,450 0,450Emp 15 0,375 0,825C 7 0,175 1

Total 40 1 —

Introduccion a la Estadıstica Andres M. Alonso

Page 19: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

19

Diagramas de Pareto

Ejemplo 5. Obtener el diagrama de Pareto.Diagrama de Pareto de programas de licenciatura

6

6

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0

4

8

12

16

20

frecuenciaabsoluta

frecuenciacumulativa

Ec Emp C

Clave

Ec = EconomıaEmp = Economıa de la Empresa

C = Estudios Conjuntos

29Introduccion a la Estadıstica Andres M. Alonso

Page 20: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

20

Diagramas de sectores o de tarta

Se divide un cırculo en tantos sectores como clases existan. El area de cadaporcion es proporcional a la frecuencia de la clase. El angulo de cada porcionse calcula usando:

n −→ 360◦

ni −→ xi = 360◦ni/n = 360◦fi.

Ejemplo 6. Utilizando los datosdel Ejemplo 1. Obtenga eldiagrama de tarta de la variableGRUPOEMPResarial.

Piechart for GRUPOEMPR

GRUPOEMPR

GE

GOTROS

GUE

NO

52.38%

1.59%

2.38%

43.65%

Introduccion a la Estadıstica Andres M. Alonso

Page 21: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

21

Pictogramas

Un pictograma es una representacion grafica usando dibujos relevantes parailustrar los datos, en lugar de simples barras.

Ejemplo 7. Nos interesa representar el numero de empresas cuyas accionesse negocian en distintas bolsas de valores: (N) Nueva York, (A) Americana y

(O) al contado. Archivo ingresos.sf3

Frequency Table for Bolsa----------------------------------

RelativeClass Value Frequency Frequency----------------------------------

1 A 38 0.16962 N 75 0.33483 O 111 0.4955

----------------------------------A N O

Introduccion a la Estadıstica Andres M. Alonso

Page 22: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

22

Pictogramas

Ejemplo 8. La tabla muestra lasfrecuencias de las primeras jugadasencontradas en el 20 de febrero del2006 en el buscador de aperturas dehttp://www.chessgames.com/.

Usamos tableros con tamanosproporcionales a frecuencias pararepresentar los datos.

Apertura Frecuenciae4 178130d4 125919

Cf3 32206c4 28796

Otras 6480Total 371631

Introduccion a la Estadıstica Andres M. Alonso

Page 23: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

23

Tablas de frecuencia - Variables discretas

En este caso las categorıas (numericas) se presentan ordenadas.

Ejemplo 9. En la Encuesta de Presupuestos Familiares nos interesa estudiar

la distribucion del numero de individuos en los hogares. Archivo hogares.sf3

Frequency Table for CAPITAS

------------------------------------------------------------------------ Relative Cumulative Cum. Rel.Class Value Frequency Frequency Frequency Frequency------------------------------------------------------------------------ 1 1 6 0.0800 6 0.0800 2 2 11 0.1467 17 0.2267 3 3 11 0.1467 28 0.3733 4 4 20 0.2667 48 0.6400 5 5 15 0.2000 63 0.8400 6 6 8 0.1067 71 0.9467 7 7 3 0.0400 74 0.9867 8 9 1 0.0133 75 1.0000------------------------------------------------------------------------

Introduccion a la Estadıstica Andres M. Alonso

Page 24: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

24

Tablas de frecuencia - Variables discretas

Metodo general para construir una tabla de frecuencias acumuladas

Supongamos que tenemos una muestra de datos con valores x1 < x2 < . . . <xk con frecuencias absolutas n1, n2, . . . , nk.

i xi ni fi Ni Fi

1 x1 n1 f1 =n1n N1 = n1 F1 = f1

2 x2 n2 f2 =n2n N2 = n1 + n2 F1 = f1 + f2

... ... ... ... ... ...

k xk nk fk =nkn Nk = n Fk = 1

Introduccion a la Estadıstica Andres M. Alonso

Page 25: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

25

Diagramas de barras - Variables discretas

Ejemplo 10. Con los datos del Ejemplo 9 obtenga un diagrama de barraspara representar la frecuencia del numero de individuos en el hogar.

Barchart for CAPITAS

0

4

8

12

16

20

freq

uenc

y

1 2 3 4 5 6 7 9

Definicion 2. La categorıa o clase modal es el valor de la variable que masse repite en la muestra.

B En el ejemplo, la clase modal es 4, es decir los hogares con cuatro individuos.

Introduccion a la Estadıstica Andres M. Alonso

Page 26: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

26

Tablas de frecuencias - Variables continuas

En este caso empezamos por establecer las categorıas (intervalos disjuntos)donde la variable toma valores.

Ejemplo 11. En la Encuesta de Innovacion Tecnologica nos interesaestudiar la distribucion de la inversion en innovacion por empleado.

Archivo innovacion2000.sf3

Scatterplot for INNOVAPC

0 2 4 6 8(X 1.E6)

INNOVAPC

Valores extremos

Introduccion a la Estadıstica Andres M. Alonso

Page 27: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

27

Frequency Tabulation for INNOVAPC

-------------------------------------------------------------------------------- Lower Upper Relative Cumulative Cum. Rel.Class Limit Limit Midpoint Frequency Frequency Frequency Frequency-------------------------------------------------------------------------------- at or below 0.0 0 0.0000 0 0.0000 1 0.0 666667.0 333333.0 3758 0.9976 3758 0.9976 2 666667.0 1.33333E6 1.E6 5 0.0013 3763 0.9989 3 1.33333E6 2.E6 1.66667E6 1 0.0003 3764 0.9992 4 2.E6 2.66667E6 2.33333E6 0 0.0000 3764 0.9992 5 2.66667E6 3.33333E6 3.E6 0 0.0000 3764 0.9992 6 3.33333E6 4.E6 3.66667E6 0 0.0000 3764 0.9992 7 4.E6 4.66667E6 4.33333E6 0 0.0000 3764 0.9992 8 4.66667E6 5.33333E6 5.E6 1 0.0003 3765 0.9995 9 5.33333E6 6.E6 5.66667E6 1 0.0003 3766 0.9997 10 6.E6 6.66667E6 6.33333E6 0 0.0000 3766 0.9997 11 6.66667E6 7.33333E6 7.E6 0 0.0000 3766 0.9997 12 7.33333E6 8.E6 7.66667E6 1 0.0003 3767 1.0000above 8.E6 0 0.0000 3767 1.0000--------------------------------------------------------------------------------

Statgraphics utiliza clases de igual longitud.

¿Resultado en Statgraphics de aumentar el numero de clases?

¿Soluciones? Clases de longitudes diferentes, transformaciones, eliminar valores extremos,

etcetera.

Introduccion a la Estadıstica Andres M. Alonso

Page 28: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

28

Transformacion logarıtmica

Frequency Tabulation for LOG10(INNOVAPC)

-------------------------------------------------------------------------------- Lower Upper Relative Cumulative Cum. Rel.Class Limit Limit Midpoint Frequency Frequency Frequency Frequency-------------------------------------------------------------------------------- at or below 0.0 0 0.0000 0 0.0000 1 0.0 0.615385 0.307692 5 0.0013 5 0.0013 2 0.615385 1.23077 0.923077 21 0.0056 26 0.0069 3 1.23077 1.84615 1.53846 114 0.0303 140 0.0372 4 1.84615 2.46154 2.15385 372 0.0988 512 0.1359 5 2.46154 3.07692 2.76923 752 0.1996 1264 0.3355 6 3.07692 3.69231 3.38462 989 0.2625 2253 0.5981 7 3.69231 4.30769 4.0 988 0.2623 3241 0.8604 8 4.30769 4.92308 4.61538 369 0.0980 3610 0.9583 9 4.92308 5.53846 5.23077 136 0.0361 3746 0.9944 10 5.53846 6.15385 5.84615 18 0.0048 3764 0.9992 11 6.15385 6.76923 6.46154 2 0.0005 3766 0.9997 12 6.76923 7.38462 7.07692 1 0.0003 3767 1.0000 13 7.38462 8.0 7.69231 0 0.0000 3767 1.0000above 8.0 0 0.0000 3767 1.0000--------------------------------------------------------------------------------

B Mejor resumen de la distribucion (informacion) que la tabla de frecuenciasanterior.

Introduccion a la Estadıstica Andres M. Alonso

Page 29: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

29

Histogramas

Histograma: se construye representando sobre cada intervalo, Ci, un rectangu-lo con area proporcional a la frecuencia absoluta ni (o relativa fi). Cuando losintervalos tienen la misma longitud (opcion mas usual), la altura del rectanguloes proporcional a la frecuencia.

Histogram for LOG10(INNOVAPC)

LOG10(INNOVAPC)

perc

enta

ge

0 2 4 6 8

0

5

10

15

20

25

30

B Los histogramas pueden construirse utilizando las frecuencias absolutas,relativas, absolutas acumuladas y absolutas acumuladas relativas.

Introduccion a la Estadıstica Andres M. Alonso

Page 30: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

30

Ejemplo 11. Obtener el histograma de frecuencias absolutas acumuladasrelativas.

Histogram for LOG10(INNOVAPC)

LOG10(INNOVAPC)

perc

enta

ge

0 2 4 6 8

0

20

40

60

80

100

¿Cuantas empresas invierten en innovacion menos de 103 euros por empleado?

¿Cuantas empresas invierten en innovacion menos de 104 euros por empleado?

¿Cuantas empresas invierten en innovacion mas de 104 euros por empleado?

¿Cuantas empresas invierten entre 103–104 euros por empleado?

Introduccion a la Estadıstica Andres M. Alonso

Page 31: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

31

Histogramas - Comparacion de dos grupos

Ejemplo 12. La tabla siguiente resume las ganancias por hora de una muestrade 30 hombres y 25 mujeres, con estudios secundarios (o mas) y trabajandomas de 15 horas semanales en Espana.

H M

Intervalo ni fi ni fi

[300, 600) 1 0,033 0 0,00

[600, 900) 1 0,033 1 0,04

[900, 1200) 2 0,067 7 0,28

[1200, 1500) 5 0,167 10 0,40

[1500, 1800) 10 0,333 6 0,24

[1800, 2100) 8 0,267 1 0,04

[2100, 2400) 3 0,100 0 0,00

> 2400 0 0 0 0

30 1 25 1

Usamos dos histogramas con la misma escala para representar los datos.

Introduccion a la Estadıstica Andres M. Alonso

Page 32: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

32

Histograma de los sueldos horarios de hombres y mujeres

6 6

� -

0 0,1 ,1,2 ,2,3 ,3,4 ,4 ,5f f

300

600

900

1200

1500

1800

2100

2400

sueldohombres mujeres

Tomado de: Dolado, J. y V. LLorens (2004). Gender Wage Gaps by Education in Spain: Glass

Floors vs. Glass Ceilings, http://www.eco.uc3m.es/temp/dollorens2.pdf

Introduccion a la Estadıstica Andres M. Alonso

Page 33: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

33

Polıgono de frecuencias

Polıgono de frecuencias: Es basicamente una version suavizada delhistograma.

Ejemplo 13. Con los datos del ejemplo 11: Construir el polıgono de frecuen-cias relativas.

Introduccion a la Estadıstica Andres M. Alonso

Page 34: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

34

Polıgono de frecuencias

Ejemplo 13. Polıgono de frecuencias relativas:

Histogram for LOG10(INNOVAPC)

LOG10(INNOVAPC)

perc

enta

ge

0 2 4 6 8

0

5

10

15

20

25

30

B Los polıgonos de frecuencias pueden construirse utilizando las frecuenciasacumuladas.

Introduccion a la Estadıstica Andres M. Alonso

Page 35: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

35

Diagrama de tallo y hojas

Diagrama de tallo y hojas: Es similar a un histograma pero preserva losvalores numericos de los datos originales (hasta un numero prefijado de cifras).

1. Redondear los datos a dos o tres cifras significativas.

2. Colocarlos en una tabla con dos columnas separadas por una lınea verticalde la siguiente forma:

El tallo lo forman todas las cifras excepto la ultima, y se escriben en lacolumna de la izquierda.La hoja la forma la ultima cifra, y se escribe en la columna de la derecha.

3. Cada tallo define una clase y se escribe solo una vez. El numero de hojasrepresenta la frecuencia de la clase (la hoja).

Introduccion a la Estadıstica Andres M. Alonso

Page 36: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

36

Diagrama de tallo y hojas

Ejemplo 14. Se desea estudiar la distribucion de la nota final de la asignatura

Estadıstica. Archivo estudiantes.sf3

Stem-and-Leaf Display for TOTAL: unit = 1.0 1|2 represents 12.0

1 2|2 2 3|7 11 4|012336679 38 5|001123333455555677777888899 (68) 6|0000111111222223344444444445555555555666666666666777888888899... 93 7|0000011111112222222223333333334444444455555556666777777788888... 28 8|00011112223333444556677889 2 9|28

2040

6080

100

0 20 40 60 80

Introduccion a la Estadıstica Andres M. Alonso

Page 37: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

37

Tema 1. Analisis de datos univariantes

Representaciones y graficos. X

• Diagrama de caja.

Resumen numerico :

• Medidas de localizacion.• Sensibilidad de la media a datos atıpicos, versiones robustas.• Medidas de dispersion.• Coeficiente de variacion.• Otras medidas: Asimetrıa, curtosis y concentracion.

Transformacion de variables.

Introduccion a la Estadıstica Andres M. Alonso

Page 38: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

38

Descripcion numerica de una muestra de datoscuantitativos

Los graficos considerados anteriormente, nos proporciona una idea de lalocalizacion, la dispersion y la asimetrıa de la distribucion. Nos interesanvalores numericos que caractericen esas propiedades.

Medidas de localizacion o posicion

La medida mas utilizada es la media (aritmetica).

Definicion 3. Supongamos que tenemos una muestra x1, . . . , xn. Entonces,la media (muestral) es

xdef=

1n(x1 + . . . + xn)

=1n

n∑i=1

xi.

Introduccion a la Estadıstica Andres M. Alonso

Page 39: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

39

Medidas de localizacion - Media

Ejemplo 15. Con los datos del ejemplo 9 sobre la Encuesta de PresupuestosFamiliares. Calcular la media del numero de individuos en los hogares.

Summary Statistics for CAPITAS

Count = 75Average = 3.92Variance = 2.80432Standard deviation = 1.67461Minimum = 1.0Maximum = 9.0Range = 8.0Stnd. skewness = 0.771845Stnd. kurtosis = 0.0738145

x = 3,92 =175

(4 + 2 + 6 + 4 + 3 + · · ·+ 4 + 4 + 4 + 1 + 5)︸ ︷︷ ︸Valores de los 75 hogares

Introduccion a la Estadıstica Andres M. Alonso

Page 40: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

40

Medidas de localizacion - Media con datos agrupados

Supongamos que en el ejemplo anterior no disponemos de los datos originalespero disponemos de una tabla de frecuencias que agrupa los valores en lasclases C1, C2, . . . , Ck:

Frequency Tabulation for CAPITAS

-------------------------------------------------------------------------------- Lower Upper Relative Cumulative Cum. Rel.Class Limit Limit Midpoint Frequency Frequency Frequency Frequency-------------------------------------------------------------------------------- at or below 0.0 0 0.0000 0 0.0000 1 0.0 2.0 1.0 17 0.2267 17 0.2267 2 2.0 4.0 3.0 31 0.4133 48 0.6400 3 4.0 6.0 5.0 23 0.3067 71 0.9467 4 6.0 8.0 7.0 3 0.0400 74 0.9867 5 8.0 10.0 9.0 1 0.0133 75 1.0000above 10.0 0 0.0000 75 1.0000--------------------------------------------------------------------------------

x ≡∑k

i=1 xini

n=

∑k

i=1xifi

xi es la marca de clase de Ci

ni = #{j : xj ∈ Ci}

fi = ni/n

x = 175 (1× 17 + 3× 31 + 5× 23 + 7× 3 + 9× 1) = 3,4.

Introduccion a la Estadıstica Andres M. Alonso

Page 41: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

41

Medidas de localizacion - Media con datos agrupados

Otras tablas de frecuencias para los datos del ejemplo 15:

Frequency Tabulation for CAPITAS

-------------------------------------------------------------------------------- Lower Upper Relative Cumulative Cum. Rel.Class Limit Limit Midpoint Frequency Frequency Frequency Frequency-------------------------------------------------------------------------------- at or below 0.0 0 0.0000 0 0.0000 1 0.0 5.0 2.5 63 0.8400 63 0.8400 2 5.0 10.0 7.5 12 0.1600 75 1.0000above 10.0 0 0.0000 75 1.0000--------------------------------------------------------------------------------

Frequency Tabulation for CAPITAS

-------------------------------------------------------------------------------- Lower Upper Relative Cumulative Cum. Rel.Class Limit Limit Midpoint Frequency Frequency Frequency Frequency-------------------------------------------------------------------------------- at or below 0.0 0 0.0000 0 0.0000 1 0.0 10.0 5.0 75 1.0000 75 1.0000above 10.0 0 0.0000 75 1.0000--------------------------------------------------------------------------------

x = 175 (2,5× 63 + 7,5× 12) = 3,3. x = 1

75 (5× 75) = 5.

B Siempre que sea posible, es mejor trabajar con los datos originales.

Introduccion a la Estadıstica Andres M. Alonso

Page 42: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

42

Medidas de localizacion - Media con datos agrupados

Supongamos que observamos k valores distintos xi con frecuencias absolutasni para i = 1, . . . , k.

xi ni fi xi × fi

x1 n1 f1 = n1n x1 × f1

x2 n2 f2 = n2n x2 × f2

... ... ... ...

xk nk fk = nkn xk × fk

Total n 1 x

x =k∑

i=1

fixi =k∑

i=1

ni

nxi =

1n

k∑i=1

nixi.

Introduccion a la Estadıstica Andres M. Alonso

Page 43: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

43

Medidas de localizacion - Mediana

Definicion 4. La mediana es aquel valor que separa las observaciones de lamuestra, ordenadas estas de menor a mayor, en dos grupos con igual numerode elementos.

Ordenar la muestra

Supongamos primero que los datos no estan agrupados en clases, y queordenados de menor a mayor son:

x(1), x(2) . . . , x(n).

Entonces, la mediana es:

Mdef= x(n+1

2 ) si n es impar.

Mdef=

x(n2 ) + x(n

2+1)

2si n es par.

Introduccion a la Estadıstica Andres M. Alonso

Page 44: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

44

Medidas de localizacion - Mediana

Ejemplo 16. Con los datos del ejemplo 15 sobre la Encuesta de PresupuestosFamiliares. Calcular la mediana del numero de individuos en los hogares.

Summary Statistics for CAPITAS

Count = 75Average = 3.92Median = 4.0Mode = 4.0Variance = 2.80432Standard deviation = 1.67461Minimum = 1.0Maximum = 9.0Range = 8.0Stnd. skewness = 0.771845Stnd. kurtosis = 0.0738145

M = x(38) = 4,0

Introduccion a la Estadıstica Andres M. Alonso

Page 45: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

45

Medidas de localizacion - Mediana con datos agrupados

Ordenar las clases en la muestra

Si la variable es continua y los datos estan agrupados por clases se puederecurrir a una interpolacion, aunque esto requiere suponer que los datosestan uniformemente repartidos en cada intervalo.

Sea (li−1, li], el intervalo que cumple que por debajo de li estan la mitadde los datos, es decir, tal que Fi > 0,5 y Fi−1 < 0,5.

La mediana se define como:

Mdef= li−1 +

n/2−Ni−1

niai,

donde ai = li − li−1 es la longitud del intervalo mediana.

Introduccion a la Estadıstica Andres M. Alonso

Page 46: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

46

Supongamos que en el ejemplo 16 solo disponemos de una tabla de frecuenciasque agrupa los valores en las clases C1, C2, . . . , Ck:Frequency Tabulation for CAPITAS

-------------------------------------------------------------------------------- Lower Upper Relative Cumulative Cum. Rel.Class Limit Limit Midpoint Frequency Frequency Frequency Frequency-------------------------------------------------------------------------------- at or below 0.0 0 0.0000 0 0.0000 1 0.0 1.25 0.625 6 0.0800 6 0.0800 2 1.25 2.5 1.875 11 0.1467 17 0.2267 3 2.5 3.75 3.125 11 0.1467 28 0.3733 4 3.75 5.0 4.375 35 0.4667 63 0.8400 5 5.0 6.25 5.625 8 0.1067 71 0.9467 6 6.25 7.5 6.875 3 0.0400 74 0.9867 7 7.5 8.75 8.125 0 0.0000 74 0.9867 8 8.75 10.0 9.375 1 0.0133 75 1.0000above 10.0 0 0.0000 75 1.0000--------------------------------------------------------------------------------

La clase (l3, l4] = (3,75, 5,00] es el intervalo mediana.N3 = 28, n4 = 35 y a4 = 5,00− 3,75 = 1,25.

M = 3,75 + 75/2− 2835 × 1,25 ≈ 4,09.

Introduccion a la Estadıstica Andres M. Alonso

Page 47: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

47

Medidas de localizacion - Mediana con datos agrupados

Otras tablas de frecuencias para los datos del ejemplo 16:

Frequency Tabulation for CAPITAS

-------------------------------------------------------------------------------- Lower Upper Relative Cumulative Cum. Rel.Class Limit Limit Midpoint Frequency Frequency Frequency Frequency-------------------------------------------------------------------------------- at or below 0.0 0 0.0000 0 0.0000 1 0.0 5.0 2.5 63 0.8400 63 0.8400 2 5.0 10.0 7.5 12 0.1600 75 1.0000above 10.0 0 0.0000 75 1.0000--------------------------------------------------------------------------------

Frequency Tabulation for CAPITAS

-------------------------------------------------------------------------------- Lower Upper Relative Cumulative Cum. Rel.Class Limit Limit Midpoint Frequency Frequency Frequency Frequency-------------------------------------------------------------------------------- at or below 0.0 0 0.0000 0 0.0000 1 0.0 10.0 5.0 75 1.0000 75 1.0000above 10.0 0 0.0000 75 1.0000--------------------------------------------------------------------------------

M = 0 + 75/2−063 × 5 ≈ 2,98. M = 0 + 75/2−0

75 × 10 = 5.

B Siempre que sea posible, es mejor trabajar con los datos originales.

Introduccion a la Estadıstica Andres M. Alonso

Page 48: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

48

Medidas de localizacion - Moda

Definicion 5. La moda es el valor de la variable que mas veces se repite enla muestra y, en consecuencia, en una distribucion de frecuencias es el valor dela variable con maxima frecuencia.

Definicion 6. La clase modal es la clase (o intervalo) de la variable que masveces se repite en la muestra.

Ejemplo 17. Con los datos del ejemplo 9 sobre la Encuesta de PresupuestosFamiliares. Calcular la moda del numero de individuos en los hogares.

Summary Statistics for CAPITAS

Count = 75Average = 3.92Median = 4.0Mode = 4.0Variance = 2.80432Standard deviation = 1.67461Minimum = 1.0Maximum = 9.0Range = 8.0Stnd. skewness = 0.771845Stnd. kurtosis = 0.0738145

Barchart for CAPITAS

0

4

8

12

16

20

freq

uenc

y

1 2 3 4 5 6 7 9

Introduccion a la Estadıstica Andres M. Alonso

Page 49: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

49

Sensibilidad a datos atıpicos

Ejemplo 18. Con los datos del ejemplo 9 sobre la Encuesta de PresupuestosFamiliares. Supongamos que por un error involuntario en lugar de x75 = 5individuos, se registra x′75 = 50. ¿Como afecta el calculo de la media este datoatıpico?

Media: x = 175 (4 + 2 + · · ·+ 1 + 5) = 294

75 = 3,92

Media (con el dato atıpico): x = 175 (4 + 2 + · · ·+ 1 + 50) = 339

75 = 4,52

¿Y si x′75 = 500? Entonces, x = 78975 = 10,52.

I La media se ve afectada por la presencia de datos atıpicos y en tal caso noes una buena medida de la localizacion de la mayorıa de los datos.

I Las medidas que no son afectadas por la presencia de atıpicos se denominanmedidas robustas.

I La mediana es una medida robusta.

Introduccion a la Estadıstica Andres M. Alonso

Page 50: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

50

Sensibilidad a datos atıpicos

Ejemplo 19. Con los datos del ejemplo 9 sobre la Encuesta de PresupuestosFamiliares. Supongamos que por un error involuntario en lugar de x75 = 5individuos, se registra x′75 = 50. ¿Como afecta el calculo de la mediana estedato atıpico?

Si en la muestra original ordenada tenemos:

x(1) x(2) . . . x(38) . . . x(63) . . . x(74) x(75)

1 1 . . . 4 . . . 5 . . . 7 9

En la muestra ordenada (con el atıpico) tenemos:

x(1) x(2) . . . x(38) . . . x(63) . . . x(74) x(75)

1 1 . . . 4 . . . 5 . . . 9 50

I Por tanto, el dato x(38) es el mismo en ambos casos. La mediana no se veafectada.

I ¿Y si el dato atıpico fuese justamente el x42 = x(38)? Statgraphics

Introduccion a la Estadıstica Andres M. Alonso

Page 51: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

51

Otras medidas de localizacion

Definicion 7. La media geometrica de una muestra x1, x2, . . . , xn, se definecomo

mGdef= n

√√√√ n∏i=1

xi.

Puede no quedar determinada si algun xi < 0.

Vale cero siempre que algun xi = 0.

Se emplea frecuentemente para promediar porcentajes, tasas y numerosındices en los casos en que se supone que la variable presenta variaciones

acumulativas. Ejemplo: Interes medio de un perıodo

Introduccion a la Estadıstica Andres M. Alonso

Page 52: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

52

Otras medidas de localizacion

Definicion 8. La media ααα-recortada es la media de los datos que quedan aleliminar el α % de los datos menores y el α % de los datos mayores:

xαdef= (n(1− 2α))−1

dn(1−α)e∑i=dnαe+1

x(i).

Es una medida robusta a la presencia de atıpicos.

Summary Statistics for CAPITAS

Count = 75Average = 3.92Geometric mean = 3.49947Minimum = 1.0Maximum = 9.0

Ejercicio: Comprobar que si α = 1/75,entonces, xα ≈ 3,89.

Introduccion a la Estadıstica Andres M. Alonso

Page 53: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

53

Medidas de dispersion

Las medidas anteriores estan dirigidas a localizar el centro o tendenciacentral de la distribucion de la variable en estudio.

Queremos saber si estas medidas de tendencia central son representativasdel comportamiento de todos los elementos del conjunto en estudio (muestra

o poblacion). Agente, consumidor, empresa representativa

Si los valores estan cercanos al valor central definido por una medida delocalizacion, entonces diremos que este es representativo del conjunto.

A la mayor o menor separacion de los valores respecto a otro se le llamadispersion o variabilidad.

-10 -5 0 5 10-3

-2

-1

0

1

2

3

4

5

6

-2

-10

-1

-5

0

0

1

5

2

10

Introduccion a la Estadıstica Andres M. Alonso

Page 54: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

54

Medidas de dispersion

En primer lugar definiremos una medida de dispersion respecto a la media,x, para ello calculamos las desviaciones de los datos a su media:

x1 − x, x2 − x, . . . , xn − x.

Una medida de dispersion natural podrıa ser la media de esas desviaciones,pero:

1n

n∑i=1

(xi − x) =1n

n∑i=1

xi −1n

n∑i=1

x = x− 1nnx = 0.

Las desviaciones positivas se compensan con las negativas.

¿Nos interesa el signo para medir distancia a la media?

No, entonces, podemos considerar desviaciones absolutas, |xi − x|, odesviaciones al cuadrado, (xi − x)2.

Introduccion a la Estadıstica Andres M. Alonso

Page 55: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

55

Medidas de dispersion - Varianza y Desviacion tıpica

Definicion 9. Supongamos que tenemos una muestra x1, x2, . . . , xn con me-dia x, la varianza de la muestra es

s2 def=1n

n∑i=1

(xi − x)2

I La varianza es la media de las desviaciones al cuadrado de los datos en tornoa la media, x.

I La varianza se expresa en unidades al cuadrado. Por ejemplo, si las unidadesde los datos son metros entonces las unidades de la varianza son metroscuadrados.

Definicion 10. La desviacion tıpica es sdef=

√s2.

I La desviacion tıpica o estandar se expresa en las mismas unidades que losdatos.

Introduccion a la Estadıstica Andres M. Alonso

Page 56: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

56

Medidas de dispersion - Varianza y Desviacion tıpica

-10 -5 0 5 10-3

-2

-1

0

1

2

3

4

5

6

-2

-10

-1

-5

0

0

1

5

2

10

En ambas muestras, x = 0.

En la primera muestra, s2 = 15

((−10)2 + (−5)2 + 0 + 52 + 102

)= 50, y

s ≈ 7,07.

En la segunda muestra, s2 = 15

((−2)2 + (−1)2 + 0 + 12 + 22

)= 2, y

s ≈ 1,41.

Una propiedad util para el calculo de la varianza:

Proposicion 1. s2 = 1n

(∑ni=1 x2

i − nx2).

Introduccion a la Estadıstica Andres M. Alonso

Page 57: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

57

Medidas de dispersion - Varianza y Desviacion tıpica

Ejemplo 20. Con los datos de la Encuesta de Presupuestos Familiares delejemplo 9 obtenga las medias, varianzas y desviaciones tıpicas del ingreso percapita en los distintos tamanos de municipio.Summary Statistics

Standard Code Count Average Variance Deviation ---------------------------------------------------------------------------------------------------------------------------------------------------1 4 39898.2 1.98131E8 14075.9 2 9 52609.7 4.91204E8 22163.1 3 14 56664.8 6.42548E8 25348.5 4 48 71905.7 2.50399E9 50039.9 ---------------------------------------------------------------------------------------------------------------------------------------------------Total 75 65038.1 1.86119E9 43141.5

I La media de los ingresos per capita aumenta con el tamano del municipio(1: < 2000 habitantes; 2: 2000–10000 habitantes; 3: 10000–50000; 4: > 500000 habitantes).

I La dispersion de los ingresos per capita tambien aumenta con el tamano delmunicipio.

Introduccion a la Estadıstica Andres M. Alonso

Page 58: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

58

Varianza y Desviacion tıpica en datos agrupados

Supongamos que solo observamos k valores distintos, xi, con frecuenciasabsolutas ni.

xi ni fi xi × fi x2i × fi

x1 n1 f1 =n1n x1 × f1 x2

1 × f1

x2 n2 f2 =n2n x2 × f2 x2

2 × f2

... ... ... ... ...

xk nk fk =nkn xk × fk x2

k × fk

Total n 1 x∑k

i=1 fix2i

s2 =k∑

i=1

fix2i − x2 =

k∑i=1

fi(xi − x)2.

Recordad la Proposicion 1

Introduccion a la Estadıstica Andres M. Alonso

Page 59: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

59

Regla de Chebychev

Es una regla que pone un lımite sobre la dispersion de la mayorıa de los datosen torno de la media.

Teorema 1. Para cualquier conjunto de datos, la proporcion de datos quedistan menos de m desviaciones tıpicas de la media es como mınimo

1− 1m2

.

Porcentaje mınimo de datos segun la regla de Chebychev:

En el intervalo (x− 2s, x + 2s): 75.00 %.

En el intervalo (x− 3s, x + 3s): 88.89 %.

En el intervalo (x− 4s, x + 4s): 93.75 %.

Regla conservadora

Introduccion a la Estadıstica Andres M. Alonso

Page 60: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

60

Medidas de dispersion - Coeficiente de variacion

Para comparar la dispersion de variables que aparecen en unidades distintaso que toman valores de magnitudes muy diferentes es necesario disponer deuna medida de variabilidad que no dependa de las unidades o del tamanode los datos.

Por ejemplo, una variabilidad de 1000 euros no representa lo mismo siestamos considerando los ingresos de los hogares o si estamos considerandolos productos internos brutos de un grupo de paıses.

Definicion 11. Para una muestra de datos con media x y desviacion tıpicas, se define el coeficiente de variacion como CV = s

|x|.

I Si cambiamos la escala de medir la variable, el coeficiente de variacion nocambia. No obstante, si la media es igual a cero, el coeficiente de variacion noexiste.

Introduccion a la Estadıstica Andres M. Alonso

Page 61: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

61

Medidas de dispersion - Coeficiente de variacion

Ejemplo 21. Con los datos de la Encuesta de Presupuestos Familiares delejemplo 9 obtenga los coeficientes de variacion de los gastos por distintosconceptos. G1: Alimentacion, bebidas y tabaco; G2: Vestido y calzado; G4:Menaje; G6: Comunicaciones y transporte; G7: Esparcimiento y ensenanza.

G1 G2 G4 G6 G7 --------------------------------------------------------------------------------------------------------------------------------------------Count 75 75 75 75 75 Average 107631.0 19356.9 19879.9 20127.1 22102.5 Variance 2.90481E9 5.65668E8 6.50579E8 8.22367E8 1.16252E9 Standard deviation 53896.3 23783.8 25506.5 28676.9 34095.7 Coeff. of variation 50.075% 122.87% 128.303% 142.479% 154.262% --------------------------------------------------------------------------------------------------------------------------------------------

I La variabilidad es mayor en el gasto en alimentacion, bebidas y tabaco.

I Sin embargo, los datos de G1 estan mas concentrados alrededor de su valormedio que los datos del resto de las variables G2, G4, G6 y G7.

Introduccion a la Estadıstica Andres M. Alonso

Page 62: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

62

Otras medidas de dispersion - Rango

Definicion 12. Si tenemos una muestra ordenada x(1), x(2), . . . , x(n), en-tonces el rango o recorrido de los datos es la distancia entre el dato masgrande y el dato mas pequeno: R = x(n) − x(1).

-10 -5 0 5 10-3

-2

-1

0

1

2

3

4

5

6

-2

-10

-1

-5

0

0

1

5

2

10

En la primera muestra el rango es 20, y en la segunda es 4.

I El rango no informa de la representatividad de una medida de tendenciacentral.

I El rango es muy sensible a datos atıpicos.

Introduccion a la Estadıstica Andres M. Alonso

Page 63: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

63

Otras medidas de dispersion - Rango intercuartılico

Definicion 13. El primer cuartil, Q1, es la mediana de la primera mitad dela muestra. El tercer cuartil, Q3, es la mediana de la segunda mitad de lamuestra.

I La mediana es el segundo cuartil, Q2.

I Los cuartiles dividen la muestra en 4 partes.

Definicion 14. El rango intercuartılico es la diferencia entre el tercer yprimer cuartil: RI = Q3 −Q1.

-10 -5 0 5 10-3

-2

-1

0

1

2

3

4

5

6

-2

-10

-1

-5

0

0

1

5

2

10

Q2 = 0, Q1 = −5, Q3 = 5 y RI = 10.

I El rango intercuartılico no informa de la representatividad de una medidade tendencia central.

Introduccion a la Estadıstica Andres M. Alonso

Page 64: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

64

Cuartiles, Deciles y PercentilesDefinicion 15. El percentil de orden kkk, Pk, es el valor que deja por debajode sı el k % de las observaciones y por encima el (100− k) %.

Los deciles son los nueves valores que dividen la muestra en diez partesiguales: D1 = P10, D2 = P20, . . . , D9 = P90.Los cuartiles son los tres valores que dividen la muestra en cuatro partesiguales: Q1 = P25, Q2 = P50, y Q3 = P75.Los cuartiles, deciles y percentiles son, en general, medidas de localizacionno central.

Ejemplo 22. Con los datos del ejem-plo 9 (EPF). Obtenga los cuartiles delnumero de individuos por hogar.

Statgraphics

Percentiles for CAPITAS

1.0% = 1.05.0% = 1.010.0% = 2.025.0% = 3.050.0% = 4.075.0% = 5.090.0% = 6.095.0% = 7.099.0% = 9.0

Introduccion a la Estadıstica Andres M. Alonso

Page 65: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

65

Ejemplo 23. Con los datos de la Encuesta de Innovacion Tecnologica delejemplo 11:

1. Obtenga los cuartiles de la inversion en innovacion por empleado delas empresas innovadoras.

2. ¿Que porcentaje de empresas invierten en innovacion menos de 103

euros por empleado?3. ¿P(30)?

Quantile Plot for LOG10(INNOVAPC)

prop

ortio

n

0 1 2 3 4 5 6 7

0

0.2

0.4

0.6

0.8

1

Introduccion a la Estadıstica Andres M. Alonso

Page 66: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

66

Diagrama de caja

Diagrama de caja: es un grafico basado en los cuartiles que contiene infor-macion sobre la simetrıa de la distribucion y nos permite definir la idea de datoatıpico. Tiene los siguientes elementos:

La caja central es la region entre el primer y tercer cuartil.

Se anade a la caja una recta vertical para la mediana.

Una recta horizontal a la izquierda hasta el valor mas pequeno mayor queQ1 − 1,5RI.

Una recta horizontal a la derecha hasta el valor mas grande menor queQ3 + 1,5RI.

Los datos entre Q1 − 1,5RI y Q1 − 3RI o entre Q3 + 1,5RI y Q3 + 3RIse consideran datos atıpicos y son indicados en Statgraphics con uncuadrado.

Los datos mas pequenos que Q1 − 3RI o mayores que Q3 + 3RI seconsideran atıpicos extremos y son indicados con un cuadro y una cruz.

Introduccion a la Estadıstica Andres M. Alonso

Page 67: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

67

-3 -2 -1 0 1 2 3

1

2

3

Simétrica

Asimétrica a la derecha

Asimétrica a la izquierda

Introduccion a la Estadıstica Andres M. Alonso

Page 68: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

68

Diagrama de caja

Ejemplo 24. Con los datos de la Encuesta de Presupuestos Familiares delejemplo 9 obtenga el diagrama de caja del ingreso total de los hogares.

Box-and-Whisker Plot

ITOTAL

0 2 4 6 8(X 100000)

Asimetrica a la derecha y presenta un dato atıpico (no extremo).

Introduccion a la Estadıstica Andres M. Alonso

Page 69: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

69

Diagrama de caja

Ejemplo 25. Con los datos de la Encuesta de Innovacion Tecnologica delejemplo 11 obtenga el diagrama de caja de la inversion en innovacion porempleado de las empresas innovadoras.

Box-and-Whisker Plot

LOG10(INNOVAPC)

0 2 4 6 8

Distribucion simetrica

¿Existen datos atıpicos? ¿Y atıpicos extremos? ¿Como es la distribucion de la variable no

transformada?

Introduccion a la Estadıstica Andres M. Alonso

Page 70: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

70

Medidas de asimetrıa

Definicion 16. El coeficiente de asimetrıa es

CA =∑n

i=1 (xi − x)3

ns3.

Si la distribucion es simetrica respecto ala media, CA = 0.

Si las frecuencias mas altas se encuen-tran en el lado derecho de la media,CA < 0 (asimetrico a la izquierda).

Si las frecuencias mas altas se encuen-tran en el lado izquierdo de la media,CA > 0 (asimetrico a la derecha).

Simétrica; CA = 0

Asimétrica CA < 0a la izquierda

Asimétrica CA > 0a la derecha

Introduccion a la Estadıstica Andres M. Alonso

Page 71: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

71

Medidas de apuntamiento

Definicion 17. El coeficiente de apuntamiento o curtosis es

CAp =∑n

i=1 (xi − x)4

ns4

La distribucion normal tiene CAp = 3.

Si CAp > 3 se dice que la distribuciones leptocurtica, y es mas apuntada quela distribucion normal.

Si CAp < 3 se dice que la distribuciones platicurtica, y es menos apuntada quela distribucion normal.

V2

6,505,50

4,503,50

2,501,50

,50-,50-1,50-2,50

-3,50-4,50

-5,50-6,50

-7,50

300

200

100

0

Desv. típ. = 1,33

Media = -,01

N = 1000,00

Página 1

V3

1,00

,90

,80

,70

,60

,50

,40

,30

,20

,10

0,00

100

80

60

40

20

0

Desv. típ. = ,23

Media = ,50

N = 1000,00

Página 1

Introduccion a la Estadıstica Andres M. Alonso

Page 72: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

72

Medidas de concentracion

Las medidas de concentracion son indicadores de la equidistribucion de lavariable en estudio.

En variables economicas como la renta, los salarios, etcetera, desde unpunto de vista de la equidad economica no son informativas la media ola variabilidad sino cuan repartida esta, por ejemplo, la renta entre loscomponentes de la poblacion o muestra.

Ejemplo 26. Supongamos que observamos una muestra ordenada de rentas:x(1), x(2), . . . , x(n).

1. Diremos que hay concentracion maxima si x(1) = x(2) = . . . =x(n−1) = 0 y x(n) > 0.

2. Diremos que hay concentracion mınima o equidistribucion si x(1) =x(2) = . . . = x(n).

Introduccion a la Estadıstica Andres M. Alonso

Page 73: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

73

Medidas de concentracion

Supongamos que observamos k valores distintos xi (ordenados) con frecuenciasabsolutas ni y frecuencias relativas acumuladas Fi:

xi ni Fi xi × ni ui Ui = ui/uk

x1 n1 F1 x1n1 u1 = x1n1 U1 = u1/uk

x2 n2 F2 x2n2 u2 = u1 + x2n2 U2 = u2/uk

... ... ... ... ... ...

xk nk Fk = 1 xknk uk = uk−1 + xknk Uk = uk/uk = 1

xi×ni es la renta total recibi-da por los ni individuos delgrupo i

ui es la renta total recibida porlos Ni primeros individuos.

Fi es la proporcion de los Ni primerosindividuos respecto del total, N .

Ui es la proporcion de la renta totalrecibida por estos Ni respecto deltotal de renta, uk.

Introduccion a la Estadıstica Andres M. Alonso

Page 74: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

74

Medidas de concentracion - Indice de Gini

Definicion 18. El ındice de Gini es IG =∑k−1

i=1 (Fi−Ui)∑k−1i=1 Fi.

Excel

I IG = 1 entonces se tiene concentracion maxima.

I IG = 0 entonces se tiene concentracion mınima.

Introduccion a la Estadıstica Andres M. Alonso

Page 75: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

75

Tema 1. Analisis de datos univariantes

Representaciones y graficos. X

Resumen numerico. X

Transformacion de variables :

• Uso de transformaciones.• Transformaciones lineales y no lineales.• Media y varianza de una transformacion lineal.

Introduccion a la Estadıstica Andres M. Alonso

Page 76: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

76

Transformacion de variables

Recordemos el ejemplo 11 sobre la Encuesta de Innovacion Tecnologica:Box-and-Whisker Plot

0 2 4 6 8(X 1.E6)

INNOVAPC

Box-and-Whisker Plot

LOG10(INNOVAPC)

0 2 4 6 8

En ocasiones se transforma los datos originales para que la distribucionde la variable transformada tenga mejores propiedades o para simplificar elanalisis.

Es interesante saber como cambian las caracterısticas de la variable trans-formada.

En general, no existe una formula sencilla para hallar la media y la varianzade la variable transformada.

Introduccion a la Estadıstica Andres M. Alonso

Page 77: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

77

Transformaciones lineales

Supongamos que tenemos una muestra x1, x2, . . . , xn con media x y desviaciontıpica sx y que hacemos una transformacion lineal de los datos

yi = α + βxi para i = 1, . . . , n

Proposicion 2. La media, varianza y desviacion tıpica de la muestray1, y2, . . . , yn son

y = α + βx

s2y = β2s2

x

sy = βsx

Caso particular: Si zi =xi−xsx

, es decir, α = x/sx y β = −1/sx, entonces

z = 0z = 0z = 0 y sz = 1sz = 1sz = 1.

En tal caso se dice que z esta estandarizada.

Introduccion a la Estadıstica Andres M. Alonso

Page 78: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

78

Transformaciones no lineales

Box-and-Whisker Plot

0 2 4 6 8(X 1.E6)

INNOVAPC

Box-and-Whisker Plot

LOG10(INNOVAPC)

0 2 4 6 8

I Una transformacion lineal no modifica la asimetrıa de la distribucion de lavariables.

I Se puede usar una transformacion no lineal para convertir una variableasimetrica en una variable mucho mas simetrica.

I Las transformaciones no lineales mas utilizadas son: logaritmo, raız cuadrada,y en general potencias de distintos ordenes.

I En general, no existe una formula sencilla para hallar la media y la varianzade una variable transformada no linealmente.

Introduccion a la Estadıstica Andres M. Alonso

Page 79: Tema 1. An´alisis de datos univariantes - UC3Mhalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema1.pdf · • Pictogramas. • Histograma. • Diagrama de tallo y hojas. •

79

Tema 1. Analisis de datos univariantesRepresentaciones y graficos.Resumen numerico.Transformacion de variables.

Tema 2. Analisis de datos bivariantesRepresentaciones y graficos.Resumen numerico.• Relaciones entre variables.

Introduccion a la Estadıstica Andres M. Alonso