tema 1. estad´ıstica descriptiva pedro faraldo roca...

61
Estad´ ıstica y Metodolog´ ıa de la Investigaci´on. Curso 2012-2013 Grado en Enfermer´ ıa Tema 1. Estad´ ıstica descriptiva Pedro Faraldo Roca, Beatriz Pateiro L´ opez

Upload: others

Post on 28-Sep-2020

8 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Estadıstica y Metodologıa de la Investigacion. Curso 2012-2013

Grado en Enfermerıa

Tema 1. Estadıstica descriptiva

Pedro Faraldo Roca, Beatriz Pateiro Lopez

Page 2: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

1 IntroduccionConceptos generales

2 Tablas de frecuencias

3 Representaciones graficasVariables cualitativasVariables cuantitativas discretasVariables cuantitativas continuas

4 Medidas caracterısticasMedidas de posicion de tendencia centralMedidas de posicion de tendencia no centralMedidas de dispersion absolutasMedidas de dispersion relativaMedidas de formaRepresentacion de medidas: Diagramas de caja (Boxplot)

5 Recta de regresion

Page 3: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

IntroduccionConceptos generales

Ejemplo. Con objeto de hacer un estudio sobre la salud de los habitantes deuna ciudad con edades entre 18 y 60 anos, se recogen en un centro medico datossobre analisis realizados a 100 pacientes mayores de 18 anos y menores de 60 queaparentemente no presentan problemas de salud graves.

De los analisis realizados se obtienen: el sexo del paciente, el antıgeno del gruposanguıneo (A, B, AB o 0), el pH de la sangre y el acido urico, ademas de la edad.

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 4: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

IntroduccionConceptos generales

Poblacion

Colectivo de individuos sobre los que se quiere extraer alguna conclusion.

Individuo

Cada uno de los elementos de la poblacion (unidad estadıstica).

Muestra

Subconjunto (representativo) de la poblacion, que seleccionamos con el objetivode extraer informacion.

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 5: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

IntroduccionConceptos generales

En el ejemplo, la poblacion esta formada por los habitantes de la ciudad quetienen entre 18 y 60 anos. Cada uno de ellos es un individuo de la poblacion. Los100 pacientes sobre los que se recoge la informacion forman la muestra.

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 6: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

IntroduccionConceptos generales

Estadıstica descriptiva

Tecnicas para describir y analizar un grupo de datos, utilizando metodos numeri-cos y graficos, sin extraer conclusiones (inferencias) sobre la poblacion a la quepertenecen.

Estadıstica inferencial

Es la parte de la Estadıstica que trata las condiciones bajo las cuales las inferenciasextraıdas a partir de una muestra son validas.

Variable estadıstica

Cada una de las caracterısticas consideradas con el proposito de describir a cadaindividuo de la muestra.

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 7: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

IntroduccionConceptos generales

Tipo Clases Ejemplo

Cualitativa Nominal Sexo, raza, color de ojos,...Ordinal Grado de contaminacion, calificacion,...

Cuantitativa Discreta No de hermanos, no de materias, ...Continua Peso, altura, ...

Cuadro: Tipos de variables estadısticas.

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 8: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

IntroduccionConceptos generales

Clasificamos las variables del ejemplo de tema.

- El sexo y el antıgeno del grupo sanguıneo son variables estadısticas cualitativas(nominales).

- El pH en sangre y el acido urico son variables cuantitativas continuas y la edades cuantitativa discreta.

- La edad como puede presentar muchos valores (desde 18 a 60, si se mide enanos), por lo que para su tratamiento podrıan utilizarse tecnicas propias de lasvariables cuantitativas continuas.

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 9: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Tablas de frecuencias

Tablas de frecuencias

Las tablas de frecuencias se utilizan para representar la informacion contenida enuna muestra de tamano n extraida de una poblacion, (x1, . . . , xn).

Modalidades

Cada uno de los valores que puede tomar una variable (cualitativa o cuantitativadiscreta). Se denotan como: ci , i = 1, . . . , k. El numero de individuos de la muestraen cada modalidad ci se denota por ni .

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 10: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Tablas de frecuencias

Modalidad Frecuencia Frecuencia Fr. abs. Fr. rel.absoluta relativa acumulada acumulada

c1 n1 f1 N1 F1

c2 n2 f2 N2 F2

......

......

...ci ni fi Ni Fi

......

......

...ck nk fk Nk = n Fk = 1

TOTAL n 1

Cuadro: Ejemplo de tabla de frecuencias.

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 11: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Tablas de frecuencias

Frecuencia absoluta:para cada modalidad ci , la frecuencia absoluta es ni , i = 1, . . . , k.

Frecuencia relativa:para cada modalidad ci , la frecuencia relativa esfi = ni/n, i = 1, . . . , k.

Frecuencia absoluta acumulada:la frecuencia absoluta acumulada de una modalidad ci esNi =

∑i

j=1 nj = n1 + . . .+ ni , i = 1, . . . , k.

Frecuencia relativa acumulada:la frecuencia relativa acumulada de una modalidad ci esFi =

∑i

j=1 fj = f1 + . . .+ fi =Ni

n, i = 1, . . . , k.

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 12: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Tablas de frecuencias

Propiedades de las frecuencias

1. Las frecuencias absolutas: 0 ≤ ni ≤ n, i = 1, . . . , k.

2. Las frecuencias relativas: 0 ≤ fi ≤ 1, i = 1, . . . , k.

3. Las frecuencias absolutas acumuladas: Nk =∑k

j=1 nj = n1 + . . .+ nk = n.

4. Las frecuencias relativas acumuladas: Fk =∑k

j=1 fj = f1 + . . .+ fk = 1

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 13: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Tablas de frecuencias

Para un grupo de 21 pacientes de la muestra, se tienen los siguientes datos sobreel antıgeno del grupo sanguıneo.

Paciente 1 2 3 4 5 6 7 8 9 10 11Grupo AB 0 A B 0 0 B A B 0 B

Paciente 12 13 14 15 16 17 18 19 20 21Grupo A 0 0 A B B 0 0 0 AB

Para estos datos, podemos construir una tabla de frecuencias, calculando frecuenciasabsolutas y relativas, ası como las respectivas acumuladas. ¿Cual es la proporcion deindividuos con grupo A en la muestra? ¿Y con grupo A o B?

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 14: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Tablas de frecuencias

Intervalos de clase: para variables cuantitativas continuas, se agrupan los distintosvalores obtenidos en la muestra en intervalos. Cada intervalo representara una mo-dalidad en el caso de variables cuantitativas continuas.

1. Denotamos por e0 < e1 < . . . < ek los extremos de los k intervalos de clase.Ejemplo de intervalo: (ei−1, ei ).

2. Amplitud del intervalo: ai = ei − ei−1.

3. Marca de clase: ci =ei−1 + ei

2.

4. Algunas cuestiones sobre los intervalos de clase: ¿Cuantos intervalos podemosconstruir? ¿Siempre de la misma amplitud? ¿Donde empezamos?

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 15: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Representaciones graficas

Metodos graficos para variables cualitativas

- Diagrama de barras

- Diagrama de sectores

Metodos graficos para variables cuantitativas discretas

- Diagrama de barras

- Diagrama acumulativo de frecuencias

Metodos graficos para variables cuantitativas continuas

- Histograma

- Diagrama de tallo y hojas

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 16: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Representaciones graficasVariables cualitativas

Tuenti Facebook Twitter MySpace Otros

010

2030

4050

6070

Figura: Ejemplo de diagrama de barras.

- Eje horizontal: modalidades ci- Eje vertical: barras con altura ni o fi

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 17: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Representaciones graficasVariables cualitativas

Tuenti

Facebook

Twitter

MySpace

Otros

Figura: Ejemplo de diagrama de sectores.

- Se representa un cırculo- Sectores proporcionales a ni o fi

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 18: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Representaciones graficasVariables cuantitativas discretas

0 1 2 3 4 5

010

2030

−1 0 1 2 3 4 5 60

2040

6080

100

Nº de hijos

Figura: Diagrama de barras y diagrama acumulativo de frecuencias para el numero de hijosde una familia.

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 19: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Representaciones graficasVariables cuantitativas discretas

−1 0 1 2 3 4 5 6

020

4060

8010

0

Nº de hijos

Figura: Diagrama acumulativo defrecuencias para el numero de hijos deuna familia.

- Eje horizontal: modalidades ci- Se representan los puntos (ci ,Ni ) o

(ci ,Fi )- Se unen escalonadamente

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 20: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Representaciones graficasVariables cuantitativas continuas

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Figura: Ejemplo de histograma.

- Eje horizontal: intervalos de clase- Barras contiguas- Altura hi = ni/ai o hi = fi/ai

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 21: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Representaciones graficasVariables cuantitativas continuas

Figura: Ejemplo de diagrama de tallo yhojas.

- Tallo: seleccionamos cifras significativas- Hojas: se escribe la siguiente cifra

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 22: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Representaciones graficasVariables cuantitativas continuas

Para representar las observaciones de las variables del ejemplo debemos tener encuenta si son cualitativas o cuantitativas.

- El sexo y el antıgeno del grupo sanguıneo pueden representarse utilizando undiagrama de barras o un diagrama de sectores.

- Para el pH en sangre y el acido urico se puede utilizar un histograma o undiagrama de tallo y hojas.

- La edad, cuantitativa discreta, puede representarse con un diagrama de barrassi no toma muchos valores distintos.

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 23: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Medidas caracterısticasMedidas de posicion de tendencia central

Media aritmetica

x =x1 + . . .+ xn

n=

∑n

i=1 xi

n

Propiedades de la media:

1 Entre el mınimo y el maximo:

mın{x1, . . . , xn} ≤ x ≤ max{x1, . . . , xn}

2 Linealidad.

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 24: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Medidas caracterısticasMedidas de posicion de tendencia central

Mediana

Si los datos estan ordenados de menor a mayor, la mediana es el valor hasta el cualse encuentran el 50% de los casos.

- Si n es impar, la mediana sera el dato central.- Si n es par, entonces se tomara como mediana la media de los dos datos

centrales.

La mediana, a diferencia de la media, es una medida robusta ya que su valor se vepoco afectado por la presencia de datos atıpicos

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 25: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Medidas caracterısticasMedidas de posicion de tendencia central

Moda

Para variables discretas o cualitativas, la moda es el valor o valores que mas serepiten.

- La moda no tiene porque ser unica.- Si los datos se encuentran agrupados, se puede obtener el intervalo modal

como aquel que tiene una mayor frecuencia.

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 26: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Medidas caracterısticasMedidas de posicion de tendencia no central

Cuartiles: los cuartiles Q1, Q2 y Q3 dividen la muestra en cuatro partes iguales.

Deciles: d1, . . . , d9 dividen la muestra el 10 partes iguales (intervalos del10%).

Percentiles: p1, . . . , p99 dividen la muestra el 100 partes iguales (intervalos del1%)

Cuantiles: en general, para cualquier 0 < p < 1.

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 27: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Medidas caracterısticasMedidas de posicion de tendencia no central

De los datos de pH para 10 pacientes,

pH 7.29 7.36 7.40 7.41 7.347.36 7.36 7.40 7.46 7.43

obten medidas de centralizacion.

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 28: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Medidas caracterısticasMedidas de dispersion absolutas

Varianza y desviacion tıpica

s2 =(x1 − x)2 + . . .+ (xn − x)2

n=

1

n

n∑

i=1

(xi − x)2

s =

(x1 − x)2 + . . .+ (xn − x)2

n=

1

n

n∑

i=1

(xi − x)2

Propiedades de la varianza:

1 Valores no negativos

2 No linealidad

3 Otra forma de calcular:

s2 =1

n

n∑

i=1

x2i − x2

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 29: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Medidas caracterısticasMedidas de dispersion absolutas

Otras medidas de dispersion absolutas

Rango muestral: max{xi} − mın{xi}

Rango intercuartılico: Q3 − Q1

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 30: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Medidas caracterısticasMedidas de dispersion absolutas

De los datos de pH para 10 pacientes,

pH 7.29 7.36 7.40 7.41 7.347.36 7.36 7.40 7.46 7.43

obten medidas de dispersion.

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 31: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Medidas caracterısticasMedidas de dispersion relativa

Coeficiente de variacion

El coeficiente de variacion es una medida de dispersion relativa (no depende de lasunidades de los datos):

CV =s

x

Resulta adecuada para comparar variables o mediciones de una variable en distintosgrupos.

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 32: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Medidas caracterısticasMedidas de dispersion relativa

En un grupo de varones mayores de 65 anos, el acido urico medio es de 6.5mg/dly la varianza 9.2(mg2/dl2). Para un grupo de mujeres de esa edad, la media es de4.5mg/dl, con varianza 4.3 (mg2/dl2). ¿Cual de los grupos presenta una mayorvariacion?

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 33: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Medidas caracterısticasMedidas de dispersion relativa

Un matrimonio coincide en el estudio. Para el se registra una concentracion de acidourico de 7.2mg/dl, mientras que para ella es de 6.2mg/dl. ¿Cual de ellos presenta unvalor mas alto, dentro de su grupo?

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 34: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Medidas caracterısticasMedidas de dispersion relativa

Tipificacion de datos

Si tenemos una muestra x1, . . . , xn con media x y varianza s2, los datos tipificadosse construyen como:

zi =xi − x

s

La muestra resultante z1, . . . , zn tendra media 0 y varianza 1. La tipificacion dedatos permite comparar la posicion relativa de las observaciones dentro de cadagrupo.

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 35: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Medidas caracterısticasMedidas de dispersion relativa

En el grupo de los varones registrabamos una media de 6.5mg/dl con unadesviacion tıpica de 3.03mg/dl. ¿Entre que dos valores tenemos, al menos, el 75%de los individuos?

Desigualdad de Tchebychev

En el intervalo(x − ks, x + ks)

tenemos, al menos, el 100(1− 1/k2)% de los datos.

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 36: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Medidas caracterısticasMedidas de forma

Medidas de forma

- Referencia: campana de Gauss- Asimetrıa y curtosis

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 37: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Medidas caracterısticasMedidas de forma

Coeficiente de asimetrıa de Fisher

Toma valor 0 cuando la distribucion de los datos es simetrica con respecto a lamedia.

γF =1

s3(x1 − x)3 + . . .+ (xn − x)3

n=

1

s31

n

n∑

i=1

(xi − x)3.

- Valores positivos: asimetrıa positiva- Valores negativos: asimetrıa negativa

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 38: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Medidas caracterısticasMedidas de forma

Coeficiente de curtosis

El coeficiente de curtosis mide el grado de apuntamiento de la distribucion.

γC =1

s4(x1 − x)4 + . . .+ (xn − x)4

n=

1

s41

n

n∑

i=1

(xi − x)4

- Valores > 3: distribucion leptocurtica (apuntada)- Valores < 3: distribucion platicurtica (achatada)

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 39: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Medidas caracterısticasRepresentacion de medidas: Diagramas de caja (Boxplot)

El diagrama de caja se construye a partir de las siguientes medidas:

- El primer y el tercer cuartil, Q1 y Q3, que delimitan la caja central. La longitudde la caja viene dada por el RIC , que es una medida de dispersion absoluta.

- Los lımites inferior y superior se calculan como:

LI = max{mın{xi},Q1 − 1.5(Q3 − Q1)},

LS = mın{max{xi},Q3 + 1.5(Q3 − Q1)}.

- La mediana (Q2) se representa con una lınea horizontal en la caja central.

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 40: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Medidas caracterısticasRepresentacion de medidas: Diagramas de caja (Boxplot)

−2

−1

01

23

−2 −1 0 1 2 30.

00.

10.

20.

30.

40.

5

Figura: Ejemplo de diagrama de caja e histograma correspondiente.

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 41: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Recta de regresion

Ejemplo. Un grupo de cientıficos pretende estudiar el efecto de cierto antibioticosobre una especie de bacterias. Su objetivo final es describir el tiempo de super-vivencia de una colonia en funcion de la concentracion de antibiotico administrado(mg/l). Se probaron cinco concentraciones diferentes, midiendo despues el tiempo desupervivencia de las bacterias (min).

Concentracion Tiempo

7 1312 915 1018 825 6

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 42: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Recta de regresion

¿Como describimos los datos del ejemplo?

i) Una representacion grafica.

ii) Un analisis descriptivo de cada variable.

¿Como cumplimos el objetivo?

i) Estudiando la relacion entre las variables.

ii) Construyendo una recta de regresion.

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 43: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Recta de regresion

Las parejas de datos datos (xi , yi ) con i = 1, . . . , n, de las dos variables (X ,Y )(tambien llamada variable bidimensional), se pueden representar a partir de unanube de puntos o diagrama de dispersion.

10 15 20 25

67

89

1011

1213

Diagrama de dispersión

Concentración (mg/l)

Tie

mpo

(m

in)

¿Que podemos observar en el grafico?

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 44: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Recta de regresion

Para cada variable tenemos una muestra de n = 5 datos:

x =

∑n

i=1 xi

n=

7 + 12 + 15 + 18 + 25

5= 15.4 mg/l , y = 9.2 min

Tambien calculamos la varianza de cada una:

s2x =

∑n

i=1 x2i

n− x2 = 273.4− 15.42 = 36.24, s2y = 5.36

Las desviaciones tıpicas valen:

sx = 6.02 mg/l , sy = 2.32 min

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 45: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Recta de regresion

Covarianza

La covarianza entre dos variables Sxy es una medida que indica la variabilidadconjunta de X e Y y calcula como:

Sxy =1

n

n∑

i=1

(xi − x)(yi − y) =1

n

n∑

i=1

xiyi − x · y

En nuestro ejemplo:Sxy = −13.08 mg/l ·min

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 46: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Recta de regresion

−3 −2 −1 0 1 2 3

−8

−6

−4

−2

02

46

Relación directa

−3 −2 −1 0 1 2 3−

8−

6−

4−

20

24

6

Relación inversa

Figura: Ejemplo de diagramas de dispersion. Relaciones directa e inversa.

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 47: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Recta de regresion

Relacion entre variables y signo de la covarianza

a) Si la relacion entre las variables es directa, entonces Sxy > 0.

b) Si la relacion entre las variables es inversa, entonces Sxy < 0.

c) Si no hay relacion lineal entre las variables, entonces Sxy = 0.

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 48: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Recta de regresion

Coeficiente de correlacion lineal

A partir de una muestra de datos {(xi , yi )}ni=1, el coeficiente de correlacion lineal

se calcula como:

r =Sxy

sxsy,

donde Sxy es la covarianza muestral y sx , sy son las respectivas desviaciones tıpicasmuestrales.

- No tiene dimensiones- Toma valores en [−1, 1]- Si no existe relacion lineal entre las variables, r = 0

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 49: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Recta de regresion

En nuestro ejemplo:

r =−13.08

6.02 · 2.32= −0.94

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 50: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Recta de regresion

Recta de regresion

La recta de regresion de Y sobre X tendra la siguiente expresion:

y = a+ bx ,

donde a representa la ordenada en el origen o intercepto y b es la pendiente. Xse denomina variable explicativa o independiente e Y sera la variable respuesta, ovariable dependiente.

En nuestro ejemplo, vamos a buscar una formula que nos permita calcular eltiempo de supervivencia a partir de la concentracion de antibiotico:

Tiempo = a + b · Conc ⇔ y = a+ bx

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 51: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Recta de regresion

10 15 20 25

67

89

1011

1213

¿Recta?

Concentración (mg/l)

Tie

mpo

(m

in)

Figura: ¿Que recta escogerıas?

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 52: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Recta de regresion

10 15 20 25

67

89

1011

1213

¿Recta?

Concentración (mg/l)

Tie

mpo

(m

in)

10 15 20 256

78

910

1112

13

¿Recta?

Concentración (mg/l)

Tie

mpo

(m

in)

Figura: Recta ajustada.

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 53: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Recta de regresion

10 15 20 25

67

89

1011

1213

Residuos

Concentración (mg/l)

Tie

mpo

(m

in)

Figura: Recta ajustada y residuos.

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 54: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Recta de regresion

Idea

En la practica, a partir de los datos {(xi , yi )}ni=1 podremos calcular los valores de

a y b. El objetivo sera obtener los valores a y b que nos proporcionen los residuosmas pequenos.

Residuos

Los residuos son las diferencias entre los valores observados de la variable respuestayi y los valores que proporciona el ajuste yi = a + bxi y vienen dados por:

ei = yi − yi = yi − a − bxi , i = 1, . . . , n

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 55: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Recta de regresion

Metodo de Mınimos Cuadrados

Consiste en minimizar la suma de los cuadrados de los residuos, por lo que sebuscan los valores a y b que minimizan:

n∑

i=1

e2i =n

i=1

(yi − a− bxi )2

A partir del Metodo de Mınimos Cuadrados, se obtienen los valores para a y b:

b =Sxy

s2x, a = y − bx

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 56: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Recta de regresion

En nuestro ejemplo:

b =−13.08

36.24= −0.36, a = 9.2− 0.36 · 15.4 = 14.76

Entonces, la recta ajustada sera:

Tiempo = 14.76− 0.36 · Conc ⇔ y = 14.76− 0.36x

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 57: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Recta de regresion

Coeficiente de regresion

Se denomina coeficiente de regresion a la pendiente (parametro b) de la recta deregresion de Y sobre X .

a) Si b > 0, al aumentar los valores de X tambien aumentan los valores de Y .

b) Si b < 0, al aumentar X , los valores de Y disminuyen.

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 58: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Recta de regresion

¿Que podemos decir del ejemplo?

a) Covarianza: Sxy = −13.08 mg/l ·min. Tenemos una relacion inversa entrelas variables.

b) Correlacion lineal: r = −0.94. Existe una relacion lineal inversa.

c) La recta ajustada es:y = 14.76− 0.36x

d) Coeficiente de regresion: b = −0.36. Al aumentar la concentracion,disminuye el tiempo de supervivencia de las bacterias.

e) ¿Y el ajuste es bueno?

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 59: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Recta de regresion

Coeficiente de determinacion

Una medida para el ajuste del modelo es el coeficiente de determinacion (r 2) quemide la proporcion de variabilidad de Y que explica X a traves de la recta deregresion.

Es el cuadrado del coeficiente de correlacion.

Toma valores entre 0 y 1.

Valores cercanos a 1 indican un buen ajuste.

En nuestro ejemplo:r 2 = 0.88.

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 60: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Recta de regresion

¿Para que podemos utilizarlo?

Concentracion 7 12 15 18 25Tiempo 13 9 10 8 6

i) ¿Podemos pensar, a partir de los resultados anteriores, que el tiempo desupervivencia de las bacterias disminuye al aumentar la concentracion deantibiotico?

ii) Si repetimos el experimento con una concentracion de 20 mg/l,¿que prediccion podemos hacer sobre el tiempo de supervivencia?Respuesta: y = 14.76− 0.36 · 20 = 7.54 min

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva

Page 61: Tema 1. Estad´ıstica descriptiva Pedro Faraldo Roca ...eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MA… · Variable estad´ıstica Cada una de las caracter´ısticas

Recta de regresion

Recta de regresion de X sobre Y

La recta de regresion de X sobre Y se calcula como:

X = c + dY , d =Sxy

s2y, c = x − dy

- Si conocemos el valor de Y , para hacer predicciones sobre X utilizamos estarecta.

- La variabilidad explicada (r 2) es la misma para ambas rectas.- Pasa por el vector de medias (y , x).

Estadıstica y Metodologıa de la Investigacion. P. Faraldo, B. Pateiro Tema 1. Estadıstica descriptiva