ajuste de curvas

30
Ajuste de curvas Introducción Diagramas de dispersión Regresión lineal Correlación

Upload: hansel-omar-chavez-loera

Post on 23-Jun-2015

798 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Ajuste de curvas

Ajuste de curvas

Introducción

Diagramas de dispersión

Regresión lineal

Correlación

Page 2: Ajuste de curvas

Introducción

• Frecuentemente en la investigación estamos interesados en estudiar larelación entre dos variables como:

– Concentración de un fármaco inyectado a un animal y latidos del corazón

– Cantidad de fertilizantes y producción agrícola

– Dureza de los plásticos tratados con calor durante diferentes periodos de tiempo

• La naturaleza y grado de relación pueden ser analizadas por dos técnicas:Regresión y Correlación

Page 3: Ajuste de curvas

• El primer paso a realizar en el estudio de la relación entre dos variables es eldiagrama de dispersión

• La representación gráfica de este tipo de variables es en realidad semejante ala representación de puntos en el plano, usando unos ejes de coordenadas.

• Cada pareja de valores da lugar a un punto en el plano y el conjunto depuntos que se obtiene se denomina "diagrama de dispersión o nube depuntos".

Diagramas de dispersión

Page 4: Ajuste de curvas

Diagramas de dispersión

• Dadas dos variables X y Y tomadas sobre el mismo elemento de lapoblación, el diagrama de dispersión es simplemente un gráfico de dosdimensiones, donde en un eje (la abscisa) se grafica una variable(independiente), y en el otro eje (la ordenada) se grafica la otra variable(dependiente).

• Si las variables están correlacionadas, el gráfico mostraría algún nivel decorrelación (tendencia) entre las dos variables. Si no hay ningunacorrelación, el gráfico presentaría una figura sin forma, una nube depuntos dispersos en el gráfico.

Page 5: Ajuste de curvas

Diagramas de dispersión

• Si las variables están correlacionadas, el gráfico mostraría algún nivel detendencia entre las dos variables. Si los puntos muestran una tendencialineal positiva o negativa se le puede ajustar una línea recta que serviráentre otras cosas para predecir valores de Y correspondientes a valoresde X.

Relación lineal positiva Relación lineal negativa Relación exponencial

Relación parabólica No-relación

Page 6: Ajuste de curvas

• Ejemplo , estudiamos la talla, medida en cm y el peso, medido en kg de un grupo de 10 personas, podemos obtener los siguientes valores

Talla (cm) 160 165 168 170 171 175 175 180 180 182

Peso (kg) 55 58 58 61 67 62 66 74 79 83

Diagramas de dispersión

0

10

20

30

40

50

60

70

80

90

150 160 170 180 190

Pe

so (

Kg)

Talla (cm)

Talla y Peso de 10 personas

Page 7: Ajuste de curvas

Regresión Lineal

• Es útil para determinar la forma probable de la relación entre las variablescuando hay un fenómeno de causa o efecto. El objetivo principal es el depoder predecir o estimar el valor de una variable dependiente Ycorrespondiente al valor dado de la otra variable dependiente X

• El investigador decide cuales valores tomara la variable independiente,mientras que los valores de la variable dependiente están determinadospor la relación que existe

Page 8: Ajuste de curvas

Regresión lineal

• Estima la fuerza o bondad explicativa del modelo teóricoindependientemente de las características de las variables introducidas

• Predice el valor medio que puede asumir la variable Y dado un valor de X(regresión a la media) bajo un intervalo de confianza

• Estima el efecto neto de cada una de las variables intervinientes sobre lavariable dependiente (control sobre los demás efectos suponiendoindependencia entre las variables predictivas).

µY/X

= a + bX

• Esto significa que el valor medio de Y para un valor fijo de X es igual a a +bX. Las constantes a y b son la ordenada al origen y la pendienterespectivamente

Page 9: Ajuste de curvas

Regresión lineal::Suposiciones

1. Los valores de la variable independiente X son fijos, a X se le llamavariable no aleatoria

2. Por cada valor de X hay una subpoblación de valores de Y y cadasubpoblación de valores de Y debe estar normalmente distribuida.

3. Las varianzas de las subpoblaciones de Y deben de ser iguales.

4. Las medias de las subpoblaciones de Y están sobre una recta. (suposiciónde linealidad)

5. Los valores de Y son estadísticamente independientes; es decir, losvalores de Y correspondientes a un valor de X no dependen de losvalores de Y para otro de X.

Bajo estas suposiciones la relación que queremos estimar es: µY/X

= a + bX

Page 10: Ajuste de curvas

Regresión lineal

• En el caso de asumir una recta, se admite que existe una proporción entrela diferencia de dos valores X y la diferencia entre dos valores de Y. A esefactor de ajuste entre ambas series se le llama pendiente de la recta, y seasume que es constante a lo largo de toda la recta.

Page 11: Ajuste de curvas

Regresión lineal::Mínimos cuadrados

• Para el cálculo de la recta de regresión se aplica el método de mínimoscuadrados entre dos variables.

• Esta línea es la que hace mínima la suma de los cuadrados de las desviacionesde cada valor observado Y, es decir, es aquella recta en la que las diferenciaselevadas al cuadrado entre los valores calculados por la ecuación de la recta ylos valores reales de la serie, son las menores posibles.

Page 12: Ajuste de curvas

Regresión lineal::Mínimos Cuadrados

• La ecuación de regresión de la población se estima con la ecuación

Y = a + b X

donde: Y, a y b son estimadores de µY/X

, A y B respectivamente. Paraobtener los estimadores a y b utilizamos el método de MínimosCuadrados.

Ecuaciones para la recta de mínimos cuadrados

Page 13: Ajuste de curvas

Utilidad de la recta de regresión

• Mediante la recta de regresión podríamos obtener de manera aproximada el valor de la variable dependiente (y) de la que conociéramos la variable independiente (x), en una población semejante a aquella de la que se ha obtenido la muestra

• De manera más precisa, si conocemos la expresión de la recta de regresión, se pueden calcular valores para la variable y, conocidos los de x, como si se tratara de una función

Regresión lineal::Mínimos Cuadrados

Page 14: Ajuste de curvas

Ejercicio

• Se lleva a cabo un experimento paraestudiar el efecto de cierto fármacoen la disminución del ritmo cardiacoen adultos. La variable independientees la dosis del fármaco en mg, y lavariable dependiente es la diferenciaentre el ritmo más bajo registradodespués de la administración de ladroga y el ritmo antes de laadministración del fármaco (control).Los datos se muestran a continuación:

Dosis (mg) Reducción del ritmo cardiaco (Latidos/min)

X Y

0.50 10

0.75 8

1.00 12

1.25 12

1.50 14

1.75 12

2.00 16

2.25 18

2.50 17

2.75 20

3.00 18

3.25 20

3.50 21

Page 15: Ajuste de curvas

Ejercicio

• Como podemos observar los puntos siguen una relación lineal positiva,por lo tanto, se procede a determinar la recta de ajuste

0

5

10

15

20

25

0 0.5 1 1.5 2 2.5 3 3.5 4

Lati

do

s/m

in

Dosis

Y

Page 16: Ajuste de curvas

Ejercicio

X Y X2 XY

0.50 10 0.2500 5.0

0.75 8 0.5625 6.0

1.00 12 1.0000 12.0

1.25 12 1.5625 15.0

1.50 14 2.2500 21.0

1.75 12 3.0625 21.0

2.00 16 4.0000 32.0

2.25 18 5.0625 40.5

2.50 17 6.2500 42.5

2.75 20 7.5625 55.0

3.00 18 9.0000 54.0

3.25 20 10.5625 65.0

3.50 21 12.2500 73.5

=63.375 = 442.5

Page 17: Ajuste de curvas

• La covarianza SXY

, es una medida que nos habla de la variabilidad conjuntade dos variables numéricas (cuantitativas).

• Aunque la recta de mínimos cuadrados es la recta que mejor se ajusta alos puntos, todavía muchos de éstos se desvían de ella. La medidanumérica de tales desviaciones es el estimador isesgado de la varianza dela regresión de la población, se define como la covarianza.

• Sean (xi, yi ) pares de observaciones de dos características X y Y, y sean XYsus respectivas medias. La covarianza entre las dos variables se define por:

Covarianza

Page 18: Ajuste de curvas

Covarianza

• Si hay mayoría de puntos en el tercer y primer cuadrante, ocurrirá que SXY0, lo que se puede interpretar como que la variable Y tiende a aumentarcuando lo hace X; casi todos los puntos pertenecen a los cuadrantesprimero y tercero

• Si la mayoría de puntos están repartidos entre el segundo y cuartocuadrante entonces SXY0, es decir, las observaciones Y tienen tendencia adisminuir cuando las de X aumentan

Page 19: Ajuste de curvas

Covarianza

• Si los puntos se reparten con igual intensidad alrededor de (x, y), entoncesse tendrá que SXY = 0. Por lo tanto no hay relación lineal

Page 20: Ajuste de curvas

Covarianza

Pasos para calcular la covarianza de una serie de eventos

1. Se calcula Σ xiyi , esto es la sumatoria de los productos de lasvariables x y y; o sea: (x1 * y1) + (x2 * y2) + ... +(xn * yn )

2. Se define n, que el numero de eventos o el numero de pares de variables

3. Se calcula , que es el producto de las medias de ambas variables

4. Obtenidos todos los datos se sustituyen en la formula y se obtiene elresultado

Page 21: Ajuste de curvas

Correlación lineal

• La covarianza es una medida de la variabilidad común de dos variables(crecimiento de ambas al tiempo o crecimiento de una y decrecimiento dela otra), pero esta afectada por las unidades en las que cada variable semide.

• Así pues, es necesario definir una medida de la relación entre dosvariables, y que no esté afectada por los cambios de unidad de medida.Una forma de conseguir este objetivo es dividir la covarianza por elproducto de las desviaciones típicas de cada variable, ya que así seobtiene un coeficiente adimensional, r, que se denomina coeficiente decorrelación lineal de Pearson

Page 22: Ajuste de curvas

Correlación lineal

• La medida del grado de relación entre dos variables se llama coeficientede correlación, representado universalmente por r

• El Coeficiente de Correlación Lineal de Pearson es un índice estadísticoque permite medir la fuerza de la relación lineal entre dos variables. Suresultado es un valor que fluctúa entre –1 (correlación perfecta de sentidonegativo) y +1 (correlación perfecta de sentido positivo). Cuanto máscercanos al 0 sean los valores, indican una mayor debilidad de la relación oincluso ausencia de correlación entre las dos variables.

Page 23: Ajuste de curvas

Correlación lineal

• Si el coeficiente de correlación de Pearson (r) es cercano a 0, las dosvariables no tienen mucho que ver entre sí (no tienen casi ningunacovariación lineal). Si su valor es cercano a +/-1, esto significa que larelación entre las dos variables es lineal y está bien representada por unalínea.

Page 24: Ajuste de curvas

Correlación lineal

• Una vez observado que en una variable bidimensional existe una ciertadependencia entre las dos características o variables que la forman (nubede puntos y covarianza), podemos precisar el grado de dicha dependencia.

• Si los puntos de la nube estuvieran todos sobre la recta de regresión sediría que existe una dependencia funcional. De su estudio se encargan lasfunciones.

• Si los puntos no están todos sobre la recta de regresión se dice que entrelas variables hay una cierta correlación lineal. Este es el caso que nosocupa. Para cuantificar el grado de dicha correlación se usa el

Page 25: Ajuste de curvas

Coeficiente de determinación

• Una nube de puntos que se agrupa en torno a una recta imaginaria nosjustifica el estudio de la regresión lineal entre las variables. Normalmente,la variable explicativa no explica al 100% los resultados que se observan enla variable explicada.

• El único caso en el que una variable explica al 100% a la otra variable esaquel donde los puntos de la nube formen una recta. En ese caso, cadavalor de X nos da el valor exacto de Y. Pero ese no es el caso general.Vamos a cuantificar la calidad de la explicación de Y por X mediante elCOEFICIENTE DE DETERMINACIÓN.

Page 26: Ajuste de curvas

Coeficiente de determinación lineal

• Los datos de ambas variables tienen una varianza. No nos vamos ainteresar por la varianza de la X (independiente), pero sí por la de Y, porestar influenciada por la otra variable. La varianza de Y está generada, deuna parte, por los datos de X (es decir, por la varianza), y de otra parte porcausas desconocidas (a no ser que los datos formen una línea recta).

• El coeficiente de determinación va a ser el % de varianza de Y que sepuede explicar por X, y se le suele llamar CALIDAD DEL AJUSTE, porquevalora lo cerca que está la nube de puntos de la recta de regresión (odicho de otro modo, lo ajustada que está la nube de puntos a la recta deregresión).

.exp.var

2

.exp.var

2

22

licno

e

porXl

x

xyy s

s

ss

Page 27: Ajuste de curvas

Coeficiente de determinación lineal

Page 28: Ajuste de curvas

Coeficiente de determinación lineal

• El % de varianza de Y explicada por X es: que resulta ser

es decir, el coeficiente de correlación lineal r, elevado al cuadrado y multiplicadopor 100. Es por ello que al coeficiente de determinación se le llama R2, es decir

• Un ejemplo: si R2 = 86% para unas variables X e Y, podemos decir que la calidad delajuste es bastante alta, aunque no sabemos si la recta de regresión es creciente odecreciente. Otro ejemplo: si conocemos el coeficiente de correlación lineal, r = -0.77, entre dos variables X e Y, ya sabemos que la recta de regresión esdecreciente (por el signo negativo de r), y calculando R2 = r2 · 100 = 59.29%tenemos una calidad de ajuste media (no es muy pobre, pero tampoco se puedecalificar de buena).

1002

2

2

y

x

xy

s

s

s100

22

2

yx

xy

ss

s

10022

22

yx

xy

ss

sR

Page 29: Ajuste de curvas

Coeficiente de determinación lineal

Predicciones. Usos y abusos

• El primer objetivo de la regresión es poner de manifiesto una relaciónexistente entre dos variables estadísticas. Una vez se constata, por ejemplo,que hay una relación lineal entre dos variables y se calcula la recta deregresión apropiada, ésta se puede usar para obtener valores de la variableexplicada, a partir de valores de la variable explicativa.

• Por ejemplo, si se comprueba una buena correlación lineal entre las variablesX = “horas de estudio semanal” e Y = “nota del examen”, con una recta deregresión (de Y sobre X) igual a

y = 0.9 + 0.6 x

se puede plantear la siguiente pregunta: ¿Qué nota puede obtener (según losdatos) un alumno que estudia 10 horas semanales?

Page 30: Ajuste de curvas

Coeficiente de determinación lineal

• Y la respuesta es tan sencilla como calcular y, sustituyendo en la ecuación de larecta x = 10, resultando y = 6.9. El coeficiente de correlación (o el dedeterminación) lineal es el dato que, si es grande (próximo a 1 ó –1 si es la r, opróximo a 100% si es R2), nos indicará que la predicción obtenida es FIABLE, locual es lógico pues R2 indicaba la calidad del ajuste de la nube de puntos a larecta.

• Así pues, la FIABILIDAD de una predicción obtenida mediante la recta deregresión se puede medir con el coeficiente de determinación R2.

• En el momento de hacer predicciones hay que tener ciertas precauciones,pues es posible que se obtengan resultados absurdos. Según la recta deregresión anterior, un alumno que estudie 20 horas por semana (x = 20)tendría un resultado de 12.9 puntos en su examen, lo cual no tiene sentido sise evalúa sobre 10. La limitación de la predicción estriba en que sólo se puederealizar para valores de X que estén situados entre los valores de X de la tablade datos inicial.