ing. agrimensor eduardo sierra octubre de 2014...

1

Uso de la Regresión Geográficamente Ponderada (GWR) en el estudio del valor

de oferta de viviendas en la ciudad de Montevideo URUGUAY

Ing. Agrimensor Eduardo Sierra

octubre de 2014

[email protected]

RESUMEN

El presente trabajo es un estudio del valor de oferta de venta de viviendas en la ciudad

de Montevideo mediante la regresión geográficamente ponderada (GWR –

Geographically Weighted Regression).

Se ha elegido la GWR por ser un método poco difundido en relación con la regresión

clásica y la espacial, pretendiendo hacer un aporte en cuanto a sus potencialidades,

especialmente en el análisis de datos espaciales.

El uso del valor de oferta se fundamenta únicamente en las dificultades que se

presentan al momento de acceder a valores de venta efectivamente realizadas.

Los datos surgen de una única fuente de información en Internet, por su fácil acceso y

representatividad del universo de ofertas, con una presentación homogénea de la

información que facilita su procesamiento. Se seleccionaron originalmente 534 datos

durante los meses de agosto y setiembre de 2013, usando efectivamente en los

modelos finales 510 de ellos. Algunos aspectos del manejo de la base de datos se

realizó con el software Excel, mientras que para el análisis econométrico, espacial,

geoestadístico y representaciones gráficas gretl1.9.7, GWR4, Geoda095i, Vesper1.6,

ArcGIS10 y gvSIG_1.10.

INTRODUCCION

1 Los datos

Las ofertas corresponden a dos tipologías de viviendas sin anexos: propiedad común y

propiedad horizontal de dos unidades, en planta baja o en dos pisos.

La confiabilidad de los datos es limitada ya que el control de calidad en las

publicaciones es pobre. El número de ofertas en los meses considerados varió

2

aproximadamente de 2000 a 2300, por lo que la cantidad de datos usados es una

buena proporción del total, aunque heterogénea entre barrios. La incertidumbre en la

georeferenciación de las viviendas se estima en 150 metros.

La superficie del terreno no fue considerada por escasez de datos. En pocos casos, se

pudo consultar y usar información oficial de Catastro sobre superficie construida. El

resto de la información proviene de la web del Servicio de Información Geográfica de la

IMM (Intendencia Municipal de Montevideo), del Instituto Nacional de Estadísticas del

Ministerio de Economía y Finanzas y el resto es elaboración propia.

2 Sobre los métodos de regresión usados

Este trabajo no es una exposición de los fundamentos teóricos de los métodos usados

ya que existe abundante bibliografía de consulta, elaborada por expertos, limitándose a

alusiones teóricas mínimas.

2.1 La regresión clásica

Al decir de un economista1, los modelos econométricos son todos falsos, solo que

algunos son más útiles. Es por eso importante saber cuál es el más útil al momento de

su elección.

En valoración inmobiliaria es muy usada la regresión lineal múltiple a la que con el

desarrollo teórico de la estadística y las necesidades prácticas de investigación se le

han señalado diversas limitaciones en sus potencialidades y resultados.

Las limitaciones propias del método se potencian por las características de los datos

cuando estos son espaciales ya que el método requiere que sean independientes, a la

vez que supone que la relación funcional entre variable dependiente (valor de los

inmuebles) e independientes (superficie, categoría constructiva, servicios, etc.) es

constante en el espacio. Los efectos de dependencia o autocorrelación espacial 2 y la

variabilidad de la relación funcional (heterogeneidad) característica de los datos

1 Mencionado en S. Fotheringham et. al. párrafo 4.2.3 del libro citado en nº 5 de la Bibliografía 2 “En un sentido estricto, los conceptos de dependencia y autocorrelación espacial no son sinónimos, siendo la

autocorrelación espacial una expresión más débil de la dependencia espacial, relativa únicamente a los primeros

momentos de la distribución conjunta de una variable”. R. Moreno Serrano y E. Vayá Valcarce – Técnicas

econométricas para el tratamiento de datos espaciales: La econometría espacial – Ediciones Universidad de

Barcelona - 2000

3

espaciales, no puede ser corregida por la regresión clásica resultando estimaciones o

relaciones fijas que pueden distorsionar la validez de los resultados.

2.2 La regresión espacial

Para minimizar estas distorsiones, se han elaborado métodos como los modelos

autorregresivos espaciales, que controlan parcialmente los efectos negativos de la

dependencia y heterogeneidad espacial. No obstante, sigue condicionado al supuesto

de relaciones constantes (estacionariedad espacial) por lo que de no existir, también

pueden surgir estimaciones poco precisas.

2.3 La regresión geográficamente ponderada (GWR)

La GWR forma parte de los modelos espaciales pero se diferencia del resto por

modificar el cálculo de los coeficientes haciendo intervenir la ubicación espacial de los

datos (coordenadas) en su cálculo. Con este procedimiento, se obtienen coeficientes

locales (en cada punto) para cada variable independiente. De todos modos, tanto en la

aplicación de modelos de regresión espacial como GWR, corresponde partir de un

modelo clásico de regresión que luego puede ser mejorado por aquellos.

3 APLICACIÓN DEL MODELO DE REGRESION CLASICA

Un modelo clásico de regresión queda definido por la siguiente ecuación:

Y = b0 + b1 X1 + b2 X2 + … + bk Xk + e

4

Y es la varible independiente o explicada (valor de oferta en el caso), b i los coeficientes o regresores del modelo, X las k variables independientes o explicativas y e el término de error. Los coeficientes se calculan por mínimos cuadrados. Cada b i (i=1 a k) nos dice que, permaneciendo fijas las demás variables independientes, Y varía a una tasa b i para una variación unitaria de la variable Xi. Si bi es positivo, la variable Xi suma a la variable Y; si es negativo resta.

Luego de los ajustes necesarios se obtienen los siguientes resultados sobre 510 datos

con variable dependiente LN_Valor (logaritmo natural del valor (de oferta) 3:

Significancia estadística: tres asteriscos 1%; dos asteriscos 5%; un asterisco 10%.

El “R_cuadrado corregido” indica que las variables independientes explican un 78% de

la variación del valor de oferta.

3.1 Interpretación del modelo : suponiendo constantes las demás variables

independientes se espera que, en media: casas en Planta Baja se oferten 19% más

que en primer piso; con superficie construida menor a 300 mc 18.7% menos que con

3 No siendo este trabajo para usos prácticos de valoración (fiscal u otro), se eligió con cierta libertad un modelo con la mayor cantidad posible de variables que sean de interés aunque no fuera el de mejor ajuste o predicciones. De todos modos, quedaron fuera del modelo variable con significancia mayor a 10% relacionadas con el transporte urbano, espacios libres y supermercados.

5

más de 300 mc; cambio de una categoría a otra - 36%; con estado de conservación

mejor que regular +11.8% que estados de conservación peores; con más de 2 baños

+22.9%; con 3, 4 o 5 dormitorios +17.8% que con 1, 2 o más de 5; con estufa +11.1%;

por cada piso adicional la oferta sube 6%; con barbacoa, garaje, parrillero o piscina,

+10%, +21.3%, +9.7% y +20.7% respectivamente; con más de 15 centros de

enseñanza a menos de 1000 metros +12.5%; con shopping a menos de 500 metros

+23.7%; si la oferta es por inmobiliaria se incrementa 5.2%; si se duplica la distancia a

la playa el valor de oferta cae 13%.

3.2 Test de ajustes del modelo

El modelo no tiene problemas de heterocedasticidad, normalidad en residuos ni

especificación y no presenta problemas de colinealidad (máximo VIF = 2.807).

3.3 Principales diagnósticos gráficos

6

3.4 Poder de predicción del modelo

Se tomaron 20 muestras aleatorias de 20 datos cada una, entre los 510 usados en el

modelo. Se calcularon los valores

predichos por las 20 aleatorias y las

diferencias en porciento entre

predicciones y datos para cada

aleatoria, obteniendo los resultados

de la Tabla 1. 4 La media de las

medias de las diferencias

porcentuales dato-predicción es 11%;

de las medianas 9%, de las

diferencias menores 1% y de las

diferencias mayores 32%. Si para

evaluar el desempeño del modelo se

4 La diferencia media entre los 20 datos (ofertas) de la primer muestra aleatoria (Aleatoria 1) y los valores

calculados por el modelo (predicciones) es de 12.78%; la mediana de esas diferencias 8.22%; la diferencia mínima

entre dato y predicción 2.69% y la máxima 57.19%. Similar interpretación para las demás muestras aleatorias.

7

considera la mediana de los “ratio study” 5 de los 510 pronósticos del modelo original

como recomienda la IAAO (International Association of Assessing Officers), se obtiene

un valor de 1.0052, indicativo de que el modelo es aceptable (se sugieren valores entre

0.9 y 1.1).

4 APLICACIÓN DEL MODELO DE REGRESION ESPACIAL

A los efectos de detectar problemas de autocorrelación en el modelo obtenido, se corre

una regresión con las mismas variable y matriz de distancias para 2256 metros.

4.1 Diagnósticos para la regresión espacial

El modelo no presentara problemas de multicolinealidad (número de condición > 30),

falta de normalidad de los residuos (p=0.34 > 0.05) ni heterocedasticidad (p=0.08 y

p=0.12 ambos >0.05). El test LM_error robusto (p=0.0000000 < 0.05) indica mayor

problema de autocorrelación en los residuos que en la variable dependiente (p =

0.0580643 > 0.05 para el LM_lag Robusto). Se corre un modelo LM_error.

4.2 Resultados del modelo LM_error

El criterio de información de Akaike en la regresión clásica (322.57) baja a 221.8

indicando mejora del modelo; igual con el criterio de Schwarz que cae de 394.56 a

293.79.

5 Ratio Study: cociente entre valor pronosticado por el modelo y valor observado.

8

Breusch-Pagan aumenta de 0.08 a 0.18 y el índice I de Moran desciende a –0.0008.

Los coeficientes de algunas variables tienen diferencias con los de la regresión clásica

y ya no son significativas las variables “ENS1000_15” ni “AGENTE”. El coeficiente

LAMDA de retardo espacial que mide el efecto medio de los errores de los vecinos es muy

significativo (p=0.0000).

5 EL MODELO DE REGRESION GEOGRAFICAMENTE PONDERADA

Con la inclusión de las coordenadas de cada punto en el cálculo de los coeficientes de

la regresión, el modelo GWR en forma matricial se formula como sigue:

y i = X i β ( v i , µ i ) i = 1, 2, 3, …, n

v i y µ i son las coordenadas en el punto i y la estimación de los coeficientes se

realiza como se indica:

βi (calculado) = (X T W i X ) -1 X T W i y

W i es una matriz diagonal de pesos para cada observación i ; y es el vector de

valores de la variable independiente Y. Cada ecuación en y i mide las relaciones

9

particulares de cada variable independiente con la variable dependiente en el punto de

coordenadas ( v i , µ i ). Cada dato se pondera dándole peso mediante una función

kernel de distancias atribuyendo mayor peso en el cálculo de coeficientes a los puntos

o datos más próximos.

El modelo GWR se realizó con las siguientes especificaciones: a - testeo de

variabilidad geográfica de todos los coeficientes de la regresión 6, b - kernel adaptativo

bi-cuadrado 7, c - modo “Interval search” para la determinación del ancho de banda 8 y

d - criterio Akaike (AIC) para comparación de modelos. El ancho de banda

seleccionado fue de 200 con el siguiente diagnóstico del modelo:

Los valores de la Tabla 6a indican mejoría del modelo GWR respecto a los dos

anteriores (menor AIC).

El resultado del test de variabilidad espacial de los coeficientes se muestra en la Tabla

6b. El valor DIFF indica si la variable es estadísticamente constante en el espacio. Se

sugiere un DIFF menor a -2 por lo que resultan nueve coeficientes con variabilidad

espacial significativa.

6 El software compara el modelo de regresión clásica con el modelo GWR considerando las variables no

especificadas como constantes. Si el modelo GWR es mejor que el clásico en base al criterio de comparación

especificado (por ejemplo de Akaike), la variable testeada tiene coeficiente con variación espacial estadísticamente

significativa. 7 Se especifica de la siguiente manera: wi,j = [1 – di,j / b ]

2 para di,j <= b; wi,j = 0 para di,j > b. wi,j es el peso

atribuido al punto i respecto de los vecinos j, di,j es la distancia entre i y j , b es un parámetro a determinar (el

ancho de banda) que define el radio de búsqueda de los puntos a incluir.

8 Requiere el ingreso de un valor mínimo y máximo de búsqueda con indicación de un intervalo. En el caso, se

ingresaron los valores 100, 400 y 50 respectivamente, resultando 200 como ancho de banda óptimo.

10

Se muestra parte del archivo de salida de los pronósticos. 9 10

El valor del índice I de Moran para los residuos fue de 0.018268. Las predicciones de

los coeficientes locales de las variables, sus estadísticos t y el coeficiente de

determinación R2 local, permiten mapear la variabilidad espacial de cada uno de ellos y

hacer interpolaciones para el cálculo en puntos sin datos.

6 Comparación de modelos

6.1 Resultados estadísticos

6.2 Predicciones de los modelos

6.2.1

Igual que en el apartado 3.4, se calcularon las diferencias porcentuales entre valor

ofertado y predicho para una muestra aleatoria en los tres modelos. Salvo el mínimo y

la mediana ratios, los resultados favorecen al modelo GWR.

9 Se han resaltado las columnas correspondientes al valor estimado (est_), error típico (se_) y estadístico t-student

del coeficiente “Intercepto” para las regresiones locales (puntos) de 0 a 8. 10

La información de este archivo es el centro del potencial del método para el estudio de la información en un

grado de detalle muy importante como se verá enseguida.

11

6.2.2 La mediana de ratios sugerida por la IAAO (International Association of Assessing

Officers) para los pronósticos, respecto de los 510 datos de la muestra completa

también da mejor resultado en la GWR (valor sugerido por IAAO entre 0.9 y 1.1).

6.2.3 Los coeficientes de las variables independien tes

En la Tabla 11, se muestran las predicciones para los coeficientes por variable según

cada modelo. De la GWR se muestra la diferencia porcentual (rango) entre el mínimo y

máximo coeficiente local en cada variable y la mediana de los valores. Para los

modelos de regresión clásico y espacial, se muestran los coeficientes constantes de

cada variable, propios de ambos modelos.

Si se compara la mediana de los coeficientes locales de la GWR (3ª y 8ª columnas) con

los coeficientes de la regresión clásica y espacial, no se ven grandes diferencias; pero

lo importante son los rangos de variación de los coeficientes en la GWR, que es donde

se muestra la capacidad del modelo para captar la heterogeneidad espacial.

12

7 Análisis espacial de los resultados del modelo GWR

7.1 Variabilidad espacial de los coeficientes

de determinación R2 locales

En el gráfico 5 se muestran 4 rangos de

variación de los coeficientes R2 locales con un

mínimo en R2 = 71 y máximo en R2 = 92.

El gráfico 6, responde a la interpolación kriging

de los R2 locales y permite un análisis más

detallado del poder de explicación en cada punto

de la zona de estudio en Montevideo.

13

7.2 Influencia de la distancia a la playa en el val or de oferta de las viviendas

Las variables “valor” y “distancia a la playa” están expresadas en logaritmo (LN_Valor;

LNDplaya), por tanto los coeficientes locales indican la elasticidad del valor de oferta

respecto a la distancia.

Los coeficientes, expresan en porcentajes la variación local del valor de oferta cuando

la vivienda duplica su distancia a la playa. Esto quiere decir que si una vivienda se

ubica a 100 metros de la playa, la variación de su valor caerá menos si duplica la

distancia a 200 m, que lo que lo que lo haría si, encontrándose a 1500 m estuviera a

3000 m. O lo que es lo mismo, que para un mismo alejamiento porcentual de la playa,

la caída del valor es mayor cuanto más lejos de la playa se encuentre la vivienda.

14

En el gráfico 7, se han indicado dos curvas que contienen valores en un mismo rango

de elasticidad y una recta indicativa de un tercer rango, coincidiendo aproximadamente

con la Avenida 8 de Octubre – Camino Maldonado, vía de salida de Montevideo hacia

el Noreste.

Este análisis (u otros similares), pueden hacerse a distintas escalas como en micro

zonas con algún interés especial.

En la micro zona que se ilustra en el gráfico 8, correspondiente al extremo Este de la

costa de Montevideo, se reproduce en líneas generales el esquema de escala macro:

mayor distancia a la playa implica mayor elasticidad en el valor de oferta.11

7.3 Significancia de los coeficientes locales 12

Conjuntamente con el estudio de los valores de los coeficientes, se recomienda

estudiar su significancia estadística. El gráfico 9, presenta los resultados de la

interpolación del estadístico t de cada coeficiente local para la variable LNDplaya. En el

recuadro de la derecha, se ha indicado la zona en la cual los coeficientes locales de la

variable pueden ser aceptados a un nivel de confianza de 95%. Esto significa que en

un estudio en que se requiera dicho nivel de significancia estadística para la variable,

sólo deberían usarse los pronósticos locales en la zona indicada en el cuadro rojo (ver

nota 13)

11 Los rangos de valores fueron elegidos buscando que el número de viviendas en cada uno, fuera aproximadamente igual. Eso motiva que el rango de 6% a 12% sea muy superior al resto. 12 La interpretación de la significancia de los parámetros en la GWR es un tema de discusión. Véase entre otros el artículo “Geographically Weighted Regression. White Paper” – Martin Charlton, Stewart Fotheringham – 2009.

15

7.4 Influencia de la distancia a los centros de est udio en el valor de oferta

Esta es una variable dicotómica (Ens1000_15): valor 1 si existen más de 15 centros en

un radio de 1000 metros y cero si existen menos, por lo que el coeficiente indica el plus

valor (en porcentaje) de las viviendas con más de 15 centros de estudio en dicho radio,

respecto de las que tienen menos centros de estudio. En gráfico 10, parece existir una

tendencia general de aumento de la influencia sobre el valor de oferta, de este a oeste,

de barrios de nivel socio económico alto y medio alto, hacia barrios de nivel socio

económico medio y bajo13. Aparecen dos clúster de círculos amarillos en el centro y en

el extremo Sur de la ciudad. Este último, se ubica en el barrio Punta Carretas, también

de nivel socio económico alto, mostrando coherencia con los valores del extremo este

13 Este resultado se ha encontrado por otros investigadores en trabajos similares y se explica básicamente por la menor dependencia que tienen los estratos socio-económicos medios y altos respecto de la distancia a centros de educación ( y otros).

16

de la costa. El clúster central seguramente se conforma asociado a alguna variable

omitida en el modelo.

La distribución espacial de los centros de enseñanza considerados (gráfico de la

derecha), se encuentran distribuidos homogéneamente en el espacio urbano, por lo

que no parecen condicionar los valores de oferta.

En el gráfico 11 se muestra la interpolación kriging de los coeficientes locales de la

variable, llamando la atención la variación en franjas sur/norte. En el gráfico 12, se

esquematiza la variación dominante en la dirección Este – Oeste. Se confirma el

crecimiento de la influencia desde los barrios de características socio económicas

media-alta hacia los de características socio económicas bajas.

7.5 Influencia de la cercanía a Shopping Center 14

La hipótesis de partida afirma que la cercanía a los shopping center actúa como factor

al alza del precio. En el caso (gráfico 13) se han considerado viviendas a menos de

1500m. del shopping (triángulo blanco en el centro del círculo) a los efectos de tener un

número suficiente de datos para el estudio.

En el shopping Nuevo Centro, la hipótesis parece confirmarse, especialmente en las

viviendas situadas al norte, mientras que al sur, aparece una influencia constante sobre

el valor.

En el shopping Montevideo, la hipótesis también se confirma de manera general.

14 Se ha excluido el shopping Tres Cruces, debido a que en él, también funciona la terminal de ómnibus de Montevideo, que seguramente combina su influencia con la del shopping en los valores de las viviendas.

17

Los shopping Portones y Punta Carretas tienen ubicación en zonas de definido nivel

socio económico medio/alto, lo cual puede ser razón de la poca influencia del centro

comercial (disponibilidad de locomoción propia, personal de servicio, definida

preferencias por productos o comercios de otros shoppings, etc.).

Debe tenerse en cuenta, que estos análisis son dependientes de la escala considerada,

Por ejemplo, el análisis del efecto “cercanía a shopping” en buffers de distintos

tamaños (o el de cualquier otra variable), probablemente muestre relaciones distintas a

las que sugiere el Gráfico 13, precisamente por efecto de la heterogeneidad de las

relaciones espaciales. Esto, al contrario de ser una limitación, es un potencial del

método, pues amplía las posibilidades de análisis en función de las necesidades de

estudio.

8 COMENTARIOS FINALES

8.1 Como se ha visto, los modelos de regresión locales GWR son una poderosa

herramienta de análisis de datos espaciales, potenciados con el uso de los SIG.

8.2 La obtención de los coeficientes locales, es el argumento fundamental para

relativizar los efectos de la heterogeneidad presente en los datos espaciales,

permitiendo resultados en general superiores a los modelos de regresión clásica o

espacial.

8.3 Los resultados obtenidos para las distintas variables en las zonas mapeadas,

deben ser tomados con prudencia debido a la limitada información y relativa calidad de

18

la misma. Igual comentario para el modelo general por los criterios usados en su

elección, ya explicitados al comienzo (Nota 3).

9 BIBLIOGRAFIA

1 GEOGRAPHICALLY WEIGHTED REGRESSION. Martin Charlton, Stewart Fotheringham, Chris Brunsdon. ESRC National Centre for Research Methods. 2 Regressão geográficamente ponderada (GWR): anál ise de fenômenos com heterogeneidade espacial. Marcos Wellausen Dias de Freitas. MINISTERIO DA CIENCIA E TECNOLOGIA. INSTITUTO NACIONAL DE PESQUISAS ESPACIAIS (INPE) 3 GEOGRAPHICALLY WEIGHTED REGRESSION WHITE PAPER. MARTIN CHARLTON, STEWART FOTHERINGHAM. National Centre for Geocomputation National University of Ireland Maynooth Maynooth, Co Kildare, IRELAND 4 Mapping the Results of Geographically Weighted Regression . Jeremy Mennis. 5 GEOGRAPHICALLY WEIGHTED REGRESSION The analysi s of spatially variying relationships. Martin Charlton, Stewart Fotheringham, Chris Brunsdon 6 QUALITATIVE GEOGRAPHY. Perspectives on Spatial Data Analysis. Martin Charlton, Stewart Fotheringham, Chris Brunsdon

ing. agrimensor eduardo sierra octubre de 2014...

Documents