ing. agrimensor eduardo sierra octubre de 2014...
TRANSCRIPT
1
Uso de la Regresión Geográficamente Ponderada (GWR) en el estudio del valor
de oferta de viviendas en la ciudad de Montevideo URUGUAY
Ing. Agrimensor Eduardo Sierra
octubre de 2014
RESUMEN
El presente trabajo es un estudio del valor de oferta de venta de viviendas en la ciudad
de Montevideo mediante la regresión geográficamente ponderada (GWR –
Geographically Weighted Regression).
Se ha elegido la GWR por ser un método poco difundido en relación con la regresión
clásica y la espacial, pretendiendo hacer un aporte en cuanto a sus potencialidades,
especialmente en el análisis de datos espaciales.
El uso del valor de oferta se fundamenta únicamente en las dificultades que se
presentan al momento de acceder a valores de venta efectivamente realizadas.
Los datos surgen de una única fuente de información en Internet, por su fácil acceso y
representatividad del universo de ofertas, con una presentación homogénea de la
información que facilita su procesamiento. Se seleccionaron originalmente 534 datos
durante los meses de agosto y setiembre de 2013, usando efectivamente en los
modelos finales 510 de ellos. Algunos aspectos del manejo de la base de datos se
realizó con el software Excel, mientras que para el análisis econométrico, espacial,
geoestadístico y representaciones gráficas gretl1.9.7, GWR4, Geoda095i, Vesper1.6,
ArcGIS10 y gvSIG_1.10.
INTRODUCCION
1 Los datos
Las ofertas corresponden a dos tipologías de viviendas sin anexos: propiedad común y
propiedad horizontal de dos unidades, en planta baja o en dos pisos.
La confiabilidad de los datos es limitada ya que el control de calidad en las
publicaciones es pobre. El número de ofertas en los meses considerados varió
2
aproximadamente de 2000 a 2300, por lo que la cantidad de datos usados es una
buena proporción del total, aunque heterogénea entre barrios. La incertidumbre en la
georeferenciación de las viviendas se estima en 150 metros.
La superficie del terreno no fue considerada por escasez de datos. En pocos casos, se
pudo consultar y usar información oficial de Catastro sobre superficie construida. El
resto de la información proviene de la web del Servicio de Información Geográfica de la
IMM (Intendencia Municipal de Montevideo), del Instituto Nacional de Estadísticas del
Ministerio de Economía y Finanzas y el resto es elaboración propia.
2 Sobre los métodos de regresión usados
Este trabajo no es una exposición de los fundamentos teóricos de los métodos usados
ya que existe abundante bibliografía de consulta, elaborada por expertos, limitándose a
alusiones teóricas mínimas.
2.1 La regresión clásica
Al decir de un economista1, los modelos econométricos son todos falsos, solo que
algunos son más útiles. Es por eso importante saber cuál es el más útil al momento de
su elección.
En valoración inmobiliaria es muy usada la regresión lineal múltiple a la que con el
desarrollo teórico de la estadística y las necesidades prácticas de investigación se le
han señalado diversas limitaciones en sus potencialidades y resultados.
Las limitaciones propias del método se potencian por las características de los datos
cuando estos son espaciales ya que el método requiere que sean independientes, a la
vez que supone que la relación funcional entre variable dependiente (valor de los
inmuebles) e independientes (superficie, categoría constructiva, servicios, etc.) es
constante en el espacio. Los efectos de dependencia o autocorrelación espacial 2 y la
variabilidad de la relación funcional (heterogeneidad) característica de los datos
1 Mencionado en S. Fotheringham et. al. párrafo 4.2.3 del libro citado en nº 5 de la Bibliografía 2 “En un sentido estricto, los conceptos de dependencia y autocorrelación espacial no son sinónimos, siendo la
autocorrelación espacial una expresión más débil de la dependencia espacial, relativa únicamente a los primeros
momentos de la distribución conjunta de una variable”. R. Moreno Serrano y E. Vayá Valcarce – Técnicas
econométricas para el tratamiento de datos espaciales: La econometría espacial – Ediciones Universidad de
Barcelona - 2000
3
espaciales, no puede ser corregida por la regresión clásica resultando estimaciones o
relaciones fijas que pueden distorsionar la validez de los resultados.
2.2 La regresión espacial
Para minimizar estas distorsiones, se han elaborado métodos como los modelos
autorregresivos espaciales, que controlan parcialmente los efectos negativos de la
dependencia y heterogeneidad espacial. No obstante, sigue condicionado al supuesto
de relaciones constantes (estacionariedad espacial) por lo que de no existir, también
pueden surgir estimaciones poco precisas.
2.3 La regresión geográficamente ponderada (GWR)
La GWR forma parte de los modelos espaciales pero se diferencia del resto por
modificar el cálculo de los coeficientes haciendo intervenir la ubicación espacial de los
datos (coordenadas) en su cálculo. Con este procedimiento, se obtienen coeficientes
locales (en cada punto) para cada variable independiente. De todos modos, tanto en la
aplicación de modelos de regresión espacial como GWR, corresponde partir de un
modelo clásico de regresión que luego puede ser mejorado por aquellos.
3 APLICACIÓN DEL MODELO DE REGRESION CLASICA
Un modelo clásico de regresión queda definido por la siguiente ecuación:
Y = b0 + b1 X1 + b2 X2 + … + bk Xk + e
4
Y es la varible independiente o explicada (valor de oferta en el caso), b i los coeficientes o regresores del modelo, X las k variables independientes o explicativas y e el término de error. Los coeficientes se calculan por mínimos cuadrados. Cada b i (i=1 a k) nos dice que, permaneciendo fijas las demás variables independientes, Y varía a una tasa b i para una variación unitaria de la variable Xi. Si bi es positivo, la variable Xi suma a la variable Y; si es negativo resta.
Luego de los ajustes necesarios se obtienen los siguientes resultados sobre 510 datos
con variable dependiente LN_Valor (logaritmo natural del valor (de oferta) 3:
Significancia estadística: tres asteriscos 1%; dos asteriscos 5%; un asterisco 10%.
El “R_cuadrado corregido” indica que las variables independientes explican un 78% de
la variación del valor de oferta.
3.1 Interpretación del modelo : suponiendo constantes las demás variables
independientes se espera que, en media: casas en Planta Baja se oferten 19% más
que en primer piso; con superficie construida menor a 300 mc 18.7% menos que con
3 No siendo este trabajo para usos prácticos de valoración (fiscal u otro), se eligió con cierta libertad un modelo con la mayor cantidad posible de variables que sean de interés aunque no fuera el de mejor ajuste o predicciones. De todos modos, quedaron fuera del modelo variable con significancia mayor a 10% relacionadas con el transporte urbano, espacios libres y supermercados.
5
más de 300 mc; cambio de una categoría a otra - 36%; con estado de conservación
mejor que regular +11.8% que estados de conservación peores; con más de 2 baños
+22.9%; con 3, 4 o 5 dormitorios +17.8% que con 1, 2 o más de 5; con estufa +11.1%;
por cada piso adicional la oferta sube 6%; con barbacoa, garaje, parrillero o piscina,
+10%, +21.3%, +9.7% y +20.7% respectivamente; con más de 15 centros de
enseñanza a menos de 1000 metros +12.5%; con shopping a menos de 500 metros
+23.7%; si la oferta es por inmobiliaria se incrementa 5.2%; si se duplica la distancia a
la playa el valor de oferta cae 13%.
3.2 Test de ajustes del modelo
El modelo no tiene problemas de heterocedasticidad, normalidad en residuos ni
especificación y no presenta problemas de colinealidad (máximo VIF = 2.807).
3.3 Principales diagnósticos gráficos
6
3.4 Poder de predicción del modelo
Se tomaron 20 muestras aleatorias de 20 datos cada una, entre los 510 usados en el
modelo. Se calcularon los valores
predichos por las 20 aleatorias y las
diferencias en porciento entre
predicciones y datos para cada
aleatoria, obteniendo los resultados
de la Tabla 1. 4 La media de las
medias de las diferencias
porcentuales dato-predicción es 11%;
de las medianas 9%, de las
diferencias menores 1% y de las
diferencias mayores 32%. Si para
evaluar el desempeño del modelo se
4 La diferencia media entre los 20 datos (ofertas) de la primer muestra aleatoria (Aleatoria 1) y los valores
calculados por el modelo (predicciones) es de 12.78%; la mediana de esas diferencias 8.22%; la diferencia mínima
entre dato y predicción 2.69% y la máxima 57.19%. Similar interpretación para las demás muestras aleatorias.
7
considera la mediana de los “ratio study” 5 de los 510 pronósticos del modelo original
como recomienda la IAAO (International Association of Assessing Officers), se obtiene
un valor de 1.0052, indicativo de que el modelo es aceptable (se sugieren valores entre
0.9 y 1.1).
4 APLICACIÓN DEL MODELO DE REGRESION ESPACIAL
A los efectos de detectar problemas de autocorrelación en el modelo obtenido, se corre
una regresión con las mismas variable y matriz de distancias para 2256 metros.
4.1 Diagnósticos para la regresión espacial
El modelo no presentara problemas de multicolinealidad (número de condición > 30),
falta de normalidad de los residuos (p=0.34 > 0.05) ni heterocedasticidad (p=0.08 y
p=0.12 ambos >0.05). El test LM_error robusto (p=0.0000000 < 0.05) indica mayor
problema de autocorrelación en los residuos que en la variable dependiente (p =
0.0580643 > 0.05 para el LM_lag Robusto). Se corre un modelo LM_error.
4.2 Resultados del modelo LM_error
El criterio de información de Akaike en la regresión clásica (322.57) baja a 221.8
indicando mejora del modelo; igual con el criterio de Schwarz que cae de 394.56 a
293.79.
5 Ratio Study: cociente entre valor pronosticado por el modelo y valor observado.
8
Breusch-Pagan aumenta de 0.08 a 0.18 y el índice I de Moran desciende a –0.0008.
Los coeficientes de algunas variables tienen diferencias con los de la regresión clásica
y ya no son significativas las variables “ENS1000_15” ni “AGENTE”. El coeficiente
LAMDA de retardo espacial que mide el efecto medio de los errores de los vecinos es muy
significativo (p=0.0000).
5 EL MODELO DE REGRESION GEOGRAFICAMENTE PONDERADA
Con la inclusión de las coordenadas de cada punto en el cálculo de los coeficientes de
la regresión, el modelo GWR en forma matricial se formula como sigue:
y i = X i β ( v i , µ i ) i = 1, 2, 3, …, n
v i y µ i son las coordenadas en el punto i y la estimación de los coeficientes se
realiza como se indica:
βi (calculado) = (X T W i X ) -1 X T W i y
W i es una matriz diagonal de pesos para cada observación i ; y es el vector de
valores de la variable independiente Y. Cada ecuación en y i mide las relaciones
9
particulares de cada variable independiente con la variable dependiente en el punto de
coordenadas ( v i , µ i ). Cada dato se pondera dándole peso mediante una función
kernel de distancias atribuyendo mayor peso en el cálculo de coeficientes a los puntos
o datos más próximos.
El modelo GWR se realizó con las siguientes especificaciones: a - testeo de
variabilidad geográfica de todos los coeficientes de la regresión 6, b - kernel adaptativo
bi-cuadrado 7, c - modo “Interval search” para la determinación del ancho de banda 8 y
d - criterio Akaike (AIC) para comparación de modelos. El ancho de banda
seleccionado fue de 200 con el siguiente diagnóstico del modelo:
Los valores de la Tabla 6a indican mejoría del modelo GWR respecto a los dos
anteriores (menor AIC).
El resultado del test de variabilidad espacial de los coeficientes se muestra en la Tabla
6b. El valor DIFF indica si la variable es estadísticamente constante en el espacio. Se
sugiere un DIFF menor a -2 por lo que resultan nueve coeficientes con variabilidad
espacial significativa.
6 El software compara el modelo de regresión clásica con el modelo GWR considerando las variables no
especificadas como constantes. Si el modelo GWR es mejor que el clásico en base al criterio de comparación
especificado (por ejemplo de Akaike), la variable testeada tiene coeficiente con variación espacial estadísticamente
significativa. 7 Se especifica de la siguiente manera: wi,j = [1 – di,j / b ]
2 para di,j <= b; wi,j = 0 para di,j > b. wi,j es el peso
atribuido al punto i respecto de los vecinos j, di,j es la distancia entre i y j , b es un parámetro a determinar (el
ancho de banda) que define el radio de búsqueda de los puntos a incluir.
8 Requiere el ingreso de un valor mínimo y máximo de búsqueda con indicación de un intervalo. En el caso, se
ingresaron los valores 100, 400 y 50 respectivamente, resultando 200 como ancho de banda óptimo.
10
Se muestra parte del archivo de salida de los pronósticos. 9 10
El valor del índice I de Moran para los residuos fue de 0.018268. Las predicciones de
los coeficientes locales de las variables, sus estadísticos t y el coeficiente de
determinación R2 local, permiten mapear la variabilidad espacial de cada uno de ellos y
hacer interpolaciones para el cálculo en puntos sin datos.
6 Comparación de modelos
6.1 Resultados estadísticos
6.2 Predicciones de los modelos
6.2.1
Igual que en el apartado 3.4, se calcularon las diferencias porcentuales entre valor
ofertado y predicho para una muestra aleatoria en los tres modelos. Salvo el mínimo y
la mediana ratios, los resultados favorecen al modelo GWR.
9 Se han resaltado las columnas correspondientes al valor estimado (est_), error típico (se_) y estadístico t-student
del coeficiente “Intercepto” para las regresiones locales (puntos) de 0 a 8. 10
La información de este archivo es el centro del potencial del método para el estudio de la información en un
grado de detalle muy importante como se verá enseguida.
11
6.2.2 La mediana de ratios sugerida por la IAAO (International Association of Assessing
Officers) para los pronósticos, respecto de los 510 datos de la muestra completa
también da mejor resultado en la GWR (valor sugerido por IAAO entre 0.9 y 1.1).
6.2.3 Los coeficientes de las variables independien tes
En la Tabla 11, se muestran las predicciones para los coeficientes por variable según
cada modelo. De la GWR se muestra la diferencia porcentual (rango) entre el mínimo y
máximo coeficiente local en cada variable y la mediana de los valores. Para los
modelos de regresión clásico y espacial, se muestran los coeficientes constantes de
cada variable, propios de ambos modelos.
Si se compara la mediana de los coeficientes locales de la GWR (3ª y 8ª columnas) con
los coeficientes de la regresión clásica y espacial, no se ven grandes diferencias; pero
lo importante son los rangos de variación de los coeficientes en la GWR, que es donde
se muestra la capacidad del modelo para captar la heterogeneidad espacial.
12
7 Análisis espacial de los resultados del modelo GWR
7.1 Variabilidad espacial de los coeficientes
de determinación R2 locales
En el gráfico 5 se muestran 4 rangos de
variación de los coeficientes R2 locales con un
mínimo en R2 = 71 y máximo en R2 = 92.
El gráfico 6, responde a la interpolación kriging
de los R2 locales y permite un análisis más
detallado del poder de explicación en cada punto
de la zona de estudio en Montevideo.
13
7.2 Influencia de la distancia a la playa en el val or de oferta de las viviendas
Las variables “valor” y “distancia a la playa” están expresadas en logaritmo (LN_Valor;
LNDplaya), por tanto los coeficientes locales indican la elasticidad del valor de oferta
respecto a la distancia.
Los coeficientes, expresan en porcentajes la variación local del valor de oferta cuando
la vivienda duplica su distancia a la playa. Esto quiere decir que si una vivienda se
ubica a 100 metros de la playa, la variación de su valor caerá menos si duplica la
distancia a 200 m, que lo que lo que lo haría si, encontrándose a 1500 m estuviera a
3000 m. O lo que es lo mismo, que para un mismo alejamiento porcentual de la playa,
la caída del valor es mayor cuanto más lejos de la playa se encuentre la vivienda.
14
En el gráfico 7, se han indicado dos curvas que contienen valores en un mismo rango
de elasticidad y una recta indicativa de un tercer rango, coincidiendo aproximadamente
con la Avenida 8 de Octubre – Camino Maldonado, vía de salida de Montevideo hacia
el Noreste.
Este análisis (u otros similares), pueden hacerse a distintas escalas como en micro
zonas con algún interés especial.
En la micro zona que se ilustra en el gráfico 8, correspondiente al extremo Este de la
costa de Montevideo, se reproduce en líneas generales el esquema de escala macro:
mayor distancia a la playa implica mayor elasticidad en el valor de oferta.11
7.3 Significancia de los coeficientes locales 12
Conjuntamente con el estudio de los valores de los coeficientes, se recomienda
estudiar su significancia estadística. El gráfico 9, presenta los resultados de la
interpolación del estadístico t de cada coeficiente local para la variable LNDplaya. En el
recuadro de la derecha, se ha indicado la zona en la cual los coeficientes locales de la
variable pueden ser aceptados a un nivel de confianza de 95%. Esto significa que en
un estudio en que se requiera dicho nivel de significancia estadística para la variable,
sólo deberían usarse los pronósticos locales en la zona indicada en el cuadro rojo (ver
nota 13)
11 Los rangos de valores fueron elegidos buscando que el número de viviendas en cada uno, fuera aproximadamente igual. Eso motiva que el rango de 6% a 12% sea muy superior al resto. 12 La interpretación de la significancia de los parámetros en la GWR es un tema de discusión. Véase entre otros el artículo “Geographically Weighted Regression. White Paper” – Martin Charlton, Stewart Fotheringham – 2009.
15
7.4 Influencia de la distancia a los centros de est udio en el valor de oferta
Esta es una variable dicotómica (Ens1000_15): valor 1 si existen más de 15 centros en
un radio de 1000 metros y cero si existen menos, por lo que el coeficiente indica el plus
valor (en porcentaje) de las viviendas con más de 15 centros de estudio en dicho radio,
respecto de las que tienen menos centros de estudio. En gráfico 10, parece existir una
tendencia general de aumento de la influencia sobre el valor de oferta, de este a oeste,
de barrios de nivel socio económico alto y medio alto, hacia barrios de nivel socio
económico medio y bajo13. Aparecen dos clúster de círculos amarillos en el centro y en
el extremo Sur de la ciudad. Este último, se ubica en el barrio Punta Carretas, también
de nivel socio económico alto, mostrando coherencia con los valores del extremo este
13 Este resultado se ha encontrado por otros investigadores en trabajos similares y se explica básicamente por la menor dependencia que tienen los estratos socio-económicos medios y altos respecto de la distancia a centros de educación ( y otros).
16
de la costa. El clúster central seguramente se conforma asociado a alguna variable
omitida en el modelo.
La distribución espacial de los centros de enseñanza considerados (gráfico de la
derecha), se encuentran distribuidos homogéneamente en el espacio urbano, por lo
que no parecen condicionar los valores de oferta.
En el gráfico 11 se muestra la interpolación kriging de los coeficientes locales de la
variable, llamando la atención la variación en franjas sur/norte. En el gráfico 12, se
esquematiza la variación dominante en la dirección Este – Oeste. Se confirma el
crecimiento de la influencia desde los barrios de características socio económicas
media-alta hacia los de características socio económicas bajas.
7.5 Influencia de la cercanía a Shopping Center 14
La hipótesis de partida afirma que la cercanía a los shopping center actúa como factor
al alza del precio. En el caso (gráfico 13) se han considerado viviendas a menos de
1500m. del shopping (triángulo blanco en el centro del círculo) a los efectos de tener un
número suficiente de datos para el estudio.
En el shopping Nuevo Centro, la hipótesis parece confirmarse, especialmente en las
viviendas situadas al norte, mientras que al sur, aparece una influencia constante sobre
el valor.
En el shopping Montevideo, la hipótesis también se confirma de manera general.
14 Se ha excluido el shopping Tres Cruces, debido a que en él, también funciona la terminal de ómnibus de Montevideo, que seguramente combina su influencia con la del shopping en los valores de las viviendas.
17
Los shopping Portones y Punta Carretas tienen ubicación en zonas de definido nivel
socio económico medio/alto, lo cual puede ser razón de la poca influencia del centro
comercial (disponibilidad de locomoción propia, personal de servicio, definida
preferencias por productos o comercios de otros shoppings, etc.).
Debe tenerse en cuenta, que estos análisis son dependientes de la escala considerada,
Por ejemplo, el análisis del efecto “cercanía a shopping” en buffers de distintos
tamaños (o el de cualquier otra variable), probablemente muestre relaciones distintas a
las que sugiere el Gráfico 13, precisamente por efecto de la heterogeneidad de las
relaciones espaciales. Esto, al contrario de ser una limitación, es un potencial del
método, pues amplía las posibilidades de análisis en función de las necesidades de
estudio.
8 COMENTARIOS FINALES
8.1 Como se ha visto, los modelos de regresión locales GWR son una poderosa
herramienta de análisis de datos espaciales, potenciados con el uso de los SIG.
8.2 La obtención de los coeficientes locales, es el argumento fundamental para
relativizar los efectos de la heterogeneidad presente en los datos espaciales,
permitiendo resultados en general superiores a los modelos de regresión clásica o
espacial.
8.3 Los resultados obtenidos para las distintas variables en las zonas mapeadas,
deben ser tomados con prudencia debido a la limitada información y relativa calidad de
18
la misma. Igual comentario para el modelo general por los criterios usados en su
elección, ya explicitados al comienzo (Nota 3).
9 BIBLIOGRAFIA
1 GEOGRAPHICALLY WEIGHTED REGRESSION. Martin Charlton, Stewart Fotheringham, Chris Brunsdon. ESRC National Centre for Research Methods. 2 Regressão geográficamente ponderada (GWR): anál ise de fenômenos com heterogeneidade espacial. Marcos Wellausen Dias de Freitas. MINISTERIO DA CIENCIA E TECNOLOGIA. INSTITUTO NACIONAL DE PESQUISAS ESPACIAIS (INPE) 3 GEOGRAPHICALLY WEIGHTED REGRESSION WHITE PAPER. MARTIN CHARLTON, STEWART FOTHERINGHAM. National Centre for Geocomputation National University of Ireland Maynooth Maynooth, Co Kildare, IRELAND 4 Mapping the Results of Geographically Weighted Regression . Jeremy Mennis. 5 GEOGRAPHICALLY WEIGHTED REGRESSION The analysi s of spatially variying relationships. Martin Charlton, Stewart Fotheringham, Chris Brunsdon 6 QUALITATIVE GEOGRAPHY. Perspectives on Spatial Data Analysis. Martin Charlton, Stewart Fotheringham, Chris Brunsdon