aplicación de análisis de patrones puntuales marcados y...

6
XXVI Simposio Internacional de Estadistica 2016 Sincelejo, Sucre, Colombia, 8 al 12 de Agosto de 2016 Aplicación de Análisis de Patrones Puntuales Marcados y Modelos Espacio-Temporales en la Investigación de Mercados Marked Point Pattern Analysis and Spatio-Temporal Modeling Applied to Market Research Oscar Mauricio Ramírez 1, a , Yudy Marcela Cadena 2, b , Germán Gómez Montaña 3, c 1 Data Science Business Leader, Nielsen Company, Bogotá, Colombia 2 Statistical Operations, Nielsen Company, Bogotá, Colombia 3 Departamento de Estadística, Facultad de Ciencias, Universidad Nacional de Colombia, Bogotá, Colombia Resumen A través de la aplicación de la geostadística al campo de la investigación de mercados se puede tener un mejor conocimiento al momento de la toma de decisiones. Haciendo uso del análisis de patrones puntuales en una muestra georreferenciada es posible verificar si el patrón espacial de la muestra esta alineado con las dinámicas de consumo y al mismo tiempo evaluar posibles sesgos espaciales. Se plantea un paralelo entre muestras con patrones puntuales homogéneos y no homogéneos si- mulados para ilustrar las posibles fuentes de sesgo espacial y de este modo, verificar la concordancia con el comportamiento esperado del mercado. Sigue el estudio de patrones puntuales marcados de- tectando la ubicación de concentraciones y atipicidades así como el comportamiento de diferentes unidades de análsis (mercados, fabricantes, marcas, productos, establecimientos,centros de comercio, etc).Cerrando el documento se propone una implementación de modelos espacio-temporales para an- ticipar oportunidades de negocio. Palabras clave : Geoestadística, Patrones puntuales marcados, Modelos espacio-temporales, Sesgo espacial, Investigación de mercados. 1. Introducción En la perspectiva tradicional de estudio de mercados, se asume que la toma de decisiones de una persona es hecha de forma independiente a la de otros individuos y aún cuando se considere el aporte de variables auxilares de tipo demográfico, económico y social el modelo subyacente carece de robustez en términos geográficos. En contraste, los modelos espaciales aportan un mayor entendimiento del comporta- miento asumiendo que el actuar de los individuos esta correlacionado espacialmente (Bronnenberg 2005) (Bronnenberg 2004). La posibilidad de visualizar la información del comportamiento del mercado en el contexto espacial tiene implicaciones muy importantes, pues la simple observación de un mapa ofrece de inmediato no- ciones de proximidad, relación, agrupación y distribución geográficas haciendo de la distancia un factor explicativo. El tipo de información necesaria para evaluar el mercado es multidimensional y varía tanto temporal como geográficamente por lo que la implementación de la estadística espacial como herramienta es muy a Senior Statistician Executive. E-mail: [email protected] b Pleno Statistician Executive. E-mail: [email protected] c Estudiante. E-mail: [email protected] 1

Upload: lamdung

Post on 31-Oct-2018

226 views

Category:

Documents


0 download

TRANSCRIPT

XXVI Simposio Internacional de Estadistica 2016Sincelejo, Sucre, Colombia, 8 al 12 de Agosto de 2016

Aplicación de Análisis de Patrones Puntuales Marcados yModelos Espacio-Temporales en la Investigación de Mercados

Marked Point Pattern Analysis and Spatio-Temporal Modeling Applied to MarketResearch

Oscar Mauricio Ramírez1,a, Yudy Marcela Cadena2,b, Germán Gómez Montaña3,c

1Data Science Business Leader, Nielsen Company, Bogotá, Colombia2Statistical Operations, Nielsen Company, Bogotá, Colombia

3Departamento de Estadística, Facultad de Ciencias, Universidad Nacional de Colombia, Bogotá, Colombia

Resumen

A través de la aplicación de la geostadística al campo de la investigación de mercados se puede tenerun mejor conocimiento al momento de la toma de decisiones. Haciendo uso del análisis de patronespuntuales en una muestra georreferenciada es posible verificar si el patrón espacial de la muestra estaalineado con las dinámicas de consumo y al mismo tiempo evaluar posibles sesgos espaciales.

Se plantea un paralelo entre muestras con patrones puntuales homogéneos y no homogéneos si-mulados para ilustrar las posibles fuentes de sesgo espacial y de este modo, verificar la concordanciacon el comportamiento esperado del mercado. Sigue el estudio de patrones puntuales marcados de-tectando la ubicación de concentraciones y atipicidades así como el comportamiento de diferentesunidades de análsis (mercados, fabricantes, marcas, productos, establecimientos,centros de comercio,etc).Cerrando el documento se propone una implementación de modelos espacio-temporales para an-ticipar oportunidades de negocio.

Palabras clave: Geoestadística, Patrones puntuales marcados, Modelos espacio-temporales, Sesgoespacial, Investigación de mercados.

1. Introducción

En la perspectiva tradicional de estudio de mercados, se asume que la toma de decisiones de unapersona es hecha de forma independiente a la de otros individuos y aún cuando se considere el aporte devariables auxilares de tipo demográfico, económico y social el modelo subyacente carece de robustez entérminos geográficos. En contraste, los modelos espaciales aportan un mayor entendimiento del comporta-miento asumiendo que el actuar de los individuos esta correlacionado espacialmente (Bronnenberg 2005)(Bronnenberg 2004).

La posibilidad de visualizar la información del comportamiento del mercado en el contexto espacialtiene implicaciones muy importantes, pues la simple observación de un mapa ofrece de inmediato no-ciones de proximidad, relación, agrupación y distribución geográficas haciendo de la distancia un factorexplicativo.

El tipo de información necesaria para evaluar el mercado es multidimensional y varía tanto temporalcomo geográficamente por lo que la implementación de la estadística espacial como herramienta es muy

aSenior Statistician Executive. E-mail: [email protected] Statistician Executive. E-mail: [email protected]. E-mail: [email protected]

1

2 Oscar Mauricio Ramírez, Yudy Marcela Cadena & Germán Gómez Montaña

útil a la hora de describir el cruce de mercados, los centros de comercio, puntos de venta, fabricantes,marcas y en general cualquier unidad de análisis en este contexto.

En este trabajo se hace una propuesta de la implementación y se expone una aplicación de la estadísticaespacial en el campo de la invenstigación de mercados.

2. Metodología

La primera etapa que consideramos es la verificación del cómo se distribuye geográficamente la muestrade establecimientos vía patrones puntuales y estimación de densidad kernel comparando con el compor-tamiento y crecimiento de los establecimientos comercialese. Para efectos de la aplicación práctica en elpresente documento, discutimos el caso de una muestra de establecimientos de venta al por menor enBogotá en los periodos comprendidos entre enero y junio de 2016 y la dinámica de los establecimientos decomercio se extrae de la información disponible en el sistema informático de la Infraestructura de DatosEspaciales para el Distrito Capital (IDECA). Al mismo tiempo se simulan, con proposito ilustrativo,dos muestras con el mismo error estandar asociado que la muestra real, con el fin de identificar posiblesfuentes de sesgo espacial (Illian 2008).

La segunda parte es la introducción de análisis de patrones puntuales y patrones puntuales marcados.

2.1. Patrones Puntuales

El conjunto de parámetros D ⊂ RP es aleatorio, es decir que la decisión al respecto de donde se hacela medición no depende del investigador. Dicho conjunto puede ser discreto o continuo, pero la ubicaciónde los sitios donde ocurre el fenómeno a estudiar es dada. En general el propósito de análisis en estoscasos es el de determinar si la distribución de los individuos dentro de la región es aleatoria, agregada ouniforme. (Giraldo Henao 2011, pp.7–8)

Muchos de los patrones observados incluyen observaciones de covariables, patrones llamados PatrónPuntual Marcado.

Para nuestro caso tenemos la localización de tiendas en Bogotá, aquí D ⊂ RP es contínuo y medicionescomo el número de ventas unidad en la tienda representa un patrón espacial marcado.

2.1.1. Intensidad

Uno de los métodos utilizados para determinar si el patrón es completamente aleatorio es la funciónde intensidad. En la práctica, las variables espaciales estiman λ(s) - Número de eventos que ocurrenpor unidad de área - como la intensidad en una localización (s), la cual es obtenida por métodos noparamétricos, de suavizamiento de cuadrantes, o por métodos de estimación. En general, si las áreas sonmuy pequeñas, se llega a la definición de intensidad:

λ(s) = lım|s|→0

E((|s|))|s|

Si el patrón es completamente aleatorio:

λ(s) = λ(s) =n

|A|

2.1.2. Estimación Kernel

La estimación Kernel es un método no paramétrico de estimación. Se usa la estimación tipo Kernelpara:

• Densidad f(x)

XXVI Simposio de EstadÃŋstica (2016)

Aplicación de Análisis de Patrones Puntuales Marcados y Modelos Espacio-Temporales en la Investigación de Mercados3

• Regresión Y = ˆm(x) + e

• Intensidad λ(s)

2.1.3. Modelos para Procesos Puntuales

• Proceso Poisson Homogéneo

Los procesos Poisson homogéneos son la base a partir de la que se construye la teoría de los proce-sos puntuales espaciales. Representan el mecanismo estocástico más sencillo que puede generar undiseño puntual espacial y se aplican como modelo ideal de los procesos completamente aleatorios.

• Proceso Poisson no homogéneo

El modelo más simple cuando el proceso no es estacionario es el proceso de Poisson no homo-géneo, que se obtiene sustituyendo la intensidad constante λ, de un proceso de Poisson por unafunción de intensidad variable λ(x). Un proceso de Poisson es no homogéneo si:

1. Si N(A) representa el número de eventos en A ∈ D, entonces N(A) ∼ Poisson(λ(A)) con0 ≤ λ(s) <∞

2. Si A1 y A2 son disyuntos, entonces N(A1) y N(A2) son independientes3. La probabilidad de que s ∈ A es proporcional a la función λ(s)

fA(s) =λ(s)∫

Aλ(s)ds

• Proceso Cox: Si se quieren modelar fenómenos donde la distribución espacial de los eventos puedeser el resultado de variaciones estocásticas, es razonable pensar en la función de intensidad de unproceso de Poisson, λ(x), como una realización de un proceso estocástico. Un proceso de Cox es unproceso de Poisson en donde la intensidad es aleatoria.

N(A) =

∫A

Λ(s)ds

Donde Λ(s) es una variable aleatoria, generalmente con distribución Gamma

• Proceso Poisson cluster

• Proceso de inhibición simple (Matern I)

2.2. Análisis de Regresión Espacial

El acercamiento por el método de regresión por mínimos cuadrados ordinarios suele no ser el másapropiado para modelar datos espaciales. Esto se debe a que esta clase de datos posee dos propiedades quedificulta el cumplimiento de las pre suposiciones necesarias para aplicar dicho método. Estas propiedadesson

1. La autocorrelación espacial: El principio básico de la estadística espacial es asumir que entidadesgeográficas cercanas tienden a ser más similares que las que están más lejos.

2. No estacionariedad: Los procesos de interés se comportan diferente en distintas partes del área deestudio, lo que se denomina variación regional o no estacionariedad.

A partir de la naturaleza del evento a estudiar, surge el interés en aplicar una herramienta que norequiera el cumplimiento de estos dos supuestos y, además, se ajuste adecuadamente al fenómeno. Elmétodo seleccionado es llamado Regresión Geográficamente Ponderado, presentado en la sección 1.1.1.

XXVI Simposio de EstadÃŋstica (2016)

4 Oscar Mauricio Ramírez, Yudy Marcela Cadena & Germán Gómez Montaña

2.2.1. Regresión Geográficamente Ponderada

El supuesto clave que se realiza en la mayoría de los modelos de regresión espacial es que la estructuradel modelo se mantiene constante sobre el área de estudio (no hay variación local en los parámetros deestudio). En este caso, existe interés en tener en cuenta una potencial heterogeneidad espacial en lasestimaciones de los parámetros. Por este motivo, puede ser de utilidad un Modelo de Regresión Geográ-ficamente Ponderada (Fotheringham et al. 2003). Este modelo de regresión permite a las estimaciones delos parámetros variar localmente, la notación para este modelo está dada en (1),

yi = Xβi + ε, (1)

donde i es la ubicación en la cual los parámetros locales van a ser estimados. La estimación de estosparámetros se realiza resolviendo el sistema de pesos expuesto en (2),

βi =(X ′WiX

)−1X ′Wiy, (2)

en que el peso wij para la observación j es calculado con la función gaussiana,

wij = e

(−dij

h

)2

en la cual, dij es la distancia euclidiana entre la ubicación de la observación i y la ubicación j, y h es elancho de banda. Usualmente, para el ancho de banda se escoge uno tal que minimice el error cuadráticomedio de la predicción.

3. Resultados

En figura 1 se muestra la densidad del patrón puntual de tiendas de la muestra para Bogotá obtenidadde un muestreo bi-etápico estratificado a nivel Colómbia (izq) y el censo de establecimientos de comerciodel IDECA (der). Este primer ejercicio revela la fidelidad de la muestra frente a las dinámicas espacialesdel mercado en Bogotá.

Figura 1: Muestra de Tiendas de Venta al Por Menor y Establecimientos de Comercio en Bogotá

A continuación, en la figura 2 se ilustran dos situaciones en las que al simular dos muestras con elmismo error estándar asociado (patrón puntual homogéneo (izq) y patrón puntual no homogéneo (der)),pero en las que no se sigue la distribución de establecimientos comerciales esperada según el conocimientoque se tiene del mercado. Del ejercicio es posible ver el cómo se podría llegar a tener información con

XXVI Simposio de EstadÃŋstica (2016)

Aplicación de Análisis de Patrones Puntuales Marcados y Modelos Espacio-Temporales en la Investigación de Mercados5

sesgo espacial a pesar de contar con un diseño muestral bien estructurado, pero en el que no se consideranlas connotaciones geográficas de las dinámicas propias del objeto de estudio.

Figura 2: Simulación de Muestras Asociadas a Patrones Puntuales Homogéneo y No Homogéneo

Con el propósito de vincular el volumen de ventas de cigarrillos, el tipo de establecimiento donde sehace la compra, la marca que elige el comprador y la ubicación del establecimiento se planteó un modelode regresión geográficamente ponderada.

La utilidad de esta propuesta es poder hacer al mismo tiempo una predicción espacial de la variaciónen el volumen de ventas, identificar la participación de las marcas en el mercado de Bogotá y ver laasociación entre la preferencia del consumidor en términos de marca, tipo de establecimiento y el lugarde compra.

Figura 3: Información Modelo de Regresión Geográficamente Ponderado por Marcas de cigarrillo

En la figura 3, la marca azul tiene una penetración especialmente fuerte en el sur y occidente de laciudad al mismo tiempo que tiene volúmenes significativamente más altos en comparación con la marcaroja, quien a su vez esta distribuida hacia el norte y oriente de la ciudad. Por otra parte, en los puntosen los que se comparte presencia de las dos marcas la participación de cada una esta estrechamenterelacionada con dónde esta ubicado el establecimiento, por ejemplo, si esa tienda esta al norte de Bogotálo más probable es que la marca roja tenga un mayor volumen de ventas, mientras que, en el casocontrario, si la tienda esta ubicada en la localidad de Kennedy la marca azul será la dominante. Estainformación es par los fabricantes una oportunidad de crecimiento .Este resultado apoya la hipótesis en

XXVI Simposio de EstadÃŋstica (2016)

6 Oscar Mauricio Ramírez, Yudy Marcela Cadena & Germán Gómez Montaña

la que se plantea la existencia de una fuerte relación entre los patrones de consumo y el lugar en dóndese encuentra el individuo, además de una herramienta en la toma de decisiones.

Actualmente estamos trabajando en la inclusión del elemento temporal dentro del modelo para agregarvalor en la identificación de patrones. Al complementar el análisis de manera espacio-temporal se podránincluir predicciones puntuales para individuos cercanos a diferentes niveles.

Referencias

Bronnenberg, B. J. (2004), Spatial Models in Marketing Research and Practice, UCLA - Applied StochasticModels in Business and Industry.

Bronnenberg, Bart J., B. D. (2005), ‘Spatial Models in Marketing’, Springer - Marketing Letters16(34), 267–278.

Fotheringham, A. S., Brunsdon, C. & Charlton, M. (2003), Geographically weighted regression: The Analy-sis of Spatially Varying Relationships, John Wiley & Sons.

Giraldo Henao, R. (2011), Notas de Clase: Estadística Espacial, Universidad Nacional de Colombia,Universidad Nacional de Colombia - Bogotá.

Illian, J. (2008), Statistical Analysis and Modelling of Spatial Point Patterns, John Wiley and Sons,www.wiley.com.

XXVI Simposio de EstadÃŋstica (2016)