modelaciÓn de heterogeneidad en la percepciÓn …
TRANSCRIPT
PONTIFICIA UNIVERSIDAD CATOLICA DE CHILE
ESCUELA DE INGENIERIA
MODELACION DE HETEROGENEIDAD
EN LA PERCEPCION CUALITATIVA DE
ESPACIOS PUBLICOS CON MODELOS DE
ELECCION DISCRETA Y APRENDIZAJE
DE MAQUINA
TOMAS IGNACIO RAMIREZ SARMIENTO
Tesis para optar al grado de
Magıster en Ciencias de la Ingenierıa
Profesor Supervisor:
RICARDO HURUBIA GONZALEZ
HANS LOBEL DIAZ
Santiago de Chile, Marzo 2020
c©MMXX, TOMAS IGNACIO RAMIREZ SARMIENTO
PONTIFICIA UNIVERSIDAD CATOLICA DE CHILE
ESCUELA DE INGENIERIA
MODELACION DE HETEROGENEIDAD
EN LA PERCEPCION CUALITATIVA DE
ESPACIOS PUBLICOS CON MODELOS DE
ELECCION DISCRETA Y APRENDIZAJE
DE MAQUINA
TOMAS IGNACIO RAMIREZ SARMIENTO
Miembros del Comite:
RICARDO HURUBIA GONZALEZ
HANS LOBEL DIAZ
SEBASTIAN RAVEAU FELIU
CESAR HIDALGO RAMACIOTTI
IGNACIO VARGAS CUCURELLA
Tesis para optar al grado de
Magıster en Ciencias de la Ingenierıa
Santiago de Chile, Marzo 2020
c©MMXX, TOMAS IGNACIO RAMIREZ SARMIENTO
A quienes intentan hacer las cosas
de una manera diferente
AGRADECIMIENTOS
Me hace muy feliz el resultado de este proceso de investigacion en el que he estado
inmerso por estos ultimos dos anos y no podrıa terminarlo sin antes agradecer a quienes
fueron parte de este. Quiero agradecer, en primer lugar, a mis profesores supervisores,
Ricardo Hurtubia y Hans Lobel por confiar en mi y darme las libertad para darle forma
a esta tesis de magıster. Ustedes, ademas de guiarme y apoyar en cuanto a lo tecnico,
fueron muy importantes en motivarme a aprender sobre temas en los que no tenıa ningun
conocimiento, y seguir profundizando otros que me apasionaban. Estoy muy orgulloso de
esta tesis y de todo lo que aprendı, y esto es en gran parte gracias a ustedes.
En segundo lugar, quiero agradecer a mi familia y amigos por ser una red de apoyo
constante durante toda mi vida y, en especial en estos dos ultimos anos. Probablemente
no hubiese sido tan enriquecedora experiencia sin tanto altos y bajos, pero importante es
que siempre estuvieron ahı para celebrar las alegrıas y superar el estres. Un muy especial
agradecimiento a Devin quien desde la distancia fue una fuente de motivacion y apoyo
muy importante para mi. Tambien a mis amigas de toda la vida, Rafa y Pacita, a mis
amigos del colegio y a mis amigos de la universidad. No menos importante a mis amigos
de la oficina, gracias por la companıa y distracciones desde el otro pasillo; lo importante
es que se pudo. Tambien al equipo del DITL por siempre tener una sonrisa al llegar y salir
de la U.
Finalmente quiero agradecer, tambien, a muchos profesores, a mis entrenadoras y
companeras de equipo -de ahora y de toda la vida- y muchos otros amigos que no he
nombrado pero que de igual forma me han ayudado a formarme como persona, como
ingeniero, como deportista y me motivan a seguir creciendo dıa a dıa.
A todos ustedes, ¡MUCHAS GRACIAS!
iv
INDICE DE CONTENIDOS
AGRADECIMIENTOS iv
INDICE DE FIGURAS vii
INDICE DE TABLAS ix
ABSTRACT x
RESUMEN xi
1. INTRODUCCION 1
2. REVISION BIBLIOGRAFICA 4
2.1. Metodos cualitativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2. Metodos basados en modelos de eleccion discreta . . . . . . . . . . . . . 7
2.3. Metodos orientados a la prediccion mediante aprendizaje de maquina . . . 9
2.4. Metodos orientados a las explicabilidad mediante tecnicas combinadas . . 11
2.5. Heterogeneidad en la percepcion . . . . . . . . . . . . . . . . . . . . . . 12
3. METODOLOGIA 15
3.1. Aprendizaje de maquina para extraer atributos de las imagenes . . . . . . 15
3.1.1. Limitaciones de los algoritmos de aprendizaje de maquina . . . . . . . 18
3.2. Modelos de eleccion discreta . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3. Modelacion con heterogeneidad . . . . . . . . . . . . . . . . . . . . . . 25
3.4. Dependencia lineal de la segmentacion semantica . . . . . . . . . . . . . 27
3.5. No linealidad del conteo de objetos . . . . . . . . . . . . . . . . . . . . 28
3.6. Glosario de variables de interes . . . . . . . . . . . . . . . . . . . . . . . 29
4. RECOLECCON DE INFORMACION 31
4.1. Set de imagenes utilizado . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2. Caracterizacion de los observadores . . . . . . . . . . . . . . . . . . . . 35v
4.3. Indicadores psicometricos . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.4. Tamano muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5. RESULTADOS DE ESTIMACION 42
5.1. Resultados generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.2. Segmentacion semantica . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.3. Deteccion de objetos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.4. No linealidad del conteo de objetos . . . . . . . . . . . . . . . . . . . . . 48
5.5. Heterogeneidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6. APLICACION DE LOS MODELOS DE PERCEPCION 52
6.1. Mapas de Santiago para grupos de personas . . . . . . . . . . . . . . . . 54
7. CONCLUSIONS 59
7.1. Aportes de la metodologıa al estado del arte . . . . . . . . . . . . . . . . 60
7.1.1. Heterogeneidad en la percepcion de espacios publicos . . . . . . . . . 60
7.1.2. Interpretabilidad de la caja negra . . . . . . . . . . . . . . . . . . . . 60
7.2. Futuras lıneas de investigacion . . . . . . . . . . . . . . . . . . . . . . . 61
7.2.1. Entrenar mejores modelos de aprendizaje automatico para la extraccion
de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
7.2.2. Modelacion matematica de la utilidad del paisaje urbano . . . . . . . 62
7.2.3. Explorar el efecto de variables disponibles que aun no han sido utilizadas 62
REFERENCIAS 63
ANEXO 68
A. Tabla significancia de atributos de alto nivel segun tamano muestral . . . . . 69
vi
INDICE DE FIGURAS
2.1 Esquema para modelos con heterogeneidad . . . . . . . . . . . . . . . . . . 14
3.1 Ejemplo de salida del modelo de Segmentacion Semantica . . . . . . . . . . 17
3.2 Ejemplo de salida del modelos de deteccion de objetos . . . . . . . . . . . . 18
3.3 Ejemplo de salida del modelos de deteccion de objetos . . . . . . . . . . . . 19
3.4 Ejemplo de malas segmentaciones para la variables Automovil. . . . . . . . 20
3.5 Histograma del porcentaje de cobertura de la categorıa Automovil de cada
imagen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.6 Ejemplos errores deteccion de objetos . . . . . . . . . . . . . . . . . . . . . 22
3.7 Diagrama explicativo del modelo de decision con dos imagenes y tres
alternativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1 Captura de pantalla de la seccion principal de la encuesta de percepcion
utilizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2 Captura de pantalla de la seccion de caracterizacion del observador . . . . . . 32
4.3 Histograma de cantidad de observaciones por usuario . . . . . . . . . . . . . 37
4.4 Histograma de cantidad de observaciones en funcion de la edad . . . . . . . 37
4.5 Significancia de parametros segun tamano muestral . . . . . . . . . . . . . . 40
5.1 Configuraciones no lineales para medir el efecto marginal de la cantidad de
automoviles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
6.1 Percepcion de seguridad aplicado a la ciudad se Santiago . . . . . . . . . . . 53
6.2 Distribucion de ingreso per capita zona EOD segun deciles . . . . . . . . . . 54vii
6.3 Correlacion entre modelos de percepcion . . . . . . . . . . . . . . . . . . . 55
6.4 Histograma de percepcion de la seguridad de la ciudad de Santiago dividido
por genero. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6.5 Diferencia porcentual en la percepcion de seguridad de la ciudad de Santiago
por parte de las mujeres en referencia a la percepcion masculina. . . . . . . . 56
6.6 Mapa de diferencias en la percepcion de seguridad en funcion del genero. . . 57
6.7 Histograma de percepcion de la seguridad de la ciudad de Santiago dividido
por preferencias de transporte. . . . . . . . . . . . . . . . . . . . . . . . . . 58
6.8 Mapa de diferencias en la percepcion de seguridad basada en las preferencias
de transporte, peatones en comparacion con los automovilistas. . . . . . . . . 58
viii
INDICE DE TABLAS
3.1 Glosario de las variables extraıdas . . . . . . . . . . . . . . . . . . . . . . . 30
4.1 Medidas de tendencia de las variables en el set de datos utilizados . . . . . . 34
4.2 Medidas de tendencia de las variables en el set de datos utilizados . . . . . . 35
4.3 Cantidad de observaciones registradas por pregunta segun sexo . . . . . . . . 36
4.4 Cantidad de observaciones registradas por pregunta segun modo de transporte
habitual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.1 Modelos estimados de percepcion de seguridad, caminabilidad, habitabilidad y
seguridad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.1 Correlacion entre modelos de percepcion . . . . . . . . . . . . . . . . . . . 54
A.1 Significancia de atributos de alto nivel segun tamano muestral . . . . . . . . 69
ix
ABSTRACT
Over the last 60 years, various methodologies have been proposed to understand the
effects of the landscape on the evaluation of those who inhabit it, however, each one of
them presents important disadvantages at an individual level. The use of qualitative inter-
views has allowed studies of great depth at the level of individuals, but with low scalability
due to the high costs in its execution and its results are hardly generalizable. The use of
declared preference surveys increases the scope of the studies but sacricing the number
of variables analyzed. In the last decade, large databases of street imagery and machine
learning development have allowed to increase scalability of methodologies to understand
the effects of the landscape on the evaluation of those who inhabit it. However, these new
methodologies have not incorporated the analysis of heterogeneous behaviors, although
gender differences on perception of safety have been widely studied in social science and
urban planning in lower scale studies.
In the present study, computational and statistical tools are combined to achieve a
methodological proposal of high scalability whose results allow observing heterogeneous
behaviors against specific elements of the landscape. To achieve this, a new survey of
perception of public spaces was implemented, with which responses are collected on the
perception of public spaces accompanied by a sociodemographic characterization of the
observer. Then the process of parameterization of the images previously used in the litera-
ture was complemented by an object detection algorithm. Our results show heterogeneity
in the perception of public spaces according to gender and observer mobility patterns.
These results have also allowed us to explore the application of the models for the city of
Santiago to test their use as a tool to support urban planners in the detection of problem
areas for some population groups.
Keywords: discrete choice modeling, machine learning, heterogeneous perception, built
environment.x
RESUMEN
Durante los ultimos 60 anos se han propuesto diversas metodologıas que nos ayudan a
entender los efectos del paisaje sobre la evaluacion de quienes lo habitan, sin embargo, de
manera aislada cada una de ellas presenta importantes desventajas. El uso de entrevistas
cualitativas ha permitido estudios de gran profundidad a nivel de individuos, pero con baja
escalabilidad debido a los altos costos en su ejecucion y sus resultados son difıcilmente
generalizables. El uso de encuestas de preferencias declaradas aumenta el alcance de
los estudios, pero sacrificando la cantidad de variables analizadas. En la ultima decada,
grandes bases de datos de fotografıas y el desarrollo en aprendizaje de maquinas ha per-
mitido aumentar la escalabilidad, generando resultados mas generalizables respecto de
las metodologıas cualitativas. Sin embargo, estas nuevas metodologıas no han logrado
incorporar el analisis de comportamientos heterogeneos y los resultados, al depender de
algoritmos altamente no lineales, son de baja interpretabilidad, por lo que los metodos
cualitativos aun presentan una importante ventaja en esta dimension.
En el presente estudio se combinan herramientas computacionales y estadısticas para
lograr una propuesta metodologica de alta escalabilidad cuyos resultados permiten ob-
servar comportamientos heterogeneos frente a elementos especıficos del paisaje. Para
lograrlo se implemento una nueva encuesta de percepcion de espacios publicos, con la
cual se recopilan respuestas sobre percepcion de espacios publicos acompanadas de una
caracterizacion sociodemografica del observador. Luego se complemento el proceso de
parametrizacion de las imagenes previamente utilizado en la literatura mediante un algo-
ritmo de deteccion de objetos. Nuestros resultados logran evidenciar heterogeneidad en
la percepcion de espacios publicos segun genero y patrones de movilidad de los obser-
vadores. Estos resultados ademas nos han permitido explorar la aplicacion de los mod-
elos para la ciudad de Santiago para probar su uso como una herramienta de apoyo a
xi
planificadores urbanos en la deteccion de zonas problematicas para algunos grupos de la
poblacion.
Palabras Claves: modelos de eleccion discreta, aprendizaje de maquinas, heterogeneidad
den la percepcion, entorno construido.xii
1. INTRODUCCION
Entender la sensaciones que experimenta un individuo al desplazarse por la ciudad no
es una tarea simple. Esta depende de elementos fısicos del paisaje y de procesos sociales
y psicologicos, cada uno con su propia complejidad. La complejidad de los elementos del
paisaje es que estos no tienen un unico proposito, son utilizados por multiples individuos
con propositos diferentes de forma simultanea, y, ademas, estan siendo modificados con-
stantemente en el tiempo por quienes los habitan (Lynch, 1960; Nasar, 1998). Los proce-
sos sociales y psicologicos, por su lado, cargan con una componente historica relacionada
a la experiencias vividas por cada individuo y afectan de multiples formas la valoracion
que tendra el sujeto del espacio que observa (Tuan, 1977; Harvey, 1979). Por este mo-
tivo, para estudiar la percepcion de espacios publicos es necesario mirar de forma conjunta
tanto las componentes geograficas como las sociologicas del entorno (Harvey, 1979). En
la literatura este problema ha sido abordado por multiples enfoques y metodologıas medi-
ante el estudio de la valoracion subjetiva, o percepcion, de quienes observan y habitan el
espacio construido (Clifton, Ewing, Knaap, & Song, 2008).
En los campos como la planificacion urbana y la psicologıa ambiental, los estudios se
han concentrado en el uso de entrevistas y analisis cualitativo de la informacion recopi-
lada. Si bien los resultados permiten analizar en profundidad la percepcion de un grupo
de individuos, son proceso que difıcilmente pueden ser masificados ya que requieren de
un alto costo en procesamiento manual de los datos y analisis de las respuestas (Lynch,
1960; Nasar, 1998). Por otro lado, areas como la ingenierıa, la economıa y las ciencias
del comportamiento se han planteado metodologıas basadas en encuestas de preferencias
declaradas que, generalmente, utilizan imagenes de escenarios simulados por computador.
Aun cuando estas metodologıas aumentan la escalabilidad de los estudios y, ademas, per-
mite cuantificar el efecto de variables especıficas del paisaje, tiene la desventaja de que la
cantidad de variables incluidas en las imagenes, y sus interacciones, se ven limitadas por
un proceso de diseno experimental (Laing et al., 2009; Iglesias, Greene, & Ortuzar, 2013;
Hurtubia, Guevara, & Donoso, 2015; Navarro, Galilea, Hidalgo, & Hurtubia, 2018).
1
En la ultima decada, los avances en el area de aprendizaje de maquina (ML, por su
sigla en ingles) y la construccion de grandes conjuntos de fotografıas de espacio publicos
(Anguelov et al., 2010), han permitido desarrollar algoritmos que logran predecir evalu-
aciones subjetivas que tendrıa un observador al enfrentase a nuevos escenarios (Salesses,
Schechtner, & Hidalgo, 2013; Quercia, O’Hare, & Cramer, 2014; Dubey, Naik, Parikh,
Raskar, & Hidalgo, 2016). Estas metodologıas permiten realizar estudios con alta escal-
abilidad con imagenes reales a bajos costos de ejecucion, superando las limitaciones que
presentan las metodologıas cualitativas y de encuestas de preferencias declaradas.
Sin embargo, las metodologıas predictivas que utilizan ML presentan problemas para
interpretar el proceso de decision de sus algoritmos (Guidotti et al., 2018). A causa de esto,
se pierde la capacidad de analizar el efecto de las variables y sus interacciones, lo cual sı es
posible realizar con las metodologıas cualitativas. En respuesta a esta limitacion, estudios
recientes han utilizado de forma secuencial algoritmos de ML y tecnicas econometricas
para lograr modelos predictivos que permitan cuantificar el efecto que tienen distintos
elementos que componen el paisaje urbano en el proceso de evaluacion (Rossetti, Lobel,
Rocco, & Hurtubia, 2019; Zhang et al., 2018; Coburn et al., 2019). Ademas, Rossetti et al.
proponen un esquema teorico de modelacion que permitirıa explorar el efecto que podrıan
tener las caracterısticas propias de cada observador, elemento no ha sido incorporado en
los estudios de alta escalabilidad. Sin embargo, en aquel estudio no se implementa dicha
parte del esquema debido a que las bases de datos disponibles no cuentan con la infor-
macion suficiente.
El presente estudio tiene por objetivo evidenciar y cuantificar comportamientos het-
erogeneos en la percepcion de espacios publicos mediante el uso de encuestas masi-
vas con imagenes. Si bien en campos como la psicologıa ambiental y criminologıa se
ha probado que existen diferencias basadas variables sociodemograficas con estudios de
menor tamano (Bonaiuto, Aiello, Perugini, Bonnes, & Ercolani, 1999; Franklin & Franklin,
2009; Jiang, Mak, Larsen, & Zhong, 2017; Blobaum & Hunecke, 2005), ninguno de los
2
estudios que han abordado esto a gran escala han explorado el tema de la heterogenei-
dad en las percepciones, con la excepcion de Salesses et al. (2013) que declaro no haber
encontrado diferencias. Siendo esta la unica evidencia encontrada en la literatura sobre
comportamientos heterogeneos basado en encuestas masivas de evaluacion de imagenes,
se abre la siguiente pregunta: ¿Es posible identificar comportamientos heterogeneos en la
percepcion de espacios publicos en este contexto?
Para lograr este objetivo se diseno y aplico una nueva encuesta que captura la per-
cepcion de observadores frente a imagenes de espacios publico reales, junto con algunas
de sus caracterısticas sociodemograficas (sexo, edad, nacionalidad, habitos de movilidad
y nivel de estudio). Ademas se complementa la parametrizacion de las imagenes utilizada
por Rossetti et al. (2019) con un algoritmo de deteccion de objetos. Finalmente se uti-
lizaron modelos de eleccion discreta para modelar la heterogeneidad en la percepcion de
los usuarios mediante variacion sistematica en las preferencias. Los resultados de este
estudio logran dar evidencia de que existen variables del entorno que son percibidas de
manera distinta al controlar por genero y patrones de movilidad. Tambien se logro aumen-
tar la interpretabilidad del proceso de evaluacion con el conteo de vehıculos y peatones
obtenidos con el detector de objetos.
El documento a continuacion se estructura de la siguiente manera: en la seccion 2
se describen las metodologıas previamente utilizadas, sus ventajas y desventajas, en la
seccion 3 se definen la metodologıa utilizada para la modelacion; en la seccion 4 se de-
scribe el proceso de recoleccion de dato; y finalmente en las secciones siguientes se pre-
sentan los principales resultados, una aplicacion de los modelos en la ciudad de Santiago
de Chile, las conclusiones del estudio y los futuros lineamientos.
3
2. REVISION BIBLIOGRAFICA
En esta seccion se describen las principales metodologıas utilizadas en la literatura
a lo largo de los ultimos 50 anos para analizar la percepcion de espacios publicos. Se
agruparon las principales metodologıas utilizadas en la literatura para estudiar el espa-
cio publico en cuatro categorıas: metodos cualitativos, metodos basados en modelos de
eleccion discreta, metodos basados en algoritmos de aprendizaje de maquina y metodos
hıbridos de eleccion discreta y algoritmos de ML. Para cada una de ellas se describen
las principales caracterısticas, ventajas y desventajas relacionadas con la modelacion de
comportamientos heterogeneos en la percepcion de aspectos cualitativos del entorno con-
struido.
La complejidad de cada una de las metodologıas se basan en dualidad del proceso de
percepcion que conecta lo tangible del paisaje con la subjetividad del observador. Por un
lado, se encuentran los factores relacionados a los elementos que componen el paisaje, los
que fueron analizados inicialmente por el planificador urbano Lynch (1960), quien postulo
que la calidad de un espacio urbano esta definida por la imaginabilidad de este, la cual se
determina por la facilidad de comprender y navegar el territorio. Ası, la connotacion de la
interaccion con el entorno va a estar definida por facilidad del individuo de entender como
desplazarse en el paisaje a partir de los elementos que lo componen. Complementando lo
anterior desde el campo de la arquitectura, Nasar (1998) propone que esta experiencia no
solo debe ser mirada desde la capacidad de reconocer los elementos del entorno, sino que
ese proceso, inevitablemente esta cargado de evaluaciones, ya sea positivas o negativas,
las cuales determinan la connotacion de la experiencia y pueden ser medidas.
Por otro lado, se encuentran factores intrınsecos al observador, como explica el geografo
Tuan (1977), los seres humanos tenemos una capacidad excepcionalmente refinada de
simbolizacion, y gracias a ella cargamos de significado el espacio que nos rodea. El ser
humano parte construyendo significado desde el instante en que se posiciona en el espa-
cio y observa su entorno. A partir de sı mismo construye un sistema de referencia que le
4
permite abandonar la sensacion de estar perdido y, luego, comienza a cargar de valor el
esquema que construye. Las primeras ideas estaran relacionadas a direccion y distancia de
los objetos que lo rodean, y luego, en funcion de las experiencias pasadas del individuo,
se forman juicios mas complejos sobre el escenario que componen dichos elementos y sus
interacciones.
Es importante destacar que estas dos componentes que se mencionan desde la liter-
atura, no son caminos independientes. Si bien, hay metodologıas que se concentran en
una de ellas, esto resulta en un error. Desde la geografıa humana, (Harvey, 1979) senala
que ha sido un error por parte de algunas corrientes metodologicas intentar entender la
geografıa del espacio por separado de la componente social de quienes lo habitan. Si
bien, por razones de conveniencia en la recopilacion de datos algunas metodologıas mod-
ernas han ignorado las caracterısticas el observador (Dubey et al., 2016), en este estudio se
tendra como objetivo volver a considerarlas y analizar los efectos que tiene su interaccion
con los elementos del paisaje.
2.1. Metodos cualitativos
Desde las ciencias sociales, las humanidades, la arquitectura y la planificacion urbanas
se han propuesto metodologıas concentradas en preguntas orientadas a describir el paisaje
y sus atributos. Por lo general se utilizan entrevistas y encuestas con respuestas abiertas,
mediante las cuales el investigador puede estudiar los atributos cualitativos del paisaje, sin
la intencion de cuantificarlos en una metrica general. Con esto se logra destacar particu-
laridades entre los observadores o entre los atributos del paisaje.
A modo de ejemplo, Lynch (1960) propone solicitar, en una entrevista, a individuos
que dibujen un mapa que describa su ciudad utilizando unicamente de caminos, bordes,
areas, nodos y puntos de referencia. Mediante la acumulacion de varios mapas, serıa
posible entender cuales son los elementos fısicos de la ciudad que mejor la describen. En
un formato piloto, se entrevistaron a 60 individuos en tres ciudades de Estados Unidos
5
(Boston, Jersey City y Los angeles), luego estudiantes de arquitectura plasmarıan dichas
entrevistas en un mapa que sea comparable con el resto, cuyo trabajo tardarıa cerca de
3 a 4 dıas por mapa. Este estudio, segun el propio investigador, necesita de formas mas
eficientes de procesar los datos, para poder extender el tamano y diversificar la muestra.
Por su lado, Nasar (1998), modifica la metodologıa de Lynch para incorporar las eval-
uaciones sobre los elementos caracterısticos que los individuos resaltaban del barrio, pre-
guntando tanto los elementos que sı eran de su agrado como los que no. En la realizacion
del experimento, un equipo de estudiantes de arquitectura entrevisto vıa telefonica a 220
individuos y de forma presencial a otros 180. Dicho estudio abarco dos ciudades. De este
estudio Nasar logra determinar que elementos del paisaje son perjudiciales para percibir
una buena calidad del espacio publico, y cuales deben ser reparados para aumentar la
calidad. Si bien, el uso de entrevistas telefonicas facilito el proceso de recoleccion de in-
formacion, esta metodologıa sigue dependiendo de un proceso que limita la cantidad de
entrevistados y el area que puede ser abarcada.
Si bien desde los estudios de Lynch y Nasar la tecnologıa ha avanzado considerable-
mente, las metodologıas utilizadas en el campo de la psicologıa ambiental siguen uti-
lizando metodologıas de baja escalabilidad. Jiang et al. (2017) utilizaron entrevistas con
imagenes editadas por computador para medir el efecto las intervenciones realizadas en la
percepcion de seguridad. El estudio analizo cinco callejones de la ciudad de Hong Kong,
cada uno evaluado en 15 escenarios alterados, resultando en un total de 80 escenario de
evaluacion. Se entrevistaron a 125 personas vıa internet y 93 de forma presencial, en que
cada participante debıa evaluar 30 fotografıas.
La principal ventaja de estos estudios es que permite un analisis detallado de multiples
variables cualitativas que pueden extraerse del proceso de entrevistas. Con esto se logra
abordar ambas ramas del proceso de observacion, permitiendo explorar detalles por gru-
pos de observadores con caracterısticas similares o, incluso, resaltar particularidades de
individuos en especıfico. Otra ventaja importantes es que, en los casos en que se realizan
entrevistas presenciales en el lugar de estudio, permite al observador utilizar todos sus
6
sentidos para evaluar el entorno, logrando una experiencia mas real que las encuestas que
utilizan imagenes.
Las desventajas de estas metodologıas estan principalmente relacionadas con los cos-
tos de recoleccion de informacion y de diseno experimental. Por un lado, los estudios
en campo tienen la necesidad de realizar entrevistas de larga extension en terreno, siendo
difıcil lograr muestras grandes y asegurar diversidad en ella. Por otro lado, las encuestas
que utilizan imagenes requieren un extenso proceso de seleccion y edicion de las imagenes
a utilizar, lo cual, ademas de ser subjetivo, limita la cantidad de imagenes a incluir en el
estudio. Razon por la cual la cantidad de variables a analizar tambien resulta estar limi-
tada. Otra desventaja comun en las metodologıas cualitativas es que el area de estudio esta
acotada por la capacidad de analisis del investigador y del procesamiento de las respuestas,
por lo cual resultan tener una baja escalabilidad.
2.2. Metodos basados en modelos de eleccion discreta
Desde la ciencia del comportamiento, economıa y la ingenierıa, se han planteado otras
metodologıas, principalmente, basadas en encuestas de preferencias declaradas (PD). Este
instrumento permite presentar escenarios controlados con los cuales es posible cuantificar
la relaciones entre las variables. Estos escenarios pueden ser presentados de multiples
formatos, desde una breve descripcion de las variables relevantes hasta formatos tan com-
plejos como el modelador pueda desarrollar y el encuestado pueda comprender, como
pueden ser imagenes, vıdeos y formatos inmersivos.
Los estudios de Iglesias et al. (2013) y Torres, Greene, and Ortuzar (2013) muestran
esta metodologıa aplicada a encuestas con imagenes de escenarios publicos simulados por
computador. Para la construccion de estas encuestas es necesario definir previamente la
cantidad de variables a incorporar y los niveles de cada una de ellas. Para solucionar
este problema en ambos estudios se utilizan tecnicas de diseno optimo para disminuir la
cantidad de alternativas que deben ser incorporadas en la encuesta con el objetivo de incluir
7
la mayor cantidad de interacciones entre las variables en la menor cantidad de preguntas
posible (Rose & Bliemer, 2009). Para este proceso ademas fue necesario realizar versiones
de prueba de la encuesta para probar la relevancia de las variables incluidas en el analisis,
esto aumenta los costos de implementacion y tiempo de la construccion del instrumento.
Otros ejemplos del uso de estas metodologıas (Rossetti, Guevara, Galilea, & Hurtubia,
2018) utiliza escenarios simulados con diferentes tipos de infraestructura vial para ciclis-
tas con el objetivo de modelar el efecto en la percepcion que genera potenciales usuarios.
De forma similar, (Navarro et al., 2018), proponen una el uso de una encuesta de prefer-
encias declaradas para cuantificar el efecto de areas verdes, ciclovıas y vıas exclusivas de
transporte publico en la evaluacion de proyectos de transporte.
Las ventajas de estas metodologıas estan principalmente relacionadas la posibilidad de
cuantificar los efectos de cada variables incorporada. Mediante la formulacion de mode-
los lineales y metodologıas de estimacion de los parametros de dichos modelos es posible
conocer los efectos marginales de cada parametro y sus elasticidades. Esta informacion
permite entender la connotacion que adquieren los elementos del paisaje y realizar esti-
maciones de la percepcion frente a nuevos escenarios. Estos modelos tambien permiten
explorar la relacion entre lo tangible y proceso psicologicos mediante la incorporacion
de indicadores psicometricos en las encuestas, los cuales luego pueden ser incorporados
como variables latentes (Walker & Ben-Akiva, 2002).
Las desventajas de esta metodologıa se concentran en la necesidad de decidir cuales y
cuantas variables incorporar en la construccion de cada escenario. Por un lado, al reducir
la cantidad de variables se logra simplificar el escenario que se presenta al encuestado, per-
mitiendo asilar el efecto de algunas variables de interes, sin embargo, es importante evitar
excluir variables relevantes por desconocimiento del modelador. Por otro lado, incluir una
mayor cantidad de variables aumenta la cantidad de posibles preguntas a incorporar en
la encuesta. A partir es esto se desprenden otros problemas relacionados con la tasa de
rechazo a contestar una encuesta demasiado larga. Si bien, para asegurar que se logren los
8
objetivos del estudios y seleccionar las variables adecuadas es posible utilizar herramien-
tas de diseno experimental eficiente y aplicar versiones piloto de la encuesta, este proceso
aumenta los tiempos de diseno del experimento.
2.3. Metodos orientados a la prediccion mediante aprendizaje de maquina
En la ultima decada se han desarrollados dos elementos que han permitido superar
el problema de la escalabilidad y disminuir trabajo manual requerido en el proceso del
diseno experimental de los metodos descritos en la secciones 2.1 y 2.2. En primer lugar,
se han generado grandes bases de datos de imagenes de paisajes urbanos (por ejemplo,
Google Street View1 (Anguelov et al., 2010), Geograph2, Mapa Tencent3), con las cuales
se han disminuidos las barreras fısicas para observar simultaneamente gran cantidad de
paisajes. A partir de estas grandes bases de datos se han implementado varias encuestas
para recopilar valoraciones perceptuales de forma sencilla y economica. Ejemplo de estas
iniciativas son las encuestas Place Pulse 1.0 (PP1.0, Salesses et al. (2013)), Place Pulse
2.0 (PP2.0, Dubey et al. (2016)) y Urban Gems (UG, Quercia et al. (2014)), en las cuales
se utilizan comparaciones de a pares de imagenes respecto a criterios subjetivos.
En segundo lugar, el desarrollo en el campo del ML ha permitido el uso de algorit-
mos computacionales que pueden ser entrenados a partir de las comparaciones realizadas
por humanos para, luego, predecir la evaluacion que obtendrıa una nueva imagen sin la
necesidad de un humano. A diferencia de los metodos de eleccion discreta, los modelos
de ML, no necesitan de variables previamente definidas ser calibrados, sino que reciben
como variable de entrada un vector que representa la secuencia de pıxeles de cada imagen.
Por ejemplo, Naik, Philipoom, Raskar, and Hidalgo (2014) realizan un ordenamiento de
puntaje para el conjunto de imagenes evaluadas en PP1.0, con el cual entrenan maquinas
de vectores de soporte que predice el puntaje que obtendrıa una nueva imagen. De forma
similar, (Dubey et al., 2016) entrenan una red neuronal convolucional para predecir el
1https://www.google.com/streetview/2Gran Bretana e Irlanda (https://www.geograph.org.uk/), Alemania (https://geo-en.hlipp.de/).3 China (https://map.qq.com/)
9
ganador al enfrentar pares de imagenes utilizando las observaciones de PP2.0. Por otro
lado, (Liu, Silva, Wu, & Wang, 2017) utilizan imagenes clasificadas por expertos para
luego mapear el estado de mantencion y continuidad en las fachadas de una ciudad.
Una gran ventaja de utilizar grandes bases de datos de imagenes de espacios publicos,
es que permite incluir una diversidad mayor de escenarios urbanos sin la necesidad de
definir con anterioridad las variables que diferenciara una imagen de otras. Otro aspecto
a destacar es que al utilizar escenarios reales y no modelos computacionales, se vuelve
mas realista el experimento para el observador. Sin perjuicio de lo anterior, es importante
destacar que la el uso de imagenes aun es una representacion parcial que no refleja la ex-
periencia completa de estar fısicamente en un lugar. Como senalan Rossetti and Hurtubia
(2020), el uso de imagenes presenta una distorsion estadısticamente significativa, respecto
de una encuesta presencias.
Por el lado de las desventajas, es importante destacar que la mayorıa de estos modelos
utilizan redes neuronales convoluciones, las cuales reciben directamente la imagen como
variable de entrada, sin necesidad de un procesamiento previo, y entregan la probabilidad
de haber recibido cierto puntaje segun la escala de valoracion definida en la base de datos
de entrenamiento del modelo. Si bien estos modelos logran un alto nivel de precision
en la estimacion de puntajes, a su vez, tienen la desventaja que no es posible realizar
interpretaciones directas de ellos. A este problema se le conoce como problemas de inter-
pretabilidad de los modelos, y se atribuye a su funcionamiento como cajas negras. Lo que
impide analizar la conexion que existe entre el paisaje y los factores psicologicos propios
del proceso de evaluacion mencionado al comienzo de esta seccion.
Como explican Guidotti et al. (2018), existen metodologıas propuestas para entender
algunas redes neuronales, pero debido a la configuracion altamente no lineal de las redes
convolucionales, no es posible estimar los efectos marginales de las variables explicativas.
Aun cuando es posible realizar analisis sensibilidad del modelo, la interpretacion de los
patrones de pıxeles encontrados por la sensibilizacion no siempre entrega informacion
interpretable. Ademas, en la literatura esta reportado que estos algoritmos pueden ser
10
sensibles a patrones de la imagen que podrıan se indetectables, o irrelevantes, para un
humano. O en caso contrario, podrıan ser enganados por perturbaciones que un humano
lograrıa descifrar (Guidotti et al., 2018).
2.4. Metodos orientados a las explicabilidad mediante tecnicas combinadas
Recientemente se han utilizado en forma conjunta tecnicas econometricas con her-
ramientas de aprendizaje de maquina, con el intento de combinar las ventajas de cada una
de estas metodologıas. Utilizando las mismas bases de datos descritas en la en la seccion
2.3, estos modelos contemplan dos etapas de modelacion. En primer lugar, realizan un
procesamiento previo de las imagenes con algoritmos de ML, con los cuales extraen vari-
ables explicativas y semanticamente interpretables a utilizar en los modelos predictivos,
y de forma posterior se utilizan tecnicas econometricas para modelar la valoracion que
realizan los observadores.
Coburn et al. (2019) define atributos de la imagen a partir de las propiedades de color
(tono, brillo y saturacion) y complejidad de la imagen (densidad y patrones de aristas)
utilizando librerıas del software MATLAB y presencia de areas verdes con herramientas
del software Adobe Photoshop. Luego calibran una regresion lineal multiple con la cual se
determina la correlacion entre nivel de apariencia natural de un ambiente con la presencia
de atributos del interior, o exterior, de edificios.
Por ejemplo, Zhang et al. (2018) y Rossetti et al. (2019), utilizan algoritmos de seg-
mentacion semantica, PSPNet (Zhao, Shi, Qi, Wang, & Jia, 2017) y SegNet (Badrinarayanan,
Handa, & Cipolla, 2015), respectivamente. Este proceso consiste en un etiquetado de cada
pıxel de la imagen con algun elemento del paisaje urbano, reconociendo por ejemplo,
pıxeles de concreto o vegetacion. Luego con esta informacion como variables de entrada,
Zhang et al. (2018) estiman modelos de regresion lineal multiple con los cuales determina
niveles de correlacion entre las categorıa del segmentador y las variables de percepcion.
Mientras que, Rossetti et al. (2019) utilizan esta variables en conjunto con las propiedades
11
de color de las imagenes para estimar modelos logit para cada variable perceptual, a partir
de los cuales se obtiene como resultado el efecto marginal que tiene cada variable sobre el
proceso de decision.
La principal ventaja de estas metodologıas es que, al conocer las variables de entrada
de los modelos predictivos y trabajar con modelos lineales, es posible calcular la impor-
tancia que tiene cada elemento sobre la valoracion declarada por los observadores. Esta
diferencia resulta ser una ventaja clave por sobre los modelos basados unicamente en
aprendizaje de maquina, ya que aporta conocimiento para los procesos de evaluacion y
diseno del espacio publico.
La principal limitacion de esta metodologıa es que los elementos que son detectados
en la imagen deben ser definidos previamente por el modelador y es necesario contar
con una gran cantidad de imagenes del objeto que se desea buscar para poder entrenar
el modelo de deteccion o segmentacion. Por lo cual es importante reconocer que puede
haber elementos de la imagen que sı son reconocibles por los observadores, pero que no
esten siendo incorporados por el modelador. De todas formas, existen hoy en dıa modelos
entrenados, como SegNet, cuyo codigo de encuentra disponible en internet para su uso y
replicacion.
2.5. Heterogeneidad en la percepcion
Para finalizar la revision bibliografica se describen a continuacion la posibilidad de
incorporar en la modelacion un analisis de comportamientos heterogeneos en la poblacion
en cada una de las metodologıas descritas. Por el lado de los modelos cualitativos, hay
abundante evidencia de percepciones y comportamientos heterogeneos. En el experimento
de Nasar (1998), se muestra que los habitantes de una ciudad perciben los elementos de
la ciudad de forma diferente a quienes solo visitan el lugar, ya sea por ocio o trabajo. En
la literatura de la sicologıa ambiental se ha demostrado que las mujeres y las personas
de mayor edad, en general, declaran percibir menor sensacion de seguridad en escenarios
12
urbanos (Bonaiuto et al., 1999; Franklin & Franklin, 2009). Jiang et al. (2017) incluso
logran cuantificar en estudios de bajo tamano muestral algunas diferencias en como las
mujeres perciben la seguridad de forma diferente que los hombres en funcion de la pres-
encia de vegetacion. De forma similar Blobaum and Hunecke (2005) muestran diferencias
basadas en el sexo para paisajes en funcion de niveles de encierro y luminosidad.
En cuanto a los modelos basados en aprendizaje de maquina no se han explorado
diferencias en la percepcion de los observadores. La unica base de datos que incorporo
una caracterizacion del usuario es PP1.0, pero en su version disponible en lınea no se pre-
senta dicha informacion. En dicho estudio, se realizo un ordenamiento de las imagenes
utilizando grupos segmentados por genero, edad y localizacion del observador, contra el
orden a partir de las observaciones de submuestras generadas aleatoriamente y no se en-
contro diferencias estadısticamente significativas. Por esta razon en PP2.0 no se incorporo
un catastro de informacion del individuo.
Por ultimo, en los modelos hıbridos, (Rossetti et al., 2019) proponen un esquema
de modelamiento que permitirıa incluir en el analisis las variables del observador en la
prediccion de la percepcion. Este esquema se presenta en la Figura 2.1, en el cual se uti-
lizan las variables de la imagen y las caracterısticas del usuario para construir una variable
latente que representa la percepcion del observador, la cual se utiliza luego para estimar un
indicador cuantificable de dicha percepcion. Desafortunadamente, los conjuntos de datos
actuales no son adecuados para esta extension. Para superar esta limitacion, se diseno
una nueva encuesta (http://wekun.ing.puc.cl/) con un formato similar a la anteriormente
mencionadas, los detalles de esta nueva encuesta se describiran en la seccion 4.
13
Figura 2.1. Esquema para modelos con heterogeneidad.Fuente: Rossetti et al. (2019)
14
3. METODOLOGIA
Considerando las ventajas y limitaciones de las metodologıas descritas en la seccion
anterior, se tomo como punto de partida para este estudio la metodologıa y marco concep-
tual propuesto por Rossetti et al. (2019). Se utilizo una encuesta de comparacion de pares
de imagenes de espacios publicos, sobre las cuales se solicita evaluar un atributo cualita-
tivo. En cada escenario existen tres alternativas de eleccion, la imagen de la izquierda, la
imagen de la derecha, o declarar indiferencia.
De forma general, la metodologıa utilizada modelar la percepcion consta de dos eta-
pas. En primer lugar se realiza una extraccion de atributos de las imagenes utilizadas. Se
conservan los atributos extraıdos por (Rossetti et al., 2019) y se complementa esta infor-
macion con un conteo de objetos obtenido mediante un algoritmo de deteccion de objetos.
En segundo lugar, se define un modelo de logit ordinal que con cual se modela la eleccion
realizada por el usuario al comparar pares de imagenes. En base a este se modifica la
forma funcional del modelo con el objetivo de comprobar la existencia de heterogeneidad
en las percepciones.
Los detalles de la encuesta utilizada y sobre el proceso de recoleccion de informacion
se presentan en el siguiente capıtulo (4). Los detalles de cada paso de la metodologıa, sus
extensiones y limitaciones se describen a continuacion:
3.1. Aprendizaje de maquina para extraer atributos de las imagenes
Como se menciono anteriormente, Rossetti et al. (2019) utilizan dos tipos de atributos
para describir las imagenes. En este estudio se conservan ambos niveles de informacion.
Los atributos de bajo nivel (abreviado LLF, por su sigla en ingles Low Level Features)
consideran el histograma de colores, el nivel de saturacion y la luminosidad de la fotografıa
del modelos de color HSL, cada uno de ellos descritos por su media y desviacion estandar.
Estos elementos tienen por objetivo principalmente incorporar el efecto que puede tener,
por ejemplo, un dıa nublado contra un dıa soleado en la percepcion de la imagen.
15
Mientras que los atributos de alto nivel (abreviado HLF, por su sigla en ingles High
Level Features) consideran un conteo de los pıxeles que pertenecen a algunos elementos
del espacio publico que son reconocible por un humano. El algoritmo recibe una matriz
que representa cada pıxel de la imagen, la cual es sometida a una serie de transformaciones
no lineales hasta llegar a una ultima capa en la cual se define para cada pıxel la probabil-
idad de pertenecer a cada una de las categorıas, o etiquetas, disponibles (Badrinarayanan
et al., 2015). Con esto se etiqueta a cada pıxel con la categorıa con la mayor probabilidad.
Las categorıas disponibles por en el algoritmo utilizado son las siguientes: Cielo, edificios,
veredas, calzadas, vegetacion, postes, senaletica, peatones, cercas, ciclistas y automoviles.
En la figura 3.1 se muestra un ejemplo del resultado del segmentador semantico en la cual
cada pıxel esta pintado segun la categorıa que le fue asignado.
Para poder incluir el efecto de la posicion de los objetos en el analisis, se dividio
cada imagen en dos partes con una lınea horizontal en la mitad de la imagen. A la mitad
superior de la imagen se definio como ”norte” y a la inferior ”sur”, abreviados N y S,
respectivamente. La nomenclatura utilizada de aquı en adelante para referirse a la variables
extraıdas mediante este algoritmo indica que es un HLF, su ubicacion en la imagen, ya sea
N o S, seguido por el nombre de la etiqueta en ingles.
Un elemento fundamental de esta metodologıa son las imagenes con las cuales repre-
sentamos los escenarios urbanos que seran evaluados. Aun cuando una imagen no logra
ser equivalente a estar fısicamente en un lugar (Rossetti & Hurtubia, 2020), esta logra ser
una buena referencia para simular dicha experiencia. Esto ocurre, porque la vista es el
sentido que juega el mayor rol en el proceso de conocer el espacio (Tuan, 1977). Teniendo
en consideracion esto, es importante mantener la ambicion por entender y representar de
mejor forma el proceso de vision de un humano. Si bien el conteo de pıxeles de algunos
elementos entrega informacion que es sirve como una primera aproximacion, esta es una
representacion que carece de efectos que podrıan tener un rol importante en la forma en
que un humano observa su entorno, como lo son la cantidad de elementos y su proximidad
con el observador.
16
Figura 3.1. Ejemplo de salida del modelo de Segmentacion SemanticaFuente: Elaboracion propia
Con el objetivo de avanzar hacia una mejor representacion del proceso de vision de
un humano, se utilizo un algoritmo de deteccion de objetos para obtener un conteo de la
presencia de algunos elementos en el paisaje. El modelo utilizado corresponde al presen-
tado por Ren, He, Girshick, and Sun (2015) y entrenado con conjunto de imagenes de
entrenamiento COCO (Lin et al., 2014), ambos recursos disponibles en internet. El set de
17
Figura 3.2. Ejemplo de salida del modelos de deteccion de objetos.Fuente: Elaboracion propia.
datos COCO consta de 150 categorıas de objetos, entre las cuales se incorporan varios el-
ementos tıpicos de paisaje urbanos como distintos tipos de vehıculos, peatones, semaforos
y senaletica, entre otros. En la figura 3.3 se muestra un ejemplo del resultado de la misma
imagen de la figura 3.1, en la cual se logran identificar cinco peaton, un automovil, un bus
y un semaforo.
3.1.1. Limitaciones de los algoritmos de aprendizaje de maquina
Una consideracion importante que hay que tener al momento de utilizar modelos de
aprendizaje automatico es que no son perfectos y estan altamente condicionados por el
conjunto de datos con el cual son entrenados. Como se explica en la seccion 2.3, es-
tos algoritmos que reciben directamente imagenes como variable de entrada, pueden ser
enganados con perturbaciones en las imagenes o cuando una imagen no responde al patron
con el que fue entrenado. De forma hipotetica, si en la base de entrenamiento solo se in-
cluyen fotografıas de automoviles de frente, difıcilmente el algoritmo sera capaz de identi-
ficar un automovil de perfil. Por este motivo es importante utilizar bases de entrenamiento
18
Figura 3.3. Ejemplo de salida del modelos de deteccion de objetos.Fuente: Elaboracion propia.
que sean coherentes con los resultados que se busca extraer de las imagenes. En el caso
de esta investigacion las bases de entrenamiento de ambos algoritmos utilizados consid-
eran paisajes urbanos que son relativamente comparables y coherentes con las imagenes
de Anguelov et al. (2010). Sin embargo, no es posible tener certeza de que los resulta-
dos sean los esperados, por lo que es recomendable realizar una inspeccion visual para
confirmar que los resultados son coherentes y sirven para luego estimar modelos que sean
interpretables.
Para cada algoritmo se revisaron las 100 imagenes con mayor porcentaje de pıxeles
por categorıa, en el caso de la Segmentacion, o mayor cantidad de objetos detectados, en
el caso de la deteccion de objetos. A continuacion se presentan dos errores detectados du-
rante la extraccion de atributos de las imagenes, uno para cada algoritmo, y las soluciones
que se definieron para cada situacion. En cuanto al primer algoritmo, se detectaron algu-
nas imagenes con errores en la definicion de la categorıa automovil. En la Figura 3.4 se
presentan, a la izquierda, las imagenes originales, y para cada una de ellas, a su derecha, el
resultado de la segmentacion. En las imagenes de la derecha, el color morado representa
19
los pıxeles que fueron identificados dentro de la categorıa Automovil. Es posible observar
que el segmentador confunde los grupos de pıxeles rojos con automoviles. Sin embargo,
al analizar las imagenes la variables Automoviles en la seccion inferior de la imagen no
se detecto el mismo patron. El porcentaje de falsos positivos dentro de las 100 imagenes
Figura 3.4. Ejemplo de malas segmentaciones para la variables Automovil.Fuente: Imagen elaborada con Segnet
con mayor cantidad de pıxeles de automovil es un 30%, pero al observar las siguientes
20
100 imagenes este porcentaje disminuye a 19%. Al observar imagenes con menos canti-
dad de pıxeles de automovil la cantidad de errores disminuye. En este caso, la cantidad
de imagenes que tienen un gran porcentaje de pıxeles identificados como automovil es
pequena, como se puede ver en la Figura 3.5. Una alternativa para solucionar este prob-
lema es detectar un umbral de tolerancia y descartar las imagenes que se encuentren fuera
del intervalo deseado.
Figura 3.5. Histograma del porcentaje de cobertura de la categorıa Au-tomovil de cada imagen.Fuente: Elaboracion propia.
Respecto al algoritmo de deteccion de objetos, Se reviso la consistencia de los 15 ele-
mentos con mayor frecuencia entre la imagenes utilizadas por (Rossetti et al., 2019). En
la figura 3.6 de muestran imagenes detectadas con la categorıa Tren, pero en las cuales
no ser observa ningun tren. Frente a esta inconsistencia, existe la posibilidad de detec-
tar, mediante inspeccion visual, algun patron que sea consistente entre las imagenes y
cambiar la etiqueta por este nuevo objeto detectado. Si bien, se puede observar que los el-
ementos detectados como trenes comparten la caracterısticas de ser rectangulos alargados
con patrones geometricos (como ventanas) en su interior, no fue posible asignar un nuevo
nombre a la categorıa debido a la diversidad de errores. Debido a que esta variable no en-
tregarıa informacion interpretables, se decidio no incorporarla en la etapa de modulacion.
Otra alternativa frente a cualquier algoritmo de ML es entrenar una nueva red o reentrenar
21
una red ya entrenada con mejores imagenes para aumentar la calidad de la prediccion. El
problema con implementar esta alternativa son los altos costos, de tiempo principalmente,
en preparar una base de entrenamiento de alta calidad. Para este estudio no se implemento
esta medida, principalmente por la demanda de tiempo que esta medida requerirıa.
Fuente: Elaboracion propia a partir de imagenes de Google Street View.
Figura 3.6. Ejemplos errores deteccion de objetos.
3.2. Modelos de eleccion discreta
Como se menciono al comienzo de este capıtulo, para recopilar evaluaciones percep-
tuales se utilizo una encuesta de comparacion de imagenes. Los detalles de la encuesta
utilizada y sobre el proceso de recoleccion de informacion se presentan en el siguiente
capıtulo (4). En esta seccion se plantea la formulacion matematica que permite adaptar las
22
preguntas de dicha encuesta para modelar la percepcion del espacio publico mediante un
modelo logit ordinal, el cual se fundamenta en la Teorıa de Utilidad Aleatoria (McFadden
et al., 1973).
En la encuesta, cada comparacion contempla dos imagenes de espacios publicos se-
leccionadas de forma aleatoria, las cuales se ordenan de horizontal quedando una al lado
de la otra1. A partir de esta configuracion, se define un escenario de eleccion k en el cual
se presentan tres alternativos i, siendo i = 1 para la imagen 1 de la izquierda e i = 2 para
la de la derecha. Ademas, se dispone de un boton que permite senalar que el observador
es indiferente entre las dos elecciones, representado por la letra e. Cada imagen i cuenta
con un conjunto de atributos r, los cuales fueron obtenidos mediante los proceso descritos
en la seccion 3.1.
Se define, entonces, la funcion de utilidad Uin como la utilidad percibida por cada
individuo n al observar la imagen i. Como se muestra en la ecuacion (3.1), Uin depende
de los atributos Xi,r, los cuales son multiplicados cada uno por un parametro θi,r, que
representa su efecto marginal sobre la utilidad percibida. Ademas, considera una compo-
nente de error aleatorio εin que captura los errores de modelamiento no incorporados en
Uin. De la misma forma, en las ecuaciones (3.2) y (3.3) se define la utilidad percibida por
el observador en el escenario j como la diferencia de las utilidades de dichas imagenes.
Junto a esto, se definen los parametros τ1 y τ2 los cuales indican el rango dentro del cual
el usuario declara ser indiferente entre las dos imagenes presentadas.
Uin =∑r
θr ·Xir + εin, i ∈ 1, 2 (3.1)
Lkn = U2n − U1n (3.2)
Lkn =∑r
θr · (X2,r −X1r) + ε2n − ε1n (3.3)
1En la version disponible para telefonos celulares las imagenes se ordenan de forma vertical, siendo laimagen superior equivalente a la imagen de la izquierda y la inferior a la de la derecha.
23
Figura 3.7. Diagrama explicativo del modelo de decision con dos imagenesy tres alternativas. A: eleccion de la imagen de la izquierda, i: ambasimagenes son equivalentes y B: eleccion de la imagen de la derecha.Fuente: Elaboracion propia.
En base a lo anterior, se representa en la Figura 3.7 el recorrido de Lkn para facilitar
la comprension del modelo. En el caso en que Lkn ≤ τ1, significa que el observador n
prefiere la imagen de la izquierda. De forma analoga, si Lkn ≥ τ2 el observador prefiere
la imagen de la derecha por sobre la de la izquierda. Y en caso de que τ1 < Lkn < τ2
significa que el observador es indiferente frente al escenario de eleccion k equivalentes en
caso de que. partir de este modelo, asumiendo que las componentes de error ε tienen una
distribucion Gumbel, se calcula la probabilidad de eleccion de las alternativas 1, e y 2 en
las ecuaciones (3.4), (3.5) y (3.6), respectivamente.
P1 = 1− 1
1 + exp(−µ(Lkn − τ1))(3.4)
Pe =1
1 + exp(−µ(Lkn − τ1))− 1
1 + exp(−µ(Lkn − τ2))(3.5)
P2 =1
1 + exp(−µ(Lkn − τ2))(3.6)
En base a las probabilidad de eleccion de cada alternativa para cada escenario es posi-
ble estimar los parametros θr y τj mediante el problema de maxima verosimilitud que se
presenta en la ecuacion (3.7). En ella L representa la probabilidad conjunta de cada es-
cenario de eleccion k ∈ K evaluado por cada observador n ∈ N y los exponentes gikn
toman valor 1 cuando la alternativa i es escogida en cada escenario k por el observador n y
cero en caso contrario. El parametro µ corresponde a un parametro de escala que se asume
24
indeterminado para que el modelo sea estimable, por lo cual se asume µ = 1 (Ben-Akiva,
Lerman, & Lerman, 1985).
maxµ,θ,τ
L =K∏k=1
N∏n=1
P1(µ, θ, τ)g1kn · Pe(µ, θ, τ)gekn · P2(µ, θ, τ)g2kn (3.7)
3.3. Modelacion con heterogeneidad
Finalmente, para incorporar heterogeneidad basada en los observadores en el modelo
de eleccion se destacan tres alternativas con distintos niveles de complejidad que fueron
considerados. El primero consiste en segmentar la base de datos controlando por variables
sociodemograficas, generando ası, subconjuntos de la muestra con los cuales es posible es-
timar modelos independientes que luego pueden ser comparados para comprobar que sean
estadısticamente diferentes. La desventaja de este enfoque es que al segmentar la muestra
en subconjuntos pequenos, no existe la seguridad de contar con un tamano muestral sufi-
ciente para estimar todos los modelos. Ademas, existe un alto numero de combinaciones
posibles entre las variables sociodemograficas con lo cual el proceso de modelacion se
vuelve ineficiente y sus resultados poco comparables.
En segundo lugar, existe la posibilidad de utilizar clases latentes (Walker & Ben-Akiva,
2002). Este enfoque supone la existencia de categorıas discretas s ∈ S de observadores y
que la pertenencia a cada categorıa puede ser estimada mediante una funcion de probabil-
idad P (s|Zn, γs), en la cual Zn representa un vector de atributos del observador y γs un
parametro de escala de la clase s. Ademas, los parametros θ y τ de funcion de utilidad de
cada escenario de eleccion se vuelve dependiente de la pertenencia a cada clase. Luego, el
modelo de maxima verosimilitud incorpora dicha probabilidad de acuerdo al teorema de
probabiliades totales, tal como se presenta en la ecuacion 3.8.
maxµ,θ,τ
L =K∏k=1
N∏n=1
S∑s=1
P (s|Zn, γs) · P1(µ, θs, τs)g1kn · Pe(µ, θs, τs)gekn · P2(µ, θs, τs)
g2kn
(3.8)
25
Este enfoque presenta dos dificultades en su aplicacion. La primera es que no es
posible determinar a priori la cantidad de clases que sea optima para la muestra que se esta
modelando, ni siquiera le existencia de mas de una clase. En segundo lugar, se requiere
de un alto costo computacional en el proceso de estimacion, debido a que se generan
configuraciones no lineales en las que es posible encontrar multiples optimos locales.
Una tercera opcion es modelar la heterogeneidad de los usuarios mediante variaciones
sistematicas en las preferencias, esta formulacion consiste en detectar interacciones sig-
nificativas entre las caracterısticas del observador y las variables de cada escenario de
eleccion. Para modelar dichas interacciones se utilizo la formulacion presentada en la
ecuacion (3.9). En la cual, para un atributo q se incorporan las variables binarias δm
que representan alguna caracterıstica del observador, y el parametro θm que representa la
diferencia en el efecto marginal de dicho atributo al interactuar con la caracterıstica δm.
Es importante resaltar que para una caracterıstica del observador con m categorıas, solo
pueden ser incorporadas m− 1 de estas categorıas para que el modelo sea estimable. De
esta manera las categorıas incluidas deben ser interpretadas en referencia a la variable
excluida, cuyo efecto sera capturado de todas formas por el parametro θk.
Ljn =∑r
θr ·Xj,r + (θq +∑m
θm · δm) ·Xj,q + εjn (3.9)
Para el desarrollo de este trabajo se utilizaron de variacion sistematica como una
primera lınea de exploracion, debido a ser una configuracion sencilla, facil y rapida de
explorar. Sin embargo, es importante considerar que tiene una desventaja similar a la al-
ternativa de modelos independientes relacionada con la gran cantidad de combinaciones
posibles entre las variables sociodemograficas.
26
3.4. Dependencia lineal de la segmentacion semantica
Antes de resolver el problema de maxima verosimilitud para estimar los ponderadores
theta, es importante tener en consideracion que los parametros que son extraıdos mediante
segmentacion semantica son linealmente dependientes. Esta dependencia se surge porque
al sumar todas la categorıas segmentadas para una imagen cualquiera el resultado siempre
sera una constante C. Al incorporar esta dependencia como una restriccion del problema
de maxima verosimilitud se generan interacciones entre los estimadores que tienen como
consecuencia que el modelo no sea estimable.
A modo de ejemplificar este problema se plantea la ecuacion (3.10) que se obtiene
al linealizar el problema de optimizacion presentado en la ecuacion (3.7) aplicando una
transformacion logarıtmica sobre la funcion objetivo, tal que ` = ln(L). Ademas se in-
corpora a este una restriccion de las variables Ai y Bi que presentan dependencia lineal.
Para este ejemplo se plantea una dependencia lineal entre dos variables, sin embargo el
analizais es equivalente para casos con mas variables relacionadas. Por simplicidad se re-
sumen en la funcion φ(θ, τ) los componentes de la funcion ` que no contienen las variables
Ai y Bi.
maxθ,τ
` = φ(θ, τ) + θA · Ai + θB ·Bi
s.a. Ai +Bi = C(3.10)
maxθ,τ
` = φ(θ, τ) + (θA − θB) · Ai + θB · C(3.11)
Debido a la interaccion de los parametros (θA − θB) en la ecuacion (3.11), la cual
se obtiene al incorporar la restriccion en la funcion objetivos, el modelos resulta no es-
timable. Por esta razon es necesario fijar, a lo menos, una de las categorıas obtenidas de la
segmentacion semantica. Si bien, esto impide obtener una interpretacion individual de las
variables, es posible analizar las relaciones encontradas entre las variables tomando una,
o algunas, de ellas como punto de referencia.
27
3.5. No linealidad del conteo de objetos
Ademas de lograr incorporar el conteo de elementos mediante la deteccion de objetos,
se plantea la hipotesis acerca de que alguna de estas variables podrıan presentar com-
portamientos no lineales. Para probar esta hipotesis se presentan varias alternativas de
configuraciones no lineales. Estas alternativas se presentan a continuacion como modifi-
caciones de la ecuacion general 3.12. En ella se define una funcion Ω relacionada a alguna
variable obtenida mediante el proceso de deteccion de objetos.
Lj =∑r
θr ·Xj,r + Ω(θk, Xj,k) + εj (3.12)
Funcion por tramos:
Ω(θk, Xj,k) =∑m
θm · δm ·Xj,k (3.13)
Funcion logarıtmica:
Ω(θk, Xj,k) = θk · log(Xj,k) (3.14)
Funcion potencia con exponente λ:
Ω(θk, Xj,k) = θk ·Xλj,k (3.15)
Formulacion Box-Cox:
Ω(θk, Xj,k) =
θk ·Xλj,k−1
λ, si λ 6= 0
θk · log(Xj,k) , si λ = 0(3.16)
Como primera alternativa se presenta una funcion por tramos, donde cada elemento k
se categoriza en rangos utilizando variables dummy δm. Luego, se presenta la una trans-
formacion logarıtmica aplicada sobre el conteo de objetos. En tercer lugar se incorpora
un parametro lambda como un exponente de una funcion potencia. Finalmente se plantea
28
una transformacion Box-Cox. A priori no se tiene conocimiento que permita optar por
una alternativa por sobre las otras, por lo que cada una de estas alternativas fue probada
durante el proceso de modelamiento. Los resultados se presentan en la seccion 5.
3.6. Glosario de variables de interes
A modo de resumen, se presenta en la tabla 3.1 un glosario con las variables que seran
utilizadas en la etapa de modelacion. De esta lista no seran necesariamente incluidas todas
las variables en los modelos finales.
29
Tabla 3.1. Glosario de las variables extraıdas
Variable Significado
LLF: edges Porcentaje de pıxeles que son identificados como aristas mediante el uso
del Algoritmo de Canny (Canny, 1986)
LLF: meanh Media del parametro matriz de la imagen.
LLF: meanl Media del parametro luminosidad de la imagen.
LLF: means Media del parametro saturacion de la imagen.
LLF: stdevh Desviacion estandar del parametro matriz de la imagen.
LLF: stdevl Desviacion estandar del parametro luminosidad de la imagen.
LLF: stdevs Desviacion estandar del parametro saturacion de la imagen.
HLF N/S: Bicyclist Cantidad de pıxeles identificados como bicicleta o ciclista.
HLF N/S: Building Cantidad de pıxeles identificados como edificios.
HLF N/S: Car Cantidad de pıxeles identificados como vehıculo.
HLF N/S: Fence Cantidad de pıxeles identificados como cerca o reja.
HLF N/S: Pavement Cantidad de pıxeles identificados como vereda.
HLF N/S: Pedestrian Cantidad de pıxeles identificados como peatones.
HLF N/S: Pole Cantidad de pıxeles identificados como postes.
HLF N/S: Road Cantidad de pıxeles identificados como calzada.
HLF N/S: SignSymbol Cantidad de pıxeles identificados como senaletica.
HLF N/S: Sky Cantidad de pıxeles identificados como cielo.
HLF N/S: Tree Cantidad de pıxeles identificados como vegetacion.
OD: bench Unidades de bancas identificadas en la imagen.
OD: bike Unidades de bicicletas identificadas en la imagen.
OD: bus Unidades de buses identificados en la imagen.
OD: car Unidades de automoviles identificados en la imagen.
OD: chair Unidades de sillas identificadas en la imagen.
OD: fire hydrant Unidades de hidrantes identificados en la imagen.
OD: light Unidades de faros identificados en la imagen.
OD: motorcycle Unidades de motocicletas identificadas en la imagen.
OD: person Unidades de peatones identificados en la imagen.
OD: potted plant Unidades de plantas en maceteros identificadas en la imagen.
OD: train Unidades de trenes identificados en la imagen.
OD: truck Unidades de camiones identificados en la imagen.
OD: stop sign Unidades de senales de transito identificados en la imagen.
OD: umbrella Unidades de sombrillas identificadas en la imagen.
30
4. RECOLECCION DE INFORMACION
Tal como se menciono con anterioridad, la nueva encuesta realizada consiste en una
comparacion de pares de imagenes bajo algun criterio de evaluacion subjetivo como se
ejemplifica en la Figura 4.1. La principal diferencia con otras encuestas realizadas con
anterioridad es que se incorpora el registro de caracterısticas sociodemograficas del en-
cuestado, como se muestra en la Figura 4.2, las cuales se relacionan de forma anonima a
sus respuestas. Esta encuesta fue presentada en formato web para facilidad de su difusion.
En cuanto al banco de imagenes utilizadas, este corresponde al mismo grupo de imagenes
utilizadas en el estudio de Dubey et al. (2016).
Figura 4.1. Captura de pantalla de la seccion principal de la encuesta depercepcion utilizadaFuente: Elaboracion propia.
La encuesta se compone de tres secciones independientes. En la primera, se pide a los
observadores registrar algunas caracterısticas sociodemograficas: sexo, edad, nivel educa-
tivo, residencial ubicacion y habitos de movilidad. Luego de esto, el encuestado sigue a
la seccion de comparacion de imagenes. En ella se presentan dos imagenes de espacios
publicos y un criterio de evaluacion. Este criterio es escogido al azar entre las cinco posi-
bles preguntas incluidas en el experimento (mejor lugar para caminar/ mejor lugar para
vivir/ lugar mas seguro/ lugar mas bonito/ lugar que parece de mayor nivel de ingresos).
31
Figura 4.2. Captura de pantalla de la seccion de caracterizacion del obser-vadorFuente: Elaboracion propia.
Esta seccion no cuenta con un lımite de respuestas, de manera tal de aprovechar al maximo
la motivacion de cada encuestado. Sin contradecir lo anterior, luego de responder 10 pre-
guntas, el encuestado tiene la alternativa de contestar la tercera seccion, la cual busca
recopilar el nivel de acuerdo con frases relacionadas a actitudes y conductas del individuo.
Esta seccion, si bien no es utilizada en este estudio, puede ser utilizada en futuros estudios
para la modelacion de variables latentes relacionadas con actitudes y sesgos perceptuales.
Respecto a la primera seccion, es importante resaltar que el primer criterio de seleccion
de las caracterısticas a ser incluidas en la encuesta fue minimizar la cantidad de preguntas
para reducir una posible desercion del encuestado debido a la extension de la encuesta. Por
esta razon se priorizaron preguntas categoricas y evitar que el usuario deba ingresar texto.
Otro beneficio de esta decision es que el procesamiento de la respuesta serıa uniforme,
reduciendo los errores ortograficos.
32
4.1. Set de imagenes utilizado
El banco de imagenes utilizado es el mismo que se utilizo en la encuesta realizada
por (Dubey et al., 2016). Estas imagenes recolectadas de Google Street view fueron se-
leccionadas aleatoreamente de diferentes ciudades de mundo. Hasta el momento se han
utilizado 42.445 imagenes del conjunto de datos, las cuales se han emparejado de forma
aleatoria. A partir de estas imagenes se extrajeron las variables descritas en la seccion
anterior y cuyos medidas de tendencias se presentan en la tabla 4.2. Como se puede ver
en la tabla existen diferencias en la composicion de cada mitad de la imagen. En la parte
superior hay mayor presencia de pıxeles de cielo, edificios y vegetacion. Por el contrario
en la parte inferior predomina la calzada, la vereda y los automoviles.
En cuanto al conteo de objetos, presentado en la seccion inferior de la tabla, se puede
ver que los elementos detectados con mayor frecuencia corresponden a vehıculos. Eso
hace pensar que tienen un papel importante al modelar la percepcion del espacio urbano,
pero su efecto individual no esta claro para nosotros. Otro hecho relevante de la tabla
es que la mayorıa de los objetos solo aparecen en un numero bajo de imagenes, solo la
etiqueta del automovil se identifico en mas del 25% de las imagenes.
33
Tabla 4.1. Medidas de tendencia de las variables en el set de datos utilizados
Objeto Cantidad de Media de objetos Desv. min 25% 50% 75% max
imagenes (1) por imagen (2) estandar (2)
LLF: blobs 42.445 6,78 5,66 0,00 3,00 6,00 9,00 103,00
LLF: edges 42.445 0,05 0,03 0,00 0,03 0,04 0,06 0,19
LLF: meanh 42.445 60,47 11,05 3,56 53,19 59,15 66,78 131,89
LLF: meanl 42.445 118,55 17,15 6,97 108,85 121,10 130,85 198,14
LLF: means 42.445 37,47 13,83 2,18 27,14 36,37 46,36 226,13
LLF: stdevh 42.445 41,61 4,99 7,56 38,76 41,41 44,31 71,99
LLF: stdevl 42.445 53,65 9,31 8,63 47,97 53,96 59,48 98,02
LLF: stdevs 42.445 34,26 10,14 5,69 27,02 33,24 40,47 96,35
HLF N: Tree 42.404 59,69 26,94 0,0 39,24 63,78 82,98 100,00
HLF N: Sky 36.621 16,97 18,89 0,0 0,85 10,06 27,92 94,90
HLF N: Building 41.259 15,40 18,59 0,0 1,90 7,64 22,61 99,11
HLF N: Fence 34.716 2,21 3,27 0,0 0,05 0,87 3,08 48,74
HLF N: Pole 42.310 2,08 1,81 0,0 0,70 1,63 2,97 23,21
HLF N: SignSymbol 41.700 1,88 2,55 0,0 0,43 1,12 2,35 48,75
HLF N: Car 30.404 0,85 1,85 0,0 0,00 0,13 0,84 35,94
HLF N: Pavement 18.323 0,45 2,45 0,0 0,00 0,00 0,14 70,92
HLF N: Road 11.574 0,30 1,42 0,0 0,00 0,00 0,00 71,69
HLF N: Pedestrian 22.489 0,13 0,32 0,0 0,00 0,00 0,12 5,84
HLF N: Bicyclist 8.302 0,02 0,10 0,0 0,00 0,00 0,00 3,67
HLF S: Road 42.438 37,02 15,43 0,0 26,31 38,15 48,19 83,53
HLF S: Pavement 42.439 18,02 9,98 0,0 10,41 16,74 24,32 82,10
HLF S: Tree 42.118 12,87 12,59 0,0 3,59 9,49 18,08 96,75
HLF S: Building 42.216 11,36 10,82 0,0 3,24 8,04 16,36 76,52
HLF S: Fence 42.183 7,97 6,12 0,0 3,43 6,78 11,10 69,53
HLF S: Car 41.814 7,96 8,14 0,0 1,69 5,20 11,90 69,62
HLF S: Pole 42.433 1,94 1,41 0,0 0,92 1,62 2,61 13,58
HLF S: SignSymbol 41.454 1,21 1,60 0,0 0,29 0,75 1,54 32,65
HLF S: Sky 19.954 0,76 2,37 0,0 0,00 0,00 0,27 78,14
HLF S: Pedestrian 40.420 0,70 0,87 0,0 0,12 0,41 0,97 16,83
HLF S: Bicyclist 28.498 0,17 0,34 0,0 0,00 0,03 0,18 5,97
(1) Cantidad de imagenes que tiene al menos un objeto de dicha categorıa detectado.
(2) Considerando imagenes sin ninguna deteccion.
34
Tabla 4.2. Medidas de tendencia de las variables en el set de datos utilizados
Objeto Cantidad de Media de objetos Desv. min 25% 50% 75% max
imagenes (1) por imagen (2) estandar (2)
OD:car 28.657 3,49 3,41 0,0 1,0 3,0 5,0 37,0
OD:person 6.412 0,38 1,08 0,0 0,0 0,0 0,0 23,0
OD:truck 5.868 0,25 0,63 0,0 0,0 0,0 0,0 9,0
OD:potted plant 1.606 0,07 0,40 0,0 0,0 0,0 0,0 20,0
OD:bus 1.365 0,05 0,27 0,0 0,0 0,0 0,0 8,0
OD:train 953 0,04 0,23 0,0 0,0 0,0 0,0 6,0
OD:motorcycle 894 0,05 0,43 0,0 0,0 0,0 0,0 22,0
OD:bicycle 677 0,04 0,32 0,0 0,0 0,0 0,0 14,0
OD:traffic light 547 0,03 0,27 0,0 0,0 0,0 0,0 14,0
OD:bench 536 0,02 0,17 0,0 0,0 0,0 0,0 6,0
OD:stop sign 400 0,01 0,14 0,0 0,0 0,0 0,0 5,0
OD:fire hydrant 356 0,01 0,15 0,0 0,0 0,0 0,0 10,0
OD:umbrella 244 0,01 0,14 0,0 0,0 0,0 0,0 6,0
OD:chair 186 0,01 0,13 0,0 0,0 0,0 0,0 10,0
(1) Cantidad de imagenes que tiene al menos un objeto de dicha categorıa detectado.
(2) Considerando imagenes sin ninguna deteccion.
4.2. Caracterizacion de los observadores
Hemos recopilado 26,913 observaciones, de 1.342 individuos, 37.63% de ellas declaran
ser mujeres y 0.90% como no binarias. La mayorıa de los observadores (89.09%) residen
en Santiago, Chile, por lo que existe una baja probabilidad de que el observador conozca
alguno de los lugares evaluados. El segundo paıs de residencia mas frecuente es Estados
Unidos de America (3.43%), otros paıses representan menos del 1% cada uno. En este
trabajo nos centramos en probar la heterogeneidad basada en las preferencias de sexo y
transporte. Otras variables como la edad, la nacionalidad, la residencia y el nivel educativo
pueden incorporarse en el trabajo futuro.
35
En la actualidad contamos con cerca de 27 mil respuestas validas entre las cinco pre-
guntas. Estas observaciones corresponden a la suma de las observaciones de 1.342 indi-
viduos, de los cuales 65,5% son de sexo masculino, 37,6% femenino y 0,9% no reportado.
En promedio cada usuario respondio 20,28 pares de imagenes, la moda de 10 respuestas
por usuario y la distribucion de su frecuencia se puede observar en la Figura 4.3. Como
se muestra en la Tabla 4.3, al analizar la cantidad de observaciones por cada modelo, la
participacion entre hombres y mujeres se tiende a equiparar, mientras que las observa-
ciones de personas con sexo no binario, o no reportado, solo representan una muestra muy
pequena por lo que no seran incluidos en el analisis.
Tabla 4.3. Cantidad de observaciones registradas por pregunta segun sexo
Total Masculino Femenino Otro
Pregunta (%) (%) (%)
Caminable 7.709 57,0 41,5 1,6
Habitable 5.568 60,1 39,6 0,4
Seguro 4.274 58,7 40,0 1,3
Bonito 5.357 51,6 47,2 1,2
Adinerado 4.005 53,1 46,2 0,7
Total 26.913 56,2 42,7 1,1
Tabla 4.4. Cantidad de observaciones registradas por pregunta segun modode transporte habitual
Total Caminata Bicicleta T. Publico Automovil Otro
Pregunta (%) (%) (%) (%) (%)
Caminable 7.709 12,6 15,4 48,7 21,9 1,3
Habitable 5.568 10,4 15,9 49,3 23,3 1,1
Seguro 4.274 10,9 16,4 47,8 21,7 3,3
Bonito 5.357 10,5 14,0 50,4 24,2 0,9
Adinerado 4.005 6,1 17,1 52,1 24,5 0,1
Total 26.913 10,5 15,7 49,5 23,0 1,3
36
Figura 4.3. Histograma de cantidad de observaciones por usuarioFuente: Elaboracion propia.
De la tabla 4.4 se puede ver que existe una predominancia de usuarios de transporte
publico. En cuanto a las distribucion etaria, se puede ver en la Figura 4.4 que la mayor
cantidad de respuesta se concentre en el rango etario de 20 a 30 anos, siendo la media
y mediana para el sexo masculino de 30,83 y 28 anos, respectivamente y para el sexo
femenino 30,26 y 29 anos, respectivamente.
Figura 4.4. Histograma de cantidad de observaciones en funcion de la edadFuente: Elaboracion propia.
37
4.3. Indicadores psicometricos
De forma adicional se incorporo una tercera seccion de la encuesta en la cual se pre-
sentan preguntas voluntarias adicionales. Mediante una escala Likert se pide responder
el nivel de acuerdo frente a 10 escenarios y, en ultimo lugar, se daba la opcion de repor-
tar el ingreso lıquido mensual del encuestado. Los escenarios preguntados se presentan a
continuacion:
(i) Prefiero un patio mas grande en mi casa, antes que mas plazas publicas.
(ii) Estoy dispuesto a pagar mas impuestos para financiar mas y mejores espacios
publicos.
(iii) Prefiero pasar mis ratos libres en mi casa antes que en lugares mas publicos.
(iv) Prefiero vivir mas cerca de mi trabajo, aun cuando eso implique tener una vivienda
mas pequena.
(v) El cambio climatico es un problema real.
(vi) El cambio climatico ha sido causado por el actuar del ser humano.
(vii) Debemos tomar accion para detener el cambio climatico, aunque esto pueda
aumentar el desempleo.
(viii) Se deberıa dar prioridad al transporte publico en las calles de la ciudad, aunque
esto signifique quitar espacio al automovil.
(ix) Cuando camino por las calles de la ciudad, estoy siempre muy preocupado de
que me vayan a robar, o atacar.
(x) La delincuencia es uno de los principales problemas de nuestra sociedad.
Esta informacion resulta interesante para futuras lıneas de exploracion. Por ejemplo,
una primer alternativa es la incorporacion de variables latentes (Ben-Akiva et al., 1985).
Otra alternativa es utilizarlas como variables de control para segmentar a los observadores,
ya se mediante variacion sistematica o clases latentes. Por otro lado, la informacion sobre
el ingreso mensual permite la oportunidad de explorar formas de calcular la disposicion
al pago de los observadores por mejorar atributos cualitativos de su entorno. Si bien esta
38
informacion tiene gran valor, en este trabajo no se incorporan resultados que incluyan
esta informacion, debido a que la cantidad de observaciones asociadas a usuarios que han
respondido esta seccion no supera las 3.000 observaciones en ninguno de los modelos.
Razon por la cual se limita la capacidad de estimar dichos modelos.
4.4. Tamano muestral
Debido a que no existe un proceso de diseno experimental, no se conocen todas la
variables que pueden existir en una imagen y que podrıan jugar un rol importante dentro
del proceso de evaluacion. Por esta razon es que no es posible determinar un tamano
muestral mınimo de forma matematica en base a formulas propuestas por el campo de la
estadıstica.
Con el proposito de estimar el numero de respuestas necesarias para que lo modelos
que buscamos estimar sean representativos, se realizo un experimento en base a uno de
los modelos presentados por Rossetti et al. (2019). Se definio el modelo de percepcion de
seguridad, presentado en dicho estudio por dos motivos, es el modelo de aquel estudio con
mayor numero de respuestas (n = 364.109 observaciones) y es una de las preguntas que
tambien fueron incluidas en nuestra encuesta. A partir de este modelo se consideraron sus
parametro como un modelo de referencia, el cual fue reestimado con distintos cantidades
de observaciones para analizar el comportamiento de los parametro estimados en funcion
del tamano muestral.
Se definieron de manera arbitraria los siguientes tamanos n = 500, 1.000, 2.500,
5.000, 10.000, 25.000, 50.000, 100.000, 250.000 y para cada uno de ellos cuales se
generaron 30 muestras aleatorias1 de la bases de datos ocupada por el autor. Con cada una
de estas muestras se estimo un nuevo modelo con la misma forma funcional del modelo de
referencia.Finalmente, para cada parametro se calculo la media de las 30 repeticiones y su
respectivo test-t. A partir de estos resultados se elaboraron los graficos de las Figura 4.5 en
1La muestras aleatorias consideran reposicion para cada nueva extraccion.
39
los cuales se presenta para seis parametros la media y su desviacion estandar en funcion
del tamano muestral. En el anexo A se presenta la tabla completa con los resultados para
todos los parametros del modelo.
Figura 4.5. Significancia de parametros segun tamano muestral.Fuente: Elaboracion propia.
A partir de los resultados de este experimento se observo que a medida que el tamano
muestral aumenta, el intervalo de confianza (α/2 = 0.25) tiende disminuir. Aun cuando no
40
se detecto un patron de comportamiento que permita establecer una relacion matematica,
se observa que al rededor de 10 mil observaciones la mitad de los parametros disponibles
que cumplen una siginificancia estadıstica del 95%.
Si bien, una mayor cantidad de datos, permitirıa incorporar mayor cantidad de vari-
ables, esto significa un mayor costo en la recoleccion de respuestas. Este numero no
pretende ser concluyente, sino mas bien, una primera exploracion en la literatura que per-
mita determinar una metrica para el tamano muestral necesario en este tipo de estudios.
En cuanto al presente estudio y sus respectivas campanas de recoleccion de informacion,
dicho numero se considero como una meta deseable para cada una de las cinco preguntas
presentadas, sin embargo, no se logro para ninguno de los modelos.
41
5. RESULTADOS DE ESTIMACION
En base a la metodologıa anteriormente descrita se estimo un modelo independiente
para cada una de las variables cualitativas. Como base de calibracion se utilizaron las
observaciones recopiladas con nuestra encuesta y para estimar los modelos se utilizo el
software PandasBiogeme (Bierlaire, 2018). En la Tabla 5.1 se muestra los resultados de
los cinco modelos, cada uno en una columna en la cual se presenta el valor obtenido del
parametro y su test-t. Para facilitar la lectura de la tabla se agruparon las filas por gru-
pos de variables. En primer lugar, se presentan las variables extraıda de la segmentacion
semantica para la parte superior de la imagen, luego para la mitad inferior. En segundo
lugar, se presentan lo atributos de bajo nivel. En tercer lugar, se presentan las variables
extraıdas mediante deteccion de objetos y, luego, se presentan las variables que resultaron
ser significativas al interactuar con variables sociodemograficas.
El valor de cada parametro representa el efecto marginal que tiene la variable sobre
la percepcion de la imagen, es decir que representa cuanto aporta una unidad mas de esta
variable a que una imagen sea percibida como mas segura, bonita, adinerada, o mejor
para caminar o vivir. Sin embargo, como se explico en la seccion 3.1, en el caso de las
variables de la segmentacion semantica la interpretacion de su signo no es absoluta, sino
que es relativa a las otras variables del mismo grupo, debido a la dependencia lineal entre
ellas. Es importante recordar que estas variables se separaron en dos grupos, uno para la
mitad superior y otro para la mitad inferior de la imagen denominados norte y sur, respec-
tivamente. En cada grupo es necesario fijar como punto de referencia algunas variables en
cero, motivo por el cual se incluyeron algunas variables que no son estadısticamente sig-
nificativas en la primera seccion de la tabla. Para el resto de las secciones solo se incluyen
las variables que cumplen con signicancia estadıstica al 90% de confianza (test-t mayor a
1,65 en valor absoluto).
42
Tabla 5.1. Modelos estimados de percepcion de seguridad, caminabilidad,habitabilidad y seguridad
Caminabilidad Habitablilidad Seguridad Belleza Adinerado
Value t-test Value t-test Value t-test Value t-test Value t-test
HIGH LEVEL FEATURES
HLF N: Bicyclist 5,12 1,66
HLF N: Building 0,74 2,87 -1,61 -6,48
HLF N: Car -1,97 -4,56 -0,92 -2,21 -1,38 -3,36 -1,03 -2,43
HLF N: Fence 1,15 4,31 0,78 2,13 0,58 1,69 1,08 2,99
HLF N: Pavement -1,78 -4,27 -1,33 -2,65 -1,68 -3,25
HLF N: Pedestrian
HLF N: Pole -1,22 -2,27 -2,50 -3,68
HLF N: Road
HLF N: SignSymbol 2,01 4,70 1,76 3,59 1,44 3,44
HLF N: Sky -0,56 -2,81 -1,03 -3,68 -1,45 -5,76 -0,44 -1,58
HLF N: Tree 1,19 3,59 0,82 1,75
HLF S: Bicyclist
HLF S: Building -1,49 -5,20 -1,27 -3,77 -0,77 -2,14
HLF S: Car -0,83 -2,72
HLF S: Fence 1,65 5,56 0,75 2,31
HLF S: Pavement 1,13 3,12
HLF S: Pedestrian
HLF S: Pole -2,28 -4,90 -1,87 -2,96 -1,84 -2,46 -2,08 -3,66 -2,80 -4,30
HLF S: Road 2,03 4,88 4,02 7,91 2,53 4,71 1,62 3,32 3,02 5,15
HLF S: SignSymbol
HLF S: Sky
HLF S: Tree 1,80 7,21 2,10 8,02 2,17 5,98 1,89 6,09 2,01 6,06
LOW LEVEL FEATURES
LLF: edges 9,38 8,24 8,77 7,09 7,78 5,44 8,47 5,79 10,35 7,18
LLF: meanh 0,00 1,72 0,00 -0,35 0,00 -0,71 0,00 1,62 0,00 1,84
LLF: meanl 0,00 -0,67 0,00 -0,01 0,00 2,37 0,00 -0,36 0,00 0,90
LLF: means 0,00 1,21 0,01 2,65 -0,01 -2,16 0,00 0,00 0,01 2,82
LLF: stdevh 0,00 0,64 0,02 5,45 0,02 3,48 0,01 3,38 0,02 3,11
LLF: stdevl 0,01 3,07 0,01 2,22 0,01 2,53 0,01 3,50 0,01 2,17
LLF: stdevs 0,01 2,60 0,01 1,91 0,02 3,80 0,01 3,10 0,00 -0,03
DETECCION DE OBJETOS
Continua en la siguiente pagina
43
Tabla 5.1 – Continuacion de la pagina anteriorCaminabilidad Habitablilidad Seguridad Belleza Adinerado
Value t-test Value t-test Value t-test Value t-test Value t-test
OD: bike 0,17 1,84
OD: car 0,17 4,85 0,24 4,80 0,12 2,93 0,01 2,13 0,12 3,07
OD: light 0,13 1,65
OD: person 0,06 3,24 0,06 2,37
OD: truck -0,24 -3,80 -0,10 -2,94 -0,13 -3,60
OD: bench -0,22 -2,13
OD: potted plant 0,16 2,07
LAMBDA: car 0,30 3,66 0,35 4,54 0,54 4,00 0,48 3,95
LAMBDA: person
LAMBDA: truck -0,14 -5,18 0,65 2,26
INTERACCION GENERO FEMENINO
x HLF N: Car 1,59 2,59
x HLF N: SignSymbol -2,38 -3,99 1,08 1,84
x HLF N: Pavement -3,26 -3,87
x HLF N: Pedestrian -3,07 -1,92 -3,20 -1,73
x HLF N: Tree 1,29 2,59
x HLF S: Building -1,21 -3,19
x HLF S: SignSymbol 1,04 1,95
x HLF S: Pole -2,02 -1,91
x HLF S: Pedestrian -1,78 -1,97
x HLF S: Sky 1,19 2,20
x HLF S: Tree -0,89 -1,76
x OD: bus -0,22 -2,53 -0,25 -2,18 -0,22 -2,19
x OD: chair -1,04 -3,85 0,46 2,18 0,49 2,04
x OD: person -0,09 -1,96 -0,22 -2,24
x OD: car -0,06 -1,84
INTERACCION MODO PEATON
x HLF N: Pedestrian 15,85 3,15
x HLF S: Car 1,90 2,48
x HLF S: Fence 2,03 2,16
x HLF S: Pedestrian 2,60 2,02
x OD: car 0,18 1,73
x OD: bench -0,58 -2,32
x OD: bike 0,80 3,02
Continua en la siguiente pagina
44
Tabla 5.1 – Continuacion de la pagina anteriorCaminabilidad Habitablilidad Seguridad Belleza Adinerado
Value t-test Value t-test Value t-test Value t-test Value t-test
x OD: fire hydrant -0,90 -2,50
INTERACCION MODO CICLISTA
x HLF N: Car -2,19 -2,34
x HLF N: Pole -2,64 -2,19 2,98 2,48
x HLF N: SignSymbol 3,57 3,37
x HLF N: Sky -0,76 -1,69
x HLF S: Car 1,58 2,43
x HLF S: Road 2,02 1,89
x HLF S: SignSymbol -1,91 -1,74
x OD: bench 0,80 1,84
x OD: car -0,19 -2,35
x OD: umbrella 0,56 1,99
INTERACCION MODO PEATON o CICLISTA
x HLF N: Bicyclist 13,10 2,93 13,40 2,48
x HLF N: Building 0,57 1,99 0,72 1,85 0,93 2,34
x HLF N: Pedestrian 4,10 1,97
x HLF S: Building 0,88 2,10
x HLF S: Pavement -1,52 -2,24
x HLF S: Pole 2,80 2,62
x OD: chair -1,60 -1,85
x OD: bench 0,52 2,14
x OD: bus 0,15 2,05
x OD: potted plant -0,21 -2,06
x OD: fire hydrant 0,66 2,25
x OD: light -0,60 -2,21
x OD: truck -0,23 -3,19
x OD: umbrella -0,74 -1,76
INTERACCION MODO TRANSPORTE PUBLICO
x w/ HLF S: Car 1,46 3,91
x w/ HLF S: Pavement 1,17 2,01
x w/ OD: bike -0,19 -2,11
x w/ OD: stopsign 0,32 2,42
x w/ OD: truck -0,10 -2,23
Continua en la siguiente pagina
45
Tabla 5.1 – Continuacion de la pagina anteriorCaminabilidad Habitablilidad Seguridad Belleza Adinerado
Value t-test Value t-test Value t-test Value t-test Value t-test
x w/ OD: umbrella -0,26 -1,91
INTERACCION MODO AUTOMOVIL
x HLF N: Fence 2,26 4,00
x HLF N: Pavement -2,61 -2,15
x HLF N: Pedestrian 4,62 2,21
x HLF N: Pole 2,18 2,49
x HLF S: Building -1,05 -1,85
x HLF S: Car 1,51 2,82
x HLF S: Pavement 1,74 2,32
x HLF S: Pedestrian 3,88 2,99
x HLF S: Road -1,59 -1,64
x HLF S: Tree 1,24 2,26
x OD: car 0,15 2,44
x OD: potted plant 0,44 3,56
PARAMETROS DEL MODELO
δ 0,84 39,60 0,85 33,78 0,94 31,62 0,86 32,05 0,93 30,47
τ1 -0,43 -17,10 -0,46 -15,56 -0,49 -13,61 -0,45 -14,53 -0,46 -13,29
PARAMETROS DE ESTIMACION
Parametros 38,00 40,00 42,00 34,00 34,00
Observaciones 7.587 5.548 4.218 5.293 3.977
Log-verosimilitud -7.255,88 -5.179,00 -4.107,19 -4.740,40 -3.866,06
Test LR 4.351,91 3.347,92 2.094,38 3.675,28 1.977,08
ρ 0,23 0,24 0,20 0,27 0,20
AIC 14.587,76 10.438,00 8.298,39 9.548,80 7.800,13
BIC 14.851,77 10.703,00 8.565,42 9.772,86 8.014,30
5.1. Resultados generales
Los modelos que se presentan en la tabla fueron debidamente comparados durante
la etapa de modelacion con versiones restringidas de estos mismos. El primer hallazgo46
de este estudio muestra que la inclusion de variables de deteccion de objetos y sociode-
mograficas aumentaron el nivel de ajuste de los modelos con el conjunto de observaciones,
segun la prueba de razon de verosimilitud. Ademas, se utilizo el criterio de informacion de
Akaike para asegurar que el aumento de la capacidad predictiva no solo este relacionado
a una mayor cantidad de variables. Respecto a este criterio los modelos presentados en la
tabla son mas eficiente que los modelos restringidos.
5.2. Segmentacion semantica
En las primeras dos secciones de la tabla se muestran los parametros de la segmentacion
semantica para la mitad superior e inferior de la imagen, respectivamente. De ellas es
posible notar que existen diferencias en como son percibidos los atributos dependiendo
de su ubicacion en el paisaje, de forma similar a la evidencia presentada por Rossetti et
al. (2019). Si bien estas diferencias no permiten una interpretacion directa, la separacion
del paisaje en referencia al horizonte tiene relacion con la distancia entre los objetos y el
observador y con su altura. Los elementos que se encuentran en la mitad inferior estan
mas cerca del observador y del suelo.
Los elementos que fueron utilizados como puntos de referencia en la mitad superior
de la imagen fueron los pixeles de peatones y de calzada. Y para la parte inferior fueron
senaleticas, cielo, ciclistas y peatones. Sobre las variables que sı fueron significativas se
detectaron patrones similares a los resultados presentados por (Rossetti et al., 2019) en
cuanto al ordenamiento de algunos parametros en los modelos de seguridad, belleza y
adinerado. En cuanto a la mitad superior, los elementos que son considerados como un
mayor aporte a las variables perceptuales en la parte superior de la imagen son Senaleticas
y Cercas y vegetacion. Mientras que en la mitad inferior de la imagen el mayor aporte
proviene de pıxeles de calzadas y arboles. Por el contrario, las variables que disminuyen
las cualidades evaluadas son postes y edificios en la parte inferior de la imagen y veredas
y automoviles en la parte superior de la imagen. A raız de este hallazgo surgen nuevas
47
hipotesis acerca de posibles comportamientos homogeneos de dos bases de datos de ob-
servaciones completamente independientes (PlacePulse 2.0 y Wekun).
5.3. Deteccion de objetos
Los resultados de los parametros extraıdos mediante deteccion de objetos confirman la
hipotesis planteada sobre los elementos que podrıan ser relevantes en la percepcion serıan
vehıculos. Si bien esto se podrıa explicar porque son elementos de mayo frecuencia en
el grupo de imagenes utilizado, en el modelo de que lugar parece mas adinerado y en el
de seguridad hay algunos elementos de menor frecuencia, como lo son bancas, luminar-
ias y plantes, que tambien resultaron ser significativos. Resulta interesante destacar solo
los camiones tienen un efecto negativo en la percepcion de los modelos, mientras que el
automovil tiene un valor positivo. Esto muestra que nuestros modelos logran represen-
tar diferencias sutiles como el proposito o la connotacion que tienen distintos tipos de
vehıculos, pese a ser elemento con bastantes semejanzas.
Respecto al valor del conteo de automoviles parece extrano que este sea un elemento
que este aportando a las cualidades del paisaje. Creemos que este es un problema que no
es posible concluir si es correcto o incorrecto debido a la relacion que existe entre esta
variable y las variables que representan cantidad de pıxeles de automovil, tanto en la parte
superior como inferior. La formulacion de estas relaciones es un desafıo que no se abordo
en este estudio por limitaciones de tiempo. Para proximos estudios resulta necesario lev-
antar nuevas hipotesis de las relaciones entre variables que estan caracterizando un mismo
elemento desde distintas perspectivas.
5.4. No linealidad del conteo de objetos
Al incluir el conteo de objetos, se probaron en cada modelo las distintas formas fun-
cionales que se presentaron en la seccion 3.5. En la figura 5.1 se presentan cada una de las
48
cuatro configuraciones para la variable automovil en el modelo de caminata. Como refer-
encia se tomo la configuracion por tramos, con la cual se permite un analisis desagregado
del conteo de objetos.
En los casos en que mas de una alternativa resulto ser util, se compararon los modelos
por razon de verosimilitud o el modelo con menor cantidad de parametros. A partir de
estos criterios y de un proceso de inspeccion visual de las curvas descritas por cada for-
mulacion, se prefirio el uso de la variable elevada a un parametro λ. Esta permite capturar
efecto no lineal observado en la configuracion por categorıas discretas, ya que al tener
un exponente con valor positivo, menor a 1, significa que su comportamiento es marginal-
mente decreciente, es decir que el efecto de la cantidad de vehıculos aumenta en la medida
que hay mas vehıculos en la imagen, pero el aporte de cada nuevo vehıculo es progresiva-
mente menor. Este comportamiento es compartido para el conteo de camiones, peatones
y bicicletas.
Figura 5.1. Configuraciones no lineales para medir el efecto marginal dela cantidad de automoviles.Fuente: Elaboracion propia.
49
5.5. Heterogeneidad
En cuanto a los parametros interactuados con la variable sexo o modo de transporte
mas habitual, cada variable que resulto ser significativa es evidencia de heterogeneidad
en la percepcion de los individuos segun esa categorıa. Dada la formulacion utilizada
en la funcion de utilidad de cada escenario de eleccion, presentada en la seccion 3.3, los
parametros con signo positivo indican que esa categorıa tienden a valorar de mejor forma
dicho atributo del paisaje en comparacion a la categorıa definida como referencia. Para
analizar el efecto marginal de la variable controlada por genero o modo de transporte es
necesario sumar el parametro generico con el parametro con interaccion.
Respecto a las diferencias basada en sexo, los resultados mas relevantes se concentran
en los modelos de seguridad. Se puede ver que todas las interacciones del modelo de
seguridad tienen signo negativo. A partir de esto es posible inferir que la percepcion
general del paisaje para las mujeres es de menor seguridad que el de los hombres, lo cual
se relaciona con lo reportado en la literatura psicologıa ambiental (Jiang et al., 2017).
Los parametros que gatilla esa disminucion son el aumento en la cantidad de pıxeles de
vereda, postes y vegetacion. Este ultimo factor tambien ha sido abordado en la literatura
de las ciencias sociales como un parametro negativo en la percepcion de seguridad de las
mujeres, respecto de los hombres.
Otro factor relevante respecto a las diferencias del sexo es el efecto que tiene el conteo
de peatones y automoviles. En el caso de los peatones, el parametro de interaccion para las
mujeres anula el efecto positivo que se reporta para los hombres, es decir que las mujeres
no se ven afectadas por la cantidad de peatones que observa mientras que los hombre se
sienten mas seguros cuando pueden ver mas personas en la calle. Respecto al conteo de
automoviles, para ambos sexos tiene un efecto positivo, pero para las mujeres el efecto
disminuye a la mitad. Lo cual tambien podrıa estar relacionado con una mayor actividad
en la calle que hace sentir a los hombres mas seguros.
50
Respecto a las interacciones por patrones de movilidad se observaron varias interac-
ciones en que solo uno de las 5 modos de transporte resulto ser significativo. Entre los
resultados mas relevantes se puede notar que la variable que representa la cantidad de
pıxeles de peatones en la parte superior de la imagen tiene un efecto positivo de gran mag-
nitud al interactuar con peatones o ciclistas en los modelos de caminabilidad, habitabilidad
y seguridad. Tambien se observaron algunos casos en que mas de un tipo de transporte
interactuaron de forma simultanea con el mismo elemento del paisaje. Por ejemplo, en
el modelo de habitabilidad que la variable OD: Car, el efecto general es positivo de 0, 24
y se detectaron comportamientos heterogeneos en usuarios de bicicleta y automovil. Por
un lado, los ciclistas tienen una peor percepcion frente a una mayor concentracion de
automoviles, disminuye en −0, 19. Los automovilistas, por el contrario, muestran mayo
agrado que los otros modos frente a la presencia de automoviles, aumenta en 0, 15. En
el modelo seguridad la variable HLF: Car S no fue significativa por si sola, por lo que el
valor de referencia es 0 y corresponde a los modos automovilistas y ciclistas, mientras que
la interaccion con los modos peaton (1.90) y TP (1.46) la cantidad de pıxeles de automovil
en la parte inferior aportan a la evaluacion de la imagen.
51
6. APLICACION DE LOS MODELOS DE PERCEPCION
Para evaluar el desempeno de nuestro modelo de percepcion lo aplicamos a la ciudad
de Santiago de Chile. Elegimos esta ciudad, en primer lugar, porque la mayor parte de
los observadores de la muestra reside allı. Pensamos que serıa interesante analizar como
su percepcion de las imagenes de otras ciudades alrededor del mundo reflejarıa como
perciben su ciudad 1. En segundo lugar, Santiago es un area metropolitana que enfrenta
muchos problemas urbanos, como la segregacion y la inequidad, como muchas ciudades
metropolitanas en America Latina. Algunos de estos problemas han sido bien explorados
en la literatura sabatini2001segregacion y tambien hay datos bien documentados de sus
patrones socioeconomicos y de movilidad que podrıan ayudar a comprender nuestros re-
sultados.
Tomamos una muestra de 120,000 imagenes de la ciudad de Santiago de Google Street
View y las evaluamos. El conjunto de imagenes distribuye arbitrariamente en una grilla
que permite mapear de manera uniforme la zona urbana de la ciudad. Utilizamos el mod-
elo con heterogeneidad presentado en la Tabla 5.1 considerando como marco de referencia
la percepcion de un hombre y fijando en 0 todas las variables dummy del modo de trans-
porte. Luego calculamos la puntuacion para una observadora que mantiene las variables
de transporte a cero, y para un observador masculino pero que cambia las preferencias de
transporte. La figura 6.1 presenta los puntajes de las imagenes para el modelo de seguri-
dad, donde el punto mas verde es el puntaje mas alto, es decir, mas seguro se ve el lugar y
los puntos mas blanco los puntajes mas bajos.
A partir de este mapa de seguridad se puede apreciar una clara relacion con la dis-
tribucion de ingresos de la ciudad de Santiago que se presenta en la Figura 6.2. Al igual
que otras ciudades latinoamericanas, Santiago se caracteriza por un desarrollo urbano seg-
regado en el cual la clase alta, el centro economico y la distribucion de bienes y servicios
1Es importante recordar que las imagenes utilizadas en la encuesta no incluyen imagenes de Santiago, porlo que la posibilidad de que el observador conozca el lugar es muy baja.
52
Figura 6.1. Percepcion de seguridad aplicado a la ciudad se Santiago. Enverdes mas oscuros los lugares que son percibidos como mas seguros.Fuente: Elaboracion propia
forman un cono que se extiende desde el centro de la ciudad hacia la periferia en una di-
reccion en particular. En el caso de Santiago esto ocurre hacia la zona nororiente (Sabatini,
Caceres, & Cerda, 2001).
Como se puede ver en la Figura 6.3 y en la Tabla 6.1 la distribucion del puntaje de
seguridad con las otras cuatro variables cualitativas tiene una alta correlacion. Por este
motivo solo se presentaran en esta seccion solo mapas relacionados a esta variable para
ilustrar la aplicacion de estos modelos de forma concisa. Un fenomeno similar fue re-
portado en el estudio de (Rossetti et al., 2019) respecto de la alta correlacion entre las
variables cualitativas evaluadas en la encuesta Place Pulse y tambien en la correlacion con
la distribucion con el ingreso.
53
Figura 6.2. Distribucion de ingreso per capita zona EOD segun deciles. Enrojo mas oscuros los lugares con mayor nivel de ingresos.Fuente: EOD 2012
Tabla 6.1. Correlacion entre modelos de percepcion
Caminabilidad Habitablilidad Seguridad Belleza Adinerado
Caminabilidad 1,00 0,91 0,93 0,88 0,95
Habitablilidad 1,00 0,91 0,94 0,95
Seguridad 1,00 0,86 0,93
Belleza 1,00 0,92
Adinerado 1,00
6.1. Mapas de Santiago para grupos de personas
Al comparar la diferencia de puntaje percibida por sexo, se encontro que las mujeres
tienen una menor percepcion de seguridad en Santiago, como se muestra en la figura
6.4. Este hallazgo es coherente con la literatura en psicologıa ambiental Jiang2017 sobre
las diferencias en la percepcion general de la seguridad del espacio urbano. Aunque sus
medias no son estadısticamente diferentes (mujeres: µ = 3, 20 y σ = 0, 62, hombres:
54
Figura 6.3. Correlacion entre modelos de percepcion.Fuente: Elaboracion propia.
µ = 3, 78 y σ = 0, 60) y tienen una alta correlacion (ρ = 0, 94) hay imagenes que tienen
una disminucion significativa e importante en su evaluacion, lo cual es mas relevante. En
la Figura 6.5 presentamos el histograma de la diferencia porcentual de las imagenes. La
ciudad disminuye 19,93% su percepcion de seguridad y 20% de las imagenes disminuyen
mas de 23,03%. Pero lo mas importante es que ser capaz de medir la diferencia en la
percepcion es analizar su distribucion de estos lugares en la ciudad.
55
Figura 6.4. Histograma de percepcion de la seguridad de la ciudad de San-tiago dividido por genero.Fuente: elaboracion propia.
Figura 6.5. Diferencia porcentual en la percepcion de seguridad de la ciu-dad de Santiago por parte de las mujeres en referencia a la percepcion mas-culina.Fuente: elaboracion propia.
Al comparar la percepcion de mujeres y hombres, se puede ver que hay una concen-
tracion de imagenes con una disminucion mayor. En la figura 6.6 presentamos el mapa de
la diferencia porcentual, en rojo los lugares que disminuyen mas su puntaje cuando son
observados por una mujer en lugar de un hombre. Este mapa podrıa ayudar a identificar
y priorizar areas de la ciudad que las mujeres perciben de manera desigual, por ejemplo,
algunas areas en el noroeste de la ciudad.
56
Figura 6.6. Mapa de diferencias en la percepcion de seguridad en funciondel genero. Los lugares con una mayor diferencia en la percepcion entregeneros se muestran en rojo mas oscuro e implican una menor percepcionde seguridad para las mujeres en ese lugar.Fuente: elaboracion propia.
Al comparar las diferencias entre las preferencias de transporte declaradas en la figura
6.7, encontramos que los automovilistas tienen una peor percepcion de la ciudad en prome-
dio, en comparacion con los peatones, ciclistas y personas que usan el transporte publico.
En la figura 6.8 se presenta la diferencia porcentual de la percepcion de los peatones en
comparacion con los automovilistas. Se puede ver que para el peaton el nivel de seguridad
del centro de la ciudad es notablemente mayor que para el usuario del automovil. Ademas,
es posible notar que los sectores de mayores ingresos no presentan un cambio significativo
en su percepcion.
57
Figura 6.7. Histograma de percepcion de la seguridad de la ciudad de San-tiago dividido por preferencias de transporte.Fuente: Elaboracion propia.
Figura 6.8. Mapa de diferencias en la percepcion de seguridad basadaen las preferencias de transporte, peatones en comparacion con los auto-movilistas. Los lugares en verde oscuro muestran diferencias mas grandesentre peatones y automovilistas, e implican que son preferidos por lospeatones. Fuente: elaboracion propia.
58
7. CONCLUSIONES
El desarrollo de nuevas metodologıas de modelacion en el campo de la percepcion
del entorno construido se ha abarcado desde multiples campos de estudios. Desde la psi-
cologıa ambiental, la arquitectura y la planificacion urbana se han optado por metodologıa
cualitativas, las cuales son poco escalables en comparacion a las metodologıas modernas
que utilizan herramientas de inteligencia artificial, pero aun mantienen la ventaja de poder
identificar comportamientos heterogeneos en la percepcion de espacios publicos.
En este estudio se presenta una nueva base de datos de percepciones subjetivas, la cual,
a diferencia de las descritas en la seccion 2.3, incluye informacion sociodemografica de
los observadores, la cual es vinculada a cada respuesta. Dicha encuesta incorpora evalua-
ciones sobre seguridad, belleza y nivel de ingresos aparente de la zona, de forma similar a
otras encuestas. Ademas, incorpora incorporamos nuevas preguntas sobre preferencias de
espacios para caminar y otra sobre preferencias de ubicacion residencial. Con estas esta-
mos ampliando el alcance de analisis a otros campos como el modelado de la demanda de
viajes y la economıa urbana.
En base a la evidencia levantada con la nueva encuesta, se responde la pregunta de
investigacion, apoyando la idea de que los modelos de eleccion discreta son un mejor
marco de modelacion para entender la forma en que los ciudadanos perciben el espacio
publico. Ademas se levanta evidencia que apoya la existencia de comportamientos het-
erogeneos en el proceso de evaluacion, logrando refinar las metodologıas para el estudio
de la percepcion de alta escalabilidad. Tambien se cumple el objetivo de validar el marco
teorico propuesto por Rossetti et al. (2019) mediante el cual se incorporan caracterısticas
del observador para modelar la percepcion como una variable latente.
59
7.1. Aportes de la metodologıa al estado del arte
7.1.1. Heterogeneidad en la percepcion de espacios publicos
Los resultados de este estudio muestran evidencia de que existen diferencias respecto
al sexo y a los habitos de movilidad en cuanto a la percepcion de espacios publicos. Estos
resultados ayudan a acercar el desarrollo de los estudios de metodologıas de alta escalabil-
idad con la literatura relacionad las ciencias sociales y la planificacion urbana. Se muestra
evidencia que las mujeres perciben la importancia de ciertos elementos de forma distinta
que los hombres lo cual, en el caso de Santiago, tiende a concentrarse de forma negativa
en el centro de la ciudad. Por otro lado se logro detectar que los observadores que declaran
usar principalmente modos activos, tienden a tener una mejor imagen de la ciudad de San-
tiago que los usuarios de otros modos de transporte. La distribucion de las cualidades
positivos es mas extensa y valora de mejor manera las zonas de menores ingresos.
7.1.2. Interpretabilidad de la caja negra
Respecto a los aporte de esta investigacion aporta al campo de la inteligencia artificial
como una alternativa que responde a los problemas de interpretabilidad de los algorit-
mos predictivos. Como presento en los resultados de este estudio, es el incorporar mas
variables no aporta a la capacidad predictiva de los modelos, pero sı aporta a su inter-
pretabilidad.
Considerando la complejidad y alta no linealidad de los algoritmos utilizados para pre-
decir percepcion directamente desde una imagen, la informacion que aportan los modelos
presentados en este estudio permiten complementar la informacion predictiva con infor-
macion comprensible por un humano. Si bien los hallazgos de este estudio no pretenden
ser concluyentes ni determinantes, sin duda alguna abren una puerta para futuros estu-
dios que permitan explicar de forma mas certera las causas y efectos de la percepcion de
espacios publicos.
60
A modo de conclusion, esta investigacion aporta a validar el uso de encuestas con
imagenes y metodologıas multidisciplinares para entender la valoraciones subjetivas del
espacio publico. Esta herramienta no pretende reemplazar la labor de un planificador ur-
bano, sino que debe ser considerada como instrumento de apoyo que permite sistematizar
y escalar estudios cualitativos.
7.2. Futuras lıneas de investigacion
Considerando que los estudios relacionados con el uso de grandes encuestas de imagenes
y el uso conjunto de algoritmos de aprendizaje automatico y tecnicas econometricas que
aporten a la interpretacion del proceso de percepcion es un area novedosa aun quedan
numerosas lineas que pueden extender el alcance de los estudios que definen el esto del
arte.
7.2.1. Entrenar mejores modelos de aprendizaje automatico para la extraccion de
variables
En primer lugar, en la etapa de extraccion de variables son necesarios algoritmos que
permitan una definicion mas certera de los elementos del paisaje. Bases de datos de en-
trenamiento que sean coherentes con el conjunto de imagenes utilizado en la encuesta, de
manera de lograr una segmentacion y deteccion de objetos mas precisa que la utilizadas
hasta el momento.
Ademas, queda por explorar la incorporacion de otros algoritmos que aporten infor-
macion para replicar de forma mas realista el proceso de vision de un humano. Por ejem-
plo, algoritmos como el presentado por (Bertoni, Kreiss, & Alahi, 2019) que permite
distinguir la distancia aparente entre peatones y el observador, al analizar la imagen en
perspectiva. De esta forma el efecto de la posicion de los elementos del paisaje podrıa
estar definida en tres dimensiones.
61
Existen otras limitaciones ademas de las discutidas en la seccion 3.1.1 que esta rela-
cionado con la informacion de salida del algoritmo que se utiliza. En una imagen de un
paisaje en el cual un arbol cubre parte de la fachada de un edificios, para un humano es
posible deducir que si se eliminan los arboles de la imagen detras de estos hay edificios, o
en su defecto, cielo. Esto presenta un problema en cuanto a la informacion de salida del
segmentador semantico, ya que el algoritmo solo contara los pıxeles en la categorıa arbol.
Existe aun la pregunta si tener un conteo mas preciso del area que cubre cada elemento,
sin descontar los segmentos superpuestos ayudarıa a estimar mejores modelos.
7.2.2. Modelacion matematica de la utilidad del paisaje urbano
En segundo lugar, y referente a los modelos econometricos, quedan muchas preguntas
por responder. Durante el proceso de modelacion, se detectaron comportamientos intere-
santes en la forma en que las variables interactuaban. Por ejemplo, aun no es claro como
dialogan las variables de la segmentacion semantica, como lo son los pıxeles de la cate-
gorıa automovil, con la cantidad de automoviles contabilizados con el detector de objetos.
7.2.3. Explorar el efecto de variables disponibles que aun no han sido utilizadas
En el marco de la informacion que fue recopilada con este estudio aun quedan variables
que podrıan resultar interesantes. Por ejemplo, el efecto ser residente o visitante, lo cual
puede controlarse al contrastar el lugar de residencia del observador con la ubicacion de
la imagen observada. Otro factor a incluir es el uso de los niveles de ingreso para calcular
disposicion al pago por mejoras en el espacio publico en terminos cualitativos.
62
REFERENCIAS
Anguelov, D., Dulong, C., Filip, D., Frueh, C., Lafon, S., Lyon, R., . . . Weaver, J. (2010).
Google street view: Capturing the world at street level. Computer, 43(6), 32–38.
Badrinarayanan, V., Handa, A., & Cipolla, R. (2015). Segnet: A deep convolutional
encoder-decoder architecture for robust semantic pixel-wise labelling. arXiv preprint
arXiv:1505.07293.
Ben-Akiva, M. E., Lerman, S. R., & Lerman, S. R. (1985). Discrete choice analysis:
theory and application to travel demand (Vol. 9). MIT press.
Bertoni, L., Kreiss, S., & Alahi, A. (2019). Monoloco: Monocular 3d pedestrian local-
ization and uncertainty estimation. In Proceedings of the ieee international conference on
computer vision (pp. 6861–6871).
Bierlaire, M. (2018). Pandasbiogeme: a short introduction (Tech. Rep.). Technical Report
TRANSP-OR 181219, Transport and Mobility Laboratory, Ecole . . . .
Blobaum, A., & Hunecke, M. (2005). Perceived danger in urban public space: The impacts
of physical features and personal factors. Environment and Behavior, 37(4), 465–486.
Bonaiuto, M., Aiello, A., Perugini, M., Bonnes, M., & Ercolani, A. P. (1999). Multidi-
mensional perception of residential environment quality and neighbourhood attachment in
the urban environment. Journal of environmental psychology, 19(4), 331–352.
Canny, J. (1986). A computational approach to edge detection. IEEE Transactions on
pattern analysis and machine intelligence(6), 679–698.
Clifton, K., Ewing, R., Knaap, G.-J., & Song, Y. (2008). Quantitative analysis of urban
form: a multidisciplinary review. Journal of Urbanism, 1(1), 17–45.
63
Coburn, A., Kardan, O., Kotabe, H., Steinberg, J., Hout, M. C., Robbins, A., . . .
Berman, M. G. (2019, apr). Psychological responses to natural patterns in architec-
ture. Journal of Environmental Psychology, 62, 133–145. Retrieved from https://
linkinghub.elsevier.com/retrieve/pii/S0272494418305280 doi:
10.1016/j.jenvp.2019.02.007
Dubey, A., Naik, N., Parikh, D., Raskar, R., & Hidalgo, C. A. (2016). Deep Learn-
ing the City: Quantifying Urban Perception at a Global Scale. In (pp. 196–212).
Springer, Cham. Retrieved from http://link.springer.com/10.1007/978-3
-319-46448-0 12 doi: 10.1007/978-3-319-46448-0 12
Franklin, C. A., & Franklin, T. W. (2009). Predicting Fear of Crime Considering Dif-
ferences Across Gender. Feminist Criminology, 4, 83–106. Retrieved from http://fc
.sagepub.comhttp//online.sagepub.com doi: 10.1177/1557085108325196
Guidotti, R., Monreale, A., Ruggieri, S., Turini, F., Giannotti, F., & Pedreschi, D. (2018).
A survey of methods for explaining black box models. ACM computing surveys (CSUR),
51(5), 93.
Harvey, D. (1979). Urbanismo y desigualdad social. Siglo veintiuno editores.
Hurtubia, R., Guevara, A., & Donoso, P. (2015, jan). Using Images to Measure Qualita-
tive Attributes of Public Spaces through SP Surveys. Transportation Research Procedia,
11, 460–474. Retrieved from https://www.sciencedirect.com/science/
article/pii/S2352146515003294 doi: 10.1016/J.TRPRO.2015.12.038
Iglesias, P., Greene, M., & Ortuzar, J. d. D. (2013). On the perception of safety in low
income neighbourhoods: using digital images in a stated choice experiment. In Choice
modelling. Edward Elgar Publishing.
Jiang, B., Mak, C. N. S., Larsen, L., & Zhong, H. (2017, aug). Minimizing the gender
difference in perceived safety: Comparing the effects of urban back alley interventions.
64
Journal of Environmental Psychology, 51, 117–131. Retrieved from https://www
.sciencedirect.com/science/article/pii/S0272494417300464 doi:
10.1016/J.JENVP.2017.03.012
Laing, R., Davies, A.-M., Miller, D., Conniff, A., Scott, S., & Morrice, J. (2009). The
application of visual environmental economics in the study of public preference and urban
greenspace. Environment and Planning B: Planning and Design, 36(2), 355–375.
Lin, T., Maire, M., Belongie, S. J., Bourdev, L. D., Girshick, R. B., Hays, J., . . . Zitnick,
C. L. (2014). Microsoft COCO: common objects in context. CoRR, abs/1405.0312.
Retrieved from http://arxiv.org/abs/1405.0312
Liu, L., Silva, E. A., Wu, C., & Wang, H. (2017, sep). A machine learning-based
method for the large-scale evaluation of the qualities of the urban environment. Com-
puters, Environment and Urban Systems, 65, 113–125. Retrieved from https://www
.sciencedirect.com/science/article/pii/S0198971516301831 doi:
10.1016/J.COMPENVURBSYS.2017.06.003
Lynch, K. (1960). The image of the city (Vol. 11). MIT press.
McFadden, D., et al. (1973). Conditional logit analysis of qualitative choice behavior.
Naik, N., Philipoom, J., Raskar, R., & Hidalgo, C. (2014). Streetscore-predicting the
perceived safety of one million streetscapes. In Proceedings of the ieee conference on
computer vision and pattern recognition workshops (pp. 779–785).
Nasar, J. L. (1998). The evaluative image of the city.
Navarro, I., Galilea, P., Hidalgo, R., & Hurtubia, R. (2018). Transporte y su integracion
con el entorno urbano:¿ como incorporamos los beneficios de elementos urbanos en la
evaluacion de proyectos de transporte? EURE (Santiago), 44(132), 135–153.
Quercia, D., O’Hare, N. K., & Cramer, H. (2014). Aesthetic capital: What makes
65
london look beautiful, quiet, and happy? In Proceedings of the 17th acm confer-
ence on computer supported cooperative work & social computing (pp. 945–955).
New York, NY, USA: ACM. Retrieved from http://doi.acm.org/10.1145/
2531602.2531613 doi: 10.1145/2531602.2531613
Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object
detection with region proposal networks. In Advances in neural information processing
systems (pp. 91–99).
Rose, J. M., & Bliemer, M. C. J. (2009). Constructing efficient stated choice experimental
designs. Transport Reviews, 29(5), 587-617. Retrieved from https://doi.org/
10.1080/01441640902827623 doi: 10.1080/01441640902827623
Rossetti, T., Guevara, C. A., Galilea, P., & Hurtubia, R. (2018). Modeling safety
as a perceptual latent variable to assess cycling infrastructure. Transportation Re-
search Part A: Policy and Practice, 111, 252 - 265. Retrieved from http://www
.sciencedirect.com/science/article/pii/S0965856417309278 doi:
https://doi.org/10.1016/j.tra.2018.03.019
Rossetti, T., & Hurtubia, R. (2020). An assessment of the ecological validity of
immersive videos in stated preference surveys. Journal of Choice Modelling, 34,
100198. Retrieved from https://doi.org/10.1016/j.jocm.2019.100198
doi: 10.1016/j.jocm.2019.100198
Rossetti, T., Lobel, H., Rocco, V., & Hurtubia, R. (2019). Explaining subjective percep-
tions of public spaces as a function of the built environment: A massive data approach.
Landscape and urban planning, 181, 169–178.
Sabatini, F., Caceres, G., & Cerda, J. (2001). Segregacion residencial en las principales
ciudades chilenas: Tendencias de las tres ultimas decadas y posibles cursos de accion.
eure (Santiago), 27(82), 21–42.
66
Salesses, P., Schechtner, K., & Hidalgo, C. A. (2013). The collaborative image of the city:
mapping the inequality of urban perception. PloS one, 8(7), e68400.
Torres, I., Greene, M., & Ortuzar, J. d. D. (2013). Valuation of housing and neighbourhood
attributes for city centre location: A case study in santiago. Habitat International, 39, 62–
74.
Tuan, Y.-F. (1977). Space and place: The perspective of experience. Univeristy of
Minnesota Press.
Walker, J., & Ben-Akiva, M. (2002, jul). Generalized random utility model. Mathematical
Social Sciences, 43(3), 303–343. Retrieved from https://www.sciencedirect
.com/science/article/pii/S0165489602000239 doi: 10.1016/S0165-
4896(02)00023-9
Zhang, F., Zhou, B., Liu, L., Liu, Y., Fung, H. H., Lin, H., & Ratti, C. (2018, dec). Measur-
ing human perceptions of a large-scale urban region using machine learning. Landscape
and Urban Planning, 180, 148–160. doi: 10.1016/J.LANDURBPLAN.2018.08.020
Zhao, H., Shi, J., Qi, X., Wang, X., & Jia, J. (2017, July). Pyramid scene parsing network.
In The ieee conference on computer vision and pattern recognition (cvpr).
67
ANEXO
68
A. TABLA SIGNIFICANCIA DE ATRIBUTOS DE ALTO NIVEL SEGUN TAMANO
MUESTRAL
Para mayor detalle del analisis realizado en la seccion 4.4 acerca del tamano muestral
necesario para experimentos de eleccion discreta con fotografıas se presenta a contin-
uacion la tabla A.1. En ella se incorpora para cada variable utilizada en el modelo de
seguridad presentado por Rossetti et al. (2019) la media y su test-t obtenido del proceso
de submuestreo.
Tabla A.1. Significancia de atributos de alto nivel segun tamano muestral
N = 500 1.000 2.500 5.000 10.000 25.000 50.000 100.000 250.000 364.109
HLF: Bicyclist N 0,68 3,38 0,97 1,88 1,09 0,98 1,53 1,14 1,44 1,33
(0,06) (0,40) (0,17) (0,56) (0,47) (0,63) (1,52) (1,53) (2,64) (3,52)
HLF: Bicyclist S -0,59 -0,39 -0,13 -0,42 -0,22 -0,21 -0,33 -0,24 -0,29 -0,27
(-0,16) (-0,17) (-0,09) (-0,48) (-0,33) (-0,49) (-1,07) (-0,97) (-1,91) (-2,24)
HLF: Building N -0,42 0,01 -0,19 -0,22 -0,16 -0,25 -0,21 -0,21 -0,22 -0,21
(-0,52) (0,01) (-0,52) (-0,89) (-0,86) (-2,38) (-2,38) (-4,55) (-6,27) (-6,96)
HLF: Building S -0,11 -0,35 -0,34 -0,33 -0,33 -0,21 -0,32 -0,30 -0,31 -0,31
(-0,09) (-0,51) (-0,56) (-0,96) (-1,45) (-1,29) (-2,49) (-3,44) (-5,80) (-7,67)
HLF: Car N -0,81 -0,50 -0,43 -0,54 -0,48 -0,47 -0,51 -0,49 -0,48 -0,48
(-0,61) (-0,48) (-0,82) (-1,34) (-1,66) (-3,24) (-4,25) (-5,17) (-7,71) (-10,04)
HLF: Car S 0,78 0,44 0,70 0,57 0,64 0,66 0,60 0,64 0,63 0,64
(0,98) (0,84) (1,79) (1,72) (3,98) (5,59) (6,79) (9,18) (20,12) (20,50)
HLF: Fence N 0,63 0,85 0,88 0,76 0,73 0,77 0,72 0,76 0,74 0,75
(0,46) (0,96) (2,04) (2,27) (2,87) (4,63) (6,17) (9,43) (14,31) (18,59)
HLF: Fence S 0,23 0,15 0,30 0,14 0,12 0,16 0,17 0,15 0,15 0,15
(0,19) (0,25) (0,59) (0,45) (0,98) (1,09) (1,35) (1,85) (4,25) (3,73)
HLF: Pavement N -1,82 -1,57 -1,66 -1,53 -1,49 -1,47 -1,53 -1,50 -1,54 -1,51
(-0,97) (-1,07) (-2,06) (-2,93) (-2,82) (-5,73) (-9,81) (-11,77) (-21,96) (-22,26)
HLF: Pavement S 0,70 0,30 0,63 0,45 0,59 0,56 0,60 0,57 0,59 0,58
(0,54) (0,22) (0,94) (0,87) (2,58) (3,33) (5,33) (4,79) (7,99) (10,76)
HLF: Pedestrian N 0,42 0,38 0,10 0,77 1,05 0,81 0,85 0,91 0,86 0,88
(0,09) (0,15) (0,06) (0,54) (0,88) (1,53) (2,81) (3,03) (4,98) (5,95)
HLF: Pedestrian S -0,32 0,31 0,44 0,04 0,26 0,25 0,19 0,19 0,19 0,20
(-0,13) (0,25) (0,49) (0,07) (0,65) (0,82) (0,86) (1,24) (1,80) (2,65)
HLF: Pole N 0,21 -0,14 -0,13 -0,14 -0,33 -0,13 -0,18 -0,16 -0,16 -0,18
Continua en la siguiente pagina
69
Tabla A.1 – Continuacion de la pagina anteriorN = 500 1.000 2.500 5.000 10.000 25.000 50.000 100.000 250.000 364.109
(0,10) (-0,09) (-0,14) (-0,21) (-0,96) (-0,51) (-0,82) (-1,03) (-1,86) (-2,45)
HLF: Pole S -1,58 -1,83 -1,78 -1,51 -1,47 -1,58 -1,53 -1,50 -1,52 -1,52
(-0,57) (-1,20) (-1,89) (-2,63) (-3,12) (-5,03) (-7,10) (-10,85) (-17,03) (-21,22)
HLF: Road S 2,51 1,72 2,03 1,77 1,90 2,01 1,86 1,86 1,90 1,88
(1,67) (1,35) (2,25) (3,17) (5,44) (9,78) (12,78) (19,97) (27,72) (29,47)
HLF: SignSymbol N 0,98 0,28 0,46 0,47 0,57 0,54 0,46 0,47 0,47 0,48
(0,46) (0,27) (0,83) (0,97) (2,00) (2,62) (3,16) (3,82) (8,12) (8,64)
HLF: Sky N -0,22 0,04 -0,15 -0,18 -0,13 -0,14 -0,16 -0,14 -0,14 -0,15
(-0,20) (0,06) (-0,42) (-0,67) (-0,82) (-1,34) (-2,44) (-2,72) (-3,45) (-4,72)
HLF: Tree N 0,05 0,50 -0,07 0,27 0,34 0,26 0,14 0,21 0,21 0,21
(0,02) (0,52) (-0,12) (0,89) (0,97) (1,37) (1,08) (2,62) (3,20) (3,93)
HLF: Tree S 0,77 0,83 0,81 0,69 0,81 0,80 0,72 0,76 0,75 0,76
(0,72) (1,16) (1,74) (1,80) (3,55) (5,68) (8,21) (12,42) (17,35) (20,83)
LLF: blobs 0,01 0,00 0,01 0,00 0,01 0,00 0,00 0,00 0,00 0,00
(0,29) (0,29) (0,68) (0,97) (1,99) (2,38) (2,74) (4,91) (8,16) (8,79)
LLF: edges 2,44 5,17 4,85 4,65 4,31 4,51 4,80 4,70 4,69 4,64
(0,51) (2,20) (1,99) (2,99) (4,26) (5,52) (11,83) (13,57) (26,38) (26,61)
70