modelamiento del customer rating usando text...

FACULTAD DE CIENCIAS EMPRESARIALES

Carrera de Marketing

MODELAMIENTO DEL CUSTOMER RATING USANDO TEXT ANALYTICS, CASO DE LOS

ESTADOUNIDENSES QUE DEJARON VALORACIONES EN TRIPADVISOR ACERCA DE RESTAURANTES DE

COMIDA PERUANA EN EL CUSCO

Tesis para optar el Título Profesional de Licenciado en Marketing

JHAILIN YAMILLA GUERRA PALOMINO

SAMANTHA ADELINA ROMERO CARBAJAL

Asesor:

Oscar Hernán Talledo Flores

Lima - Perú

2019

2

Dedicatoria

A nuestros padres por el amor recibido, la

dedicación y la paciencia para con nosotras.

La gratitud es uno de los valores más

hermosos, relativamente sencillo de

demostrar, expresado con un corazón pleno y

reservado para aquellas personas que siempre

nos acompañaron y creyeron en nosotras.

3

Resumen

El presente documento de investigación busco relacionar el customer rating indicado

por usuarios estadounidenses de TripAdvisor acerca de restaurantes de comida

peruana en el Cusco empleando variables analítico-textuales presentes en el

comentario que figura al lado de cada rating.

Las variables analítico-textuales analizadas fueron el puntaje sentimental presente en el

comentario, el índice de Gunnig-Fog y la cantidad de palabras. La primera está

vinculada al sentimiento reflejado en el comentario, mientras que la segunda es un

indicador relacionado al grado de instrucción requerido para poder comprender un texto.

A fin de verificar si existe una relación entre el customer rating y las variables analítico-

textuales mencionadas fueron utilizadas dos modelos estadísticos: la regresión lineal

múltiple y la regresión monótona. La muestra incluyo 392 casos válidos que fueron

procesados con instrumentos vinculados al Text Mining. Con el primer modelo no se

cumplen todas las condiciones de la regresión, mientras que el segundo obtiene mejores

resultados.

Los resultados evidenciaron que existe una relación directa entre el puntaje sentimental

y el rating, mientras que esta última variable mantuvo una relación inversa con el índice

de Gunning-Fog y la cantidad de palabras.

Keyword: Análisis Sentimental, Customer Rating, Gunning Fog, Text Analytics,

Restaurantes, Estadounidenses, Cusco, TripAdvisor

4

Abstract

This research document seeks to relate the customer rating indicated by American users

of TripAdvisor about Peruvian food restaurants in Cusco using textual analytical

variables present in the comment that appears next to each rating.

The analytical textual variables analyzed were the sentimental score present in the

commentary, the Gunnig-Fog index and the number of words. The first is linked to the

sentiment reflected in the commentary, while the second is an indicator related to the

degree of instruction required to understand a text.

In order to verify if there is a relationship between the customer rating and the

aforementioned analytical textual variables, two statistical models were used: multiple

linear regression and monotonic regression. The sample included 392 valid cases that

were processed with instruments linked to Text Mining. With the first model, all the

conditions of the regression are not met, while the second obtains better results.

The results showed that there is a direct relationship between the sentimental score and

the rating, while the latter variable had an inverse relationship with the Gunning-Fog

index and the number of words.

Keyword: Sentimental Analysis, Customer Rating, Gunning Fog, Text Analytics,

Restaurants, Americans, Cusco, TripAdvisor

5

Índice

Capítulo I – Problema de Investigación .............................................................................. 9

1.1. Planteamiento del Problema ..................................................................................... 9

1.2. Formulación del Problema ...................................................................................... 11

1.3. Justificación ............................................................................................................... 11

Capítulo II: Marco Referencial ............................................................................................. 14

2.1. Antecedentes ................................................................................................................. 14

2.2. Marco Teórico ............................................................................................................... 16

Capítulo III: Método ................................................................................................................ 25

3.1. Tipo y Diseño de Investigación ................................................................................... 25

3.2. Variables ........................................................................................................................ 26

3.3. Universo ......................................................................................................................... 27

3.4. Muestra........................................................................................................................... 27

3.5. Instrumentos .................................................................................................................. 30

3.6. Procesamiento y Recolección de Datos ............................................................... 32

3.7. Plan de análisis ............................................................................................................. 33

Capítulo IV: Resultados ........................................................................................................ 35

4.1. Resultados ..................................................................................................................... 35

4.2. Resultados de contraste con data del 2019 .............................................................. 48

4.3 Resultados de la nueva data de Hoteles en Arequipa.............................................. 50

4.4. Discusión ........................................................................................................................ 52

Capítulo V: Conclusiones y Recomendaciones ............................................................. 54

5.1. Conclusiones ................................................................................................................. 54

5.2. Recomendaciones ........................................................................................................ 57

Capítulo VI: Limitaciones e Investigaciones Futuras ................................................... 59

6.1. Limitaciones de la investigación ................................................................................. 59

6.2. Investigaciones futuras ................................................................................................ 59

Bibliografía ............................................................................................................................... 61

Glosario..................................................................................................................................... 67

Anexos ...................................................................................................................................... 68

Anexo 1: Cuadro de Actividades y Recursos Disponibles ............................................. 68

Anexo 2 .................................................................................................................................. 69

Anexo 3: Uso de instrumento Lexalytics ........................................................................... 70

Anexo 4: Uso de Readability Calculator ........................................................................... 71

Anexo 5: Uso de Grammarly .............................................................................................. 72

6

Anexo 6: Uso del GOLDMiner ............................................................................................ 73

Anexo 7: Datas ..................................................................................................................... 74

Anexo 8: Paso a paso para procesar data ...................................................................... 76

Anexo 9: Entrevistas de Americanos que utilizaron TripAdvisor ................................. 80

7

Índice de Tablas

Tabla 1: Tabla de Variables ........................................................................................ 26

Tabla 2: Resumen del modelo – Regresión Múltiple ................................................... 35

Tabla 3: ANOVA de la Regresión múltiple .................................................................. 35

Tabla 4: Coeficientes del modelo ................................................................................ 36

Tabla 5: Resumen de modelo modificado – Regresión múltiple .................................. 36

Tabla 6: ANOVA del modelo modificado ..................................................................... 37

Tabla 7: Coeficientes del Modelo Modificado .............................................................. 37

Tabla 8: Prueba de Kolmogorov-Smirnov para una muestra ....................................... 38

Tabla 9: Conceptos asociados a los modelos de regresión ........................................ 40

Tabla 10: Resumen del modelo utilizando la regresión monótona .............................. 42

Tabla 11: Parámetros para las variables del modelo usando regresión monótona ...... 42

Tabla 12: Resumen del modelo utilizando regresión monótona .................................. 43

Tabla 13 : Parámetros para las variables del modelo usando regresión monótona ..... 44

Tabla 14: Resumen del modelo utilizando regresión monótona aplicado a data de

comprobación del 2019 ............................................................................................... 48

Tabla 15: Parámetros para las variables del modelo usando regresión monótona ...... 48

Tabla 16: Parámetros de data original vs. Data 2019.................................................. 49

Índice de Figuras

Figura 1: Market share de turistas estadounidenses con relación al total de extranjeros

arribaron al Cusco 2013-2015 ..................................................................................... 12

Figura 2: Distribución de los comentarios según el Restaurante (en porcentaje) ........ 27

Figura 3: Customer Rating promedio de cada restaurante .......................................... 28

Figura 4: Salisa del instrumento Lexalytics ................................................................. 30

Figura 5: Flujograma de procesamiento de información .............................................. 31

Figura 6: Gráfico de la Regresión Múltiple ………………………………………………..31

Figura 7: Gráfico de la regresión monótona ................................................................ 38

Figura 8: Regresión Lineal vs. Monótona .................................................................... 39

Figura 9: Regresión Parcial del Customer Rating vs. Sentimiento (forma aditiva) ....... 43

Figura 10: Regresión Parcial del customer_rating vs. Fog (forma aditiva) ................... 44

Figura 11: Regresión Parcial del customer_rating vs. cant_palabras (forma aditiva) .. 45

Figura 12: Regresión Parcial del customer_rating vs. puntaje_sentimental (forma

multiplicativa) .............................................................................................................. 46

Figura 13 :Regresion Parcial del Customer rating Vs Gunning fog ( forma auditiva)…45

Figura 14: Regresion Parcial del Customer rating Vs cantidad de palabras ( forma

auditiva) ……………………………………………………………………………………….46

Figura 15: Grafico de la regresión monótona con data de comparación 2019……...…48

8

Introducción

Si de servicios orientados a viajeros se trata, TripAdvisor es una de las páginas más

visitadas por viajeros estadounidenses. Millones de comentarios han sido escritos por

estos usuarios desde el 2010 acerca de sus experiencias visitando el Perú. Desde luego,

Cusco ha sido uno de los departamentos que más valoraciones ha recibido. Esto incluye

a los restaurantes.

Los viajeros necesariamente necesitan alimentarse y es bastante frecuente que prueben

la comida del país que visitan. Algunos estadounidenses, luego de haber acudido a

restaurantes de comida peruana en el Cusco, escribieron sus valoraciones en

TripAdvisor. El formato de información es bastante sencillo: puntúan el servicio en una

escala que va desde pésimo, malo, regular, muy bueno y excelente. La literatura

académica llama a esto customer rating. Al lado de este indicador se encuentra un

comentario.

Los comentarios tienen un alto grado de heterogeneidad. Es correcto afirmar que son

variables. Pero los diversos estilos en cuanto a la redacción complican la tarea de poder

obtener algún tipo de información de estos. Ciertamente es mucho más sencillo asignar

un valor a la experiencia usando una escala de Likert que analizando un comentario. No

obstante, el Text Analytics (o analítica de datos textuales) posibilita transformar dichos

textos en patrones numéricos que pueden ser objeto de modelos estadísticos. Desde

los más modestos, como el simple conteo de palabras hasta las más sofisticadas

asociadas a la educación del individuo con evidencia en la escritura y a la carga

sentimental del texto digitado.

Precisamente ahí nace el espíritu de esta tesis, la cual pretende modelar el customer

rating en función de indicadores propios del Text Analytics en el contexto de las

valoraciones realizadas por estadounidenses acerca de restaurantes de comida

peruana en TripAdvisor. Esto representa un esfuerzo por introducir un método

alternativo para las investigaciones cuantitativas en marketing y en ciencias afines, pues

se usa como información de entrada los datos más abundantes que existe en la web:

los comentarios online.

9

Capítulo I – Problema de Investigación

1.1. Planteamiento del Problema

Planificar viajes a través de sitio web se ha convertido en una de las actividades más

frecuentes de los internautas (Limberger, 2014). Sitios como TripAdvisor, Booking, Yelp

y otros contienen información textual sobre diversos servicios a los que puede acceder

un viajero: aerolíneas, hoteles y restaurantes. En TripAdvisor, por ejemplo, cada usuario,

basado en su propia experiencia, puede puntuar un servicio, destino o atractivo turístico

como pésimo, malo, regular, muy bueno o excelente. Dichas puntuaciones vienen

acompañadas de un comentario en el cual se detalla la experiencia vivida.

Los comentarios en formato de texto libre son considerados datos que carecen de un

formato estándar (O’Connor, 2010) . Cada persona posee un único patrón en cuanto a

su estilo para digitar una opinión relacionada a su experiencia con un bien o servicio

(Feldman & Sanger, 2006). A pesar de que existen algunos usuarios que redactan de

una manera frívola e incomprensible, TripAdvisor proporciona información útil no solo

para los viajeros, sino también para la investigación académica en general (Chua &

Banerjee, 2013).

Disciplinas relacionadas a la analítica de datos textuales tienen por objetivo estructurar

la información textual en patrones numéricos que puedan ser objeto de un modelamiento

matemático (Clark, Fox & Lappin, 2012). Tradicionalmente para cuantificar las

valoraciones con respecto a un producto o servicio se recurre a cuestionarios con

preguntas cerradas; no obstante, la analítica de datos textuales proporciona una ruta

alternativa que se centra en indicadores numéricos que se pueden extraer de un texto

(Chua & Banerjee, 2013). Diferentes investigadores han procurado modelar el customer

rating, una de métricas más importantes en las valoraciones web, empleando a los

comentarios como inputs (Chua & Banerjee, 2013).

De un comentario puede extraerse distintos tipos de información. Resulta relativamente

sencillo contar el número de palabras a empleadas por el usuario. Por otro lado, si se

emplea algoritmos especializados, resulta posible determinar el grado de instrucción

reflejado en la escritura (Lougharn & McDonald, 2014).Es evidente, por ejemplo, que

existen diferencias entre la cantidad de años de instrucción que se requiere para

comprender un cuento para niños en comparación a una colección de artículos

académicos relacionados a la inteligencia artificial.

10

Finalmente, si la opinión digitada contiene palabras como "excelente", “agradable”,

'bueno', 'impresionante' es probablemente un comentario positivo; mientras que, si

incluye términos como "malo", "espantoso", "horrible", se está probablemente ante una

crítica negativa (López, Sánchez & Sicilia-Urban, 2014). Actualmente, los métodos

automatizados para cuantificar los sentimientos de un cliente al momento de escribir

una valoración, determinar el grado de instrucción reflejado en el contenido y contar el

número de palabras que contiene un texto solo requieren competencias muy básicas en

informática (copiar y pegar un fragmento de texto, por ejemplo).El conteo de palabras

puede realizarse con aplicaciones de Office; mientras que la variable de legibilidad

asociada al número de años de educación formal que se requiere para entender un texto

conoce como índice de Gunning-Fog (Lougharn & McDonald, 2014) ; y el sentimiento

reflejado en un comentario está asociado a una métrica conocida como score

sentimental (Liau & Tan, 2014).

Cusco es indiscutiblemente una de las ciudades con mayor atención para conocer por

parte de los extranjeros. De acuerdo con PROMPERU (2017a) un 25% de los turistas

extranjeros que arribaron a Cusco durante el 2016 tenia procedencia estadounidense,

lo cual convierte a este segmento en el más importante para dicha ciudad. Por otro lado,

un 17% del gasto de los estadounidenses durante su estadía en el Perú se destinó a la

gastronomía, principalmente comida peruana (PROMPERU, 2017b). Cabe mencionar

que actualmente existen visibles esfuerzos de empresas privadas que están muy

interesados en posicionar el concepto de comida peruana entre los ciudadanos

extranjeros.

Solo hasta el año 2013, PROMPERU publicaba reportes relacionados a la satisfacción

de los turistas extranjeros con respecto a los destinos turísticos visitados y a los servicios

empleados; uno de los servicios evaluados eran los restaurantes (PROMPERU, 2013).

A la fecha no se cuenta con mediciones más recientes; Sin embargo, en TripAdvisor,

ciudadanos que se identificaron como procedentes de Estados Unidos han realizado

valoraciones acerca de los restaurantes ubicados en el Cusco. Cada viajero ha

puntuado a un restaurante y a continuación ha redactado un comentario. En principio,

es razonable creer que el score asignado por cada cliente debe guardar relación con el

contenido del comentario. Coexisten, entonces, dos tipos de información: la

estructurada (rating) y la no estructurada (comentario).

Dado todo lo mencionado anteriormente, cabe preguntarse si es posible que dichos

indicadores numéricos que se pueden obtener a partir de un comentario (cantidad de

palabras, índice de Gunning Fog y score sentimental), guardan relación con el customer

11

rating para el caso de los ciudadanos estadounidenses que acudieron a restaurantes de

comida peruana en el Cusco y dejaron una valoración en TripAdvisor.

1.2. Formulación del Problema

¿Existe relación entre las variables analítico-textuales y el customer rating en el caso de

los estadounidenses que acudieron a restaurantes de comida peruana en el Cusco y

dejaron una valoración en TripAdvisor?

1.3. Justificación

Desde un punto de vista estrictamente académico, la investigación resulta importante

ya que se orienta a la explotación de los datos visibles más abundantes en la web: los

comentarios online. No todos los sitios webs poseen un sistema de métricas para sus

valoraciones, pero la mayoría cuenta con un espacio para que los internautas pueden

digitar sus opiniones. De esto queda evidencia en redes sociales como Facebook y

Twitter, y también en plataformas de contenido multimedia como YouTube, SoundCloud

y otras.

En cuanto al marketing, la investigación puede ubicarse dentro del comportamiento de

los consumidores, más precisamente en el uso del lenguaje en espacios digitales. Es

muy poco probable que a primera vista pueda detectarse algunas características

comunes en medio de tantos estilos de redacción distintos, pero la analítica de datos

textuales apunta al descubrimiento de patrones comunes en medio de un conjunto

considerable de información. Desde luego, poder modelar un customer rating

empleando solo un texto contribuiría a poder cuantificar la experiencia de los clientes en

un escenario de post-consumo.

Debe tomarse en consideración la importancia del segmento estadounidense en cuanto

a arribos al Cusco. Durante los últimos años, ha sido el segmento de mayor importancia

para la ciudad. Pero, además, es uno de los mercados emisores más importantes a nivel

global. También se encuentra entre los que más gastan en sus viajes, dado que es uno

de los países con mayor PBI per cápita.

12

Figura 1: Market share de turistas estadounidenses con relación al total de extranjeros

arribaron al Cusco 2013-2015

Fuente: PROMPERU (2017)

Market Size : Estadounidenses que han ingresado al Perú

2013 193010

2014 203127

2015 221432

2016 230899

2017 251680

Figura A2: Arribos de estadounidenses al Cusco

Nota: Calculado sobre la base pernoctaciones en hospedajes

Fuente: PROMPERU (2018)

26 26 26

25

22

20

21

22

23

24

25

26

27

2013 2014 2015 2016 2017

193010203127

221432230899

251680

2013 2014 2015 2016 2017

13

Lo anterior guarda relación con el aporte práctico. Si bien el segmento estudiado son

clientes estadounidenses que acudieron a restaurantes especializados en comida

peruana ubicados en el Cusco, lo cierto es que el modelo puede aplicarse a otros

ámbitos geográficos y giros de negocio ligeramente distintos, por ejemplo, restaurantes

de comida italiana en Miami o restaurantes de comida francesa en New York. Es muy

poco probable que el esitlo de redacción de un consumidor cambie solo por el hecho de

valorar un tipo de restaurante distinto, si lo haría por ejemplo si realiza un comentario

acerca de productos farmaceúticos o servicios de cuidado de la salud (Grissete, Nfaoui

& Bahir, 2017). Por lo tanto, el modelo que pretende construirse puede ser de utilidad

para quienes estén a cargo de gestionar el contenido de restaurantes no solo en

TripAdvisor, sino también en páginas como Facebook, donde también se permite

realizar valoraciones en formato de texto libre.

Por último, la investigación se basa en el uso de software libre y de fácil uso. Es así

como el documento se transforma en un pequeño manual para quienes deseen ingresar

en la analítica de textos Uno de los motivos por el que pocos profesionales de los

negocios exploraban datos textuales era que se requería de un entrenamiento en

ciencias de la computación o ramas similares; no obstante, ello dejó de ser un obstáculo

gracias a la aparición de herramientas que solo requieren competencias informáticas

básicas.

14

Capítulo II: Marco Referencial

2.1. Antecedentes

Wegner & Girasek (2003), estudiaron la facilidad de comprensión en las instrucciones

relacionadas a la instalación de asientos de seguridad en autos para niños en Estados

Unidos. Este estudio se motivó debido a que entre los años 1998 y 2000, se estimó que

entre un 79% y 94% de asientos estaban mal instalados. Y esta parecía ser la principal

razón de la tasa de mortalidad de niños de entre uno y diez años cuando ocurrían

accidentes automovilísticos. Los investigadores descubrieron que las instrucciones de

instalación para los asientos eran particularmente complejas y que el 80% de la

población estadounidenses no estaba en condiciones de entenderlas. Para realizar esta

estimación se basaron en dos indicadores: SMOG y Gunnig Fog. El trabajo tenía

implicancias enormes en la industria dedicada a la fabricación de dichos asientos.

Vasquez (2011) realizó un análisis exploratorio y lingúistico de cien reviews en donde

se pretendía identificar aquellos aspectos que son comunes a las quejas acerca de

hoteles en TripAdvisor. Entre otros hallazgos la autora determinó que las quejas suelen

ser bastante detalladas en cuanto a contenido. Por otro lado, la investigadora indicó que

las quejas guardan relación con experiencias no satisfactorias, es decir, experiencias en

donde las expectativas de los consumidores no fueron cubiertas por la calidad de los

servicios en el hotel. La muestra analizada de 100 comentarios.

Yasseri, Kornai, & Kertész (2012) determinaron que no existían diferencias en cuanto a

los niveles de legibilidad entre los artículos de Wikipedia escritos en las secciones Main

(principal) y Simple English (que se supone debe incluir un contenido en un lenguaje

mucho más fácil de entender). Esto ocurría a pesar de que Wikipedia siempre había

hecho esfuerzos para hacer respetar la guía de estilo editorial para cada una de ambas

secciones.Una de las variables que se tomó en cuenta para realizar esta medición fue

el índice de Gunning Fog. Otros hallazgos fueron que el lenguaje es más avanzado en

artículos conceptuales en comparación con artículos basados en personas (biografías)

y objetos. Finalmente, investigaron la relación entre el conflicto y la complejidad del

lenguaje analizando el contenido de las páginas de discusión asociadas a artículos

controversiales y de desarrollo pacífico, concluyendo que la controversia tiene el efecto

de reducir la complejidad del lenguaje.

Oghina, Breuss, Tsagkias & De Rijke (2012) orientaron su investigación a determinar la

correlación entre el puntaje registrado por una película en el portal IMDB y los puntajes

sentimentales registrados en la red social Twitter. Para ello, los investigadores

15

analizaron 176 mil tweets en donde se valoraban setenta películas, las mismas que

poseían una valoración en el portal IMDB. El instrumento utilizado para procesar los

comentarios fue el software WEKA. El puntaje sentimental promedio de cada película

fue relacionado a la valoración de IMDB (que poseía un formato de número entero

acompañado de un decimal como 8.5 o 9.2) mediante una regresión lineal simple. El R-

cuadrado alcanzado registrado fue de 0.482. Entre las limitaciones pertinentes del

estudio, los autores señalaron que el lenguaje empleado en Twitter suele ser por lo

general muy críptico. Cabe mencionar que los autores procuraron automatizar la

limpieza de datos basado en correcciones ortográficas.

López y otros (2014) analizaron más de un millón de comentarios en TripAdvisor

realizados en inglés en donde se evaluaban hoteles de siete ciudades distintas en cuatro

países. Los investigadores recurrieron a tres instrumentos para poder modelar un score

sentimental: Sentiment Treebank (Stanford University), SentiUAH (Universidad de

Alcalá) y OpinionFinder (Cornell University). Las variables principales del estudio eran

el score promedio de cada hotel y la proporción de comentarios que pueden ser

clasificados como positivos según cada instrumento. El método empleado fue el de

regresión lineal simple. Los hallazgos determinaron que existía una correlación positiva

entre ambas variables para cada uno de los instrumentos. Los índices de correlación

alcanzaron valores que iban desde 0.609 a 0.705, siendo el SentiUAH, el que alcanzo

mejor resultado.

Agshar (2016) analizó un total de 1,125,458 comentarios en inglés realizados por

706,646 clientes acerca de 42,153 negocios en el portal Yelp.com, donde el 68.52%

eran restaurantes (el resto era servicios de entretenimiento, locales de vida nocturna y

hoteles). El instrumento empleado fue el lenguaje de programación Python y las

variables de análisis fueron el score asignado por cada cliente (en el sistema de uno a

cinco) y el puntaje sentimental determinado bajo distintos métodos supervisados,

técnicas para deducir una función a partir de datos de entrenamiento. Los resultados

demostraron que era posible modelar un score a partir de los datos textuales. No había

una diferencia significativa entre los distintos segmentos de negocios. El método que

mejores resultados alcanzó fue el de regresión logística.

16

2.2. Marco Teórico

2.2.1. Text Analytics

La analítica de textos (o Text Analytics) trata de obtener información de

diferentes fuentes de texto: interacciones con clientes, revisiones de productos,

correos electrónicos, blogs, tweets y otras formas de textos electrónicos para

que las organizaciones puedan hacer negocios y tomar decisiones de forma más

efectiva (Liau & Tan, 2014) . La analítica textual proporciona ideas sobre los

productos y servicios de la empresa y de los competidores (Kimbrough & Murphy,

2011) .

En términos prácticos, el objetivo es estructurar datos no estructurados:

esencialmente convertir el texto en datos que permitan análisis más extensos y

profundos (Ganesan & Zhou, 2016). Las aplicaciones comunes incluyen

categorizar automáticamente el texto para organizar grandes cantidades de

documentos y la Minería de Datos, incorporando texto junto con otros datos

estructurados para análisis predictivo, escuchando la "voz del cliente "- o

ciudadano - y el sentimiento detrás lo que se dice, y generar información

comercial que resulte relevante (Berezina, Bilgihan, Cobanoglu, & Okumus,

2015).

Según Gartner (2018) , la analítica textual puede ser definida como el proceso

de derivar información de fuentes de texto para propósitos que incluyen resumen,

clasificación, investigación, análisis de sentimiento (la naturaleza de los

comentarios sobre un tema) y explicación (lo que impulsa ese comentario). Es

esencial entender cómo esta definición se concreta través de acciones para

comprender el valor que puede generar a través de las diversas capacidades

analíticas (Bagga, 2016). Estas incluyen búsqueda e información de

recuperación, extracción de información a través de técnicas tales como

procesamiento del lenguaje natural (PLN), etiquetado o anotación, análisis léxico

para estudiar la frecuencia de las palabras y distribución, reconocimiento de

patrones, técnicas de minería de datos (que incluyen enlace y análisis de

asociación) análisis predictivo, segmentación y visualización (Bagga, 2016).

2.2.2. Text Analytics y los problemas de los negocios

Algunas de las aplicaciones más sofisticadas están en servicio al cliente y el

análisis de su experiencia como consumidor (López y otros, 2014). Para ello se

analiza centros de contacto y otras interacciones basadas en voz o texto

17

(Takeuchi & Yamaguchi, 2013). Las organizaciones pueden entender lo que

gusta y no les gusta a los clientes (Bagga, 2016). Los profesionales inmersos en

la analítca textual pueden determinar los controladores detrás comportamiento

del cliente y sus necesidades (Bagga, 2016). Pueden llegar, además, a las

causas detrás de las quejas de los clientes y así desarrollar un sistema de alerta

temprana cuando surjan problemas en productos y servicios (Takeuchi &

Yamaguchi, 2013). Con la transmisión tecnologíca que permite el análisis sobre

la marcha, las organizaciones puede servir a los clientes, hacer

recomendaciones en tiempo real para influir en el comportamiento, o incluso

detectar fraudes en un punto de interacción (Bagga, 2016).

El análisis del contenido de las redes sociales mantiene una organización

informada sobre lo que dicen los clientes y otros sobre productos, servicios,

marcas y la compañía en general (Chua & Banerjee, 2013). Toda esta

inteligencia del cliente colectiva conduce a iniciativas para reducir la deserción

de clientes, aumentar la lealtad a la marca y revelar oportunidades para up-sell

y venta cruzada. Existen varias aplicaciones para una diversidad de industrias:

- En el cuidado de la salud, la administración e interpretación de historias

clínicas se usa para mejorar la seguridad y cuidado del paciente (Raja,

Mitchell, Day, & Michael, 2008).

- Desde lo gubernamental y en los seguros, la analítica de texto juega un papel

creciente en la detección e investigación de fraudes (Pulman, 2016).

- En la gestión de energía y manufactura , la analítica textual es utilizada para

recopilar comentarios de los clientes y así identificar problemas con la

garantía del producto, resultando en ahorro de costos, una mejora de la

calidad y reducción tasa de reparación (Feldman & Sanger, 2006).

- El sector financiero aprovecha el análisis de textos para convertir las notas

del asesor financiero en medidas cuantificables de la experiencia del cliente,

para que puedan comprender mejor el sentimiento, identificar clientes en

riesgo, y evaluar oportunidades para profundizar relaciones (Pulman, 2016).

Por extensión, la analítica de datos textuales puede servir a cualquier función

que quiere minimizar el esfuerzo requerido para administrar y organizar grandes

volúmenes de documentos quiere agregar valor al analizar su contenido.

2.2.3. Text Analytics en la actualidad

La demanda de analítica textual se ha disparado. Las implementaciones de dicho

método se duplicaron desde el 2012 hasta el 2016 (Agshar, 2016) . Todas las

18

organizaciones, independientemente de la industria, tienen necesidades y

oportunidades no satisfechas, y por lo tanto, un creciente interés en el análisis

textual (Feldman & Sanger, 2006). Para complicar las cosas, hay nuevas y

rápidas fuentes de datos a nuestro alrededor, estas incluyen la gran cantidad de

datos de las redes sociales, y últimamente textos no estructurado generado por

las interacciones de las personas con Chatbots y asistentes personales digitales

como Siri, Amazon Echo y Cortana (Bagga, 2016). Muchas de estas aplicaciones

que dependen de las redes sociales implican saber dónde están las

comunidades, el lenguaje que usan, y las tendencias y temas que les interesa

(Agshar, 2016). Por otro lado, el Internet de las cosas también está impulsando

la demanda de aplicaciones que combinan datos estructurados como detalles

operacionales con datos no estructurados como archivos de registro (Cohen &

Hersh, 2005). A medida que los empresarios se dan cuenta de las posibilidades

y lo que eso puede significar para el rendimiento de los negocios, la demanda

simplemente sigue creciendo (Bagga, 2016).

La demanda también está impulsada por el crecimiento de la oferta, no solo de

datos sino de las tecnologías para manipularlos. Hay muchas opciones para

varios tipos de análisis, incluidas las herramientas de código abierto y basadas

en la nube, y son cada vez más fáciles de usar (López y otros, 2014). Una

empresa puede comprar una solución completa de Text Analytics o

componentes de tecnología para crear sus propias plataformas y aplicaciones, o

aplicaciones muy específicas o a medida (Ganesan & Zhou, 2016)

Finalmente, lo que es realmente diferente hoy es que podemos hacer tanto

análisis en tiempo real del tipo streaming (Bagga, 2016). El análisis de grandes

conjuntos de datos solía ser un proceso por lotes con retrasos asociados, pero

con el análisis Big Data, es posible procesar los datos tal como vienen; resulta

posible analizar la opinión y preferencia de los clientes, categorizar o puntuar al

cliente para predecir el comportamiento, y recomendar qué hacer a continuación,

todo en tiempo real (Agshar, 2016).

2.2.4. Análisis de Sentimiento

El análisis del sentimiento, también llamado minería de opinión, es el campo de

estudio que analiza opiniones, sentimientos, evaluaciones, actitudes y

emociones de las personas hacia las entidades y sus atributos expresados en

texto escrito (Quan & Ren, 2010). Las entidades pueden ser productos, servicios,

19

organizaciones, individuos, eventos, problemas o temas (Yasmina, Hajar, &

Hassan, 2016).

Las oraciones que expresan opiniones o sentimientos suelen ser oraciones

subjetivas (opuestas a las oraciones objetivas), que declaran hechos, porque las

opiniones y los sentimientos son intrínsecamente subjetivos (Bagga, 2016). Sin

embargo, las oraciones objetivas pueden implicar sentimientos negativos de sus

autores también, porque pueden hechos indeseables; por ejemplo, el sentido

común nos dice que la frase:“Compré un auto nuevo ayer y se malogró hoy”

tiende a ser objetiva, aunque manifiesta un hecho negativo (Takeuchi &

Yamaguchi, 2013).

Según Berezina y otros (2015) casi no hubo investigación acerca del análisis

sentimental hasta antes del año 2000. Esto se debe en parte a que casi ningún

texto digitales no se encontraban en formularios. Con el crecimiento explosivo

de la web y el social media en los últimos quince años, ahora se tiene un flujo

constante de datos de opinión grabado en formularios digitales (Godnov &

Redeck, 2016). Por lo tanto, no es sorprendente que el inicio y el rápido

crecimiento del análisis de sentimiento coincide con el crecimiento de las redes

sociales en la web.

Con los años, los sistemas de redes sociales en la web han proporcionado

excelentes plataformas para facilitar y habilitar la participación del público

comprometido y la comunidad, lo que ha dado como resultado una nueva cultura

participativa (Chua & Banerjee, 2013). Las personas han adoptado plataformas

como Facebook, Twitter y YouTube con entusiasmo: permiten a sus usuarios

expresarse con voz libre sobre cualquier tema y venciendo las barreras

geográficas (Chua & Banerjee, 2013). También les permiten a las personas

conectarse fácilmente con otros y compartir su información (Cohen & Hersh,

2005). Esta revolución participativa de la web y las comunicaciones ha

transformado nuestra vida cotidiana y la sociedad en su conjunto.

Esta explosión en el uso de la web ha popularizado dos áreas principales de

investigación, a saber, análisis de redes sociales y análisis de sentimientos

(Bagga, 2016). Aunque el análisis de redes sociales no es un área de

investigación nueva, ya que comenzó en el década de los 40, cuando los

investigadores en ciencias de la gestión comenzaron a estudiar actores

(personas en organizaciones) y sus interacciones y relaciones (Agshar, 2016)..

20

El análisis de sentimiento, por el contrario, es una nueva área de investigación

que esencialmente surgió de las redes sociales digitalizadas (Bagga, 2016).

Desde una perspectiva técnica, una tarea básica en análisis de sentimientos es

clasificar la polaridad de un texto dado en un documento, una oración, o una opinión

expresada en un documento como negativa, neutra, o positiva (Berezina y otros,

2015). La clasificación sentimiento más avanzada, "más allá de la polaridad" busca,

por ejemplo, estados emocionales tales como "enfado", "tristeza", o "felicidad",

aunque esta disciplina se está independizando y ya está desarrollando en un campo

más específico llamado análisis emocional (Pulman, 2016).

2.2.5. TripAdvisor como fuente de investigación académica

Es una plataforma web que surgió en el año 2000 en los Estados unidos. Es un sitio

donde quienes viajan narran sus diversas experiencias acerca de atractivos y

destinos turísticos, así como restaurantes, hoteles y más recientemente aerolíneas.

Recibe más de 390 millones de visita promedio al mes (TripAdvisor, 2017b). En este

entorno cada uno de los participantes puede opinar bajo el formato de texto libre

acerca de los lugares que visitó y los servicios que empleó. TripAdvisor es un

perfecto ejemplo de lo que se conoce como contenido generado por el usuario.

Kotler y otros (2016) mencionaron que TripAdvisor es un perfecto ejemplo de

valoraciones colectivas.

TripAdvisor, hasta hace algunos años, era muy cuestionada por la validez de su

información (comentarios, principalmente) y llegó a tener problemas de índole legal

complicados por la veracidad de estos (Mellinas, Bernal & Martínez, 2013). No

obstante, desde mediados del año 2011, TripAdvisor inició una plan estratégicos de

detección y eliminación de información falsa. Para ello recurrió a algoritmos

computacionales y a un equipo de moderadores (Chua & Banerjee, 2013). Dicho de

otra forma, desde el año 2011, la información de TripAdvisor tiene un grado de

depuración mayor.

TripAdvisor es considerada como una fuente de información secundaria de alto

valor para los estudios de hotelería, turismo y campos afines(O’Connor, 2010). A

pesar de que los algoritmos computacionales que depuran comentarios no siempre

son perfectos y de que el equipo de moderación puede equivocarse en cuanto al

hecho de detectar opiniones o valoraciones que no sean verdaderas. TripAdvisor

sigue siendo tomada en cuenta para investigaciones internacionales vinculadas a

los sectores turístico y hotelero (Amaral & Tiago, 2014).

21

2.2.6. Reviews Online y el proceso de decisión del consumo

La forma en que los consumidores buscan y compran está cambiando, esto está

impulsado por las nuevas tecnologías e Internet. Los consumidores hoy en día no

quieren sentarse pasivamente y teniendo publicidad viniendo a ellos (Amaral &

Tiago, 2014). Los consumidores están llegando activamente a sitios web y

revisiones en línea para comprender sus opciones (Liau & Tan, 2014).

Según Philips, Olsen. & Baumgartner (1995), en el proceso tradicional donde los

consumidores toman decisiones, el consumidor primero comienza seleccionando

un conjunto de marcas potenciales para posteriormente identificar los atributos

relevantes de cada marca. Luego procede a evaluar los diversos atributos de las

diferentes marcas. Por último, el proceso tradicional coherente en reducir el número

de marcas potenciales para que al final tome una decisión y al final realiza la

compra. De ahí que el marketing tradicional impulsado por las empresas a través

de la publicidad tradicional, el marketing directo y los patrocinios siguen siendo

importantes (Berezina y otros, 2015)

En cambio, en un contexto tecnológico, significa que los profesionales del marketing

deben mover sus estrategias dentro del e-WOM (boca a boca electrónico), proceso

donde los consumidores toman decisiones basados en las opiniones de otros que

ya hicieron uso del servicio (Cheng & Huang, 2014). Actualmente, en el proceso de

toma de decisiones del consumidor, estos buscan activamente y obtienen

información del producto (Chua & Banerjee, 2013). Durante la etapa de evaluación

activa, las revisiones en línea son una parte importante (Chen & Xie, 2008). Las

revisiones son la herramienta de hoy para seleccionar marcas, identificar atributos

y evaluar varios atributos de diferentes marcas (Agshar, 2016). Las revisiones en

línea están involucradas en la etapa de evaluación activa desde que los

consumidores están recopilando información mientras leen reseñas en línea.

Significa que esta importante herramienta también está involucrada en la etapa de

decisión de compra (Chen & Xie, 2008).

2.2.7. La educación basada en la escritura y el índice de Gunning-

Fog

Otros de los indicadores de mayor trascendencia en la lingüística son aquellas

relacionadas al grado de instrucción (Lougharn & McDonald, 2014). Diversas

investigaciones han construido índices que están asociados al nivel de formación

que se requiere para la comprensión de un texto determinado (Lougharn &

22

McDonald, 2014). La construcción de estas variables fue posible gracias al

trabajo de la lingüística, la estadística y la computación.

El modelamiento matemático para comprender fenómenos lingüísticos ha

contribuido a la comprensión de ciertos fenómenos que antes se entendían

únicamente desde una perspectiva cualitativa-exploratoria (Newbold & Gillam,

2010) . El índice de Gunning-Fog (o también llamado simplemente Fog), permite

determinar cuántos años de instrucción se requiere para entender un

determinado texto, y es el de mayor uso en Estados Unidos (Lougharn &

McDonald, 2014). Para calcular el índice de Gunnig-Fog son empleados tres

datos de entrada variable: sentencias (oraciones), el total de palabras

involucradas y las palabras complejas, aquellas que tienen más de tres sílabas

(Newbold & Gillam, 2010). La fórmula estándar es la siguiente.

𝐺𝑢𝑛𝑛𝑖𝑛𝑔 𝐹𝑜𝑔 𝐼𝑛𝑑𝑒𝑥 = 0.4 ∗ [(𝑝𝑎𝑙𝑎𝑏𝑟𝑎𝑠

𝑠𝑒𝑛𝑡𝑒𝑛𝑐𝑖𝑎𝑠) + 100 ∗ (

𝑝𝑎𝑙𝑎𝑏𝑟𝑎𝑠 𝑐𝑜𝑚𝑝𝑙𝑒𝑗𝑎𝑠

𝑝𝑎𝑙𝑎𝑏𝑟𝑎𝑠)]

Mientras más alto sea el índice, más años de educación formal se requiere para

poder comprender un determinado texto (Clark, Fox, & Lappin, 2012). El índice

de Gunning-Fog es uno de los índices de legibilidad más importantes del idioma

inglés (Shams & Mercer, 2011). Un documento académico publicado en el

Journal of Artificial Intelligence alcanza un valor de veintiuno, mientras que The

Hobbit registra un valor de aproximado de nueve (Newbold & Gillam, 2010). Esto

quiere decir que se requieren veinte años de formación académica formal para

comprender el artículo científico y nueve para entender una de las más grandes

obras de Tolkien.

Una de las inferencias de Shams & Mercer (2011) es que las personas suelen

escribir en función a su grado de instrucción. Y esto parece evidente, aunque

depende del contexto. En los servicios de mensajería instantánea, por ejemplo,

no se procura respetar las reglas de ortografía. Sin embargo, en espacios donde

todo el mundo puede leer el contenido que ingresamos, las personas procuran

escribir más acorde a su grado de instrucción (Newbold & Gillam, 2010), esto ya

está asociado a la imagen que se desea proyectar en entornos digitales (Shams

& Mercer, 2011).

2.2.8. Modelo de Referencia

El modelo de referencia es una adaptación de los antecedentes de la

investigación y uno de los valores más importantes de TripAdvisor: el tipo de

viajero. Por el lado de las variables analítico-textuales, tenemos al análisis de

23

sentimiento, indicador asociado a la carga sentimental expresada en el texto. El

índice de Gunning-Fog, por otra parte, está asociado a la educación en la

escritura. Por último, se ha considerado a la cantidad de palabras, dado que esta

es una variable asociada al nivel de detalle (a más detalles que desea

describirse, más palabras serán necesarias).

De acuerdo con las estadísticas del sitio web, el 75% de los viajeros que acuden

a restaurantes del Cusco viajó con amigos o familia (TripAdvisor, 2017a). Es

una variable auxiliar para considerar en el modelo.

CR = f (puntaje sentimental, gunning fog, cantidad de palabras, tipo viajero)

Donde:

CR = Customer Rating

gunning fog = índice de Gunning Fog

cantidad de palabras = cantidad de palabras

tipo viajero = tipo de viajero

2.6. Objetivos e Hipótesis

2.6.1. Objetivos

Objetivo General: Determinar si el modelo de referencia que relaciona score y datos

analítico-textuales resulta significativo en el caso de los estadounidenses que

dejaron valoraciones en TripAdvisor acerca de restaurantes de comida peruana en

el Cusco.

Objetivo Específico 1: Determinar si el customer rating guarda relación con el score

sentimental del comentario en el caso de las valoraciones realizadas por

estadounidenses acerca de restaurantes de comida peruana en el Cusco.

Objetivo Específico 2: Determinar si el customer rating guarda relación con el índice

de Gunnig- Fog del comentario en el caso de las valoraciones realizadas por


Objetivo Específico 3: Determinar si el customer rating guarda relación con la

cantidad de palabras del comentario en el caso de las valoraciones realizadas por


24

Objetivo Específico 4: Determinar si el customer rating guarda relación con el tipo

de viajero el caso de las valoraciones realizadas por estadounidenses acerca de

restaurantes de comida peruana en el Cusco.

2.6.2. Hipótesis

Hipótesis General: El modelo de referencia que relaciona score y datos analítico-

textuales resulta significativo en el caso de los estadounidenses que dejaron

valoraciones en TripAdvisor acerca de restaurantes de comida peruana en el

Cusco.

Hipótesis Específica 1: El customer rating guarda relación con el score sentimental

del comentario en el caso de las valoraciones realizadas por estadounidenses

acerca de restaurantes de comida peruana en el Cusco.

Hipótesis Específica 2: El customer rating guarda relación con el índice de Gunnig-

Fog del comentario en el caso de las valoraciones realizadas por estadounidenses

acerca de restaurantes de comida peruana en el Cusco.

Hipótesis Específica 3: El customer rating guarda relación con la cantidad de

palabras del comentario en el caso de las valoraciones realizadas por


Hipótesis Específica 4: El customer rating guarda relación con el tipo de viajero el

caso de las valoraciones realizadas por estadounidenses acerca de restaurantes

de comida peruana en el Cusco.

25

Capítulo III: Método

3.1. Tipo y Diseño de Investigación

3.1.1. Tipo de Investigación

Ya se ha mencionado que la investigación se nutre de comentarios para poder

construir una serie de indicadores numéricos. Los datos en formato de texto libre

(también conocidos como variables string o cadena) no podían ser aprovechados

de forma numérica. Los comentarios son inputs, estos son transformados a

números. Estos últimos pueden ser aprovechados recurriendo a las técnicas

estadísticas convencionales. Esto con el fin de verificar la veracidad de un

conjunto de hipótesis planteadas por los investigadores. Por tanto, la

investigación es del tipo cuantitativa (Hernández, Fernández, & Baptista, 2014).

Cabe mencionar que el enfoque tradicional de textos se daba basado en el

análisis de contenido (Kothari, 2004).

3.1.2. Diseño de Investigación

La investigación es no experimental, transversal y correlacional:

-Es no experimental porque los investigadores no ejercen control sobre las

variables ni tampoco la aleatorizan: el proceso de investigación solo tranforma

comentarios en patrones numéricos (Kothari, 2004).

-Por otro lado, la investigación es transversal, ya que los datos han sido

recolectados en un momento determinado, además la variable tiempo no

participa en la investigación , más allá de ser un delimitante (Kothari, 2004).

-Finalmente la investigación es del tipo correlacional: busca determinar si existe

una relación entre una variable dependiente y un conjunto de variables

independientes (Hernández, Fernández, & Baptista, 2014). Un cambio en alguna

de estas última debería estar vinculada a una variación en la primera. En este

caso, la variable dependiente es el customer rating (Hernández, Fernández, &

Baptista, 2014).

26

3.2. Variables

Tabla 1: Tabla de Variables

Hipótesis de Investigación Variables Definición Conceptual Definición Operacional

El modelo de referencia que relaciona score y datos

analítico-textuales resulta significativo en el caso de los estadounidenses que dejaron valoraciones en TripAdvisor acerca de restaurantes de

comida peruana en el Cusco.

Customer Rating

Es el valor que asigna cada cliente en función del servicio recibido.

Existen investigadores que la tratan como variable ordinal (Limberger, 2014)l y otros que lo usan como

indicador cuantitativo (López et.al 2014).

Puntaje asignado por cada usuario. Es

posible obtenerlo por observación directa.

El customer rating guarda relación con el score

sentimental del comentario en el caso de las

valoraciones realizadas por estadounidenses acerca de


Puntaje sentimental del

comentario

Es el valor que cuantifica la polaridad con que la persona ha expresado su opinión en un texto

escrito. Es un valor numérico que va desde -1 (totalmente negativo) hasta

+1 (totalmente positivo)

Cada comentario es

corregido ortográficamente con

el instrumento Grammarly y

posteriormente procesado con el

instrumento Lexalytics Semantria. Con este último fue obtenido el puntaje sentimental.

El customer rating guarda relación con el índice de

Gunnig- Fog del comentario en el caso de las



Índice de Gunnig Fog

Representa el número de años de educación formal que se requiere

para comprender un texto en inglés (Lougharn & McDonald, 2014). Es

una variable asociada a la educación (Lougharn & McDonald, 2014).

Puede alcanzar valores que van desde 0.40 (palabra monosílaba)

hasta más de 25 en journals internacionales

Cada uno de los comentarios es

procesado con el instrumento

Readability Calculator.

El customer rating guarda relación con la cantidad de

palabras del comentario en el caso de las valoraciones

realizadas por estadounidenses acerca de


Cantidad de Palabras

Representa el número de palabras que son empleados en un

comentario. Es una variable cuantitativa dependiente. TripAdvisor no tiene un límite inferior en cuanto a

palabras (el mínimo es 100 caracteres). El máximo a ingresar

son 10,000.

Puede obtenerse

mediante una función de Excel aplicado a

cada valoración textual.

El customer rating guarda relación con el tipo de viajero el caso de las valoraciones

realizadas por estadounidenses acerca de


Tipo de viajero

Representa al grupo de viaje con el que el viajero estuvo acompañado al

momento de comer en el restaurante. Es una variable

categórica.

Puede obtenerse con el motor de búsqueda de TripAdvisor. Basta con indicar el tipo de

viajero.

Elaboración: Propia

27

3.3. Universo

El universo estará conformado por todas las valoraciones en TripAdvisor realizadas por

estadounidenses acerca de restaurantes de comida peruana, se asume que el universo

es infinito.

3.4. Muestra

La muestra está conformada por 392 casos válidos. El tipo de muestreo es abierto y por

conveniencia, el cual es un método en donde los sujetos son elegidos dado su

conveniente accesibilidad (Malhotra, 2008). TripAdvisor permite localizar a los

restaurantes de comida peruana en el Cusco, permite filtrar el tipo de viajero (familia,

amigos) e incluso es posible obtener todos los comentarios en inglés (mediante

procesos automatizados). No obstante, la página no permite filtrar únicamente a los

estadounidenses con una función automatizada. Por lo que es necesario ubicarlos uno

a uno. Un caso válido cumple las siguientes característica.

- El comentario debe ser haber sido escrito en inglés. Es posible admitir la

incorporación de peruanismos (algunos platos, por ejemplo, no tienen

nombres en inglés).

- No se admite casos en los que un ciudadano estadounidense escriba parte

de su comentario en otros idiomas, ya que el índice de Gunning Fog está

diseñado específicamente para el idioma inglés, aunque puede admitir

nombres propios en otros idiomas.

La muestra fue tomada durante los meses de febrero y marzo del 2018. No se han

incorporado comentarios posteriores a dichos meses.

Los restaurantes incluidos en el estudio son aquellos que cuentan con registro en

TripAdvisor. Resulta obvio que no se pueden incluir los restaurantes sobre los que no

se tiene registro alguno. Por otro lado, tampoco pueden incluirse restaurantes de comida

peruana ubicados en el Cusco que no tengan valoraciones de ciudadanos procedentes

de Estados Unidos.

Todos los restaurantes incluidos en la muestra no solo tienen comentarios realizados

por ciudadanos estadounidenses, sino que además cuentan con una ubicación en

Google Maps, y en casi la totalidad de los casos opiniones en el módulo de Google

Reviews. De esta manera es verificable la existencia de cada restaurante como entidad

empresarial a fin de garantizar la integridad de la muestra y los datos que la conforman

a fin de evitar inexactitudes de la información.

28

A fin de verificar los mecanismos de validación de TripAdvisor, se procedió a ingresar

comentarios acerca de restaurantes ubicados en Egipto, Cusco y Miraflores. Los dos

primeros nunca fueron publicados, el tercero sí. La razón de esto es que TripAdvisor

tiene un algoritmo para publicaciones que se orienta por la IP. Al cierre de la edición de

la investigación, los comentarios no fueron publicados.

Figura 2: Distribución de los comentarios según el Restaurante (en porcentaje)

Fuente: TripAdvisor (2017)

5.1

3.8

4.6

3.3

3.6

4.3

3.1

1.8

4.8

5.9

4.3

3.8

2.6

3.8

5.4

5.6

3.3

3.1

4.8

4.1

3.8

6.6

6.1

2.3

0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0

A mi Manera

Aguaymanto Resto Bar

Barrio Ceviche

Brasa Brava

Calle del Medio

Cultura Paraíso

El Paititi

Faustina

Inka Grill

kusikuy

Lima Cocina Peruana y Pisco Bar

Limbus Restobar

Meson de Don Tomas

Morena Peruvian

Museo del Pisco

Nuna Raymi

Organika

Pachapapa

Peruk

Qesqi Restaurant y Bar

Qucharitas

Seledonia's Mesa

Uchu Peruvian Steakhouse

Yurak

29

Como se mencionó existen restaurantes de comida peruana que no tienen valoraciones

de comensales estadounidenses o simplemente no están en TripAdvisor. Estos pueden

ser ubicados ya sea mediante anuncios publicitarios, redes sociales como Facebook o

consulta en la guía de negocios local. Algunos de estos son: Siete cucharones, Panchito,

La buena Sazón, Aycha Food, Sinkuy, Uchukuta, Tradiciones Criollas, Cusco Club, La

Rika Miel, Hangar950, Tupana Wasi, La Cabra, Chasfake, Villa Mercedes, BenachIn, El

Dorado, Andean Grill y Noqanchis.

Por otro lado, en cuanto a la satisfacción alcanzada por los usuarios estadounidenses

se obtuvo:

Figura 3: Customer Rating promedio de cada restaurante

Fuente: TripAdvisor (2017)

3.550

4.467

4.444

4.462

4.500

4.824

3.500

3.714

4.158

4.435

2.294

3.200

3.100

4.667

3.429

4.182

4.462

1.750

3.263

2.875

3.533

4.192

4.292

4.333

3.860

0.000 1.000 2.000 3.000 4.000 5.000 6.000

A mi Manera

Aguaymanto Resto Bar

Barrio Ceviche

Brasa Brava

Calle del Medio

Cultura Paraíso

El Paititi

Faustina

Inka Grill

kusikuy

Lima Cocina Peruana y Pisco Bar

Limbus Restobar

Meson de Don Tomas

Morena Peruvian

Museo del Pisco

Nuna Raymi

Organika

Pachapapa

Peruk

Qesqi Restaurant y Bar

Qucharitas

Seledonia's Mesa

Uchu Peruvian Steakhouse

Yurak

Total general

30

Nota: El promedio sirve para determinar un ranking de los restaurantes. Es obtenido promediando

las calificaciones de los usuarios de TripAdvisor

3.5. Instrumentos

3.5.1. Microsoft Excel

Es una hoja de cálculo diseñada por Microsoft. En la investigación es usado

como almacén de información, pero también se usa para contar el número de

palabras que se encuentran en una frase.

3.5.2. Readability Calculator

Es una aplicación online desarrollado en lenguaje de programación Java. La

misma es empleada para calcular del índice de Gunning Fog. Basta con copiar,

pegar un texto y presionar el botón de cálculo para que se obtengan resultados

inmediatos.

3.5.3. Grammarly

Es un complemento que pude adherirse al navegador Chrome. En la

investigación es usado para corregir la ortografía y gramática de los textos

ingresados (comentarios en este caso). Este proceso es requerido por el análisis

sentimental para la obtención de mejores resultados.

3.5.4. Lexalytics

Este software, también conocido como Lexalytics Semantria, se orienta al

análisis de sentimiento. Cuenta con una versión online de demostración, la

versión comercial principal funciona como un complemento para Microsoft Excel.

Lexalytics cuenta con un módulo especializado para análisis de comentarios

acerca de restaurantes, hoteles, aerolíneas y servicios farmacéuticos. En la

investigación se usa el primer módulo. Los resultados del Lexalytics mejoran en

calidad si son tratados previa corrección ortográfica y gramatical.

Si se tiene la siguiente frase en inglés extraída de TripAdvisor:

“We visited here during our recent trip to Sydney and overall we were very impressed. We decided to make a reservation online, which was quick and easy with instant confirmation. It was nice to be able to view the table layout and select our own online. The location is spectacular with stunning views of the harbour and Opera House. It truly was amazing. Despite this, however, the restaurant was only about 25% full and so the atmosphere was a bit flat. Perhaps this was to our benefit as we received top class service from our waiter, Brandon, who was not only friendly and funny but extremely knowledgeable when it came to food and wine pairings. Speaking of wine, the list was extensive - we loved it - and it took us what seemed like an hour to eventually decide on a local Shiraz. Now on to the most important aspect, the food. Our seafood starters were

31

delicious, as were out fillet steak mains. The one and only real disappointment was the dessert which was served with no real imagination and looked like it had been purchased yesterday at the local grocery store. All in all, my favourite Sydney restaurant so far. So many positives and really good value too. Highly recommend!”

La cual se traduce en:

"Visitamos aquí durante nuestro reciente viaje a Sydney y, en general, quedamos muy impresionados. Decidimos hacer una reserva en línea, que fue rápida y fácil con confirmación instantánea. Fue agradable poder ver el diseño de la mesa y seleccionar el nuestro en línea. La ubicación es espectacular, con impresionantes vistas del puerto y la Ópera. Realmente fue increíble. Sin embargo, a pesar de esto, el restaurante solo estaba lleno en un 25% y el ambiente era un poco plano. Tal vez fue para nuestro beneficio, ya que recibimos un servicio de primera clase de nuestro camarero, Brandon, que no solo era amigable y divertido, sino que también tenía un gran conocimiento en lo que respecta a los maridajes de comida y vino. Hablando de vino, la lista era extensa (nos encantó) y nos tomó lo que pareció una hora para finalmente elegir un Shiraz local. Ahora pasemos al aspecto más importante, la comida. Nuestros entrantes de marisco eran deliciosos, al igual que los principales filetes. La única y verdadera decepción fue el postre que se sirvió sin verdadera imaginación y parecía que se había comprado ayer en la tienda de comestibles local. En general, mi restaurante favorito de Sydney hasta ahora. Tantos aspectos positivos y muy buen valor también. ¡Altamente recomendado!"

Figura 4: Salida del instrumento Lexalytics,

En este caso el comentario ingresado ha alcanzado un puntaje de 0.599. Lo que

evidencia una actitud positiva del autor con respecto al texto ingresado. Esto

tentativamente estaría asociado a una valoración positiva.

3.5.5. SPSS

Es un software de análisis estadístico que es propiedad de IBM. Es muy

empleado en las ciencias sociales y en el ámbito de los negocios, especialmente

32

en las investigaciones de mercado (Garth, 2008). Este software será empleado

para el modelo de regresión múltiple.

3.5.6. GOLDMineR

Es un software de análisis estadístico diseñado para las regresiones ordinales

generales y está bajo la licencia de Statistical Innovations (Magidson, 1998).

Este instrumento será usado para la regresión considerando la variable

dependiente del tipo ordinal como lo propuso Limberger (2014). El nombre

proviene de Graphical Ordinal Logit Displays based on Monotonic Regression

(Magidson, 1998).

3.6. Procesamiento y Recolección de Datos

La variable tipo de viajero se obtiene por observación directa. En el caso de las variables

analítico – textuales las mismas fueron registradas en el SPSS luego del siguiente

proceso:

Figura 5: Flujograma de procesamiento de información

33

3.7. Plan de análisis

Tomando como referencia, tal como lo hicieron López y otros (2014) se usará la

regresión múltiple.Esta técnica, debe cumplir una serie de supuestos, entre ellos: la no

autocorrelación entre los residuos, la existencia de no colinealidad y la hipótesis de

normalidad en los residuos (Pardo & Ruíz, 2002). No obstante, en muchas ocasiones

no se cumplen todos los supuestos de la regresión múltiple, por lo que es decisión del

investigador valorar la aceptación del no cumplimiento de alguno de los supuestos para

seguir utilizando dicha técnica (Pardo & Ruíz, 2002). Emplearemos, entonces, la técnica

de la regresión múltiple para componer el modelo de Customer Rating y valorar si

podemos cumplir con nuestro cometido. Para ello haremos uso de las regresiones

múltiples.

Para analizar los datos y lograr conocer el valor de verdad de las hipótesis, es necesario

regresionar los datos. Es tentativo el empleo de la regresión monótona, un método

generalizado para predecir un orden dicotómico, ordinal o agrupado para una variable

dependiente continua Y que contiene J≥ 2 categorías de resultados, como una función

de M variables de predicción cuantitativas y / o cualitativas X = (X1, X2, ..., XM)

(Magidson, 1998). Existen cuatro motivos para considerar a esta regresión:

- De acuerdo con lo señalado por Magidson (1998), existen muy pocas

variables dependientes en el mundo que sean continuas o dicotómicas. En

el caso de TripAdvisor, cuando un usuario puntua su experiencia, lo hace en

una escala de pésimo, malo, regular, bueno y excelente. No se está,

entonces ante una variable continua, sino ante una escala ordinal, más

precisamente en una escala de Likert.

- De acuerdo con Han & Cai (2011), una ventaja de la regresión monótona es

que no asume una linealidad rígida como la regresión múltiple, sino se basa

en una forma libre más adaptable a escenarios reales.

- Tal como señalan Magidson (1998) y Han & Cai (2011), este método resulta

una regresión ordinal logística en su versión general.

- Posee un nivel de ajuste más alto dado que su forma es la de una curva y es

menos rígida que una recta (Han & Cai, 2011).

Si bien es cierto que investigadores como López y otros (2014) emplearon la regresión

lineal para demostrar la relación entre puntajes sentimentales y los ratings, lo cierto es

que el rating no se asemeja a una variable continua (Limberger, 2014). Una de las

formas más comunes de comparar los modelos de regresión lineal y la monótona es el

valor del R-cuadrado. El nivel de significancia para todo los modelos es de 0.05. Su uso

34

se ha dado en múltiples investigaciones, figura como un valor por defecto o estándar en

diversos softwares de analísis estadístico y aunque su calidad como valor de referencia

es debatible (Manterola & Pineda, 2008); para estar en consonacia con la mayoría de

las publicaciones científicas.

35

Capítulo IV: Resultados

4.1. Resultados

Resultados de la regresión múltiple

El primer modelo para emplear es el que relaciona las siguientes variables: Customer

Rating, Sentimiento, Cantidad de Palabras, Fog y Tipo de viajero.

Tabla 2: Resumen del modelo – Regresión Múltiple

Modelo R R

cuadrado R cuadrado

ajustado Error estándar de la

estimación Durbin-Watson

Múltiple ,835a 0.697 0.694 0.703 1.312


En la regresión múltiple, el estadístico de Durbin Watson proporciona información sobre

la independencia de los residuos. El valor de este estadístico oscila entre 0 y 4. Toma

valor 2 cuando los residuos son completamente independientes. De acuerdo Pardo &

Ruíz (2002), este estadístico debe estar entre 1,5 y 2,5 (p.373) y valores menores que

2 indican autocorrelación positiva y aquellos mayores que 2 indican autocorrelación

negativa. En el caso que estamos analizando, se incumple el supuesto de

independencia y como consecuencia los residuos son dependientes, lo cual estaría

violando uno de los supuestos de la regresión múltiple.

A continuación, comprobaremos si las variables utilizadas en la regresión cumplen con

el supuesto de linealidad, condición necesaria para esta técnica. Para ello utilizaremos

la técnica Anova, aplicada al caso de la regresión.

Tabla 3: ANOVA de la Regresión múltiple

Modelo Suma de

cuadrados gl

Media cuadrática

F Sig.

Regresión 440.066 4 110.016 222.659 0,000

Residuo 191.217 387 0.494

Total 631.283 391


Anova nos proporciona el estadístico F permite conocer si existe relación lineal

estadísticamente significativa entre la variable dependiente y las independientes

36

tomadas todas en su conjunto. Aquí el p-valor es <0,05 lo que indica que existe relación

lineal estadísticamente significativa.

Tabla 4: Coeficientes del modelo

Modelo

Coeficientes no estandarizados

Coeficientes estandarizados

t Sig.

Estadísticas de colinealidad

B Desv. Error

Beta Tolerancia VIF

(Constante) 4.68 0.172

27.178 0.000

Sentimiento 2.433 0.098 0.721 24.917 0.000 0.934 1.07

Cantidad Palabras

-0.003 0.001 -0.134 -4.583 0.000 0.918 1.09

Fog -0.095 0.012 -0.225 -7.86 0.000 0.952 1.05

Tipo de Viajero

-0.104 0.071 -0.041 -1.461 0.145 0.994 1.006


Según las estadísticas de colinealidad, la Tolerancia es alta, es decir no hay colinealidad

entre cada una de las variables independientes y la dependiente. Según Cameron &

Windmeijer (1995) el FIV (Factores de Inflación de la Varianza) son los inversos de los

niveles de Tolerancia, y son grandes, pero tolerancia y FIV grandes, no generan

problema, pero Tolerancia pequeña y FIV grande equivale a inestabilidad en los

coeficientes de regresión (p.21). Cabe mencionar que el tipo de viajero registra un p-

valor de 0.145 (>0.05), superando al fijado en esta investigación.

Por ello se propone la necesidad de modificar el modelo de regresión múltiple a fin de

excluir la variable tipo de v.

Tabla 5: Resumen de modelo modificado – Regresión múltiple


En este caso, el coeficiente de Durbin Watson nuevamente no se ubica dentro del rango

de 1,5 y 2,5. Por tanto los residuos son dependientes (muy similar a la Tabla 2), teniendo

los residuos autocorrelación positiva, no pudiendo cumplir con el supuesto de

independencia de los residuos.

Modelo R R

cuadrado R cuadrado

ajustado Error estándar de la

estimación Durbin-Watson

Múltiple ,834 0.695 0.693 0.704 1.307

37

Continuando con la linealidad del conjunto de variables, dependiente e independiente,

se analiza el Anova correspondiente.

Tabla 6: ANOVA del modelo modificado

Modelo Suma de

cuadrados gl

Media cuadrática

F Sig.

Regresión 439.011 3 146.337 295.305 ,000b

Residuo 192.272 388 0.496

Total 631.283 391


En este caso el nivel de significancia indica que si existe relación lineal entre la variable

dependiente y las independientes. Luego es necesario analizar cada una de las

variables textuales:

Tabla 7: Coeficientes del Modelo Modificado

Modelo

Coeficientes no estandarizados

Coeficientes estandarizados

t Sig.

Estadísticas de colinealidad

B Desv. Error

Beta Tolerancia VIF

(Constante) 4.627 0.169 27.454 0.000

Sentimiento 2.432 0.098 0.721 24.873 0.000 0.934 1.07

Cantidad Palabras

-0.003 0.001 -0.137 -4.701 0.000 0.923 1.083

Fog -0.095 0.012 -0.225 -7.828 0.000 0.953 1.05


En este caso, eliminando la variable tipo, todas las variables son estadísticamente

significativas (p< 0.05) y ninguna de las variables se excluye, el modelo queda de la

siguiente forma:

Customer Rating = 4.627 + 2.432*Sentimiento – 0.003*Cantidad de Palabras – 0.095*Fog

Bajo este modelo, existe una relación directa entre el sentimiento y el rating asignado

por el cliente; mientras que la cantidad de palabras y el índice de Fog propio de la

escritura, guardan una relación inversa con la valoración dejada por el usuario. En

38

cuanto a la importancia de las variables, el sentimiento supera al índice fog y este último

a la cantidad de palabras.

No obstante, es necesario una prueba más para para saber si se cumplen los postulados

del modelo de regresión múltiple y para ello utilizaremos la prueba de Kolmogorov-

Smirnov, que nos indicará si los residuos provienen o no de una distribución normal.

Tabla 8: Prueba de Kolmogorov-Smirnov para una muestra Unstandardized

Residual

N 392

Parámetros normales Media 0.000

Desv. Desviación

0.701

Máximas diferencias extremas Absoluto 0.06

Positivo 0.036

Negativo -0.06

Estadístico de prueba 0.06

Sig. asintótica(bilateral) 0,002


En este caso, el nivel de significancia no excede el p-valor de 0.05, por tanto, los errores

del modelo Ɛ, que contrastamos a partir de los residuos estandarizados, no provienen

de una distribución normal. Por tanto, no se cumple el supuesto de normalidad.

De los principios de regresión múltiple planteados, solo se ha cumplido la existencia de

no colinealidad, mientras que no se han superado la autocorrelación entre los residuos

y la distribución normal de los mismos.

Con los resultados anteriores, podemos poner en tela de juicio la propuesta de López y

otros (2014).

Además del incumplimiento de algunos de los supuestos de la regresión múltiple,

debemos de tener en cuenta que la variable dependiente (Customer Rating) es una

variable ordinal y no necesariamente métrica, por lo cual deberíamos tratar esa variable

y el modelo en general con otro tipo de regresión que sirva para analizar variables

dependientes ordinales. Para ello se ha elegido la regresión monótona (Magidson,

1998), que nos ayudará a obtener unos resultados más coherentes con los tipos de

variable estudiados.

La diferencia entre las regresiones múltiple y monótona puede evidenciarse también en

forma gráfica:

39

Figura 6: Gráfico de la Regresión Múltiple Figura 7: Gráfico de la regresión monótona

Al observar ambas figuras, resulta evidente que en la regresión múltiple se pierde información. La curva de regresión monótona, por otro lado,

representa la regresión conjunta de las tres variables independientes ingresadas en el modelo (puntaje_sentimental, gunning_fog y

cant_palabras) versus el Customer Rating. Los valores extremos más próximos a los valores del customer rating de uno (pésimo), tres (regular)

y cinco (excelente) notaremos que se ha incrementado el puntaje_sentimental: pasando desde el valor de -0.8 a -0.004 y cerrando en 0.784. No

ocurre lo mismo con el índice de Gunning Fog; de izquierda a derecha en el eje X ha ido disminuyendo: 18.39 (rating=1); 11.44 (rating =3) y 9.25

(rating =5) (ver figura 6) y con la cantidad de palabras que han ido disminuyendo a medida que el Customer Rating ha aumentado.

40

La diferencia entre ambas regresiones puede ser apreciada en un comparativo con las

curvas superpuestas.

Figura 8: Regresión Lineal vs. Monótona

En lo relacionado a la regresión monótona, es necesario definir algunos conceptos, que

difieren de los tradicionales de la regresión múltiple y que al menos son:

Tabla 9: Conceptos asociados a los modelos de regresión

El L² (likelihood ratio)

Phi (medida del grado de asociación)

P-valor de L²

Valores de Beta

exp(Beta)

R-cuadrado

Grados de libertad

Fuente: Listado basado en la recopilación de Magidson (1998)

El L² (likelihood ratio):

El L² explicado por el modelo es un indicador de asociación entre las variables

dependientes y los predictores (Magidson, 1998).

41

Phi (medida del grado de asociación):

El valor de phi indica el nivel de relación entre el valor predicho de la variable

dependiente y su valor real y se espera que su valor sea mayor a 0 (Magidson, 1998).

Este indicador debe ser mayor a cero (Magidson, 1998).

P-valor:

El p-valor asociado al L² explicado por el modelo indica el nivel de significancia y va

desde 0 a 1. Este p-valor debe compararse con el nivel de significancia establecido

(0.05), en este caso si llegara a ser >0.05, el modelo no resulta estadísticamente

significativo; es decir, ninguna variable debe ser excluida del modelo; caso contrario,

algunas de las variables deben permanecer en la relación propuesta (Serena, 2015)

L² (Y):

Por otro lado, L² (Y) es el estadístico de razón de verosimilitud de diferencia

chi-cuadrado (Magidson, 1998), debe ser entendido como el nivel de asociación entre

cada variable independiente con la dependiente (Jovell, 1995). Para cada variable

independiente existe también un p-valor asociado que es utilizado para decidir si debe

permanecer en el modelo (Serena, 2015)

Valores de Beta:

Estos valores, son los efectos estimados para cada variable en la forma aditiva del

modelo (Magidson, 1998).

Exp (Beta):

Es el efecto estimado para el predictor (variable) en forma multiplicativa. Con respecto

a exp (Beta) cuanto más alejada de 1 la relación es más fuerte (Jovell, 1995).

R-cuadrado:

Es un indicador asociado a la calidad del modelo (Jovell, 1995). Cuanto más alto es la

R-cuadrado más explicativo es el modelo; es decir, las variables independientes

explican la variable dependiente (Jovell, 1995).

Grados de libertad:

Representan a la cantidad de información suministrada por los datos que el investigador

(degree of freedom en inglés, df) puede emplear para estimar los valores de parámetros

42

de población desconocidos y calcular la variabilidad de esas estimaciones (Serena,

2015). Este valor se determina según el número de observaciones de la muestra y el

número de parámetros del modelo (Jovell, 1995).

Hasta aquí se explican los términos más importantes de la regresión monótona que se

analizará a continuación y se decidirá si el modelo de regresión múltiple es más o menos

aplicable que la regresión monótona en el caso de esta tesis.

Resultados de la regresión monótona

En cuanto a los objetivos de la investigación con la regresión monótona deseamos tener

este modelo estadístico:

CR = f (puntaje_sentimental, gunning_fog, cant_palabras, tipo_viajero)

Tabla 10: Resumen del modelo utilizando la regresión monótona

Resumen de Asociación L² Df p-valor R² phi

Explicado por el modelo 398.11 4 0.000 0.73 2.4803

Residual 696.69 1560 1

Total 1094.81 1564 1


En esta tabla, el p-valor de 0.000 hace referencia a que algunas variables deben ser

incluidas en el modelo.

Por otro lado, el R² evidencia que el 73% de la variabilidad de CR (Customer Rating)

viene explicado por las variables de entrada.

Finalmente, el valor de phi indica de asociación entre el valor del Customer Rating (Y) y

el valor predicho el cual tiene un valor superior a cero, lo que es esperable para una

relación significativa en el modelo general.

Tabla 11: Parámetros para las variables del modelo usando regresión monótona

Variable L²(Y) df p-valor Beta exp(Beta)

puntaje_sentimental 312.85 1 0.000 4.51 91.31

gunning_fog 45.67 1 0.000 -0.18 0.84

Cantidad de palabras

10.78 1 0.001 0.000 1

Tipo de viajero 3.7 1 54 -0.3 0.74 Elaboración: Propia

43

Así, en el modelo queda evidencia de los efectos para cada una de las variables en su

versión aditiva (Beta) y multiplicativa exp (Beta)).

El p-valor, por otro lado, es el nivel de significancia de L² (Y), indicador que da cuenta

de que el tipo de viajero debe ser excluido del modelo, ya que excede el valor de 0.05,

de forma análoga al primer modelo de regresión múltiple que se presentó.

Dicho de otra forma, el customer rating es independiente del grupo de viaje con el que

acudió el comensal (sea familia y amigos).

Siguiendo la misma idea que se hizo con la regresión múltiple, una vez excluida la

variable tipo de viajero, el modelo queda de la siguiente forma:

CR = f (puntaje_sentimental, gunning_fog, cant_palabras)

Tabla 12: Resumen del modelo utilizando regresión monótona

Resumen L² df p-valor R² phi

Explicado por el Modelo

394.41 3 0.000 0.728 2.4529

Residual 700.4 1561 1

Total 1094.81 1564 1


En este caso el R² del modelo es de 72.8%. Es decir, el 72.8% de la variabilidad del CR

(Customer Rating) queda explicado por las variables analítico-textuales, prácticamente

igual que el modelo de regresión monótona sin modificar. En este caso el valor de phi

también es mayor a cero e inferior que el de la primera ecuación. El L² indica que este

modelo tiene un menor nivel de asociación entre las variables independientes y el

Customer Rating, que el primer modelo, aquel que incluía la variable tipo de viajero.

El valor de phi sigue estando dentro de lo esperado, es decir, mayor a cero, aunque ha

disminuido en comparación al modelo que incluía la variable tipo de viajero.

En cuanto al análisis para cada una de las variables independientes se tiene:

44

Tabla 13 : Parámetros para las variables del modelo usando regresión monótona

Variable L²(Y) df p-valor Beta exp(Beta)

Puntaje_sentimental 310.07 1 0.000 4.48 88.35

gunning_fog 44.35 1 0.000 -0.17 0.84

Cantidad de palabras 11.5 1 0.001 -0.01 0.99


En este segundo modelo, donde las variables independientes son únicamente analítico-

textuales, ninguna de ellas es excluida del modelo (dado que sus p-valor asociados no

exceden el límite de 0.05). Si bien es cierto que el valor de R² ha disminuido, el descenso

es mínimo, pudiéndose considerar un tanto por ciento de explicación igual al anterior

modelo. Dicho de otra forma: el tipo de viajero no aportaba al modelo en forma

significativa. Con respecto al L²(Y), este indica que la variable respuesta tiene un nivel

asociación más fuerte con el puntaje sentimental (310.07), mientras que la más débil

está con la cantidad de palabras (11.5).

Los gráficos de regresiones parciales son obtenidos a partir del software GOLDMineR.

Estos muestran las relaciones entre cada una de las variables independientes y la

dependiente tanto en sus versiones aditivas como en las multiplicativas-exponencial.

Figura 9: Regresión Parcial del Customer Rating vs. Sentimiento (forma aditiva) En este caso, es posible apreciar la relación directa entre el Customer Rating y el

Sentimiento. Esta relación es del tipo directa y directamente proporcional en una forma

de efecto lineal. El efecto es de 4.48 en forma de adición lineal, el coeficiente Beta de la

variable puntaje sentimental (tabla 13).

45

Figura 10: Regresión Parcial del customer rating vs. Fog (forma aditiva)

A diferencia de la gráfica anterior, la relación entre la variable del tipo educativa (FOG)

y el Customer Rating es inversamente proporcional, aunque la pendiente es menor que

con la variable sentimiento en términos absolutos (4.18 > 0.17, ver tabla 13). Esto

evidencia que el índice Fog tiene un impacto menor que el sentimiento presente en el

comentario.

Figura 11: Regresión Parcial del customer_rating vs. cant_palabras (forma aditiva)

En la gráfica anterior, la familia de rectas indica una relación inversa entre la cantidad

de palabras. En este caso, la pendiente es menor que con la variable Fog en términos

absolutos (0.01 < 0.17, ver tabla 13) lo que significa que Fog termina afectando más al

rating que la cantidad de palabras. Esta última variable, además, es la que presenta una

mayor diversidad de valores y con una alta concentración en determinados tramos.

46

Estos tres gráficos se aprecian la relación entre la variable dependiente y cada una de

las variables independientes. Observándose el efecto de cada una en el customer rating.

En cuanto a la forma aditiva (lineal): el puntaje sentimental tiene un efecto mayor que el

índice de gunning_fog y la cant_palabras en términos absolutos (Beta = 4.05, 0.17 y

0.01, respectivamente, ver tabla 13). La relación de tipo directa o inversa se aprecia

también en el signo de las pendientes de la familia de rectas, siendo positiva para la

primera variable dependiente y negativa para las otras dos.

En cuanto a la forma multiplicativa, complemento de la aditiva, los resultados son los

siguientes:

Figura 12: Regresión Parcial del customer_rating vs. puntaje_sentimental (forma multiplicativa) En este caso, existe una relación directa entre el Customer Rating y el puntaje

sentimental. La forma es la de una curva de función exponencial que adopta también la

forma de curva S. El efecto de la variable sentimiento en el rating aumenta y disminuye

en tramos. De acuerdo con la tabla 13, el exp (Beta) para el sentimiento es de 88.35

Figura 13: Regresión Parcial del customer_rating vs. gunning_fog (forma multiplicativa)

47

La figura evidencia una relación inversa entre el rating y el índice Fog. La pendiente a

lo largo de toda la curva es negativa, pero va aumentando de valor (volviéndose menos

negativa a medida que el índice Fog aumenta. De acuerdo con la tabla 11, el efecto de

la educación evidenciada en la escritura es marginal en términos absolutos. El efecto de

la variable fog es de 0.84 sobre el rating.

Figura 14: Regresión Parcial del customer_rating vs. cant_palabras (forma multiplicativa)

Esta curva presenta un comportamiento y forma muy similar a la anterior: pendiente

negativa que va en aumento de izquierda a derecha. Nuevamente aquí existe evidencia

de una relación inversa entre cantidad de palabras y rating asignado: la primera termina

teniendo un efecto negativo en la segunda. El efecto multiplicativo es esta última variable

independiente es algo superior al de gunnig fog (0.99 > 0.84, de acuerdo con la tabla

13).

Los tres últimos gráficos son la representación de la regresión parcial entre la variable

dependiente con cada una de las independientes. En este caso, el componente

multiplicativo viene de la forma 𝑒𝑥 (donde x es la variable de análisis). Los detalles de

la tabla 13 muestran el poder predictivo para cada variable. En el caso de gunning_fog,

los exp (beta) son inferiores a uno (o muy cercanos a cero). Luego, visualmente tienen

una relación inversa con la variable dependiente (rating). En este caso la variable

asociada al sentimiento también es la de mayor importancia (y la única positiva.

En cuanto a los valores de Beta y exp (Beta) revelan que el puntaje_sentimental aporta

más al modelo que la variable gunning_fog y esta a su vez tiene más relevancia que la

variable cant_palabras.

48

4.2. Resultados de contraste con data del 2019

A fin de verificar que el modelo fuera coherente, las investigadoras recolectaron data en

una etapa posterior al cierre del trabajo. La data de comprobación incluyo datos del 2019

para el segmento de restaurantes ya mencionado. En este caso ya no fue considerada

la variable tipo de viajero debido a que fue excluida en las etapas anteriores. Debe

tomarse en consideración que esto no es una encuesta donde pueda volverse a

encuestarse a los participantes del anterior estudio, sino son las experiencia de viajeros,

las cuales tienden a ser únicas.

Los resultados fueron los siguientes:

Tabla 14: Resumen del modelo utilizando regresión monótona aplicado a data de

comprobación del 2019

Resumen L² df p-value R² phi

Explicado por el modelo

172.86 3 0.000 0.66 1.8869

Residual 376.98 793 1

Total 549.85 796 1


En este caso el R² del modelo es de 66%. Es decir, el 66% de la variabilidad del CR

(Customer Rating) queda explicado por las variables analítico-textuales. Es necesario

ver la relación entre el CR y las variables de origen textual. Este modelo tiene un R-

cuadrado inferior al de la data anterior (0.728 >0.660). Para comprender las similitudes

y diferencias con el modelo anterior es necesario realizar el análisis de cada variable

independiente.

Tabla 15: Parámetros para las variables del modelo usando regresión monótona

Variables L²(Y) df p-value Beta exp(Beta)

Sentimiento 135.26 1 0.000 3.18 24.05

Cantidad de Palabras 9.18 1 0.002 -0.01 0.99

Fog 12.23 1 0.000 -0.11 0.89

La tabla anterior evidencia que ninguna de las variables textuales es excluida del modelo

(dado que sus p-valor asociados no exceden el límite de 0.05. Con respecto al L²(Y),

este indica que la variable respuesta tiene un nivel asociación más fuerte con el puntaje

sentimental (135.26), mientras que la más débil está con la cantidad de palabras (9.18).

Por otro lado, existe una relación directa entre el sentimiento y el customer rating, de

esto queda evidencia en el coeficiente Beta, mayor a cero, y exp(Beta), mayor a 1.

Situación contraria ocurre con la cantidad de palabras y el índice Fog, en ambos casos,

49

dichas variables son inversamente proporcionales con el customer rating, ya que los

valores de Beta son inferiores a 0, mientras que los exp(Beta) son menores a 1. Esta

situación se resume en la siguiente tabla:

Tabla 16: Parámetros de data original vs. Data 2019

Data Original Data 2019

Variables Beta exp(Beta) Beta exp(Beta)

Sentimiento 4.48 88.35 3.18 24.05

Cantidad de Palabras

-0.01 0.99 -0.01 0.99

Fog -0.17 0.84 -0.11 0.89

Debe notarse, además que el valor exp(Beta) es particularmente alto, evidenciando el

considerable peso de dicha variable dentro del modelo, muy por encima de las otras

dos.

Existe coincidencia con el modelo anterior: el sentimiento presente en el comentario

sigue siendo directamente proporcional al rating, mientras que valor de índice fog y la

cantidad de palabras son inversamente proporcionales al indicador de satisfacción.

Figura 15: Grafico de la Regresión Monótona con data de comprobación 2019

La grafica anterior evidencia la regresión conjunta de las tres variables independientes

ingresadas en el modelo (puntaje_sentimental, gunning_fog y cant_palabras) versus el

Customer Rating. Los valores extremos más próximos a los valores del customer rating

de uno (pésimo), tres (regular) y cinco (excelente) notaremos que se ha incrementado

el puntaje_sentimental: pasando desde el valor de -0.88 a -0.232 y cerrando en 0.789

50

mientras que con la cantidad de palabras que han ido disminuyendo a medida que el

Customer Rating ha aumentado.

4.3 Resultados de la nueva data de Hoteles en Arequipa

A fin de contrastar los resultados del estudio, se ha analizado el caso del sector hotelero,

más específicamente para el segmento ya mencionado, es decir, viajeros

estadounidenses. Fueron recolectados un total de 150 comentarios de TripAdvisor

realizados acerca de hoteles en Arequipa. Ello con el fin de verificar si el modelo puede

ajustarse a otros entornos (e industrias, desde luego). El muestreo fue abierto y por

conveniencia. El procesamiento que involucra la conversión de textos a patrones

textuales es idéntico al mostrado

Tabla XI: Resumen del modelo usando la regresión monótona para valoraciones de

estadounidenses acerca de hoteles en Arequipa en TripAdvisor

Association

Summary L² df p-value R² phi

Explained by Model 137.65 3 0.000 0.682 2.0643

Residual 291.91 593 1

Total 429.56 596 1

En esta tabla, el p-valor de 0.000 hace referencia a que algunas variables deben ser

incluidas en el modelo.

Por otro lado, el R² evidencia que el 68.2% de la variabilidad de CR (Customer Rating)

viene explicado por las variables de entrada (sentimiento, fog y cantidad de palabras).

Lego, el valor de phi indica la asociación entre el valor del Customer Rating (Y) y el valor

predicho el cual tiene un valor superior a cero, lo que es esperable para una relación

significativa en el modelo general.

Tabla X1: Parámetros del modelo usando la regresión monótona para valoraciones de

estadounidenses acerca de hoteles en Arequipa en TripAdvisor

Variable L²(Y) df p-value Beta exp(Beta)

Sentimiento (Fixed) 113.32 1 0.000 3.73 41.5

CantidadPalabras

(Fixed) 2.74 1 0.048 0.00 1.00

Fog (Fixed) 18.95 1 0.000 -0.17 0.84

51

Los resultados del modelo aplicado a hoteles en Arequipa son análogos a los

encontrados en la regresión monótona aplicada para el caso de restaurantes de comida

peruana en el Cusco. Dicho de otra forma, existe relación directa entre el sentimiento y

el rating, situación opuesta ocurre con el índice Fog y la cantidad de palabras. Evidencia

de ello queda en los valores de Beta y exp(Beta).

El anterior hallazgo puede verificarse de forma gráfica.

Figura M1: Regresión Monótona para el caso de hoteles en Arequipa

En la terna de datos, el rating se ha incrementado a medida que el sentimiento lo ha

hecho. Desde el rating 1 (pésimo) hasta 5 (excelente) el puntaje sentimental ha pasado

de -0.722 hasta 0.782. En el caso del índice de fog, para el mismo tramo, va desde 18.3

hasta 9.3. Luego, con respecto a la cantidad de palabras, existen tramos donde dicha

variable es inversamente proporcional al rating. Esto ocurre cuando se pasa de 3

(regular) a 4 (bueno) la cantidad de palabras disminuyo de 48 a 46. Se tiene que

considerar además la cantidad de palabras que correspondió a la puntuación 1 (pésimo)

fue de 212.

52

4.4. Discusión

La investigación coincide con los hallazgos de que López y otros (2014), Agshar (2016)

y Oghina y otros (2012): las valoraciones realizadas por los usuarios guardan relación

directa con los puntajes sentimentales registrados por los comentarios. Está relación es

del tipo directa. Aunque a diferencia de estos, no se establece una regresión simple o

logística, sino que se recurre a una regresión monótona. Es importante tomar en

consideración el tipo de variable que se está analizando (rating), la cual es del tipo

ordinal, razón por la cual se ha utilizado la regresión monótona. Por otro lado, los

modelos basados en puntajes sentimentales pueden ser mejorados si se incorporan

otras variables analítico-textuales además del puntaje sentimental, aunque esta última

es la más importante. Dicho de otra forma, es posible modelar el customer rating en

función a variables analítico-textuales.

Si bien es cierto que las investigaciones realizadas por Wegner & Girasek (2003) y

Yasseri y otros (2012) no mencionan una correlación entre el índice de Gunnig-Fog y

el customer rating, sí indican que existe relación entre la educación y la legibilidad en la

escritura. En todo caso, la investigación proporciona indicios de que la educación

(reflejada en al legibilidad de la escritura) guarda una relación inversa con el customer

rating, algo racional, pues variables como el grado de instrucción (y otras como el

ingreso) están asociadas de forma inversamente proporcional a las valoraciones

realizadas por los consumidores. Los hallazgos de la presente investigación sugieren

que existe una relación inversamente proporcional entre educación y puntaje asignado

a un servicio en una etapa post compra. Pero para ello no se tomó en cuenta el grado

de instrucción de los participantes (miembros de TripAdvisor), sino el grado de

educación reflejado en la escritura basándose en los hallazgos de los autores ya

mencionados.

Con respecto a lo indicado con Vasquez (2011), esta autora señala que las experiencias

no satisfactorias suelen ser abundantes en cuanto a detalles. Si bien es cierto que no

especifica cantidad de palabras, puede inferirse que un indicador asociado al nivel de

detalle de una experiencia narrada en forma escrita. Es racional creer que ambas

variables (score y cantidad de palabras) deberían ser inversamente proporcionales,

aunque la investigadora solo basó su inferencia en un análisis de contenido

predominantemente cualitativo. La presente investigación sugiere, de forma empírica,

que existe una relación inversa entre la cantidad de palabras y la satisfacción para el

segmento estudiado, complementando lo señalado por la investigadora.

53

Luego, la variable tipo de viajero, proporcionada por TripAdvisor, no guarda una relación

estadísticamente significativa con el rating. En general, los antecedentes académicos

no hacen mención del tipo de viajero. Por ello es un aporte de la investigación, aunque

no es una variable textual.

Si bien es cierto que las regresiones monótona y múltiple guardan coherencia con las

conclusiones (ambas llegan a los mismos resultados en cuanto a la inclusión de las

mismas variables y la exclusión de tipo de viajero), lo más adecuado es utilizar la

monótona, dada la ordinalidad de la variable dependiente. La regresión múltiple, por otro

lado, depende de supuestos que en este trabajo no se han cumplido. Por tanto, a

diferencia de lo mencionado por López y otros (2014), el uso de la regresión lineal,

aunque es válido, no es el más apropiado y es mejorable con otro tipo de regresiones

que contemplen la posibilidad de poder trabajar con una variable dependiente ordinal,

no métrica.

Ambas datas poseen coherencia en cuanto a la relación entre cada una de las variables

independientes con el customer rating. La coherencia queda evidenciada en que el

modelo posee un R² importante. En ambos casos el sentimiento es la variable de mayor

peso en el modelo, mientras que las dos menos relevantes son el índice gunning fog y

la cantidad de palabras: ambas poseen una relación inversa con la satisfacción del

consumidor para ambas muestras.

54

Capítulo V: Conclusiones y Recomendaciones

5.1. Conclusiones

La conclusión principal de la investigación es que sí es posible modelar el customer

rating en función a las variables analítico-textuales mencionadas.

Hipótesis general: Se corrobora que se cumple esta hipótesis. El customer rating guarda

relación con el puntaje sentimental del comentario, el índice de Gunning-Fog y la

cantidad de palabras.

Hipótesis 1: Se corrobora que esta hipótesis es verdadera. El customer rating guarda

relación con el puntaje sentimental del comentario. La relación es directa.

Hipótesis 2: Se corrobora que la hipótesis es verdadera. El customer rating guarda

relación con el índice de Gunning-Fog. La relación es inversa.

Hipótesis 3: Se corrobora que esta hipótesis es verdadera. El customer rating guarda

relación con la cantidad de palabras. La relación es inversa.

Hipótesis 4: Se corrobora que esta hipótesis es falsa. El customer rating no guarda

relación con el tipo de viajero.

Las hipótesis específicas 1, 2, y 3 también resultaron verdaderas. Por otro lado, el

customer rating es independiente de la variable tipo de viajero y, por tanto, la hipótesis

específica 4 resultó falsa. Todo lo mencionado cumple con los objetivos de la

investigación.

Bajo el modelado propuesto, la variable que tiene mayor incidencia en el customer rating

es el puntaje sentimental del comentario. Dicho de otra forma, existe relación el rating

proporcionado por el usuario y el sentimiento presente en su testimonial en formato

textual. Esto implica que existe coherencia entre lo que se digita y lo que se termina

puntuando.

La segunda variable independiente, el índice de Gunning-Fog, también resulta ser la

segunda variable en importancia para el modelo como tal. De acuerdo con los resultados

obtenidos, existe una relación inversa entre el índice lingüístico y el customer rating.

Esto es importante ya que en los antecedentes no se menciona relación alguna entre el

nivel de educación evidencia en la escritura y las valoraciones dejadas por clientes,

aunque sí se conocía el hecho de que los clientes más educados suelen ser los más

complicados de satisfacer. Esta relación resulta ser, entonces, un aporte académico

55

para la ciencia del marketing en cuanto a comportamiento del consumidor en un entorno

web abundante.

Luego, la cantidad de palabras también guarda una relación inversamente proporcional

con el customer rating: a mayor cantidad de palabras, menor puntaje asignado por el

comensal estadounidense (y viceversa). De todas las variables del analítico-textuales,

es esta la de menor importancia en cuanto a poder predictivo. Las investigaciones

relacionadas no evidenciaban una relación entre ambas variables. En consecuencia, se

trata de otro aporte académico nuevamente relacionado al comportamiento del

consumidor en cuanto a su escritura.

Finalmente, el customer rating no guarda relación con el hecho de que el comentario

ingresado haya sido realizado por un usuario que viajo en familia o con amigos (los dos

grupos más representativos en cuanto al segmento de estadounidenses que acudieron

a restaurantes de comida peruana en el Cusco). Cabe mencionar que la valoración no

es conjunta, sino realizada por un único individuo.

El modelo es aplicable a otros rubros en donde exista una amplia participación del

segmento estadounidense (hotelería y transporte aéreo, por ejemplo). En especial

aquellos donde exista una considerable proporción de comentarios en línea en formato

de texto libre. Y es que expresar los sentimientos para valorar experiencias es inherente

a las personas. Por otro lado, la educación que los individuos reflejan en la escritura es

un elemento que forma parte de lo que algunos especialistas llaman huella digital, la

cual está asociada a la formación del comportamiento en entornos virtuales.

Basta con ingresar hashtags en Facebook o Twitter para obtener una cantidad de

comentarios acerca de experiencias con productos o servicios. Estos comentarios,

antes no se aprovechaban con el fin de obtener métricas, ahora pueden convertirse en

información estructurada. Ello, sumado a la información personal que una persona

muestre en una red social (edad aproximada, género etc.), resulta aprovechable para el

marketing con el fin de diseñar estrategias a fin del perfil de la persona. Todavía es más

aprovechable si son empleados datos de geolocalización (restringir los comentarios de

un producto peruano en Iowa, por ejemplo). Actualmente esto es bastante sencillo si se

sabe emplear adecuadamente las búsquedas avanzadas en redes sociales.

Un ejemplo de la potencial aplicación del modelo puede estar representado por un

escenario en donde una marca peruana desee ingresar en el mercado norteamericano

en los rubros ya mencionados. El análisis sentimental, de hecho, ya es usado en los

planes de marketing a fin de obtener un diagnóstico que involucra a los clientes y sus

percepciones acerca de los negocios locales. El modelo bien puede ser empleado para

56

aproximarse al nivel de satisfacción promedio de los consumidores de un mercado

determinado. Nuevamente, aquí se dispone de data en las principales redes sociales.

Otro ejemplo de aplicación apunta a la segmentación en base a evidencia lingüística.

Es posible, a través de datos de redes sociales, clasificar a personas en base a los

niveles de satisfacción que evidencian en sus comentarios y cruzar dicha información

con la educación que refleja cada individuo en su escritura. En los estudios de

PROMPERU, por ejemplo, eran mencionados los niveles de satisfacción y la educación

de los extranjeros que visitaban el Perú. Ahora es posible medir la satisfacción (rating)

y cruzar dicha información con el nivel de educación reflejado en la escritura, todo esto

para el segmento norteamericano.

Este método puede estar en dos públicos objetivos las empresas y las agencias. La

primera ayudaría a tener mejoras en el servicio en los restaurantes por ejemplo algún

analista de marketing puede entrar a la cuenta de TripAdvisor y fijarse los comentarios

de ese día, visualizando que está sucediendo con la interacción de la marca y sus

clientes; comentarios en donde estén consultando sobre el producto o servicio,

experiencias, reclamos o sugerencias. Y sí en el caso que un cliente este teniendo algún

inconveniente se podrá actuar al instante brindándole una solución en tiempo real con

el fin de revertir la situación.

Por otro lado, ayudaría a las agencias de medios o centrales de medios a ser más

innovadoras al momento de brindar el servicio de Community Manager. Si antes solo

brindaba en el reporte que obtiene de Google Analytics de acuerdo a los KPIs

establecidos por campaña. Ahora, podrán analizar cada comentario de la interacción

con el cliente e identificar el grado de educación de la persona, el nivel de sentimiento y

la cantidad de palabras que ayudaran a analizar cada perfil de persona.

Adicionalmente, se puede esto incluir no solo en servicio si no en productos, se puede

realizar campañas en las cuales les dices a tus clientes que dejen su comentario en la

página de Facebook acerca de algún producto en específico y puedes tener información

verdadera y coherencia sobre el producto en cuestión.

Hoy en día la ciencia ha avanzado bastante y han llegado al punto de optimizarnos los

tiempos, antes se tenía que realizar encuestas para tener información sobre algún

producto o servicio. Ahora la data las empresas la pueden obtener en menor tiempo,

gracias a las diferentes herramientas digitales y poder analizarlas con el fin de tomar

una decisión.

57

Para dos muestras estudiadas en diferentes intervalos de tiempo, el modelo resulta

coherente en cuanto a la relación entre cada una de las variables independientes y el

rating, ya que los resultados se asemejan.

5.2. Recomendaciones

El modelo puede ser ampliado e incluir otras variables a medida que se incorporen

software de datos textuales. Una reciente incorporación a los instrumentos analítico-

textuales de acceso libre es la aplicación Cloud Natural Language de Google. Este

servicio es capaz de obtener un puntaje sentimental (en la escala de -1 a 1) y

adicionalmente proporciona la magnitud. Esto en términos matemáticos es análogo a la

dirección y magnitud (tamaño) de un vector matemático.

Los instrumentos analítico-textuales pueden servir como herramientas de

segmentación. Las valoraciones en formato de texto libre son más abundantes en

entornos como Facebook, Twitter y otras redes sociales. Es posible que los encargados

a cargo de la reputación online puedan monitorear datos textuales y así calificar la

experiencia del comensal como satisfactoria o no satisfactoria. El análisis sentimental

es una técnica ya empleada en el CRM. En este caso se podrían abaratar costos con

aplicaciones online de acceso gratuito como la presentada en la investigación.

El hecho de emplear redes sociales posibilita el uso de otras variables propias de otros

entornos web. Así, por ejemplo, en Facebook aparecen las fotografías al lado de

comentarios. De una fotografía es posible estimar la edad aproximada, el género, la raza

y otras variables (usando software de análisis de imágenes). Un estudio más amplio

puede abarcar, entonces, variables analítico – textuales y atributos físicos de la persona

basándose en sus fotografías. En Estados Unidos, por ejemplo, el grupo racial es una

variable muy utilizada (afroamericano = 1, blanco = 0; por ejemplo). Esto podría

contribuir a mejorar la comprensión del consumidor de procedencia estadounidense.

Si bien es cierto que el modelo propuesto estaba segmentado al caso de ciudadanos

estadounidenses que valoraron restaurantes de comida peruana en el Cusco, cierto es

que estas métricas obtenidas podrían ser aplicadas por entidades como PROMPERU,

a fin de procurar llenar el vacío de información que existe desde el año 2013 con

respecto a las valoraciones de servicios orientados a turistas extranjeros.

Puede ampliarse el estudio a otros segmentos. Por ejemplo, el equivalente al índice de

Gunning Fog en español es el Méndez – Huerta (Ribeiro & Ferreira, 2018). Esta variable

permitiría el análisis de todo el segmento de viajeros de habla hispana, uno de los más

58

representativos en espacio territorial peruano dado la proximidad geográfica con países

que emplean dicha lengua.

En cuanto al marketing, es poco probable que quienes se encarguen de analizar los

comentarios online acerca de restaurantes puedan emplear la regresión monótona, ya

que es un método que no es frecuente encontrar en los softwares habituales. Es más

viable para ellos analizar el contenido textual con la regresión múltiple. Pueden incluso

emplear únicamente la variable sentimental para modelar el rating. Es tentativo,

además, que segmenten a los clientes basándose en la educación reflejada en la

escritura. Por otro lado, es posible que este modelo pueda ser aplicado en los

restaurantes que operan en territorio estadounidense.

59

Capítulo VI: Limitaciones e Investigaciones Futuras

6.1. Limitaciones de la investigación

Debe tomarse en consideración que la relación entre el puntaje sentimental y el

customer rating parte del supuesto de que los clientes tienden a ser coherentes con sus

valoraciones. No ocurre esto en el caso de los comentarios que son sarcásticos. No se

pueden desestimar los escenarios en donde los clientes asignen un puntaje muy bajo

(pésimo), mientras que su comentario resulta favorable al restaurante (o viceversa,

aunque es menos probable). No es posible identificar las valoraciones que son

sarcásticas.

El índice de Gunning -Fog, por otro lado, no toma en cuenta otras variables asociadas

a la educación reflejada en la escritura más allá de la complejidad de las palabras

empleadas. Así, por ejemplo, las frases “Hello World, Have a Nice Day” y “Helo Wordl,

Have a nice dai” registran un índice de Fog idéntico, pero puede que la primera frase

haya sido digitada por una persona con mayor instrucción que quien escribió la segunda

frase. Fog no se basa en la ortografía para su cálculo, del mismo modo que otros

indicadores similares en el caso del inglés.

6.2. Investigaciones futuras

En la investigación el puntaje sentimental ha sido tratado como una variable

unidimensional. No obstante, en un mismo comentario pueden presentarse un grupo de

sentimientos distintos. Así, por ejemplo, un comentario en donde predomina un

sentimiento positivo puede presentar oraciones en donde exista un mínimo de tristeza

o enfado. Otros investigadores pueden emplear un modelo que se sustente en la

coexistencia de varias emociones presentes en el comentario.

Puede ampliarse el estudio a otros segmentos. Por ejemplo, el equivalente al índice de

Gunning Fog en español es el Méndez – Huerta (Ribeiro & Ferreira, 2018). Esta variable

permitiría el análisis de todo el segmento de viajeros de habla hispana, uno de los más

representativos en espacio territorial peruano dado la proximidad geográfica con países

que emplean dicha lengua.

Es posible construir más modelos con otras variables vinculadas a los sentimientos.

Theysay.io (http://www.theysay.io/), aplicación online diseñada por la Universidad de

Oxford, permite medir los sentimientos y emociones. Así, por ejemplo, la tristeza y el

enfado, emociones distintas, forman parte de un sentimiento negativo. Dicho

http://www.theysay.io/

60

instrumento incluye, además, otras emociones: alegría, vergüenza, sorpresa. El modelo

puede reformularse e incluir emociones en vez del sentimiento general.

El modelo puede incluir el uso de una de las variables propias de TripAdvisor, así, por

ejemplo, la página web permite conocer qué comentarios fueron ingresados desde un

dispositivo móvil y cuáles no. Es posible que quienes hayan ingresado sus comentarios

desde una computadora hayan incurrido en más detalles que quienes los hicieron desde

un dispositivo móvil (celular, Tablet, etc.). Esto se podría comprobar con una prueba de

diferencia entre medias.

Otros datos que pueden contribuir a la mejor comprensión del customer rating son las

imágenes que acompañan a algunas de las valoraciones escritas. La información en

formato de imágenes va ganando presencia no solo en TripAdvisor, sino en casi todas

las redes sociales. Una experiencia satisfactoria, por ejemplo, puede que esté

relacionada a la presencia de varias fotografías. Los atributos visuales de cada foto

pueden guardar relación con la puntuación que asignan los consumidores. Extraer datos

de una fotografía es un proceso que se puede llevar a cabo con software de análisis de

imágenes, pero también puede ser llevado a cabo bajo observación directa (tipo de

fotografía: comida, ambiente; tipo de enfoque: ángulo superior, 360; y otros).

61

Bibliografía

Agshar, N. (2016). Yelp Dataset Challenge: Review Rating Prediction. ArXiv.

doi:1605.05362.

Amaral, F., & Tiago, T. (2014). User-generated content: tourists’ User-generated

content: tourists’. International Journal on Strategic Innovative Marketing, 137-

147. Retrieved Abril 14, 2017, from

file:///C:/Users/Usuario/Downloads/10.15556IJSIM.01.03.002.pdf

Bagga, S. (2016). Text Analytics: Unlocking the Value of Unstructured Data. Documento

de Discusión, SAS. Retrieved Marzo 28, 2018, from

https://www.sas.com/content/dam/SAS/en_us/doc/research2/iia-text-analytics-

unlocking-value-unstructured-data-108443.pdf

Berezina, K., Bilgihan, A., Cobanoglu, C., & Okumus, F. (2015). Understanding Satisfied

and Dissatisfied Hotel Customers: Text Mining of Online Hotel Reviews. Journal

of Hospitality Marketing & Management, 25(1), 1-24.

doi:10.1080/19368623.2015.983631

Cameron, C., & Windmeijer, F. (1995). An R-squared measure of goodness of fit for

some common nonlinear regression models.

Chen, Y., & Xie, J. (2008). Online Consumer Review: Word-of-Mouth as a New Element

of Marketing Communication Mix. Management Science, 54(3), 477-491.

Cheng, L., & Huang, C. (2014). Mining the reviews of movie trailers on YouTube and

comments on Yahoo Movies. Retrieved from http://worldcomp-

proceedings.com/proc/p2014/IKE3206.pdf

Chua, A., & Banerjee, S. (2013). Proceedings of the World Congress on Engineering

and Computer Science 2. Proceedings of the World Congress on Engineering

and Computer Science . San Francisco. Retrieved Mayo 30, 2017, from

http://www.iaeng.org/publication/WCECS2013/WCECS2013_pp453-457.pdf

Chua, A., & Banerjee, S. (2013). Reliability of Reviews on the Internet: The Case of

TripAdvisor. Proceedings of the World Congress on Engineering and Computer

Science, (pp. 3-7). San Francisco.

Clark, A., Fox, C., & Lappin, S. (2012). The Handbook of Computational Linguistics and

Natural Language Processing. Wiley-Blackwell.

62

Cohen, A., & Hersh, W. (2005). A survey of current work in biomedical text mining.

Briefings in bioinformatics, 6(1), 57-75.

Feldman, R., & Sanger, J. (2006). The Text Mining Handbook. Cambridge: Cambridge

University Press.

Ganesan, K., & Zhou, G. (2016). Linguistic Understanding of Complaints and Praises in

User Reviews. Proceedings of the 7th Workshop on Computational Approaches

to Subjectivity, Sentiment and Social Media Analysis, (pp. 109-114).

doi:10.18653/v1/W16-0418

Garth, A. (2008). Analysing data using SPSS. Retrieved Febrero 22, 2017, from Sheffield

Hallam University:

http://teaching.shu.ac.uk/hwb/ag/resources/material/analysingdatausingspss.pd

f

Gartner. (2018). IT Glossary. Retrieved Marzo 30, 2018, from

https://www.gartner.com/it-glossary/

Gemar, G., & Jimenéz-Quintero, J. (2015). Text mining social media for competitive

analysis. Tourism & Management Studies, 84-96. Retrieved Mayo 11, 2017, from

http://www.scielo.mec.pt/pdf/tms/v11n1/v11n1a10.pdf

Godnov, U., & Redeck, T. (2016). Application of text mining in tourism: Case of Croatia.

Annals of Tourism Research.

Grissete, H., Nfaoui, E., & Bahir, A. (2017). Sentiment Analysis Tool for Pharmaceutical

Industry & Healthcare. Transactions on Machine Learning and Artificial

Intelligence, 5(4). doi:10.14738/tmlai.54.3339

Han, C., & Cai, C. (2011). Monotonic regression: a new way for correlating subjective

and objective ratings in image quality research. IEEE Trans Image Process,

21(4), 2309-2313. doi:10.1109/TIP.2011.2170697

Hernández, R., Fernández, C., & Baptista, P. (2014). Metodología de la Investigación

(Quinta ed.). México: McGraw Hill.

Instituto Valenciano de Tecnologías Turísticas. (2015). BIG DATA: retos y oportunidades

para el turismo. Retrieved julio 2016, from http://www.thinktur.org/media/Big-

Data.-Retos-y-oportunidades-para-el-turismo.pdf

63

Jeong, H., Mankad, S., Gavirneni, N., & Verma, R. (2016). What Guests Really Think of

Your Hotel: Text Analytics of Online Customer Reviews. Cornell Hospitality

Repor, 16(2), 3-17. Retrieved Marzo 4, 2017

Jimber, J., Orgaz, F., & Moral, S. (2017). Satisfaction in border tourism: An analysis with

structural equations. European Research on Management and Business

Economics. Retrieved Mayo 11, 2017, from

http://www.sciencedirect.com/science/article/pii/S2444883417300074

Jovell, A. (1995). Análisis de la Regresión Logística. Centro de Investigaciones

Sociológicas.

Kimbrough, S., & Murphy, P. (2011). On Using Text Analytics for Event Studies. Wharton

School of Business. Retrieved Abril 2, 2018, from

http://opim.wharton.upenn.edu/~sok/sokpapers/2011/events-and-text.pdf

Kothari, C. (2004). Research Methodology, Methods and Techniques (Segunda ed.).

New Age International.

Kotler, P., Bowen, J., & Makes, J. (2013). Marketing for Hospitality and Tourism .

Pearson.

Kotler, P., Kartajaya, H., & Setiaawn, I. (2016). Marketing 4.0: Moving for Traditional to

Digital. New Jersey: John Wiley & Sons.

Kozak, M., & Rimmington, M. (2010). Tourism satisfaction with Mallorca, Spain, as an

off-season holiday destination. Journal of Travel Research.

Kumar, S., Morstatter, F., & Liu, H. (2014). Twitter Data Analytics. Springer.

Larcker, D., & Zakolyukina, A. (2012). Detecting Deceptive Discussions in Conference

Calls. Journal of Accounting Research, 50(2).

Lee, H., Law, R., & Murphy, J. (2011). Helpful Reviewers in TripAdvisor, an Online Travel

Community. Retrieved Abril 13, 2017, from

http://www.tandfonline.com/doi/abs/10.1080/10548408.2011.611739?journalCo

de=wttm20

Li, H., Graesser, A., & Cai, Z. (2014). Comparison of Google Translation with Human

Translation. Proceedings of the Twenty-Seventh International Florida Artificial

Intelligence Research Society Conference. Florida. Retrieved Mayo 12, 2014,

from

64

https://www.aaai.org/ocs/index.php/FLAIRS/FLAIRS14/paper/viewFile/7864/782

3

Liau, B., & Tan, P. (2014). Gaining customer knowledge in low cost airlines through text

mining. Industrial Management & Data Systems. Industrial Management & Data

Systems, 114(9), 1334-1345. doi:10.1108/IMDS-07-2014-0225

Limberger, P. (2014). Satisfaction in hospitality on TripAdvisor.com: An analysis of the

correlation between evaluation criteria and overall satisfaction. Tourism &

Management Studies, 10(1), 59-65.

López, R., Sánchez, S., & Sicilia-Urban, S. (2014). Evaluating hotels rating prediction

based on sentiment analysis services. Aslib Journal of Information Management,

67, 392-407.

Lougharn, T., & McDonald, B. (2014). Measuring Readability in Financial Disclosures.

Journal of Finance, 69(4), 1643-1661. doi:10.1111/jofi.12162

Magidson, S. (1998). GOLDMineR 2.0. User's Guide. Manual del Usuario, Statistical

Innovations Inc. Retrieved Junio 2, 2018, from

http://www.statisticalinnovations.com/wp-content/uploads/GMusersguide.pdf

Malhotra, C. (2008). Investigación de Mercados (Quinta ed.). México: Pearson

Education.

Manterola, C., & Pineda, V. (2008). El valor de “p” y la “significación estadística”.

Retrieved from http://www.scielo.cl/pdf/rchcir/v60n1/art18.pdf

Mellinas, J., Bernal, J., & Martínez, M. (2013). El mito de las opiniones manipuladas en

TripAdvisor. Papers de Turisme, 1-17. Retrieved Mayo 22, 2017, from

http://www.papersdeturisme.gva.es/ojs/index.php/Papers/article/view/446/375

Microsoft. (2016). Conceptos de minería de datos. Retrieved Mayo 12, 2017, from

https://msdn.microsoft.com/es-es/library/ms174949.aspx

Newbold, N., & Gillam, L. (2010). The Linguistics of Readability: The Next Step for Word

Processing. Proceedings of the NAACL HLT 2010 Workshop on Computational

Linguistics and Writing. doi:10.1.1.357.7593

O’Connor, P. (2010). Managing a hotel’s image on TripAdvisor. Journal of Hospitality

Marketing & Management, 754-772. doi:10.1080/19368623.2010.508007

Oghina, A., Breuss, M., Tsagkias, M., & De Rijke, M. (2012). Predicting IMDB Movie

Ratings Using Social Media. Proceedings of the 34th European conference on

65

Advances in Information Retrieval. Amsterdam. doi:10.1007/978-3-642-28997-

2_51

Pardo, A., & Ruíz, M. (2002). SPSS 11 - Guía para análisis de datos. Madrid: McGraw-

Hill.

Philips, D., Olsen.J, & Baumgartner, H. (1995). Consumption Visions in Consumer

Decision Making. Advances in Consumer Research, 22, 280-284.

PROMPERU. (2013). Nivel de Satisfacción del Turista Extranjero 2012. Retrieved Marzo

20, 2017, from

http://media.peru.info/IMPP/2012/TurismoReceptivo/DemandaActual/Publicacio

nNSTE2012.pdf

PROMPERU. (2017a). Perfil del Turista Extranjero que visitó Cusco 2016.

PROMPERU. (2017b). Evaluación del Turismo Gastronómico en el Perú.

Pulman, S. (2016). Text analytics in Finance. University of Oxford. Retrieved Mayo 12,

2017, from http://www.theysay.io/wp-

content/uploads/2016/09/pulman_sap_heidelberg_jul_2016.pdf

Quan, C., & Ren, F. (2010). Sentence Emotion Analysis and Recognition Based on

Emotion Words Using Ren-CECps. International Journal of Advanced

Intelligence, 2(1), 105-117.

Raja, U., Mitchell, T., Day, T., & Michael, J. (2008). Text mining in healthcare.

Applications and opportunities. Journal of healthcare information management,

22(3), 52-56.

Ribeiro, A., & Ferreira, A. (2018). 91Estudio de corpus: estructura y legibilidad en el

documento de consentimiento informado en el ámbito académico-profesional de

las ciencias biomédicas. revista de lingüística teórica y aplicada, 56(2), 91-116.

Roy, R., Padmakumar, A., Prasaad, G., & Kumaraguru, P. (2015). Automated Linguistic

Personalization of Targeted Marketing Messages Mining User-Generated Text

on Social Media. International Conference on Intelligent Text Processing and

Computational Linguistics. doi:10.1007/978-3-319-18117-2_16

Serena, N. (2015). Constructing Common Factors from Continuous and Categorical

Data. Econometric Reviews, 34, 6-10.

66

Shams, R., & Mercer, R. (2011). Extracting Connected Concepts from Biomedical Texts

using Fog Index. Procedia - Social and Behavioral Sciences, 27, 70-76.

doi:10.1016/j.sbspro.2011.10.584

Takeuchi, H., & Yamaguchi, T. (2013). 2014. In K. Yada, Data Mining for Service. Studies

in Big Data. Berlín: Springer. doi:10.1007/978-3-642-45252-9_8

TripAdvisor. (2017a). About TripAdvisor. Retrieved Marzo 17, 2017, from

https://tripadvisor.mediaroom.com/us-about-us

TripAdvisor. (2017b). About TripAdvisor. Retrieved Marzo 17, 2017, from

https://tripadvisor.mediaroom.com/us-about-us

Vasquez, C. (2011). Complaints online: The case of TripAdvisor. Journal of Pragmatics,

43(7), 1707-1717.

Wegner, M., & Girasek, D. (2003). How readable are child safety seat? Pedriatics, 111,

588-591.

Yasmina, D., Hajar, M., & Hassan, A. (2016). Using YouTube Comments for Text-based

Emotion Recognition. Procedia Computer Science, 83, 292-299.

doi:10.1016/j.procs.2016.04.128

Yasseri, T., Kornai, A., & Kertész, J. (2012). A Practical Approach to Language

Complexity: A Wikipedia Case Study. PLoS ONE , 7(11).

doi:10.1371/journal.pone.0048386

Yoo, K., Sigala, M., & Gretzel, U. (2016). Exploring TripAdvisor Open Tourism. Springer.

Yu, G., & Schwartz, Z. (2005). Forecasting Short Time-Series Tourism Demand with

Artificial Intelligence Models. Journal of Travel Research. Retrieved Septiembre

2016, from http://jtr.sagepub.com/content/45/2/194.abstract

67

Glosario

Forma Aditiva: Forma lineal en la que la variable independiente suma sus efectos a la

variable dependiente.

Forma Multiplicativa: Forma exponencial en que la variable independiente multiplica sus

efectos en la variable dependiente.

Índice de Gunning Fog: Método para ver la dificultad de lectura de un texto determinado.

Puntaje Sentimental: También llamado score sentimental (o simplemente sentimiento),

variable que resume si un texto puede fue escrito reflejando un sentimiento positivo,

negativo o neutro. Se basa en el análisis de Keywords.

Regresión Monótona: Método generalizado para predecir un orden dicotómico, ordinal

o agrupado para una variable dependiente continua Y que contiene J≥ 2 categorías de

resultados, como una función de M variables de predicción cuantitativas y / o cualitativas

X = (X1, X2, ..., XM).

Text Analytics: Campo interdisciplinario que permite obtener información estructurada

empleado textos como inputs a partir de procesos computarizados.

68

Anexos

Anexo 1: Cuadro de Actividades y Recursos Disponibles

Fase nov-17 dic-17 ene-18 feb-18 mar-18 abr-18 may-18 jun-18 jul-18 ago-18 sep-18 oct-18

1ra revisión del plan de Tesis

X X X

Recolección de Data

X X

Prueba de análisis con instrumentos

X X

Redacción de Resultados

X X

2da revisión del plan de Tesis

X X X X

Entrega del documento final

X

Tabla A1: Cuadro de Actividades Elaboración: Propia

En cuanto a los recursos disponibles, la data es de libre acceso y los instrumentos de analítica textual están a disponibilidad de quienes quieran

usarlos. En el caso de los softwares estadísticos, los mismos cuentan con versiones de demostración.

69

Anexo 2

PROBLEMA OBJETIVOS HIPÓTESIS VARIABLES TÉCNICAS E

INSTRUMENTOS METODOLOGÍA

¿Resulta posible modelar el customer rating en función a

indicadores analítico – textuales en el caso de los

estadounidenses que dejaron valoraciones en TripAdvisor acerca de

restaurantes de comida peruana en el Cusco?

Objetivo General: Determinar si el modelo de referencia que relaciona score y datos analítico-textuales resulta significativo. en

el caso de los estadounidenses que dejaron valoraciones en TripAdvisor acerca de restaurantes de comida peruana en el

Cusco

Hipótesis General: El modelo de referencia que relaciona score y datos analítico-textuales resulta significativo. en el caso de los estadounidenses que

dejaron valoraciones en TripAdvisor acerca de restaurantes de comida

peruana en el Cusco

Customer Rating Obtenido mediante observacion directa

Tipo de investigación: Cuantitativa

OE1: Determinar si el customer rating guarda relación con el score sentimental

del comentario en el caso de las valoraciones realizadas por


H1: El customer rating guarda relación con el score sentimental del comentario en el caso de las valoraciones realizadas por estadounidenses acerca de


Score Sentimental del comentario

Lexalytics (previa corrección

ortográfica con Grammarly)

Diseño: Correlacional Transversal

No experimental

OE2: Determinar si el customer rating guarda relación con el índice de gunnig-

fog del comentario en el caso de las valoraciones realizadas por


H2: El customer rating guarda relación con el índice de gunnig- fog del

comentario en el caso de las valoraciones realizadas por estadounidenses acerca de


Índice de Gunnig Fog de comentario

Readability Software.

OE3: Determinar si el customer rating guarda relación con la cantidad de

palabras del comentario en el caso de las valoraciones realizadas por


H3: El customer rating guarda relación con la cantidad de palabras del comentario en el caso de las valoraciones realizadas por estadounidenses acerca de


Cantidad de palabras presentes en el

comentario. Excel

OE4: Determinar si el customer rating guarda relación con el tipo de viajero el caso de las valoraciones realizadas por


H4: El customer rating guarda relación con el tipo de viajero el caso de las



Tipo de Viajero Obtenido Mediante observacion directa

70

Anexo 3: Uso de instrumento Lexalytics

Figura A1: Interfaz de Lexalytics

Fuente: Lexalytics (2019)

Figura A2: Interfaz de Lexalytics con resultados

Fuente: Lexalytics (2019)

Nota 1: El instrumento está configurado en idioma ingles y para el sector de restaurantes

Nota 2: El puntaje sentimental figura resaltado en negrita

71

Anexo 4: Uso de Readability Calculator

Figura A3: Interfaz de Readability Calculator

Fuente: Online Uitlity (2019)

Nota: El texto a procesar se coloca en la caja de texto. Para obtener los resultados se debe

pulsar Process text

Figura A4: Interfaz de Readability Calculator y los resultados del índice FOG

Nota: En este caso el índice es de 12.55

72

Anexo 5: Uso de Grammarly

Figura A5: Interfaz de Grammarly adherido a una plantilla HTML (correo)

Nota: El instrumento detecto un error. Por ello aparece el número 1 en rojo

Figura A6: Corrección con Grammarly

Nota: El software sugiere correcciones, el investigador opta por hacer clic en la corrección para

corregir el error.

73

Anexo 6: Uso del GOLDMiner

Figura A7: Interfaz de inicio de GOLDMiner

Figura A8: Comandos a activar para ejecutar regresión en GOLDMiner

Nota: Presionar el botón Estimate para obtener resultados

74

Anexo 7: Datas

Extracto de la Data Antigua:

75

Extracto de la Data Nueva:

76

Anexo 8: Paso a paso para procesar data

Un comentario puede lucir de la siguiente forma:

We've had cuy before in Lima but wanted to try it "closer to the source" in Cusco. This

restaurant had excellent reviews so we booked a table for our first night. The food was

excellent, as was the service. The waiter was friendly and made sure that my son's nut

allergies were carefully noted by the kitchen team. On the second night, we showed up

again. Our friendly waiter was nowhere to be seen. His substitute fawned over large

groups of English-speaking tourists, gave them complimentary drinks ... and ignored us.

He also failed to alert the kitchen to my son's allergies and gave us a dish that was full

of nuts! After waving at him for 5 minutes to get the bill, I finally got up from the table and

walked towards the door. Only then did I get his atention

PRMER PASO: Ingresar al siguiente enlace web de Readibility Calculator

https://www.online-utility.org/english/readability_test_and_improve.jsp y copiar y pegar

el comentario en su estado original y luego presionar el botón Process Text

Figura M1: Interface de inicio de Readibility Calculator

Figura M2: Comentario copiado y pegado en Readibility Calculator

https://www.online-utility.org/english/readability_test_and_improve.jsp

77

Figura M3: Resultados con el Readibility Calculator.

Nota1: Debe anotarse los resultados de la fila que dice Gunning Fog Index. En este caso

el índice FOG es de 7.42

SEGUNDO PASO: En lo que corresponde al conteo de palabras puede usarse la

siguiente función en Excel con los comentarios previamente pegados

=SUMA(SI(LARGO(ESPACIOS(A1))=0;0;LARGO(ESPACIOS(A1))-LARGO(SUSTITUIR(A1;" ";""))+1))

Figura M4: Comentario copiado y pegado en Excel

Figura M5: Conteo de palabras con la función de Excel. En total fueron 142 palabras

78

TERCER PASO: El siguiente paso consiste en realizar correcciones ortográficas. Para

ello se emplea el instrumento Grammarly que pude integrarse a una HTML (Gmail, por

ejemplo).

Figura M6: Comentario copiado y pegado en una hoja HTML de Gmail.

Nota1: El instrumento ha detectado dos errores ortográficos. El investigador debe

corregir las que considere apropiadas.

Figura M7: Comentario copiado y pegado en una hoja HTML de Gmail.

Nota1: Grammarly da un conjunto de opciones

Nota2: Fue corregida la palabra “attention” de acuerdo a la sugerencia de Grammarly.

79

CUARTO PASO: El último paso consiste en emplear Lexalytics al comentario depurado

en https://www.lexalytics.com/demo . Es necesario copiar y pegar el comentario

depurado anteriormente.

Figura M8: Comentario copiado y pegado en Lexalytics

Nota 1: Para empezar el análisis debe presionar el botón Start Analysis

Figura M9: Resultados del Lexalytics para una frase ingresada

Nota 1: El puntaje alcanzado es lo que se anota como puntaje sentimental

https://www.lexalytics.com/demo

80

Anexo 9: Entrevistas de Americanos que utilizaron TripAdvisor

PROPÓSITO DEL ESTUDIO:

• Entender tanto el mercado y al cliente que hace viajes internacionales a otros países para detectar oportunidades de crecimiento

TEMA PREGUNTAS: ¿QUÉ

QUEREMOS CONSEGUIR?

1.

Presentación

de dinámica

• Agradecimiento por aceptar la invitación.

• Presentación de moderador.

• Presentación de la dinámica y de los roles.

• En esta oportunidad quisiéramos

pedirles su opinión sobre distintos

temas que trataremos a lo largo de la

reunión. Por favor, siéntanse libres de

dar cualquier opinión ya sea buena o

mala.

• La información que nos proporcione es

confidencial y para uso profesional. Sus

datos no serán revelados sin

autorización.

• Como ya contamos con su autorización,

la sesión será grabada en video.

• Colocar celulares en modo de vibración.

• Presentación:

• Nombre, edad, dónde vive,

• Ocupación

Se utiliza para

crear confianza y

romper el hielo,

para hacer sentir

cómodos a los

participantes

2.

Conociendo

a la persona

que utiliza

TripAdvisor

Vamos a iniciar esta conversación de la siguiente manera. Yo les voy a decir una frase y ustedes van a escribir todo los que se les viene a la mente en estos post it. La frase es “TRIPADVISOR”

-Leer las anotaciones y discutir con los participantes el sentido de cada una de las asociaciones.

▪ ¿Desde cuándo es usuario de TripAdvisor?

▪ ¿Qué ventajas tiene el uso de TripAdvisor frente a otras plataformas orientadas a viajeros?

Entender sus

necesidades,

motivaciones,

hábitos de uso,

actitudes

81

▪ ¿Consideras que TripAdvisor tiene alguna desventaja en comparación a las plataformas ya mencionadas?

3.

Explorar la

experiencia

del usuario

en el Cusco

y su

relación con

TripAdvisor

¿Cuándo acudió a un restaurant en el Cusco,

¿por qué decidió acudir a uno de comida

peruana?

¿Qué te motivo a compartir tu experiencia como

consumidor en TripAdvisor?

Entender su visita

y valoración en

TripAdvisor

4.

Explorar los

aspectos

vinculados

al modelo

propiamente

dicho

¿Considera que la puntuación que asigno al restaurante tiene relación con las emociones o sentimiento que expreso en su comentario? ¿Por qué?

¿Considera que la puntuación que asigno al restaurante tiene relación con la extensión de su comentario? ¿Por qué?

¿Considera que la escritura que emplea al realizar comentarios en TripAdvisor está acorde a su formación académica? ¿Por qué?

Considera que el estilo que usa para escribir comentarios en TripAdvisor acerca de restaurantes puede llegar a variar si califica un servicio diferente como aerolíneas u hoteles

Suele valorar servicios en otras plataformas de viajes o redes sociales (NO: Terminar Entrevista, Si: Pasar a la siguiente)

¿Considera que el estilo que usar para escribir comentarios acerca de servicios puede llegar a variar si es que usa otra plataforma como Facebook, Google Reviews, Twitter o similares?

Muchas gracias por su participación

Si cumple con lo

analizado en la

data

82

TRANSCRIPCIÓN EN INGLES

ENTREVISTADO 1:

Name: Joshua Gardetto

Nacionality: american

Age: 26

Work: English Teacher

• Since when are you a tripadvisor user?

Im been using Tripadvisor to 2014 or 2013 maybe. so five years.

• What advantages does the use of TripAdvisor have over other passenger-

oriented platforms?

I think I use more Trip Advisor because you can use it online. I like to read other

comments and reviews. I like it because you get directions to places.

• Do you think that TripAdvisor has a disadvantage compared to the afore

mentioned platforms?

I do not think so.

• When he went to a restaurant in Cusco, why did he decide to go to a Peruvian

restaurant?

Yes, of course. Lomo Saltado, ceviche.

• What motivates you to share your experience as a TripAdvisor consumer?

I didn't really share or coments or post.

• Do you think that the score I assign to the restaurant is related to the emotions

or feeling expressed in your comment? Why?

No I Didn't to be any emotions.

83

• Do you think that the score assigned to the restaurant is related to the length of

your comment? Why?

Usually, the comments or the answers are given in the restaurant and, in

general, it is done with the feelings I feel for those places.

• Do you consider that the writing you use when making comments on

TripAdvisor is in accordance with your academic background? Why?

Yes I think so.

• Consider that the style you use to write reviews on TripAdvisor about

restaurants may vary if you rate a different service such as airlines or hotels?

I think it's the same, since probably the service is the same. So I think it's the

same as the performance rating.

• Usually assess services in other travel platforms or social networks (NO: End

Interview, Yes: Go to the next)

Not really.

Thank you for your participation

84

ENTREVISTADO 2:

Name: Michael Pippen

Nacionality: american

Age: 27

Work: Student


If I use it since 2010.


oriented platforms?

I like TripAdivor because it is more detailed for the comments and they are

usually more detailed than other pages since it shows you the place and has

comments.



If I say yes because there are more details, it has more advantages.

sometimes I use yelp but I like more trip.


restaurant?

Because my friend told me to eat lomo saltado and cuy. Then I started looking

for food restaurants restaurants where they make those dishes.

• What motivates you to share your experience as a TripAdvisor consumer?

I will say yes, because I leave comments as I felt in the place. And it also

encourages me to go to a place according to the experiences of other people.



85

Because the information is real and at the same time I have received opinions

from another person and it helps me to choose.


your comment? Why?

I'm going to say that if as I say to you, the level of punctuation is close to the

comment I leave in one place and so I also see comments from other people.


TripAdvisor is in accordance with your academic background? Why?

I'll say that it's a little less depends on my level of background because I try to

make it easy to read for other people understand



I only use Tripadvisor for tour to places. I never use tripadvisor for hotels or

other things.



Yes.

• Do you think that the style you use to write comments about services can vary if

you use another platform such as Facebook, Google Reviews, Twitter or

similar?

I believe that style can change, as I told you I like more TripAdvisor for travel

only. I almost do not use on Twitter or Facebook.


86

ENTREVISTADO 3:

Name: Katherine Monserrat

Nacionality: Denver Colorado, american

Age: 33

Work: Restaurant


For 4 years ago.


oriented platforms?

When I travel I look for hotels and restaurants for where to stay and I use

Tripadvisor.



Yes, other platforms such as Facebook and Google. But I use more Tripadvisor

since I can see people who have traveled around the world. It is the most

popular to find information about countries and lodging, since I can see the

comments of the people.


restaurant?

Because we were Peru, Peruvian food is amazing. I went to Cusco the first time

and also went to Aguas Calientes with my friends. And we use Tripadvisor to be

able to go to the place and find excellent service at the hotel.

To help other people to choose a good place since it depends on the level of

service that was left in the score.



87

Yes, you have to be educated at the time of writing. When you put a score it will

depend how you felt in the place with the service.


your comment? Why?

He did not understand the question.


TripAdvisor is in accordance with your academic background? Why?7

The comments that I write if they are in agreement.



I only use it for hotels and restaurants.



Yes.

• Do you think that the style you use to write comments about services can vary if

you use another platform such as Facebook, Google Reviews, Twitter or

similar?

Yes, I also use Google and Trip to see the comments.


modelamiento del customer rating usando text...

Documents